Manipulations multibases et distribues Partie 1 Witold Litwin
Manipulations multibases et distribuées Partie 1 Witold Litwin Witold. Litwin@dauphine. fr 1
Plan u u u Introduction Problèmes techniques à résoudre Origines du concept – Approche Base Centralisée (ANSI-SPARC) – Approche BDR (top-down) – Approche Schéma Global (bottom-up) u Architectures de référence – Architecture multibase – Architecture Fédérée u 2 Concepts d'autonomie, d'hétérogénéité sémantique et du modèle commun
Modèle multibase u Modèle base unique ANSI-SPARC : – L'univers réel doit être modelé par une base de données u L'univers réel sera modelé par plusieurs bases de données – autonomes – sémantiquement hétérogènes – munies d'un langage multibases &"Multidatabase Interoperability". Litwin, W. Abdellatif, A. Multidatabase Systems: An Advanced Solution for Global Information Sharing. Hurson, A. , R. , Bright, M. , W. , Pakzad, S. , H. , (ed. ). IEEE Press, 1993 3
Modèle multibase Rest. Cours & étudiants Mes-amis Bibliothèque Autres BDs sur Internet Privé Employés Paris 9 Cine Teletel 4 Folio
Problèmes majeurs u Architecture de référence u Hétérogénéité sémantique en présence d'autonomie locale u Modèle de données commun u Fonctions de langage multibases u Transactions u Protocoles & standards u Performances 5
Architecture de référence u Architecture multibase – Généralisation de l'architecture BD de ANSI-SPARC u Architecture bases fédérées – Généralisation de l'architecture BD fédérée u Autres 6
Architecture BD de ANSI-SPARC Une BD centralisée intégrée (Années 1960 -70) ES - Schéma Externe CS - Schéma Conceptuel PS - Schéma Physique ou Interne 7
Base de données Répartie u Origine du concept (années 1970) – Développement de réseaux (lents : 20 Kb/s) – Surcharge d'une BD centralisée 8
Base de données Répartie u Idée : distribution de fonctions autres que la communication locale (approche "top-down") u Lesquelles ? L Exécution répartie (OS) L Accès aux fichiers J La base u Alors quel modèle de données pour le CS ? 9 L Hiérarchique & réseau J Relationnel
Fragmentation de relations Hotels (H#, Ville, Cat, #Chambres) Un fragment (H#, Ville) 10 (H#, Cat, #Chambres)
Problèmes u Scalabilité du schéma global u Utilité du schéma global pour un usager local u Performances de requêtes (mauvais cas) u Nécessité de migration de données existantes dans de bases multiples d'une même entreprise » IMS, IDMS, Socrate. . . 11
Architecture "bottom-up" à Schéma Conceptuel Global (GS) ES ¶ Un usager peut avoir les données dans plusieurs BDs compatibles ANSISPARC et hétérogènes GS présente toutes les données comme une seule BD classique – relationnelle ou fonctionnelle (DAPLEX) ES GS u Un u 12 CS CS CS PS PS PS les ES sont dérivés de GS Approche GS ("bottom-up")
Problèmes avec l'approche "bottom-up" ES u Création du schéma global u Hétérogénéité sémantique de données u Temps d'intégration / autonomie de restructuration locale u Mises à jour u Performances u Vues hétérogènes 13 ES GS CS CS CS PS PS PS Approche GS ("bottom-up")
Architecture MBD (Multibase) Absence de Schéma Conceptuel Global (GS) ¶ Un usager peut avoir les données dans plusieurs BDs compatibles ANSISPARC u En général il sera impossible de créer un Schéma Global (GS) u L'usager peut être en face de plusieurs CSs 14 CS CS CS PS PS PS
Architecture multibase (W. Litwin & al, années 1980) Req. MDB ES multibase 15
Architecture MBD (Multibase) Concept de Langage Multibase · Un langage de définition et de manipulation de collections de BDs (multibases) au niveau conceptuel MDB » Définition de ES multibases Présentant quelques bases comme une seule BD u Peut-être des GSs, si peu de BDs à intégrer u » Définition de dépendances multibases entre les CSs u dépendances sémantiques, intégrité, sécurité, manipulation. . . » Formulation de requêtes (explicitement) multibases se referant aux noms de BDs u avec des jointures multibases. . . u & Trouver dans la base Michelin et dans la base Gaumont tous les restaurants '**' et cinémas sur une même rue 16
Architecture MBD (Multibase) Concept de Multibase u Une multibase (MBD) est une collection de BDs munie d'un langage multibase – par exemple le langage MSQL que l'on verra u Une collection de BDs sans langage multibase n'est pas une MDB, mais juste une collection de BDs – d'une même manière qu'une collection de fichiers plats (tables) sans langage de base de données, SQL par exemple, n'est pas une BD 17
Quelques multibases potentielles Rest. Cours & étudiants Mes-amis Bibliothèque Autres BDs sur Internet Privé Employés Paris 9 Cine 18 MSQL: Create MDB Paris 9 Include Employés Include Bibliothèque . . . Teletel Folio
Architecture MBD Concept de Sous-niveau Interne Logique ¸ Les modèles de données de BDs existantes peuvent être hétérogènes – – u différent dialectes de SQL Relationnel, hiérarchique, réseau OO et Relationnel-Objet OO comme-ceci et OO comme-cela Il est préférable d'avoir un seul modèle au niveau multibase – Il faut avoir une possibilité d'un sous-niveau de traduction ¹ Par ailleurs un DBA peut ne pas vouloir montrer son CS local au niveau multibase u Solution: ILS - Schéma Interne Logique » inconnu de ANSI-SPARC » appelé par la passerelle (Gateway) ou médiateur 19 u terminologie industrielle
Architecture multibase (W. Litwin & al, années 1980) Req. MDB ES multibase 20
Architecture Fédérée (Hambiger & Mc. Leod, années 1980) u Toute BD doit être autonome u En général il n'y aura pas d'un GS – L'intégration globale est contraire à l'autonomie u Les BDs utilisées en commun doivent former une fédération de BDs autonomes u Toute BD d'une fédération doit avoir trois schémas: – ES: Schéma d'Exportation: pour les données permises à l'exportation – IS: Schéma d'Importation: pour les données importées – PS: Schéma Privé: pour l'ensemble de données privées, ES et IS inclus 21 u Il doit y avoir un Dictionnaire de Fédération (FD)
Architecture Fédérée (Hambiger & Mc. Leod, années 1980) 22
Comparaison u Architecture MDB axée sur le concept de langage multibase u Architecture Fédérée axée sur le concept d'autonomie – pas de notion de langage multibase – mais il y a une notion d'autonomie aussi dans l'arch. MDB u Architecture MDB est + décentralisée – pas d'équivalent de Dictionnaire de Fédération – plusieurs DSs pour ce rôle 23 u Les deux architectures sont populaires – Contrairement aux nombreuses autres propositions » aujourd'hui oubliées en pratique
Comparaison MDB <-> Féd 24
Autonomie d'une base ( autonomie locale) u Faculté de contrôle de données d'une base locale par le DBA – – – – 25 Noms de données Type de valeurs Structures de données Structures physiques Exécution de requêtes Sécurité Priorité aux requêtes locales
Autonomie multibase u Faculté de contrôle de bases multiples par un DBA u Mêmes aspects que pour l'autonomie locale – Nom de données. . . u Peut générer un conflit avec l'autonomie d'une base u Priorité à l'autonomie locale B 1 26 B 2 B 3
Hétérogénéité sémantique u Différences dans les représentations de mêmes propriétés réelles u Noms André Andrew u Types de valeurs – type de représentation – unité de mesure cm/s pied/h – précision 1 g 1 Kg u Structures de données 27 une table en 2 NF plusieurs tables en 3 NF
Solutions (partielles) u Schémas + descriptifs u Protocoles + descriptifs u Dictionnaires de données u Thesaurus u Conversion automatique de représentations u Conversion automatique d'unités u Equijointures de valeurs à précision diff. u Jointures implicites 28
Modèle commun u Relationnel étendu – EDA-SQL – MSQL (recherche) – ODBC Microsoft SQL u Relationnel-Objet – Uni. Sql/M, DB 2, le standard SQL 3 u CCS langage pour les bases documentaires u Nombreuses passerelles (gateways) vers SQL – IMS SQL – Codasyl SQL 29 u XML pour le Web
Uni. SQL/M IMS Uni. S QL 30 Oracle DB 2
Autres passerelles Uni. SQL/M IMS Uni. S QL 31 Oracle DB 2
Encore autres passerelles Uni. SQL/M IMS Uni. S QL EDA-SQL 32 Oracle DB 2
L'avenir ODBC x 33
Conclusion u Les SGBD modernes sont désormais en général des systèmes multibases – Uni. SQL/M, Oracle, Sybase, Ms. Access. . . u L'accès multibase nécessite de nouvelles fonctions au niveau de SGBD pour gérer – l'autonomie – l'hétérogénéité sémantique – la distribution physique de données 34
Conclusion u Les solutions techniques sont basées sur: – nouvelles architectures de référence » architecture multibase » architecture fédérée – modèles communs de données » relationnel et relationnel-objet – Passerelles de traduction de modèles, en développent rapide » Uni. SQL/M -> IMS, Oracle, Sybase » Oracle -> IMS, Sybase » Tout SGBD vers tout autre SGBD à travers ODBC 35
Conclusion u Langages multibases – MSQL et SQL-x ; x > 2 u Nouveaux modèles de transaction u Protocoles et Standards – RDA, SQL-Access, ODBC u Tout ça à voir + en détail – dans la suite du cours – dans les livres présentés durant le cours 36
Exercices Tous ceux déjà dans le texte u Différence entre les notions d’une BD, BDR, MBD et FBDs. u Que est ce que c’est « une architecture de référence » , ANSI-SPARC par exemple ? u Différences entre l’architecture « top-down » , « bottom-up » , multibase et fédérée. & Commentez la notion de bases fédérées dans DB 2 V. 6 à travers la description dans le Help de ce système et de Red. Books sur le site web d’IBM. u Concevoir les ordres SQL réalisant la fragmentation de la base des hôtels du cours. u Commentez le concept d’ILS, de passerelle et de médiateur u Quel est le modèle multibase commun le plus répandu aujourd’hui ? u Commentez le concept d’autonomie locale (quoi, pourquoi, comment) u Observez des exemples de divers types d’hétérogénéité sémantique L Prouvez que l’associativité habituelle d’équijointures n’existe plus si les unités de valeurs à joindre peuvent être de précisions différentes u Les conséquences pour les SGBDs relationnels ? P Proposez une extension de SQL introduisant les unités de mesure et le traitement de requêtes correspondant (sujet de Thèse). u 37
FIN
- Slides: 39