tude de la formalisation des spcifications de bases
Étude de la formalisation des spécifications de bases de données géographiques en vue de leur intégration par Nils Gesbert Thèse préparée au laboratoire COGIT de l’IGN Encadrement IGN : Sébastien Mustière Directrice de thèse : Thérèse Libourel, LIRMM (Montpellier) 1
Plan de la présentation 1. Contexte : problématique de l’intégration 2. Spécifications des bases de données géographiques 3. Structure générale du modèle : utilisation d’une ontologie 4. Procédures de représentation 5. Exemple d’utilisation 6. Prototype logiciel de saisie des spécifications 2
Contexte : plusieurs bases de données géographiques pour représenter un même terrain 3
Différentes représentations du terrain — Différents niveaux de détail — Différents points de vue 4
Plusieurs bases de données indépendantes Problèmes posés par l’indépendance des bases : — Informations redondantes entre bases, d’où : — risques d’incohérences — duplication du travail de mise à jour — Utilisation simultanée de plusieurs représentations plus difficile 5
Intégration de schémas de bases de données trois étapes principales Modèles pour les BDG : MADS [Parent, Spaccapietra et al. ], Perceptory [Bédard et al. ], . . . Schémas d’origine Préintégration Schémas dans un modèle commun Déclaration des correspondances Spécifications Schémas appariés Intégration Génération automatique du schéma intégré : projet Amber [Sotnykova 2003] Schémas fédérés Bases de données fédérées [Sheth et Larson 1990] 6
Spécifications des bases de données géographiques 7
Tronçon de cours d’eau BD Topo Pays Définition Portion de cours d'eau, réel ou fictif, permanent ou temporaire, naturel ou artificiel, homogène pour l'ensemble des attributs et des relations qui la concernent, et qui n'inclut pas de confluent. Sélection Le réseau hydrographique composé des objets <tronçon de cours d'eau> est décrit de manière continue. La continuité du réseau n'est toutefois pas toujours assurée dans les cas suivants : — arrivée d'un cours d'eau en ville Critères contextuels — infiltration d'un cours d'eau (ex. perte en terrain calcaire) — arrivée d'un petit ruisseau temporaire dans une large plaine où son tracé se perd — zones de marais où les connexions et interruptions du réseau restent indicatives Tous les cours d'eau permanents, naturels ou artificiels, sont inclus. Les cours d'eau temporaires naturels sont inclus, à l'exception des tronçons de moins de 200 m situés aux extrémités amont du réseau. Les cours d’eau temporaires artificiels ou artificialisés sont sélectionnés en fonction de leur Critères relatifs à d’autres propriétés importance et de l’environnement. Les talwegs qui ne sont pas marqués par la présence régulière de l’eau sont exclus. Tous les cours d’eau nommés de plus de 7, 5 m de large sont inclus (tronçon de cours d’eau d’attribut <fictif> = « oui » superposé à un objet de classe <surface d’eau>). Fossé : Les gros fossés de plus de 2 m de large sont inclus lorsqu’ils coulent de manière permanente. Critères géométriques Modélisation géométrique A l'axe et à la surface du cours d’eau (tel qu’il se présente sur les photographies aériennes). L’orientation de l’objet définit le sens d’écoulement. Elle n’est pas significative dans les zones très plates (ex. marais) ni pour les canaux. Attribut : Nature Définition : attribut permettant de distinguer les tronçons de cours d’eau libres des obstacles 8 Type : liste Valeurs d'attribut : cours d'eau indifférencié / barrage / cascade / écluse
Tronçon hydrographique BD Carto Définition — sélection Un tronçon hydrographique correspond à l'axe du lit d'une rivière, d'un ruisseau ou d'un canal. La BDCarto contient : — tous les axes principaux, y compris dans la zone d'estran et dans les zones de marais, à l'exception des "culs-de-sac" d'une longueur inférieure à un kilomètre sauf s'ils appartiennent à un cours d'eau d'une longueur supérieure à un kilomètre ; — outre l'axe principal, les axes des bras secondaires d'une longueur supérieure à un kilomètre ou qui délimitent une île d'une superficie supérieure à dix hectares quand un cours d'eau se subdivise en plusieurs. Contexte Géométrie — construction Les éléments du réseau d'hydrographie sont découpés en portions ayant les mêmes attributs. Le changement de valeur d'un attribut n'entraîne la création d'un tronçon que si la nouvelle valeur reste la même sur une longueur d'au moins un kilomètre ; sinon, le tronçon précédent est prolongé. Attributs [1] Etat 0 - inconnu : l'existence d'un écoulement est certaine, mais le tracé n'est pas connu avec précision. 1 - continu 2 - intermittent 3 - fictif : assure la continuité de l'écoulement à l'intérieur des zones d'hydrographie (poste 51 des zones d’occupation du sol O-s-1), lorsque le tracé n'est pas connu avec précision. 4 - abandonné, à sec [2] Largeur 1 - entre 0 et 15 m 2 - entre 15 et 50 m 3 - plus de 50 m [3] Nature 1 - cours d'eau naturel 3 - canal, chenal : voie d'eau artificielle 4 - aqueduc, conduite forcée : tuyau ou chenal artificiel conçu pour le transport de l'eau (usage hydroélectrique, industriel. . . ) 7 - estuaire : écoulement d'un cours d'eau dans la zone d'estran 9 [4] Navigabilité
Structure actuelle des spécifications Actuellement, on a une fiche de spécifications pour chaque classe du schéma conceptuel. Cette fiche comprend quatre sections principales : — définition générale — critères de sélection — règles de modélisation géométrique — liste d’attributs avec définitions et un certain nombre d’informations annexes. Définition Terrain Sélection (représenter quoi ? ) Modélisation (le représenter comment ? ) Base de données 10
Difficultés d’utilisation pour l’intégration — texte libre. — structures légèrement différentes d’une BD à l’autre. — difficile de savoir a priori où trouver une information particulière. — peu adaptées à un traitement automatique. — comparaison de deux jeux de spécifications difficile. Nous allons donc proposer un modèle pour représenter les spécifications de façon formelle et unifiée. 11
Problèmes rencontrés pour la formalisation — regroupements en classes différents dans les différentes BD — utilisation de concepts non représentés par des classes — mélange entre conditions sur les entités du terrain et sur les objets de la base un aqueduc un réel tronçon hydrographique dans la naturel BD Carto Portion de coursest d’eau, ou fictif, permanent ou temporaire, ou artificiel, Le tracépour peut être interrompu enrelations ville qui la concernent, et qui n’inclut homogène l’ensemble des attributs et des un est(BD une canalisation dans la BD Topo Pays pas aqueduc de confluent. Topo Pays) 12
Structure générale de notre modèle Utilisation d’une ontologie 13
Structure générale du modèle Propriete Attribut nom : String type depend. Position : boolean nom : String type * * Type. Entite Geographique nom : String * 1. . * Ontologie Terrain Procedure. De. Representation représenté par base. Concernee description : String 1. . * Spécifications Sélection (représenter quoi ? ) Modélisation (le représenter comment ? ) participe à 1. . * Classe. Base base. Proprietaire nom : String Schéma Base de données 14
Utilisation de mots-clefs Définition Portion de cours d'eau, réel ou fictif, permanent ou temporaire, naturel ou artificiel, homogène pour l'ensemble des attributs et des relations qui la concernent, et qui n'inclut pas de confluent. Sélection Le réseau hydrographique composé des objets <tronçon de cours d'eau> est décrit de manière continue. La continuité du réseau n'est toutefois pas toujours assurée dans les cas suivants : — arrivée d'un cours d'eau en ville — infiltration d'un cours d'eau (ex. perte en terrain calcaire) — arrivée d'un petit ruisseau temporaire dans une large plaine où son tracé se perd — zones de marais où les connexions et interruptions du réseau restent indicatives Tous les cours d'eau permanents, naturels ou artificiels, sont inclus. Les cours d'eau temporaires naturels sont inclus, à l'exception des tronçons de moins de 200 m situés aux extrémités amont du réseau. Les cours d’eau temporaires artificiels ou artificialisés sont sélectionnés en fonction de leur importance et de l’environnement. Les talwegs qui ne sont pas marqués par la présence régulière de l’eau sont exclus. Tous les cours d’eau nommés de plus de 7, 5 m de large sont inclus (tronçon de cours d’eau d’attribut <fictif> = « oui » superposé à un objet de classe <surface d’eau>). Fossé : Les gros fossés de plus de 2 m de large sont inclus lorsqu’ils coulent de manière permanente. Modélisation géométrique A l'axe et à la surface du cours d’eau (tel qu’il se présente sur les photographies aériennes). L’orientation de l’objet définit le sens d’écoulement. Elle n’est pas significative dans les zones très plates (ex. marais) ni pour les canaux. Attribut : Nature Définition : attribut permettant de distinguer les tronçons de cours d’eau libres des obstacles 15 Type : liste Valeurs d'attribut : cours d'eau indifférencié / barrage / cascade / écluse
Exemple : le réseau hydrographique «Ent. géog. » Élt du réseau hydro 0. . 1 «Ent. géog. » Cours d'eau * «Ent. géog. » Fossé «Ent. géog. » Canal affluent de «Ent. géog. » Acc. parcours «Ent. géog. » Source «Ent. géog. » Rivière «Ent. géog. » Aqueduc «Ent. géog. » Barrage «Ent. géog. » Nœud réseau «Ent. géog. » Cascade «Ent. géog. » Diffluent «Ent. géog. » Confluent «Ent. géog. » Embouchure «Ent. géog. » Perte «Ent. géog. » Écluse Exemple de propriété de la cascade : être touristique Exemples de propriétés du cours d’eau : être navigable = f (position) être souterrain / au sol / sur pont = f (position) être permanent / intermittent / à sec = f (position) 16
Exemple : le réseau hydrographique Ontologie 0. . 1 «Ent. géog. » Cours d'eau * «Ent. géog. » Fossé «Ent. géog. » Canal «Ent. géog. » Élt du réseau hydro affluent de «Ent. géog. » Acc. parcours Aqueduc «Ent. géog. » Barrage «Ent. géog. » Cascade «Ent. géog. » Confluent «Ent. géog. » Écluse Modélisation : Nature = cascade Sélection : largeur > 7, 5 m «Objet de la base» Surface d’eau «Objet de la base» Cours d'eau nommé «Ent. géog. » Diffluent «Ent. géog. » Source «Ent. géog. » Rivière «Ent. géog. » Nœud réseau «Objet de la base» Tronçon cours d’eau Sélection : a un toponyme Modélisation : axe à résolution 2, 5 m artificiel = oui découpé en tronçons aux changements d’attributs «Ent. géog. » Embouchure «Ent. géog. » Perte Schéma BDTopo Pays Modélisation : attribut Nature = source «Objet de la base» Point d’eau 17
Exemple : le réseau hydrographique Ontologie «Ent. géog. » Élt du réseau hydro 0. . 1 «Ent. géog. » Cours d'eau affluent de * «Ent. géog. » Fossé «Ent. géog. » Canal «Ent. géog. » Acc. parcours «Ent. géog. » Source «Ent. géog. » Rivière «Ent. géog. » Aqueduc «Ent. géog. » Barrage «Objet de la base» Tronçon hydro «Ent. géog. » Cascade «Ent. géog. » Confluent «Ent. géog. » Diffluent «Ent. géog. » Embouchure «Ent. géog. » Perte «Ent. géog. » Écluse «Objet de la base» Nœud hydro «Objet de la base» Cours d'eau Sélection : largeur > 50 m Modélisation : poste = 51 (eau libre) «Ent. géog. » Nœud réseau «Objet de la base» Z. O. S. Schéma BDCarto 18
Détail des procédures de représentation 19
Structure des procédures de représentation Type. Entite. Geographique représenté par Procedure. De Representation participe à Classe. Base base. Concernee Attribut Propriete instancie Bloc. Representation modélisation sélection : <contrainte> Instancie<règle> <nom classe> instanciation : <règle>; . . . (<nom attr. > = <aff. <expr. >, . . . ) (<aff. Attr. >, <nom attr. > = <nom propr. > <nom attr. > = Si <contrainte> Alors <valeur> Sinon <valeur> sélection Contrainte Si <contrainte> Alors <règle_inst. > Regle. Instanciation détermine la valeur de règle applicable si Affectation. Attribut valeur définie par si oui Expression si non a pour condition valeur de Expression Conditionnelle Valeur. Propriete Valeur. Litterale 20
Contraintes Contrainte contraintes composantes Contrainte Relation Contrainte Complexe Contrainte Nature Type. Entite Geographique Contrainte Relation Métrique Contrainte Relation Topologique porte sur Contrainte Descriptive Contrainte Sur. Propriete est de type relation avec operateur. Logique décrite par negation : bool Contrainte Relation Autre Propriete Contrainte. Sur Propriete. Simple operateur. Comparaison valeur. Seuil Contrainte Sur. Propriete Complexe ( [Non] <contrainte élémentaire> {Et|Ou} <contrainte élémentaire>. . . ) Est <nom de type d’entité géographique> <nom propriété> {>|=|<|=/=} <valeur numérique ou booléenne. . . > <nom propriété>. <contrainte> Vérifie "<texte libre>" Relation (<nom de type d’entité géographique>, <type de relation>) 21
Agrégation Découpage 22
Agrégation et découpage Type. Entite. Geographique représenté par Procedure. De Representation participe à Classe. Base base. Concernee contenu dans Propriete instancie contenu dans Contrainte. Agregation Attribut Bloc. Representation Regle. Decoupage sélection Contrainte agrégation : <contr. agr. > <bloc représentation> Fin agrégation découpage : <règle d. >; <règle d. >. . . sections : <bloc représentation> limites : <bloc représentation> Fin découpage modélisation Regle. Instanciation détermine la valeur de règle applicable si Affectation. Attribut valeur définie par Expression 23
Exemple : bâtiments dans la BDTopo Pays 24
Deux classes pour représenter les bâtiments Construction ponctuelle Bâtiment : religieux industriel, agricole, commercial autre Altitude contour : 40 m Altitude sommet : 70 m 25 Moins de 20 m²
Sélection Tous les bâtiments de plus de 50 m² sont inclus. Les bâtiments faisant entre 20 et 50 m² sont sélectionnés s’ils sont à plus de 100 m d’une habitation et qu’ils ne sont pas d’aspect précaire. Les bâtiments de moins de 20 m² sont représentés par un objet de classe <construction ponctuelle> s’ils font plus de 50 m de haut ou sont explicitement désignés sur la carte en cours. sélection : superficie > 50 "m²" Ou ( superficie > 20 "m²" Et (Non Relation (habitation, Distance < 100 "m")) Et (Non Est cabane) ) Ou hauteur ("maximale") > 50 "m" Ou Vérifie "spécifiquement désigné sur la carte en cours" 26
Agrégation Plusieurs bâtiments contigus ou superposés de même « nature » et de même « fonction » sont généralement considérés comme un seul et même objet (seul le contour extérieur est saisi). Deux objets contigus ou superposés sont cependant représentés s’ils présentent les caractéristiques suivantes : — différence de hauteur entre les deux bâtiments > 10 m environ — surface de chaque objet résultant de 400 m² environ ou plus Attributs attributs : nature = Si Est arc_de_triomphe Alors "arc de triomphe" Sinon Si Est chateau Alors "château" Sinon Si Est eglise Alors "église" Sinon Si Est serre Alors "serre" Sinon Si Vérifie "remarquable dans le paysage par sa forme élevée" Alors "tour, donjon, moulin" Sinon "indifférenciée"; fonction = Si Est gare Alors "gare" Sinon Si Est mairie Alors "mairie" Sinon Si Vérifie "réservé à des activités agricoles" Alors "agricole" Sinon "indifférenciée" agrégation : (Même nature Et Même fonction Et Distance = 0 Et (Non Chacun superficie > 400 "m²") Et Différence hauteur < 10 "m") 27 Ou (Chacun Est serre Et Distance < 3 "m")
Instanciation instanciation : Si superficie > 20 "m²" Alors ( Instancie batiment ( geometrie = contour ("tel que vu d'avion"), nature = nature, fonction = fonction ); Si Vérifie "différence de hauteur entre sommet et contour > 10 m" Alors Instancie construction_ponctuelle ( nature = Si Est phare Alors "phare" Sinon Si sommet. Est cheminee Alors "cheminée" Sinon "construction ponctuelle indifférenciée", geometrie = sommet ) ) Sinon Instancie construction_ponctuelle ( geometrie = centre ("altitude maximum"), nature = Si Est transformateur Alors "transformateur" Sinon Si Est pylone_de_telecommunication Alors "antenne" Sinon "construction ponctuelle indifférenciée" ) 28
sélection : Non Est chateau_d_eau attributs : nature = Si Est arc_de_triomphe Alors "arc de triomphe" Sinon Si Est chateau Alors "château" Sinon Si Est eglise Alors "église" Sinon Si Est serre Alors "serre" Sinon Si Vérifie "remarquable dans le paysage par sa forme élevée" Alors "tour, donjon, moulin" Sinon "indifférenciée"; fonction = Si Est gare Alors "gare" Sinon Si Est mairie Alors "mairie" Sinon Si Vérifie "réservé à des activités agricoles" Alors "agricole" Sinon "indifférenciée" agrégation : (Même nature Et Même fonction Et Distance = 0 Et (Non Chacun superficie > 400 "m²") Et Différence hauteur < 10 "m") Ou (Chacun Est serre Et Distance < 3 "m") sélection : superficie > 50 "m²" Ou ( superficie > 20 "m²" Et (Non Relation (habitation, Distance < 100 "m")) Et (Non Est cabane) // Vérifie "d'aspect non précaire" ? ) Ou hauteur ("maximale") > 50 "m" Ou Vérifie "spécifiquement désigné sur la carte en cours" instanciation : Si superficie > 20 "m²" Alors ( Instancie batiment ( geometrie = contour ("tel que vu d'avion"), nature = nature, fonction = fonction ); Si Vérifie "différence de hauteur entre sommet et contour > 10 m" Alors Instancie construction_ponctuelle ( nature = Si Est phare Alors "phare" Sinon Si sommet. Est cheminee Alors "cheminée" Sinon "construction ponctuelle indifférenciée", geometrie = sommet ) ) Sinon Instancie construction_ponctuelle ( geometrie = centre ("altitude maximum"), nature = Si Est transformateur Alors "transformateur" Sinon Si Est pylone_de_telecommunication Alors "antenne" Sinon "construction ponctuelle indifférenciée" ) Fin agrégation 29
Mise en œuvre logicielle 30
31
32
33
34
35
36
37
38
39
Conclusion Nous proposons un modèle pour représenter formellement des spécifications de bases de données géographiques. — Représentation des spécifications par des liens entre une ontologie et le schéma de la base de données — Langage formel pour décrire les règles de représentation des entités géographiques 40
Utilisations — Utilisation pour l’intégration : — détermination des correspondances interschémas — vérification de la cohérence entre représentations — Utilisation documentaire : — métadonnées pour aider un utilisateur à trouver les données dont il a besoin — mise en valeur de connaissances auparavant implicites sur la modélisation de l’espace géographique 41
Perspectives — Procédures de représentation : — associations entre objets de la base — relations entre entités géographiques — règles de modélisation géométrique — Ontologie : — traitement automatique du langage naturel pour sa création — structure plus complexe avec différents types de liens, connaissances sur les entités… 42
- Slides: 42