Global Biodiversity Information Facitity Switzerland http www gbif
Global Biodiversity Information Facitity Switzerland http: //www. gbif. ch Réalisation du nœud informatique GBIF-CH Situation au 31. 08. 2005 F. Burri 1, M. Bouzelboudjen 2 1 Collaborateur Scientifique, Service Informatique et Télématique de l’ Université de Neuchâtel E-mai. francois. burri@unine. ch, Tel. +41 (0)32 718 20 32, Fax. + 41 (0)32 718 20 00 2 Responsable GIS & Formation, Service Informatique et Télématique de l’ Université de Neuchâtel & Chargé de Cours E-mai. mahmoud. bouzelboudjen@unine. ch, Tel. +41 (0)32 718 20 28, Fax. + 41 (0)32 718 20 00 1
Nœud informatique GBIF-CH Thèmes abordés l l l Rappel succinct de l’objectif et des activités Réalisation du portail permettant la publication d’informations en rapport avec GBIF Suisse , http: //www. gbif. ch (ouverture le 31 mai 2005) Installation et configuration de Bio. CASe (mai-août 2005) Etude des problématiques d’intégration de données fortement hétérogènes (juin-juillet 2005) et proposition de concept de validation-normalisation (août 2005) Modélisation de la base de données centralisées GBIFCH et élaboration du concept de validationnormalisation des données (juin-août 2005) 2 2
Tâches réalisées l l l Rappel succinct de l’objectif et des activités au 1. 9. 2004 Réalisation du portail permettant la publication d’informations en rapport avec GBIF Suisse (ouverture en 31 mai 2005) Installation et configuration de Bio. CASe (mai-août 2005) Etude des problèmatiques d’intégration de données (juin -août 2005) qui a débouché sur la proposition de concept de validation et normalisation (août 2005) Modélisation de la base de données centralisées GBIFCH et élaboration du concept de validation et normalisation des données (juin-août 2005) 3 3
Topologie des «Data Nodes» « Data Node » centralisé Université de Neuchâtel GBIF Portail Participant Node «Data Node» satellite 4 4
Rappel : Architecture et activités au 1. 09. 2004 (dernière séance GBIF-CH) Internet l l l Installation Hardware : Serveur Linux Installation Software : Oracle, DIGIR, Python, Zope, … Intégration de données test du musée d’histoire naturelle de Neuchâtel Intégration de données test aux formats texte et Excel Publication des données sur Intranet via les outils DIGIR (voir présentation ppt, séance GBIF-CH à Berne, le 01. 09. 04, www. gbif. ch) Serveur d’applications Serveur de base de données Portail Internet Data Node centralisé 5 5
Evolution du cahier des charges depuis le 1. 9. 2004 l l Nouvelle réorientation du projet par l’abandon des outils DIGIR (comité GBIF-CH) Nouvelle demande pour l’intégration des données au format ABCD (Bio. CASe) pour permettre l’intégration d’images 6 6
Tâches réalisées l l l Rappel succinct de l’objectif et des activités au 1. 9. 2004 Réalisation du portail permettant la publication d’informations en rapport avec GBIF Suisse (ouverture en 31 mai 2005) Installation et configuration de Bio. CASe (mai-août 2005) Etude des problèmatiques d’intégration de données (juin -août 2005) qui a débouché sur la proposition de concept de validation et normalisation (août 2005) Modélisation de la base de données centralisées GBIFCH et élaboration du concept de validation et normalisation des données (juin-août 2005) 7 7
Publication d’informations en rapport avec GBIF suisse (sous CMS Jahia) http: //www. gbif. ch 8 8
Tâches réalisées l l l Rappel succinct de l’objectif et des activités au 1. 9. 2004 Réalisation du portail permettant la publication d’informations en rapport avec GBIF Suisse (ouverture en 31 mai 2005) Installation et configuration de Bio. CASe (mai-août 2005) Etude des problématiques d’intégration de données (juin -août 2005) qui a débouché sur la proposition de concept de validation et normalisation (août 2005) Modélisation de la base de données centralisées GBIFCH et élaboration du concept de validation et normalisation des données (juin-août 2005) 9 9
Concept Bio. CASe * * http: //www. biocase. org 10 10
Mapping entre les « data » et le modèle ABCD Colonnes de la base de données Schéma ABCD 1. 2* Data. Sets/ Data. Set/ Units/ Unit/ Identifications/ Identification/ Taxon. Identified/ Scientific. Name. Atomized/ Botanical/ Genus '/ Genus Datasets/ Dataset. Derivation/ Supplier/ Organisation. Codes/ Organisation. Code … (*)http: //www. bgbm. org/scripts/ASP/TDWG/frame. asp 11 11
Interface de « mapping » de Bio. CASe 12 12
Exemple d’interrogation de la base USNEA (Standard Biocase Query Tool) 13 13
Résultat de l’interrogation 14 14
Détail Projet Usnea – cavernosa –Tuck 15 15
Tâches réalisées l l l Rappel succinct de l’objectif et des activités au 1. 9. 2004 Réalisation du portail permettant la publication d’informations en rapport avec GBIF Suisse (ouverture en 31 mai 2005) Installation et configuration de Bio. CASe (mai-août 2005) Etude des problématiques d’intégration de données (juin -août 2005) qui a débouché sur la proposition de concept de validation et normalisation (août 2005) Modélisation de la base de données centralisées GBIFCH et élaboration du concept de validation et normalisation des données (juin-août 2005) 16 16
Etude des problématiques d’intégration de données l Analyse des extraits de base de données à disposition : – Daten. Bank Sammlung Pinuz, Paläontologistes Institut und Museum der Universität Zürich (reçue en juin 2005) – Base de données du département de géologie et paléontologie, musée d’histoire naturelle de Genève (reçue le 16 août 2005) – Base de données du projet USNEA du Conservatoire et Jardin botanique de Genève (reçue le 25 août 2005) – … l Identification des problèmes : – Formats hétérogènes de données à description variable – Pas de normalisation – Police de caractères 17 – … 17
Tâches réalisées l l Réalisation du portail permettant la publication d’informations en rapport avec GBIF Suisse (ouverture en 31 mai 2005) Installation et configuration de Bio. CASe (mai-août 2005) Etude des problématiques d’intégration de données (juin -août 2005) qui a débouché sur la proposition de concept de validation et normalisation (août 2005) Modélisation de la base de données centralisées GBIFCH et proposition d’un concept de validation normalisation des données (juin-août 2005) 18 18
Aperçu simplifié du modèle GBIF-CH * * Extrait de 3 tables du modèle élaboré 19 19
Les 51 colonnes de la table GCHDATA 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. GCH_COLUNIQUEID GCH_CDE_ID_PAYS GCH_CDE_ID_PHYLUM GCH_CDE_ID_CLASS GCH_CDE_ID_ORDER GCH_FAMILY GCH_CDE_ID_HIGHERTAXON 1 GCH_CDE_ID_HIGHERTAXON 2 GCH_GENRE GCH_SOUSGENRE GCH_SPECIES GCH_SUBSPECIES GCH_AUTHORYEAR GCH_DETERMINATEURNOM GCH_DETERMINATEURPRENOM GCH_DETERMINATEUR GCH_CDE_ID_TYPESTATUS GCH_BASIONYMGENUS GCH_BASIONYMEPITHET GCH_ORIGINALLABELCONTENT GCH_SWISSCOORDINATE_X GCH_SWISSCOORDINATE_Y GCH_LONGITUDE GCH_LATITUDE GCH_ELEVATION GCH_DEPTH 28. 29. 30. 31. 32. 33. 34. 35. 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 20 GCH_COUNTRY GCH_LOCALITY GCH_COUNTY GCH_CONTINENT GCH_WATERBOBY GCH_CDE_ID_PERIOD GCH_CDE_ID_EPOCH GCH_CDE_ID_STAGE GCH_MEMBER GCH_FORMATION GCH_ZONE GCH_INDIVIDUALCOUNT GCH_MALECOUNT GCH_FEMALECOUNT GCH_ADULTECOUNT GCH_LARVECOUNT GCH_NYMPHECOUNT GCH_ANATOMICALDESCR GCH_COLLECTOR GCH_DAYCOLLECTED GCH_MONTHCOLLECTED GCH_YEARCOLLECTED GCH_REFBI GCH_DATELASTMODIFIED 20
Processus d’intégration de données • Récolter • Vérifier • Transmettre selon le modèle proposé par le nœud informatique Institutions Coordination GBIF Suisse Nœud informatique GBIF Suisse Le nœud informatique propose le modèle pour l’intégration des données 21 21
Proposition du nœud informatique pour le concept de validation et de normalisation * OK Database Erre urs Données exportées Validation, normalisation Rapport * Ne pourra être réalisé ultérieurement qu’en fonction des premières expériences d’intégration des données 22 22
Proposition du nœud informatique pour la mise en œuvre du concept de validation automatique l l l Vérifications automatiques de règles prédéfinies : – Colonne obligatoirement renseignée – Valeur appartenant à un thésaurus – Unicité –… Une liste des enregistrements rejetés est produite pendant le processus Des colonnes peuvent être rejetées sans que l’enregistrement dans son entier soit rejeté Une liste est produite avec les enregistrements qui possède une ou plusieurs colonnes rejetées … 23 23
Proposition du nœud informatique pour la mise en œuvre du concept de normalisation Le processus de normalisation vise à attribuer des valeurs normalisées (codes) à certaines colonnes : l – – – Stratigraphie Botanical. Higher. Rank. Taxon Pays Systématique Typestatus. Code La normalisation permet de : l – – Fédérer les données saisies dans des langages différents Étendre les possibilités de corrélation entre les différentes sources de données De renseigner automatiquement les niveaux supérieures lacunaires des valeurs hiérarchiques (Stratigraphie, Systématique, Botanical. Higher. Rank. Taxon) Valider les données 24 24
Prochaines étapes l l l Finalisation du modèle de « mapping » de la base de données GBIF-CH avec les concepts (août-septembre 2005) : ABCD 2. 05, ABCD 1. 2 et Darwin core 2. 0 Intégration des données USNEA selon les concepts définis (septembre-décembre 2005) Enregistrement de la base de données centralisées GBIFCH sur GBIF. ORG (dès que des données seront correctement intégrées) Développement des outils logiciels pour la validation et la normalisation des données (calendrier à définir) Développement d’outils logiciel (interfaces orientées web) pour l’interrogation des données du portail Suisse (2006 -2007) 25 25
Références l l Javier Torre, Bio. CASe Provider Software v. 2. 2. 0 Installation Guide, 18. 07. 2005 Javier Torre, Markus. Doering, Bio. CASe Provider Software v. 2. 2. 0 Configuration Guide, 25. 08. 2005 François Burri, Mahmoud Bouzelboudjen, Architecture du Participant Node suisse - Situation au 1. 9. 2004, Berne, Suisse. Présentation disponible sous http: //www. gbif. ch François Burri, Mahmoud Bouzelboudjen, Architecture du Participant Node suisse - Situation au 28. 1. 2004, Berne, Suisse. Présentation disponible sous http: //www. gbif. ch 26 26
- Slides: 26