Bases de donnes phnotypique et ontologie JAS PHASE
Bases de données phénotypique et ontologie JAS PHASE 03/10/2013 REICHSTADT Matthieu UMRH 03/10/2013
Les bases de données phénotypiques • Phénotype: état de caractères observables chez un organisme vivant. • Il est considéré soit : – pour un seul caractère, à l'échelle moléculaire, cellulaire, ou macroscopique (ex : morphologie des cellules) – comme l'ensemble des états des caractères observables d'un individu (phénome) (ex : phénotype Salers versus Bretonne pie noire) • Le phénotype est la résultante de l’expression du génotype et de l’influence de son environnement – (P = G + E) 2
Phénotypage haut-débit • Méthode de détermination de phénotypes mesurables de façon répétable, automatisable et rapide de sorte que le processus de mesure génère un grand nombre de données. • 2 composantes : – Le Phénotypage horizontal, systématique – Le Phénotypage vertical ou ciblé 3
Types de phénotypages • Horizontal – Grand nombre d’animaux / peu de variables – Ex: poids des animaux dans une expérience • Vertical – Peu d’individus / beaucoup de variables – Ex: génomique, métabolomique 4
Les bases de données phénotypiques • De toutes sortes • Exemple: – BIF-Beef: base de données phénotypique de l’UMRH • Mesures carcasse (Horizontal) • Mesures biologiques (Vertical) – Aladin: SI ruminant • Gestion des troupeaux • Gestion de l’Alimentation • Gestion des expériences 5
Les bases de données phénotypiques • A quoi ressemble une « bonne » base? Information Méthode Mesure Conditions 6
Les bases de données phénotypiques • Problème: format des données / accès aux données Nécessité pour une base d’avoir un format fixe et compatible avec d’autres bases Comment assurer ceci? Utilisation des ontologies 7
Les ontologies • Définition: – Représentation formelle d'un ensemble de phénotypes, et des relations entre ces phénotypes • Les concepts et les relations dans une ontologie sont clairement définis • Les concepts sont organisés de manière structurée (souvent une structure hiérarchique) • Le sens d'un terme est utilisé de façon univoque • Les termes utilisés doivent être lisibles par des machines (permettant l’automatisation de la mesure ou de l’utilisation de l’information) 8
Les ontologies • Ontologies utilisées à l’INRA: – ATOL (Animal Trait Ontology for Livestock) – EOL (Environment Ontology for Livestock) • Site web du projet: – www. atol-ontology. com • Visualisation des ontologies • Téléchargement des ontologies (versioning) 9
Les ontologies • But du projet ATOL: – Disposer d’une ontologie de référence pour le phénotypage des animaux d’élevage et partagée par la communauté scientifique et enseignante internationale – Disposer d’un langage utilisable par les programmes informatiques (gestion des bases de données, analyse sémantique, modélisation…) – Avoir des caractères les plus génériques possibles pour les vertébrés d’élevage – Rendre l’ontologie la plus opérationnelle possible et proche des techniques de mesure – Structurer la base à des fins de production animale 10
Comment relier les 2 concepts • Chaque projet/structure a son propre modèle de données + Système applicatif • Les projets doivent suivre les règles définies par les ontologies • Plusieurs approches: – A posteriori: la conception du MCD précède la recherche ou la conception de l’ontologie partagée – A priori: l’ontologie est supposée existante lorsque la base de données est conçue – Directes: la structure de l’ontologie définit directement la structure de la base de données 11
Les bases de données à base ontologique (BDBO) • Ontologies et données sont stockées dans la Bd. D • Mêmes principes de traitement (insertion mises à jour, requêtes, …) • Association données – concept de l’ontologie Ensemble multi-parties: Bd. D, ontologie, métaschéma permet de rendre générique le traitement sur les ontologies Exemple: Onto. DB 12
Le sparql endpoint • La Bd. D est considérée comme un graphe RDF (Resource Description Framework ou « sujet – prédicat – objet » ), à travers lequel on accède au contenu de la base Entrepôt « virtuel » vue sémantique de la base • Langage SPARQL: Simple Protocol and RDF Query language permet de consulter les données Possibilité de recher des informations en partant de l’ontologie 13
Les entrepôts de données • Définition: – Ensemble de données historisées variant dans le temps, organisé par sujets, consolidé dans une base de données unique, géré dans un environnement de stockage particulier, aidant à la prise de décision • 3 fonctions essentielles – collecte de données de bases existantes et chargement – gestion des données dans l’entrepôt – analyse de données pour la prise de décision 14
Les entrepôts de données 15
Les entrepôts de données • Associés à la prise en compte des ontologies, ils permettent de rapprocher des bases au contenu et au format différents • Exemple concret possible – SI existants à l’UMRH différents • Bases de données différentes • Contenu différent • Interface différente Similarités associables à un DWH 16
Travail à effectuer Bd. D + ontologie Les infos référentielles des bases de données sont indexées sur l’ontologie BDBO 17
Travail à effectuer BDBO + BDBO Passage dans un entrepôt de données DWH 18
Travail à effectuer DWH + R 2 D La base est transformée en shéma RDF, pour le web sémantique 19
Travail à effectuer + R 2 D Le schéma RDF est analysé en utilisant un langage de requête approprié (SPARQL) 20
Merci de votre attention 21
- Slides: 21