Application de technologies du web smantique lextraction dinformation
Application de technologies du web sémantique à l’extraction d’information dans les bibliothèques numériques Michel Gagnon École Polytechnique de Montréal
ou Les bibliothèques numériques sont-elles solubles dans le web sémantique?
Plan
Plan WS
Plan WS RDF
Plan WS RDF LOD
Plan WS RDF LOD BN
Plan WS
Le web sémantique n’est pas un web sémantique!
Web sémantique Ensemble de technologies visant à rendre le contenu des ressources du web accessible et utilisable par les programmes et agents logiciels, grâce à un système de métadonnées formelles Une couche qui s’ajoute au web actuel But visé: un web de données Nécessite des vocabulaires partagés
Le web actuel l l Ensemble de documents Basé essentiellement sur HTML Recherche par mots clé Utilisable par l'humain
Le web sémantique Le web actuel l l Ensemble de documents Basé essentiellement sur HTML Recherche par mots clé Utilisable par l'humain l l Ensemble de connaissances Basé sur XML et RDF(S) Recherche par concepts Utilisable par la machine
Les couches du WS Source: Tim Berners-Lee http: //www. w 3. org/2006/Talks/0718 -aaai-tbl/
WS - Illustration Site Polytechnique Citeseer fournit Liste des professeurs Informations sur publications Utilisateur
WS - Illustration Données biographiques Site Polytechnique Citeseer Personne Professeur Vocablaire académique Vocabulaire Instance de MICHELGAGNON instance de akt: Article-Reference owl: same. As akt: has-author http: //www. polymtl. ca/professeurs/michel. gagnon Instance de resource-CS 97624 Agent client
Plan WS RDF
RDF Resource description framework Les ressources sont représentées par des URI Un énoncé est un triplet <S, P, O>, où S est le sujet P est le prédicat (une propriété) O est l'objet (la valeur de la propriété pour le sujet en question) Permet de représenter des hiérarchies de classes On peut définir les domaines et images des propriétés
RDF has. Activity rdfs: sub. Property. Of Staff. Member rdfs: domain works. At rdfs: sub. Class. Of rdfs: range Professor Work. Place rdfs: sub. Class. Of Michel Gagnon rdfs: sub. Class. Of University Assistant. Professor rdf: type local: works. At local: name rdfs: sub. Class. Of Associate. Professor rdf: type http: //www. polymtl. ca/profs#Michel. Gagnon local: has. Home. Page http: //www. professeurs. polymtl. ca/michel. gagnon
RDF @prefix local: <http: //www. polymtl. ca/vocab/>. @prefix rdf: <http: //www. w 3. org/1999/02/22 -rdf-syntax-ns#>. <http: //www. polymtl. ca/profs#Michel. Gagnon> local: works. At _: n 1 ; local: name "Michel Gagnon"; rdf: type : Assistant. Professor ; local: has. Home. Page <http: //www. professeurs. polymtl. ca/michel. gagnon>. _: n 1 rdf: type : University.
RDF – Accès aux données Vous connaissez peut-être ceci: SQL
RDF – Accès aux données Pour RDF, vous avez mieux encore: SPARQL
Exemple - requête SPARQL PREFIX dbpedia: <http: //dbpedia. org/resource/> PREFIX dbpedia-owl: <http: //dbpedia. org/ontology/> PREFIX umbel: <http: //umbel. org/umbel/rc/> SELECT distinct ? personne WHERE {? personne a umbel: Politician ; dbpedia-owl: birth. Place dbpedia: Hawaii. }
Exemple - requête SPARQL Résultat: http: //dbpedia. org/resource/Barack_Obama http: //dbpedia. org/resource/George_R. _Carter http: //dbpedia. org/resource/Lawrence_M. _Judd http: //dbpedia. org/resource/Patsy_Mink http: //dbpedia. org/resource/Ed_Case
Limites de RDF Pas de négation Limites dans la définition des classes Limites dans la caractérisation des propriétés Il faut donc faire appel à la logique descriptive: langage OWL
Plan WS RDF LOD
Linked Open Data Un web de données en RDF Basé sur 4 principes: URI pour désigner les entités Les URI sont déréférençables Lorsqu’on accède à une URI, on obtient les données en RDF ou par un accès SPARQL Établissement de liens entre les différentes sources de données
LOD en septembre 2011
LOD en septembre 2011 Domaine Sources Triplets % Liens RDF Percent Multi-domaines 41 4 185 M 13, 2 63 M 12, 5 Géographique 31 6 146 M 19, 4 36 M 7, 1 Gouvernement 49 13 315 M 42, 1 19 M 3, 8 Médias 25 1 842 M 5, 8 50 M 10, 1 Publications 87 2 951 M 9, 3 140 M 27, 8 Sciences de la vie 41 3 036 M 9, 6 192 M 38, 1 Autres 20 134 M 0, 4 3 M 0, 7 294 31 634 M 504 M
LOD Les sources données font appel à des vocabulaires partagés: FOAF, Good. Relation SKOS, DC, MADS, OAI ORE, FRBR WGS 84 GEO, Geonames, Event, Time À ce jour, 262 vocabulaires ont été recensés dans LOD
Entités les plus utilisées # Occurrences 37690602 32496151 32371723 31558903 30924404 30745633 29411616 28469887 26914075 26884281 26843510 26731600 26485921 26367428 25985725 25584605 25500182 25367750 25251304 24580403 24170553 23087198 22916785 22603299 22559844 Voc. foaf unpc unpc dce unpc geo unpc dce unpc unpc Entité http: //xmlns. com/foaf/0. 1/Person http: //xmlns. com/foaf/0. 1/nick http: //purl. uniprot. org/core/Sequence http: //xmlns. com/foaf/0. 1/weblog http: //purl. uniprot. org/core/Domain_Assignment_Statement http: //purl. uniprot. org/core/Resource http: //purl. uniprot. org/core/reviewed http: //purl. uniprot. org/core/identity http: //purl. uniprot. org/core/length http: //purl. uniprot. org/core/obsolete http: //purl. org/dc/elements/1. 1/identifier http: //purl. uniprot. org/core/common. Name http: //www. w 3. org/2003/01/geo/wgs 84_pos#long http: //purl. uniprot. org/core/common. Taxon http: //purl. uniprot. org/core/created http: //purl. uniprot. org/core/date http: //purl. uniprot. org/core/representative. For http: //purl. org/dc/elements/1. 1/date http: //purl. uniprot. org/core/database http: //purl. uniprot. org/core/organism http: //purl. uniprot. org/core/seed. For http: //purl. org/dc/elements/1. 1/title http: //purl. uniprot. org/core/attribution http: //purl. uniprot. org/core/hits http: //purl. uniprot. org/core/Cluster
Exemple tiré de BNF @prefix dc: <http: //purl. org/dc/terms/>. @prefix foaf: <http: //xmlns. com/foaf/0. 1/>. @prefix rdagroup 2 elements: <http: //RDVocab. info/Elements. Gr 2/>. @prefix rdfs: <http: //www. w 3. org/2000/01/rdf-schema#>. @prefix skos: <http: //www. w 3. org/2004/02/skos/core#>. @prefix xfoaf: <http: //www. foafrealm. org/xfoaf/0. 1/>. <http: //data. bnf. fr/ark: /12148/cb 11928016 k#foaf: Person> a <http: //xmlns. com/foaf/0. 1/Person>; rdagroup 2 elements: biographical. Information "Romancier et auteur dramatique"; rdagroup 2 elements: date. Of. Birth "08 -02 -1828"; rdagroup 2 elements: date. Of. Death "24 -03 -1905"; rdagroup 2 elements: field. Of. Activity. Of. The. Person "Littératures", <http: //dewey. info/class/800/>; rdagroup 2 elements: language. Of. The. Person <http: //id. loc. gov/vocabulary/iso 639 -2/fre>; rdagroup 2 elements: place. Of. Birth "Nantes"; rdagroup 2 elements: place. Of. Death "Amiens"; dc: date "1828 -1905"; dc: title "Jules Verne"@fr; xfoaf: nationality <http: //id. loc. gov/vocabulary/countries/fr>; = <http: //dbpedia. org/resource/Jules_Verne>; foaf: birthday "02 -08"; foaf: family. Name "Verne"; foaf: gender "male"; foaf: given. Name "Jules"; foaf: name "Jules Verne"; foaf: page <http: //data. bnf. fr/11928016/jules_verne/>.
Linked Data Domaine biomédical
Plan WS RDF LOD BN
Comment lier les BN au LOD? Si les méta-données sont déjà formalisées: Traduction de vocabulaire Alignement d’ontologies Sinon: Repérage des entités et concepts importants Alignement avec les entités du LOD Identification des relations entre les entités (utilisation d’ontologies partagées)
Comment lier les BN au LOD? Si les méta-données sont déjà formalisées: Traduction de vocabulaire Alignement d’ontologies Annotation sémantique Sinon: Repérage des entités et concepts importants Alignement avec les entités du LOD Identification des relations entre les entités (utilisation d’ontologies partagées)
Annotation sémantique Il faut établir le lien entre le contexte d’une entité dans un document et une entité dans LOD On utilise Wikipedia comme intermédiaire
Annotation sémantique Mozart W. A. Mozart Wolfgang Amadeus … compositeur 5, 32 musique 2, 34 autrichien 4, 28 … http: //dbpedia. org/page/Wolfgan g_Amadeus_Mozart LDI (Linked Data Interface)
Annotation sémantique Mozart Joannes Chrysostomus Wolfgangus Theophilus Mozart, ou Wolfgang Amadeus Mozart, est un compositeur. Mort à trente-cinq ans, il laisse une œuvre importante (626 œuvres sont répertoriées dans le Catalogue Köchel), qui embrasse tous les genres musicaux de son époque. Selon le témoignage de ses contemporains, il était, au piano comme au violon, un virtuose. On reconnaît généralement qu'il a porté à un point de perfection le concerto, la ? W. A. Mozart Wolfgang Amadeus … compositeur 5, 32 musique 2, 34 autrichien 4, 28 … dbpedia. org/page/W olfgang_Amadeus_ Mozart ? Leopold Mozart … compositeur 2, 32 musique 4, 76 autrichien 6, 28 http: //dbpedia. org/pa ge/Leopoold_Mozart Désambiguïsation sémantique
Annotation sémantique Joannes Chrysostomus Wolfgangus Theophilus Mozart, ou Wolfgang Amadeus Mozart, est un compositeur. Mort à trente-cinq ans, il laisse une œuvre importante (626 œuvres sont répertoriées dans le Catalogue Köchel), qui embrasse tous les genres musicaux de son époque. Selon le témoignage de ses contemporains, il était, au piano comme au violon, un virtuose. On reconnaît généralement qu'il a porté à un point de perfection le concerto, la ? ? Mozart W. A. Mozart Wolfgang Amadeus … compositeur 5, 32 musique 2, 34 autrichien 4, 28 … dbpedia. org/page/W olfgang_Amadeus_ Mozart Leopold Mozart … compositeur 2, 32 musique 4, 76 autrichien 6, 28 http: //dbpedia. org/pa ge/Leopoold_Mozart Désambiguïsation sémantique
Annotation sémantique Joannes Chrysostomus Wolfgangus Theophilus Mozart, ou Wolfgang Amadeus Mozart, est un compositeur. Mort à trente-cinq ans, il laisse une œuvre importante (626 œuvres sont répertoriées dans le Catalogue Köchel), qui embrasse tous les genres musicaux de son époque. Selon le témoignage de ses contemporains, il était, au piano comme au violon, un virtuose. On reconnaît généralement qu'il a porté à un point de perfection le concerto, la Cos = 0, 889 Mozart W. A. Mozart Wolfgang Amadeus … compositeur 5, 32 musique 2, 34 autrichien 4, 28 … dbpedia. org/page/W olfgang_Amadeus_ Mozart Leopold Mozart … Cos = 0, 348 compositeur 2, 32 musique 4, 76 autrichien 6, 28 http: //dbpedia. org/pa ge/Leopoold_Mozart Désambiguïsation sémantique
Annotation sémantique Joannes Chrysostomus Wolfgangus Theophilus Mozart, ou Wolfgang Amadeus Mozart, est un compositeur. Mort à trente-cinq ans, il laisse une œuvre importante (626 œuvres sont répertoriées dans le Catalogue Köchel), qui embrasse tous les genres musicaux de son époque. Selon le témoignage de ses contemporains, il était, au piano comme au violon, un virtuose. On reconnaît généralement qu'il a porté à un point de perfection le concerto, la Désambiguïsation sémantique
Mais on sait aussi que Mozart a composé Don Giovanni.
Mais on sait aussi que Mozart a composé Don Giovanni. On voudrait donc extraire quelque chose comme ceci: dbpedia: Mozart rel: composer. Of dbpedia: Don_Giovanni.
Extraction des relations Méthode purement statistique: On cherche les co-occurrences des entités dans les phrases Par apprentissage machine: Approche supervisée Approche semi-supervisée Par règles: Patrons syntaxiques
Approche supervisée Corpus annoté manuellement qui indique quelles phrases expriment la relation qu’on veut identifier On extrait les caractéristiques intéressantes de ces phrases (mots autour des entités, catégories des mots, structure syntaxique, etc. ) Avec ces attributs, on entraîne un classifieur (réseau bayesien, réseau de neurone, arbre de décision, SVM, etc. ) Exige des données d’entraînement pour chaque domaine
Approche semi-supervisée On part avec quelques exemples de paires d’entités qui sont liées par la relation cible (ex. : Mozart – Don Giovanni) On cherche les phrases contenant ces entités On extrait les attributs pertinents de ces phrases On cherche de nouvelles phrases qui possèdent ces attributs À partir de ces nouvelles phrases, on extrait de nouvelles paires d’entités On recommence le processus jusqu’à convergence
Approche par règles On crée une base de patrons qui correspondent aux formes utilisées pour exprimer la relation cible Pour chaque patron instancié dans un texte, on construit la représentation RDF qui y correspond
Approche par règles
Approche par règles
Approche par règles
Approche par règles dailymed_drug: 3239 rdfs: label "Restoril". crim: T 234 crim: drug. Involved dailymed_drug: 3239 ; rdf: type crim: Treatment ; rdf: type crim: Drug. Therapy ; rdf: type crim: Short. Term. Treatment ; crim: target "insomnia" ;
Et alors? Le WS offre un potentiel énorme pour les BN (enrichissement des données, recoupements, interopérabilité) LOD contient à la fois des méta-données et du contenu La mise en œuvre d’applications basées sur LOD est encore un défi Les technologies du traitement automatique de la langue sont requises pour « immerger » les BN dans le WS Le Québec peu présent dans le LOD
- Slides: 53