Le Web smantique MarieChristine ROUSSET LIG Universit de
Le Web sémantique Marie-Christine ROUSSET LIG, Université de Grenoble
Web sémantique : vision du Web du futur u Aujourd’hui : un immense gisement d’informations distribuées décrites par du texte – moteur de recherche par mots-clés – analyse statistique des textes et stockage de gros index de mots u Demain ? : un immense gisement d’informations distribuées décrites sémantiquement – à l’aide de balises porteuses de sens • XML – à l’aide d’ontologies • RDFS, OWL pour permettre la construction de moteurs de requêtes plus puissants et plus précis que les moteurs de recherche actuel pour faciliter l’intéropérabilité entre ressources du Web MC ROUSSET – Université de Grenoble
Un scenario possible > art, painting Art Painting Work - Guernica Prado - La Fenêtre Antibes - Guitare. . . Title Artist Date Museum Picasso 1937 MC ROUSSET – Université de Grenoble 3
XML <painting country="Espagne"> <painter> Picasso <work date="1937"> Guernica <description> the bombing of the town. . . </description> </work> </painter> The Prado museum. . Semistructured data Tree data model (XML) Query language Lorel, XML-QL, XSL… select <tree> from <pattern tree> where <filter> MC ROUSSET – Université de Grenoble
XML: User definable and domain specific markup HTML: <H 1>Knowledge Management</H 1> <UL> <LI>Teacher: Rudi Studer <LI>Students: Master </UL> XML: <course> <title>Knowledge Management</title> <teacher>Rudi Studer</teacher> <students>Master</students> </course> M 2 R- MC ROUSSET 5
XML: Document = labelled tree • node = label + attr/values + contents <course date=“. . . ”> <title>. . . </title> <teacher>. . . </teacher> <name>. . . </name> <http>. . . </http> <students>. . . </students> </course> course = title teacher students name http • DTD: simple grammars to describe legal trees • does not prevent from semantic heterogeneity M 2 R- MC ROUSSET 6
Limitation of XML: no formal semantics name > < name <education> <work> < CV CV > <private> < private > MC ROUSSET – Université de Grenoble 7
Ontology & Metadata cooperate_with Ontology rdfs: domain rdfs: range Academic. Staff rdfs: sub. Class. Of Ph. D Student Ass. Prof instance of Annotation <swrc: Ph. D_Student rdf: ID="sha"> <swrc: name>Siegfried Handschuh</swrc: name> <swrc: cooperate_with rdf: resource = "http: //www. aifb. unikarlsruhe. de/WBS/sst#sst"/>. . . </swrc: Ph. D_Student> instance of <swrc: Ass. Prof rdf: ID="sst"> <swrc: name>Steffen Staab </swrc: name>. . . </swrc: Ass. Prof> Cooperate_with Links have explicit meanings! Web Page MC ROUSSET – Université de Grenoble URL http: //www. aifb. uni-karlsruhe. de/WBS/sha http: //www. aifb. uni-karlsruhe. de/WBS/sst 8
Ontologies : description de la sémantique de méta-données MC ROUSSET – Université de Grenoble
Outils Web sémantique u Le web sémantique est possible grâce à des outils pour – Annoter des ressources web – Échanger et interroger des méta-données sur le web – Définir et partager des connaissances (ontologies) – Raisonner sur les ontologies et les méta-données MC ROUSSET – Université de Grenoble
Outils Web sémantique u u u Protégé: google: protege – Université de Stanford, open source – Édition d’ontologies – Création de méta-données – Plateforme extensible (interface, formats de stockage, API) Jena: google jena semantic web – HP Labs Semantic Web Programme, open source – Environnement de programmation (Java) pour RDF/RDFS et OWL – Stockage et interrogation RDF (SPARQL) KAON – Université de Karlsruhe, open source – Création et gestion (distribuée) d’ontologies – Construction d’applications fondées sur le raisonnement avec des ontologies Tous ces outils sont fondés sur des standards (W 3 C) pour garantir l’indépendance des fournisseurs de matériel et de logiciels MC ROUSSET – Université de Grenoble
Les acteurs du Web sémantique u Organisations: – W 3 C, OASIS, DERI, … – Rôle: élaboration de standard, dissémination u Industriels: – IBM, HP, Microsoft, … – Rôle: formulation des besoins, participation aux efforts de standardisation, développement d’outils u Chercheurs: – Universités et centres de recherche – Rôle: fondements scientifiques, participation aux efforts de standardisation, développement d’outils MC ROUSSET – Université de Grenoble
Définition de la notion d’ontologies [Gruber 92] u Description explicite de connaissances partagées entre différents acteurs (personnes, applications, agents) u Représentation abstraite et simplifiée du monde réel avec un but (une application) précis(e) MC ROUSSET – Université de Grenoble
Catégorisation d’ontologies MC ROUSSET – Université de Grenoble
Ontologies u vocabulaires structurés – noms de concepts/classes – noms de propriétés u définis à l’aide de langages formels – pour la définition et typage des concepts et des propriétés – permettant de faire des inférences fondées sur une sémantique logique u peuvent être très simples … ou très complexes – universelles ou spécifiques d’un domaine – selon le niveau de finesse désiré pour la modélisation du domaine MC ROUSSET – Université de Grenoble
Thesaurus versus ontologies Art&Architecture Thesaurus (AAT): 34000 concepts, 131 000 termes MC ROUSSET – Université de Grenoble
Thesaurus MC ROUSSET – Université de Grenoble
Ontologie sur la culture: illustration MC ROUSSET – Université de Grenoble
SNOMED u Systemized Nomenclature of Medecine-Clinical Terms – 357 000 concepts organisés en hiérarchies de navigation MC ROUSSET – Université de Grenoble
Les langages du Web sémantique MC ROUSSET – Université de Grenoble
RDF et RDFS u Premier standard de l’activité Web sémantique du W 3 C – Un modèle de méta-données: RDF (méta-données) et RDFS (schémas) – Plusieurs syntaxes XML pour l’échange des méta-données RDF et de leurs schémas RDFS u RDF (Resource Description Framework) : permet de définir des méta-données associées aux ressources du Web. – Une ressource peut être une page Web, mais aussi un concept (utilisé pour décrire une page Web) que l’on veut lui-même décrire. u RDFS : permet de décrire la sémantique de méta-données RDF – Définition du vocabulaire d’un domaine donné et des relations entre les objets de ce vocabulaire. – Avec une sémantique formelle associée MC ROUSSET – Université de Grenoble
RDF: un langage de méta-données u Triple : u Relational : u Graphical : <resource, property, value> property(resource, value) resource Museum. Name http: //www. louvre. fr property value "Le Louvre" Located City. Name http: //www. paris. fr MC ROUSSET – Université de Grenoble " Paris"
Application : le réseau social FOAF The Friend of a Friend (FOAF) project is about creating a Web of machinereadable homepages describing people, the links between them and the things they create and do. Distributed RDF/XML records describing people, who they know, projects they work on… © Steve Cayzer, HP Labs MC ROUSSET – Université de Grenoble
FOAF - motivations u Augment e-mail filtering by prioritizing mails from trusted colleagues u Locate u ‘Find people with interests similar to yours an expert’ in knowledge communities u Social network analysis u Photo co-depiction © Steve Cayzer, HP Labs MC ROUSSET – Université de Grenoble
A Simple FOAF Model foaf: Person rdf: type foaf: name Michael Souris foaf: mbox mailto: mm@example. com © Steve Cayzer, HP Labs MC ROUSSET – Université de Grenoble
A More Complex FOAF Model foaf: Person rdf: type foaf: name Michael Souris foaf: name foaf: knows foaf: mbox mailto: mm@example. com © Steve Cayzer, HP Labs MC ROUSSET – Université de Grenoble Donald Canard foaf: mbox mailto: dd@example. com
Syntaxe XML MC ROUSSET – Université de Grenoble
Un document RDF en XML u Un document XML dont l’élément racine a pour nom rdf: RDF. <? xml version="1. 0" encoding="UTF-8"? > <rdf: RDF xmlns: rdf="http: //www. w 3. org/1999/02/22 -rdf-syntax-ns#" xmlns: mon. Dom="http: //www. inapg. fr/mon-rdf-ns#"> <rdf: Description rdf: about="http: //www. inapg. fr/omip/david. htm"> <mon. Dom: proprietaire> David Doussot </mon. Dom: proprietaire> </rdf: Description> </rdf: RDF> u La représentation en syntaxe XML d’un document RDF impose une sérialisation des instructions RDF, mais l’ordre des instructions n’a pas d’importance. MC ROUSSET – Université de Grenoble
Un document RDF-XML MC ROUSSET – Université de Grenoble
Dublin Core Metadata Initiative u Forum ouvert (http: //dublincore. org/) pour la définition de standards en matière de description de méta-données. u La liste des éléments de description d’une ressource Web est disponible à l’adresse http: //dublincore. org/documents/dcmiterms/. <? xml version="1. 0" encoding="UTF-8"? > <rdf: RDF xmlns: rdf="http: //www. w 3. org/1999/02/22 -rdf-syntax-ns#" xmlns: dc="http: //purl. org/dc/elements/1. 1/" xmlns: dcterms="http: //purl. org/dc/terms/" > <rdf: Description rdf: about="http: //www. inapg. fr/omip/david. htm"> <dc: title>La page personnelle de David Doussot</dc: title> <dc: creator>David Doussot</dc: creator> <dc: language>fr</dc: language> <dcterms: created>2005 -10 -18</dcterms: created> </rdf: Description> </rdf: RDF> MC ROUSSET – Université de Grenoble
Langages de requêtes RDF MC ROUSSET – Université de Grenoble
RDFS : pouvoir d’expression Permet de définir - des classes et une hiérarchie de spécialisation sur les classes. - qu’une ressource RDF peut être une instance d’une classe RDFS (rdf: type). - des propriétés et une hiérarchie de spécialisation sur les propriétés. - des restrictions sur la valeur d’une propriété (range) et sur le type de ressource décrit par la propriété (domain). MC ROUSSET – Université de Grenoble
RDFS : illustration Cultural. Place Is-a Literal Museum. Name Contains Work Museum Is-a Located Is-a MC ROUSSET – Université de Grenoble Work. Name Literal City Modern. Museum Made. By Archeology. Museum City. Name Literal Artist. Name Literal
RDFS : langage simple mais pouvoir d’expression limité – classes et propriétés atomiques • Pas de définition de classes complexes par combinaison (union, intersection ou complémentaire) d’autres classes • On ne peut pas définir la classe Personne comme l’union des classes Homme et Femme – axiomes d’inclusion entre classes et propriétés – mais pas d’axiomes de disjonction entre classes • On ne peut pas exprimer que Homme et Femme sont deux classes disjointes – pas de contrainte d’existence/cardinalité/unicité de valeurs de propriétés sur les classes • On ne peut pas exprimer que toute Personne a une mère ni que toute Personne a exactement deux parents – Pas de contrainte sur les propriétés • On ne peut pas dire que la propriété est. Plus. Grand. Que est transitive, que le propriété est. Père. De est fonctionnelle, que la propriété est. Parent. De a pour inverse la propriété est. Enfant. De MC ROUSSET – Université de Grenoble
OWL: Ontology Web language u Etend les standards existants du Web – Tels que XML, RDFS u Fondé sur les Logiques de Description – issues de nombreux travaux en Représentation de Connaissances • Sémantique formelle logique: fragments décidables de la logique du premier ordre avec égalité • Algorithmes de raisonnement avec une étude approfondie de leur complexité • Des systèmes implémentés (RACER, PELLET) MC ROUSSET – Université de Grenoble
Les constructeurs de classes de OWL u. OWL fait la distinction entre : – des propriétés abstraites (e. g. “friend” or “father”) – des propriétés concrètes (e. g. “age” or “weight”) • Les datatypes de XML Schema peuvent être utilisés comme propriétés concrètes u Les constructeurs de classes peuvent être imbriqués – Person haschild ( haschild. Doctor) MC ROUSSET – Université de Grenoble
Les contraintes qui peuvent être déclarées en OWL MC ROUSSET – Université de Grenoble
Full OWL, OWL-DL, OWL Lite MC ROUSSET – Université de Grenoble
MC ROUSSET – Université de Grenoble
Applications des technologies du Web Sémantique u Annotation et indexation sémantique de documents – par des termes d’une ontologie u Interrogation de données via des ontologies u Intégration de sources de données hétérogènes – Une ontologie peut servir de schéma médiateur pivot • Le contenu des sources est décrit à relativement à l’ontologie • L’ontologie sert d’interface de requêtes pour les utilisateurs u Les requêtes doivent alors être reformulées et décomposées en des sousrequêtes exécutables sur les sources de données pertinentes u Un problème de raisonnement très étudié désormais bien compris MC ROUSSET – Université de Grenoble
Construction de médiateur: illustration sur le domaine du tourisme tirée du projet PICSEL Ontologie du domaine : • un ensemble de déclaration de classes en logique de description • la classification résultante est calculée automatiquement MC ROUSSET – Université de Grenoble
Descriptions de sources de données Hotel. In. Source 1 Hotel Location : France Service + Name City Price/Night/person Flight. In. Source 2 Flight Departure. Place : USA Arrival. Place : France Stop ? : UK Departure. Day : Week. End Sémantique formelle Un ensemble de déclarations de vues Une vue : nom + formule logique associée qui définit ce nom MC ROUSSET – Université de Grenoble
annotation sémantique : illustration tirée du projet Webcontent MC ROUSSET – Université de Grenoble
Ontologie: illustration MC ROUSSET – Université de Grenoble
Vision diagramme de classes MC ROUSSET – Université de Grenoble
Extrait en notation XML/RDF/OWL MC ROUSSET – Université de Grenoble
Une autre ontologie : extrait MC ROUSSET – Université de Grenoble
Le web sémantique aujourd’hui u Des standards du W 3 C pour décrire, échanger et interroger des métadonnées « sémantiques » u Des outils pour faciliter l’édition d’ontologies et l’annotation sémantique de documents u des ontologies sur des différents domaines que l’on peut télécharger et enrichir/modifier – bibliothèque d’ontologies de Protégé – Ontoligua server u De nombreux travaux de recherche avec des résultats en cours de transfer – Contruction automatique d’ontologies – Alignement d’ontologies – Moteurs de recherche sémantiques (Swoogle) MC ROUSSET – Université de Grenoble
- Slides: 48