Formalisation des connaissances documentaires et des connaissances conceptuelles

  • Slides: 42
Download presentation
Formalisation des connaissances documentaires et des connaissances conceptuelles à l'aide des ontologies : application

Formalisation des connaissances documentaires et des connaissances conceptuelles à l'aide des ontologies : application à la description de documents audiovisuels Raphaël Troncy 5 Mars 2004 Université Joseph Fourier - Doctorat en Informatique 05/03/2004 Raphaël Troncy

Contexte • Le document audiovisuel : – structuré – spatio-temporel – non symbolique recours

Contexte • Le document audiovisuel : – structuré – spatio-temporel – non symbolique recours à la description textuelle • Le document audiovisuel numérique : – offre de nouvelles possibilités : • recherche « intelligente » • structuration de fonds • publication et diffusion – nécessite une instrumentation de la description : lier le contenu à la description 05/03/2004 Raphaël Troncy 1

Plan suivi 1. Problématique 2. Ingénierie documentaire ET ingénierie des connaissances 3. Notre proposition

Plan suivi 1. Problématique 2. Ingénierie documentaire ET ingénierie des connaissances 3. Notre proposition : une architecture pour raisonner dans les descriptions documentaires 4. Expérimentations 5. Conclusion et perspectives 05/03/2004 Raphaël Troncy 2

La description du contenu AV 1. Problématique 2. Ingénierie documentaire et IC 3. Notre

La description du contenu AV 1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives • Un processus en 3 étapes : – identification ou catalogage du document : utilisation de méta données classiques – localisation d’entités spatio-temporelles pertinentes pour une application donnée : utilisation de dates ou de coordonnées cartésiennes – caractérisation sémantique et symbolique de ces entités : utilisation de listes d’autorités, de thésaurus ou du texte libre 05/03/2004 Raphaël Troncy 3

La description du contenu AV 1. Problématique 2. Ingénierie documentaire et IC 3. Notre

La description du contenu AV 1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives rendre compte d’une structure logique • Localisation – repérer et dater des événements • Caractérisation – typer ces entités selon un genre AV – donner une thématique générale – décrire la scène (qui, quand, où, quoi, …) décrire la sémantique du contenu 05/03/2004 Raphaël Troncy 4

1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion

1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives Exemple 13 [Plateau : 6ème partie] à 18: 43: 56: 00 - 00: 09: 06: 00. - Eurosport Plateau composé de la suite de l'interview en direct de Nice de Sandy CASAR par Jean René GODART au sujet de la course cycliste Paris-Nice et d'une succession de brèves en images commentées par Alexandre BOYON et Laurent PUYAT. Q : Retrouver toutes les séquences AV où dialogue Sandyd'un Casar coureur cycliste dans étapes donne une interview dans le le cadre d'une course àcycliste – réponse bruitée : il y a des brèves dans la séquence – réponse incomplète : l’interview a commencé dans une séquence précédente – requête non généralisable 05/03/2004 Raphaël Troncy 5

1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion

1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives Problèmes • Faible utilisation des structures documentaires • Un cadre qui se prête mal au raisonnement rendre les descriptions intelligibles pour les machines • Besoins : – contraindre la structure logique descriptions Quel(s) langage(s) faut-il utiliser satisfaire • un magazine contient des reportages qui pour contiennent des interview tous ces besoins ? représenter le sens porté par la structure – De quelle(s) structure(s) de connaissance(s) a • un dessin animé est une fiction sans personnage réel -t-on besoin ? – représenter le sens du contenu des documents • le prologue est toujours le 1 er contre la montre individuel 05/03/2004 Raphaël Troncy 6

L'ingénierie documentaire 1. Problématique Ingénierie documentaireet IC 2. 2. 1. Ingénierie documentaire 3. 2.

L'ingénierie documentaire 1. Problématique Ingénierie documentaireet IC 2. 2. 1. Ingénierie documentaire 3. 2. 2. Notre architecture Ingénierie des connaissances 4. Expérimentations 5. Conclusion et perspectives • Fournir des modèles, des langages et des outils pour traiter des collections de documents • Encoder des documents et des données structurées : XML [W 3 C, 1998] & XML Schema [W 3 C, 2001] • Distinguer le contenu de sa présentation – Des langages pour présenter du multimédia : SMIL – Des modèles pour décrire le multimédia • de Hy. Time [ISO, 1997] à MPEG-7 [ISO, 2001] 05/03/2004 Raphaël Troncy 7

MPEG-7, le nouveau langage de description multimédia ? • Standard ISO depuis décembre 2001

MPEG-7, le nouveau langage de description multimédia ? • Standard ISO depuis décembre 2001 • Éléments principaux : – Descripteurs (Ds) et Schémas de Description (DSs) – DDL (XML Schema + extensions) • Concerne tous types de média 05/03/2004 2. Ingénierie documentaire et IC 2. 1. Ingénierie documentaire 2. 2. Ingénierie des connaissances Part 5 - MDS Raphaël Troncy 8

Structure et sémantique 2. Ingénierie documentaire et IC 2. 1. Ingénierie documentaire 2. 2.

Structure et sémantique 2. Ingénierie documentaire et IC 2. 1. Ingénierie documentaire 2. 2. Ingénierie des connaissances • Structure • Unité de base : le segment - bornes temporelles ou masque • Décomposition possible 05/03/2004 Raphaël Troncy 9

Structure et sémantique 2. Ingénierie documentaire et IC 2. 1. Ingénierie documentaire 2. 2.

Structure et sémantique 2. Ingénierie documentaire et IC 2. 1. Ingénierie documentaire 2. 2. Ingénierie des connaissances • Sémantique – entités – attributs – relations • Classification Schemes (CS) – relations thésaurales 05/03/2004 Raphaël Troncy 10

Des modèles alternatifs 2. Ingénierie documentaire et IC 2. 1. Ingénierie documentaire 2. 2.

Des modèles alternatifs 2. Ingénierie documentaire et IC 2. 1. Ingénierie documentaire 2. 2. Ingénierie des connaissances • MPEG-7 = un ensemble de descripteurs, riche mais insuffisant pour couvrir tous les besoins de description • Extension de MPEG-7 avec XML Schema : – Exemple : TV Anytime, Mdéfi [Tran Thuong, 2003] – Problème : ajout de structure sans sémantique • Extension de MPEG-7 avec des CS : – Exemple : le système COALA [Fatemi, 2003] – Problème : expressivité très pauvre • Annotation libre orientée « connaissance » – Strates-IA [Prié, 1999] : pas de contrôle de structure – E-SIA [Egyed-Zs, 2003] : perte de la base des connaissances MPEG-7+XML Schema sont insuffisants ! … mais la RC apporte des solutions 05/03/2004 Raphaël Troncy 11

Les ontologies en IC 2. Ingénierie documentaire et IC 2. 1. Ingénierie documentaire 2.

Les ontologies en IC 2. Ingénierie documentaire et IC 2. 1. Ingénierie documentaire 2. 2. Ingénierie des connaissances • La spécification formelle d'un modèle conceptuel d'un domaine – Un ensemble de concepts, de relations et d'axiomes – Langages de représentation des connaissances • Méthodologies de construction : – Adaptation de principes de génie logiciel : Methontology [Gomez-Perez] – Acquisition terminologique : [Bachimont], [Aussenac Gilles] – Correction à l'aide de propriétés formelles : [Guarino] • Outils : – Protégé, Web. ODE, Oil. Ed, Onto. Edit, Terminae, DOE 05/03/2004 Raphaël Troncy 12

Langages de RC pour le Web 2. Ingénierie documentaire et IC 2. 1. Ingénierie

Langages de RC pour le Web 2. Ingénierie documentaire et IC 2. 1. Ingénierie documentaire 2. 2. Ingénierie des connaissances • RDF : [W 3 C, 1999 & W 3 C, 2004] – un modèle de données pour annoter des ressources du Web – triplets : ressource → propriété → valeur • <rdf: RDF> RDFS : [W 3 C, 2004] • <ina: Magazine. Sportif rdf: about="Stade 2"> – définition du vocabulaire utilisé <ina: chaine. Diff rdf: resource="France 2"/> <ina: date. Diff>17 -03 -2002</ina: date. Diff> OWL : [W 3 C, 2004] </ina: Magazine. Sportif> </rdf: RDF> – hiérarchie de classes et de relations – axiomes propriétésina: Magazine. Sportif) algébriques, définition de concepts, (: "Stade 2" : rdf: type (: "Stade 2" ina: chaine. Diff "France 2") opérations ensemblistes, cardinalités (: "Stade 2" ina: date. Diff 17 -03 -2002) 05/03/2004 Raphaël Troncy 13

Utilisation de OWL+RDF pour décrire des documents AV 2. Ingénierie documentaire et IC 2.

Utilisation de OWL+RDF pour décrire des documents AV 2. Ingénierie documentaire et IC 2. 1. Ingénierie documentaire 2. 2. Ingénierie des connaissances <owl: Class rdf: ID="Emission. TV"/> • Définition de concepts et de relations • • <owl: Class rdf: ID="Emission. Plateau"> <rdfs: sub. Class. Of rdf: resource="#Emission. TV"/> <rdfs: sub. Class. Of> <owl: Restriction> Définition d’axiomes <owl: on. Property rdf: resource="#contient. Sequence"/> <owl: all. Values. From rdf: resource="#Sequence. Plateau"/> Emission. Simple Emission. Composite = </owl: Restriction> </rdfs: sub. Class. Of> Inférences <owl: Class> si ONPP is. A Em. Plateau alors seq ONPP, seq is. A Seq. Plateau <owl: Object. Property rdf: ID="contient. Sequence"> <rdf: type rdf: resource="&owl; Transitive. Property"/> <rdfs: domain rdf: resource="#Emission. TV"/> <rdfs: range rdf: resource="#Sequence. TV"/> </owl: Object. Property> Problème : comment contrôler la structure descriptions ? 05/03/2004 Raphaël Troncy 14

Notre proposition 1. Problématique Ontologie de l'AV 2. 3. 1. Ingénierie documentaire et IC

Notre proposition 1. Problématique Ontologie de l'AV 2. 3. 1. Ingénierie documentaire et IC 3. 3. 2. Notre architecture Schémas de description 4. 3. 3. Expérimentations Instancier un modèle 5. 3. 4. Conclusion perspectives Enrichir laet. BC • Utiliser conjointement ces deux types d'approche pour exprimer les descriptions – les langages documentaires pour décrire et contrôler la structure des émissions – l'ontologie et la RC pour décrire formellement la sémantique véhiculée par leur structure et leur contenu • Automatiser le plus possible les passages entre ces deux représentations • Elaborer une architecture pour raisonner dans les descriptions documentaires 05/03/2004 Raphaël Troncy 15

Architecture générale 05/03/2004 Raphaël Troncy 3. Notre architecture 3. 1. Ontologie de l'AV 3.

Architecture générale 05/03/2004 Raphaël Troncy 3. Notre architecture 3. 1. Ontologie de l'AV 3. 2. Schémas de description 3. 3. Instancier un modèle 3. 4. Enrichir la BC 16

Ontologie de l’Audiovisuel 3. Notre architecture 3. 1. Ontologie de l'AV 3. 2. Schémas

Ontologie de l’Audiovisuel 3. Notre architecture 3. 1. Ontologie de l'AV 3. 2. Schémas de description 3. 3. Instancier un modèle 3. 4. Enrichir la BC • Méthodologie de construction : ARCHONTE [Bachimont] – Conceptualisation : principes différentielles – Formalisation : définitions formelles, ajout d’axiomes – Opérationnalisation : traduction dans un langage de RC • Contenu : – Objets de production (émission, séquence, genres AV), Propriétés (thèmes), Personnes, Procédés techniques (montage, tournage, post-production), Descripteurs du signal (audio, vidéo), etc. • Outils utilisés : – Conceptualisation : DOE [Troncy & Isaac, IC’ 02] – Formalisation : Oil. Ed [Bechhofer, KI’ 01] – Langages : OWL • Ontologies disponibles sur le Web : http: //opales. ina. fr/public/ontologies/ 05/03/2004 Raphaël Troncy 17

L'éditeur d'ontologies DOE 05/03/2004 Raphaël Troncy 3. Notre architecture 3. 1. Ontologie de l'AV

L'éditeur d'ontologies DOE 05/03/2004 Raphaël Troncy 3. Notre architecture 3. 1. Ontologie de l'AV 3. 2. Schémas de description 3. 3. Instancier un modèle 3. 4. Enrichir la BC 18

Formalisation en OWL 3. Notre architecture 3. 1. Ontologie de l'AV 3. 2. Schémas

Formalisation en OWL 3. Notre architecture 3. 1. Ontologie de l'AV 3. 2. Schémas de description 3. 3. Instancier un modèle 3. 4. Enrichir la BC rdf: ID="Emission. TV"/> • <owl: Class Basée sur des pratiques professionnelles <owl: Class rdf: ID="Emission. Plateau"> établies <rdfs: sub. Class. Of rdf: resource="#Emission. TV"/> • <rdfs: sub. Class. Of> Traduction de l'ontologie dans le langage OWL <owl: Restriction> <owl: on. Property rdf: resource="#contient. Sequence"/> • Résultats : <owl: all. Values. From rdf: resource="#Sequence. Plateau"/> –</owl: Restriction> Temps de construction : 4 semaines </rdfs: sub. Class. Of> – Ontologie de taille importante : <owl: Class> • 400 concepts <owl: Object. Property rdf: ID="contient. Sequence"> <rdf: type rdf: resource="&owl; Transitive. Property"/> <rdfs: domain rdf: resource="#Emission. TV"/> <rdfs: range rdf: resource="#Sequence. TV"/> </owl: Object. Property> 05/03/2004 Raphaël Troncy 19

Architecture générale 05/03/2004 Raphaël Troncy 3. Notre architecture 3. 1. Ontologie de l'AV 3.

Architecture générale 05/03/2004 Raphaël Troncy 3. Notre architecture 3. 1. Ontologie de l'AV 3. 2. Schémas de description 3. 3. Instancier un modèle 3. 4. Enrichir la BC 20

Génération de types XML Schema 3. Notre architecture 3. 1. Ontologie de l'AV 3.

Génération de types XML Schema 3. Notre architecture 3. 1. Ontologie de l'AV 3. 2. Schémas de description 3. 3. Instancier un modèle 3. 4. Enrichir la BC Certains concepts (émission, séquence) renvoient à des types de segment audiovisuels OWL • Classe • Sous-classe • Restriction de propriété • Union de classes • • XML Schema Type complexe Extension Elément du modèle de contenu Choix du modèle de contenu transformation 05/03/2004 Raphaël Troncy 21

Extension de MPEG-7 3. Notre architecture 3. 1. Ontologie de l'AV 3. 2. Schémas

Extension de MPEG-7 3. Notre architecture 3. 1. Ontologie de l'AV 3. 2. Schémas de description 3. 3. Instancier un modèle 3. 4. Enrichir la BC • Lier ces types aux types MPEG-7 existants 05/03/2004 Raphaël Troncy 22

Construire des modèles de document 3. Notre architecture 3. 1. Ontologie de l'AV 3.

Construire des modèles de document 3. Notre architecture 3. 1. Ontologie de l'AV 3. 2. Schémas de description 3. 3. Instancier un modèle 3. 4. Enrichir la BC • Visionnage de quelques émissions Stade 2 – construction d’un schéma simple à base de Séquence. Plateau, de Reportage et d’Interview – le Reportage contient des Extraits de Retransmission. Sportive • Applicabilité du schéma construit – reste valable pour Téléfoot – reste valable pour 3 Partout, pour Vélo. Club – n’est PLUS valable pour Eddy. Time 05/03/2004 Raphaël Troncy 23

Architecture générale 05/03/2004 Raphaël Troncy 3. Notre architecture 3. 1. Ontologie de l'AV 3.

Architecture générale 05/03/2004 Raphaël Troncy 3. Notre architecture 3. 1. Ontologie de l'AV 3. 2. Schémas de description 3. 3. Instancier un modèle 3. 4. Enrichir la BC 24

Segmen. Tool [Projet PRIAMM CHAPERON] 05/03/2004 Raphaël Troncy 3. Notre architecture 3. 1. Ontologie

Segmen. Tool [Projet PRIAMM CHAPERON] 05/03/2004 Raphaël Troncy 3. Notre architecture 3. 1. Ontologie de l'AV 3. 2. Schémas de description 3. 3. Instancier un modèle 3. 4. Enrichir la BC 25

Instancier le modèle de document 3. Notre architecture 3. 1. Ontologie de l'AV 3.

Instancier le modèle de document 3. Notre architecture 3. 1. Ontologie de l'AV 3. 2. Schémas de description 3. 3. Instancier un modèle 3. 4. Enrichir la BC <ina: Reportage id="aa 23 c 647 c-6517 -4 aee-8 bce-870 ae 52 a 01 af">. . . <ina: Reportage. Decomposition. Temporelle> <ina: Interview id="adb 23 ab 65 -f 8 e 7 -4 b 2 a-8 c 98 -807197 da 600 a"> <mp 7: Semantic>. . . </mp 7: Semantic> <mp 7: Media. Time. Point>T 00: 24: 19</mp 7: Media. Time. Point> <mp 7: Media. Duration>PT 00 H 00 M 07 S</mp 7: Media. Duration> </mp 7: Media. Time> <ina: Thematique value="Cyclisme"/> </ina: Interview> </ina: Reportage. Decomposition. Temporelle>. . . </ina: Reportage> BC triplets RDF 05/03/2004 Raphaël Troncy 26

Architecture générale 05/03/2004 Raphaël Troncy 3. Notre architecture 3. 1. Ontologie de l'AV 3.

Architecture générale 05/03/2004 Raphaël Troncy 3. Notre architecture 3. 1. Ontologie de l'AV 3. 2. Schémas de description 3. 3. Instancier un modèle 3. 4. Enrichir la BC 27

Ontologie du Cyclisme 3. Notre architecture 3. 1. Ontologie de l'AV 3. 2. Schémas

Ontologie du Cyclisme 3. Notre architecture 3. 1. Ontologie de l'AV 3. 2. Schémas de description 3. 3. Instancier un modèle 3. 4. Enrichir la BC • Méthodologie de construction : – Acquisition terminologique • Corpus textuel de 550 000 mots [Le. Roux, 2003] • Outil d'extraction de candidats termes : Lexter – Conceptualisation et formalisation • DOE + Oil. Ed • Résultats : – Temps de construction : 3 semaines • conceptualisation, haut niveau, formalisation – Ontologie de taille moyenne : • 97 concepts, 61 relations 05/03/2004 Raphaël Troncy 28

Ontologie du Cyclisme 05/03/2004 Raphaël Troncy 3. Notre architecture 3. 1. Ontologie de l'AV

Ontologie du Cyclisme 05/03/2004 Raphaël Troncy 3. Notre architecture 3. 1. Ontologie de l'AV 3. 2. Schémas de description 3. 3. Instancier un modèle 3. 4. Enrichir la BC 29

Enrichissement de la BC 3. Notre architecture 3. 1. Ontologie de l'AV 3. 2.

Enrichissement de la BC 3. Notre architecture 3. 1. Ontologie de l'AV 3. 2. Schémas de description 3. 3. Instancier un modèle 3. 4. Enrichir la BC Domaine du Cyclisme Base de Faits texte SEIGO + [Le Roux, 2003] <rdf about="{URI}/Magazine. Sportif 5/Report 3/Interview 4"> <!-- assertions formalisées provenant de la base de faits --> </rdf> 05/03/2004 Raphaël Troncy 30

Architecture générale 05/03/2004 Raphaël Troncy 1. Problématique 2. Ingénierie documentaire et IC 3. Notre

Architecture générale 05/03/2004 Raphaël Troncy 1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives 31

Expérimentations 1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5.

Expérimentations 1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives 1. 1ère expérimentation – Sesame : architecture de stockage de triplets RDF [Broekstra, 2002] • Implémente les langages de requêtes RQL et RDQL • Implémente la sémantique de RDF Schema (moteur RDF-MT) – – BOR : raisonneur implémentant la sémantique de DAML+OIL [Simov & Jordanov, 2002] Se. BOR : intégration de ces deux systèmes dans le cadre du projet On-To-Knowledge 2. 2ème expérimentation – – Racer : raisonneur OWL DL [Haarslev & Möller, 2001] Rice : interface de visualisation [Möller et al. , 2003] 05/03/2004 Raphaël Troncy 32

1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion

1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives Conclusion • Architecture générale permettant le raisonnement dans les descriptions documentaires : – Contrôle de la structure : création de modèles de documents – Représentation formelle de la sémantique : ontologie de l'audiovisuel et ontologie de domaine – Basée sur des langages standards (MPEG-7, OWL, RDF) et sur l'utilisation de transformations • Implémentation et expérimentations – Extension générique de MPEG-7 – Développement de 2 ontologies à l'aide de DOE – Création d’une Base de Connaissances sur des faits relatifs aux épreuves cyclistes et utilisation d’un raisonneur approprié sur les descriptions 05/03/2004 Raphaël Troncy 33

Perspectives 1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5.

Perspectives 1. Problématique 2. Ingénierie documentaire et IC 3. Notre architecture 4. Expérimentations 5. Conclusion et perspectives • Développements en cours – Meilleure intégration des outils utilisés • Expérimentations envisagées – Disposer d’une base conséquente de vidéos annotées et tester le système avec un panel d’utilisateurs – Appliquer cette architecture à un autre domaine que le cyclisme – Mesurer l'apport de l'ontologie de l'audiovisuel dans un grand fonds documentaire sans modifier les descriptions • Perspectives à plus long terme – Le langage de description idéal pour l'AV est toujours à recher – La description pourrait être liée à : • une analyse rhétorique des documents • une analyse sémiotique des documents 05/03/2004 Raphaël Troncy 34

Questions ? 1. Problématique 2. Ingénierie documentaire ET ingénierie des connaissances 3. Notre proposition

Questions ? 1. Problématique 2. Ingénierie documentaire ET ingénierie des connaissances 3. Notre proposition : une architecture pour raisonner dans les descriptions documentaires 4. Expérimentations 5. Conclusion et perspectives 05/03/2004 Raphaël Troncy 35

05/03/2004 Raphaël Troncy 36

05/03/2004 Raphaël Troncy 36

05/03/2004 Raphaël Troncy 37

05/03/2004 Raphaël Troncy 37

05/03/2004 Raphaël Troncy 38

05/03/2004 Raphaël Troncy 38

05/03/2004 Raphaël Troncy 39

05/03/2004 Raphaël Troncy 39

05/03/2004 Raphaël Troncy 40

05/03/2004 Raphaël Troncy 40

05/03/2004 Raphaël Troncy 41

05/03/2004 Raphaël Troncy 41