Comprendre pour apprendre et apprendre pour comprendre Habilitation
Comprendre pour apprendre … et apprendre pour comprendre Habilitation à Diriger des Recherches de l’Université Paris 11 Brigitte Grau Institut d’Informatique d’Entreprise (IIE) Groupe LIR - LIMSI
Cadre Analyse de texte et apprentissage Question réponse Compréhension Apprendre des textes COMPRENDRE n Objectif initial : modéliser la compréhension en profondeur q q q Compréhension humaine Modélisation des connaissances et des processus Connaissances pragmatiques : n n n Formalismes proposés : schéma, scénarios, etc. Exemple Objectif actuel : procéder à une analyse automatique de textes selon les applications q q Décomposer le processus de compréhension en différents points de vue sur le texte Restituer l’information contenue dans les textes 2
Cadre Analyse de texte et apprentissage Question réponse Compréhension Apprendre des textes Restituer l’information n Quel accès au contenu ? q q è Savoir de quoi parle un texte : ses thématiques n Résumé automatique, visualisation de texte : résumé dynamique n Exemple de présentation Trouver une information précise n Question-réponse n Exemple Adaptation du processus de compréhension à la tâche 3
Cadre Analyse de texte et apprentissage Question réponse Compréhension Apprendre des textes Comprendre mais aussi apprendre n De l’analyse thématique des textes q q n Objectif : construire des représentations structurées de connaissances pragmatiques Réutiliser le résultat des processus de compréhension pour structurer des connaissances sur les situations De Question-Réponse q Q-R comme un processus itératif de recherche de la connaissance manquante au processus de résolution n q Acquisition de relations entre entités Validation par le résultat du processus : n Réponse correcte ou non 4
Cadre Analyse de texte et apprentissage Question réponse Compréhension Apprendre des textes Pour apprendre n Les textes comme source de connaissances q Analyse thématique et Question-Réponse pour structurer l’information contenue dans les textes 5
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Analyse thématique n Savoir q q q n Analyse thématique q q q n De quoi parle un texte : ses thèmes Ce qu’il en dit, Comment il le dit. Segmentation Identification Structuration Adaptation au type de texte q q Texte narratif (Attentat) Texte expositif (Vin jaune) 6
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Analyse thématique n Fondée sur les propriétés du texte q q q n Cohésion lexicale Présence de marqueurs linguistiques Répétition de mots et chaînes anaphoriques Dépendante des connaissances q Connaissances disponibles ou acquises automatiquement n n Réseau de cooccurrences Marques linguistiques : q q Meta-descripteurs introducteur de cadre (Charolles) 7
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Segmentation thématique n Méthodes développées q Mesure de la cohésion avec un réseau de cooccurrences n Textes narratifs (SEGCOHLEX, Olivier Ferret) (1) q Méthode mixte (projet REGAL ) n n Textes expositifs De type Text. Tiling (Hearst) : q n Pas de ressources utilisées : répétition et répartition des mots Marques linguistiques q Indiquent des débuts de segment ou des regroupements (1) Projet Cognitique (2000 -2003) : CEA (O. Ferret), Lalicc (J. L. Minel), Lattice (M. Charolles) 8
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique SEGCOHLEX : segmentation par cohésion lexicale Construction du réseau de cooccurrences n q q Corpus : 24 mois du journal « Le Monde » (entre 1990 et 1994) 31 000 lemmes et 7 millions de relations pondérées par la mesure de leur information mutuelle Lemme 1 Lemme 2 Nombre occurrences Valeur de cohésion Type de lien imprimante ordinateur 13 0, 227 pragmatique bateau voilier 125 0, 224 sémantique prêtre curé 44 0, 209 sémantique policier cambriolage 41 0, 190 pragmatique chômage emploi 1985 0, 167 sémantique prendre racine 120 0, 110 lexicosyntaxique collision franc 7 0, 076 bruit 9
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Calcul de la cohésion Réseau de cooccurrences 0, 23 0, 43 0, 21 0, 48 0, 13 0, 10 1, 0 0, 14 1, 0 0, 13 0, 11 0, 18 0, 17 Texte 1, 0 0, 23 0, 18 0, 32 0, 2 1, 0 0, 28 0, 22 0, 12 1, 0 1, 2 1, 0 0, 3 1, 0 Fenêtre Valeurs de cohésion Positions Rupture 10
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Exemple : Attentat de MLK Segment 1 Séance de dédicace Segment 2 Attentat Segment 3 Hôpital 11
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Courbe et segments calculés Pointu Entretenir 12
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Résultat : Attentat de MLK Segment 1 Séance de dédicace Segment 2 Attentat Segment 3 Hôpital 13
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique 2 méthodes de structuration n n Structure par emboîtement de segments q Projet REGAL q Structure « gros grain » q Exemple Structure phrase par phrase q DST (Nicolas Hernandez) q Structure « grain fin » q Apprentissage des relations entre 2 phrases n n q Subordination, coordination, absence de relation Critères : marques linguistiques, cohésion lexicale, suivi thèmerhème, parallélisme syntaxique Exemple 14
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Analyse thématique : Conclusion et perspectives n Typage du rôle rhétorique de segments ou d’énoncés importants n Identification des thèmes n Structure n q Faire coopérer analyse globale et locale q Transposer sur les textes narratifs Visualisation et navigation 15
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Analyse pour l’apprentissage n n Apprentissage : caractéristiques q Automatique q Incrémental et non supervisé q A partir des textes q Garde la relation au texte Principe d’accumulation q Similarité entre entités q Agrégation de ces entités 16
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Mémoire thématique Rosa (Olivier Ferret) Réseau de Cooccurrences Domaine sémantique UTL Segments/UTLs Agrégation Corpus UTL UTL Domaine structuré UTS Agrégation UTS UTS Verbe->S->Nom Verbe->COD->Nom Verbe->Prep->Nom Svetlan’ (Gael de Chalendar) Agrégation des UTS d’un même Analyse syntaxique des phrases segments Agrégation des similaires Segmentation : UTLs lemmes dul’importance texte des +domaine lemmes Filtrage des classes selon desinférés mots dans le domaine Construction de classes de noms pour un même verbe récurrents Unités Structurées (UTS) Lemmes Unités. Thématiques Lexicales (UTL) et une même relation Domaines sémantiques : ensemble denom> lemmes pondérés Ensemble de <verbe, relation, Ensemble detriplets lemmes Construction des Domaines Structurés 17
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Exemple de domaine 3 n Lemmes du texte 1 n Lemmes inférés 2 n Lemmes du texte et lemmes inférés n 4 Lemmes du texte non segmenté 18
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Exemple de domaine structuré Expérimentations en français et en anglais Verbe Be Provide Say Give Receive Get Meet Carry Call Nb. Oc c 24 35 6 4 8 11 4 3 3 Relation Sujet COD COD Sujet Classe Surgery, illness, treatment Care, treatment Nurse, surgery Care, medication Care, treatment, medication Treatment, care Physician, care Virus, antibody Researcher, patient 19
Cadre Analyse de texte et apprentissage Question réponse MLK Analyse thématique Apprentissage de domaine Mémoire épisodique Calcul de similarité Circonstances et — a) [Être_localisé] b) [Fou] — Mémoire épisodique (objet) —> [Événement] (source) —> [Femme] Aggrégation de graphes (lieu) —> [Magasin] Description a) [Poignarder] — (agent) —> [Femme] (destinat. ) —> [Poitrine] — (partie. De) —> [Homme: MLK] (instrument) —> [Coupe. Papier] (manière) —> [Brutalement] b) [Transporter] — (agent) —> [Humain] (patient) —> [Homme: MLK] (destination) —> [Hôpital] (manière) —> [Rapidement] États incidents a) [Être_blessé] — (patient) —> [Homme: MLK] b) [Être_hospitalisé] — (patient) —> [Homme: MLK] Relations causales : D. a -> I. a D. b-> I. b Texte analysé manuellement 20
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique MLK n Base de connaissances sémantiques q n n Graphes conceptuels Unités thématiques q Ensemble de graphes conceptuels q Structure en : Circonstances, Description, États incidents Similarité UT – épisode en mémoire q Tient compte de la structure q Similarité de graphes n n Fondée sur l’opération de projection Agrégation q Fondée sur l’opération de jointure 21
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Apprentissage et Analyse : Conclusion et perspectives n Analyse conceptuelle automatique des situations q q Affiner la délimitation automatique des situations Représentation des situations fondée sur une base de connaissances sémantique n n q n Résultats de SVETLAN : emplois des verbes contextualisés Word. Net : relations hiérarchiques Verb. Net : structures de cas des verbes Frame. Net : situations et événements Intégrer ces différentes bases de connaissances Itérer sur l’apprentissage q Généralisation des événements 22
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives Analyse robuste de texte pour trouver des réponses à des questions n Processus différents selon : q n Domaine ouvert : démarche analogue à l’analyse thématique q q n n Domaine ouvert ou domaine de spécialité Définition de processus robustes Utilisation de ressources existantes ou acquises automatiquement Stratégies différentes selon : q Le type d’information cherché q La ressource interrogée q Les résultats obtenus par chaque processus (à développer) Évaluation des résultats 23
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthodes de résolution Résultats et perspectives Répondre à des questions Question Méthodes Qui a poignardé Henri IV ? NOM de PERSONNE Q sujet GN Prn COD GV Aux GN V NPr Patron d’extraction : Personne <poignarder> Henri IV Personne Verbe. Principal Focus Entité nommée Critères syntaxiques : SUJET COD Personne <poignarder> Henri IV … C’est à Paris, rue de la Ferronnerie, qu’Henri IV a rendu son dernier soupir… D’autre part, on peut rappeler que les rues encombrées et étroites du Paris d’avant Haussmann étaient très favorables aux guets-apens. La facilité avec laquelle Ravaillac a pu poignarder Henri IV peut paraître incroyable ! … 24
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthodes de résolution Résultats et perspectives Répondre à des questions Questions Méthodes Qui a tué Henri IV ? Critères sémantiques Tuer synonyme Poignarder Où a été tué Henri IV ? LIEU dans le contexte plus LIEU (VILLE, PAYS, etc) Critères sémantiques Tuer => Mort Rendre son dernier soupir <=> Mourir … C’est à Paris, rue de la Ferronnerie, qu’Henri IV a rendu son dernier soupir… D’autre part, on peut rappeler que les rues encombrées et étroites du Paris d’avant Haussmann étaient très favorables aux guets-apens. La facilité avec laquelle Ravaillac a pu poignarder Henri IV peut paraître incroyable ! … 25
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthodes de résolution Résultats et perspectives Variations question vs passage-réponse n Analyse des questions q n Extraction de caractéristiques de la réponse Analyse des passages q q Entités nommées Variation au niveau des termes n q Règles de réécritures de Fastr (C. Jacquemin) Variation au niveau des phrases n Patrons d’extraction ayant le focus de la question en élément pivot q n n Grammaires locales utilisant Scol (Abney) Evaluation de paraphrases (A. L. Ligozat et V. Barbier) Validation par le Web 26
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives Systèmes monolingues n QALC : anglais q Evalué à Trec de 1998 à 2001 n n 30 -35% de réponses correctes 2 fois dans les 10 premiers q q n 5 réponses longues : 6ème 1 réponse courte : 9ème FRASQUES : français q Projet Technolangue EVALDA (2004): n n q EQue. R : 1ère évaluation sur le français 5 réponses Résultats à EQue. R n 2 et 3ème selon la tâche q q 45% réponses longues 30% réponses courtes 27
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives Question-Réponse multilingue n Question en français – réponse en anglais q n n Indispensable sur le Web Variation supplémentaire q Traduction des termes : choix de la traduction correcte q Validation par les bi-termes MUSQAT : évaluation à CLEF q 20% des réponses q Parmi les premiers n 1 er système : 25% des réponses 28
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives Question-Réponse : Projet CONIQUE n (1) 3 axes : q Justification des réponses trouvées n n n Vérification de la présence de toutes les informations données dans la question Acquisition de relations pour l’inférence Dépendante du contexte q Catégorisation des réponses données à l’utilisateur q Présentation interactive des résultats - Navigation n Résolution itérative n Les textes comme source de connaissances : q Recherche de relations dans les textes à partir de leur expression en langue (1) Projet ANR non thématique (2006 -2009) : CEA (O. Ferret) et Lallic (J. L. Minel) 29
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives Justification de la réponse Quel coureur espagnol a gagné une étape du tour de France en 2003 ? Pablo Lastras Justification : 25 juillet 2003 – Pablo Lastras a remporté la 18 e étape du Tour de France cycliste, vendredi, entre Bordeaux et Saint-Maixent-L'École. Vendredi 15 août 2003 Les cinq étapes du Tour de Burgos 2003 ont été remportées par cinq coureurs différents : Carlos Garcia Quesada, José Vicente Garcia Acosta, Dave Bruylandts, David Millar (CLM) et enfin Gorka Gonzalez Larranaga, qui remporte dans la dernière étape sa première victoire chez les professionnels. La victoire finale revient au coureur le plus régulier, l'Espagnol Pablo Lastras, qui s'était distingué durant le Tour de France en remportant la 18 e étape. 30
Bilan Perspectives Bilan 31
Perspectives Bilan Conclusion n n Modéliser un continuum entre processus et structuration des connaissances q Stratégie d’application de processus q Évaluation automatique de leurs performances Construire une plate-forme d’expérimentation et d’évaluation 32
Merci 33
Une situation Ses propriétés Réparer un véhicule Rôles : personne, outil, véhicule Conditions: Véhicule en panne Véhicule = rôle (véhicule) Connaître la mécanique Agent = rôle (personne) Description 1 Trouver panne Agent = rôle (personne) 1. Résultat = pièce 2 3 4 Démonter pièce Réparer pièce Remonter pièce Rôles Evénements Relations causales Relations temporelles Inférence Structuration Agent = rôle (personne) Pièce = 1. résultat Résultat Véhicule fonctionne Véhicule = rôle (véhicule) 34
Un graphe de schémas Remettre en état entité Avoir profession Réparer objet Soigner être-animé Etre garagiste Réparer véhicule Réparer objet-mécanique Connaître mécanique Trouver panne Réparer pièce Sorte-de Fait appel-à n Pas de méthode pour élaborer et organiser les connaissances q Quel niveau de granularité, quels regroupements ? q Quelle structure hiérarchique ? 35
Exemple d’exploration d’un texte Thème général : vin jaune 36
Exemple d’exploration d’un texte Thème général : vin jaune Thème global : vin Thème local : mélange, composé Meta-descripteurs : analyse, technique Thème global : vin Thème local : goût, noisette Meta-descripteurs : caractéristique 37
Exemple d’exploration d’un texte Thème général : vin jaune Thème global : vin Thème local : mélange, composé Meta-descripteurs : analyse, technique Thème global : vin Thèmes local : goût, noisette Méta-descripteureurs : caractéristique 38
Réponse Justification de la réponse Question-réponse Quel coureur espagnol a gagné une étape du tour de France en 2003 ? Pablo Lastras Justification : 25 juillet 2003 – Pablo Lastras a remporté la 18 e étape du Tour de France cycliste, vendredi, entre Bordeaux et Saint-Maixent-L'École. 39
Structuration fine de texte DST – type de relations (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé » , « meilleur » , et la position de la phrase dans le texte. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 40
Structuration fine de texte DST – Types de relations (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Subordination (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé » , « meilleur » , et la position de la phrase dans le texte. Coordination (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. Structure construite (1) (2) (3) (4) 41
Structuration descendante de texte REGAL - Principe de structuration § Repérage de structures emboîtées [Masson, 1998] § Digressions, développements d’aspects particuliers § Fréquent dans textes expositifs Algorithme Ø Ø Recherche des 2 segments non-consécutifs les plus liés Application récursive pour les segments englobés ou non englobés restant 42
Compréhension de ce dont parle un texte Analyse thématique Texte expositif Texte narratif Les sujets (ex. Analyse thématique) Leur description - hypothèses - méthodes - résultats Leur structure Les situations (ex. Dédicace, Attentat) Leur description - conditions - description - conséquences Leur structure Connaissances Forme (du texte, marques de surface) Syntaxe (phrase) Lexico-sémantico-pragmatiques - lexique - ontologie - réseau de cooccurrences - domaines - schémas Méthodes : Selon connaissances disponibles : - Cohésion lexicale - Analyses de surface - Inférences Représentation du texte (des thèmes) + ou - structurée selon structuration des connaissances 43
Compréhension de ce dont parle un texte Analyse thématique Connaissances Forme (du texte, marques de surface) Syntaxe (phrase) Lexico-sémantico-pragmatiques - lexique - ontologie - réseau de cooccurrences - domaines - classes de noms/verbe - schémas Méthodes : - Cohésion lexicale - Analyse de surface - Inférences Représentation du texte (des thèmes) + ou - structurée selon structuration des connaissannces Acquisition (partielle) - à partir de textes - en contexte - reste en relation avec la source Méthodes : - similarité et agrégation - analyse distributionnelle - abstraction 44
Thèmes Structure rhétorico-thématique Introduction Résumé Méthodes existantes Résumé par extraction Résumé par abstraction Résumé par sélection et génération Résumé par extraction Définition Exemple Définition Résumé par Exemple abstraction Méthode proposée Résumé par sélection et génération 45
Une situation Ses propriétés Réparer un véhicule Rôles : personne, outil, véhicule Conditions: Véhicule en panne Véhicule = rôle (véhicule) Connaître la mécanique Agent = rôle (personne) Description 1 Trouver panne Agent = rôle (personne) 1. Résultat = pièce 2 3 4 Démonter pièce Réparer pièce Remonter pièce Rôles Evénements Relations causales Relations temporelles Inférence Structuration Agent = rôle (personne) Pièce = 1. résultat Résultat Véhicule fonctionne Véhicule = rôle (véhicule) 46
- Slides: 46