TALN 2002 Une mthode pour lanalyse descendante et

  • Slides: 36
Download presentation
TALN 2002 Une méthode pour l'analyse descendante et calculatoire de corpus multilingues : application

TALN 2002 Une méthode pour l'analyse descendante et calculatoire de corpus multilingues : application au calcul des relations sujet-verbe Jacques Vergne GREYC - Université de Caen http: //www. info. unicaen. fr/~jvergne 24/6/2002 © Jacques Vergne TALN 2002

Caractéristiques de l'expérience • expérimenter, explorer, expliquer, transmettre les méthodes calculatoires • choix d'une

Caractéristiques de l'expérience • expérimenter, explorer, expliquer, transmettre les méthodes calculatoires • choix d'une tâche classique, limitée et (apparemment) simple : détecter et relier sujets et verbes des propositions avec le plus petit logiciel possible (programme + ressources) 24/6/2002 © Jacques Vergne TALN 2002 2

Relier sujet <—> verbe • relier pronom ou chunk sujet au chunk verbal dans

Relier sujet <—> verbe • relier pronom ou chunk sujet au chunk verbal dans chaque proposition • corpus multilingue (anglais, allemand, français, italien, espagnol) avec diagnostic de langue : généricité de la méthode ? • descendant : document —> proposition et chunk, (avec chunking partiel, sans descendre jusqu'au mot) • écrit en perl : - analyse de phrase : 40 Ko - ressources : 20 Ko pour l'ensemble des 5 langues 24/6/2002 © Jacques Vergne TALN 2002 3

Comment se passer de dictionnaire ? couplesdedéterminant terminaison Avec les débuts proposition, - les

Comment se passer de dictionnaire ? couplesdedéterminant terminaison Avec les débuts proposition, - les débuts deverbale chunks <[>|<d>L'euro</d> |<V>rend déjà <p>d'éminents</p> services <[><p>Dans les deux</p> cas |<d>ces systèmes</d> <p>d'armes</p> |<V>disposent <p>de radars</p> <[>|<d>Questo tema</d> |<V>rischia <p>di essere</p> <d>la questione</d> sociale <p>del futuro</p> <[>|<d>La Bolsa</d> <p>de Tokio</p> |<V>cerró ayer <p>a su nivel</p> más bajo <p>en 17</p> años 24/6/2002 © Jacques Vergne TALN 2002 4

Comment se passer de dictionnaire ? Avec les couples déterminant - terminaison verbale <[>|<d>Das

Comment se passer de dictionnaire ? Avec les couples déterminant - terminaison verbale <[>|<d>Das Sternbild</d> nämlich |<V>steht <p>in dieser Jahreszeit</p> besonders tief <p>am Himmel</p> <[><p>Bis Ende Oktober</p> |<V>schließt sich |<d>der Reigen</d> <p>in Connecticut</p>, Massachusetts <cc>und Rhode Island <[>|<d>The costs</d> |<V>mount rapidly, <[cc>But |<d>the Pentagon</d> move |<V>represents <d>the first</d> significant federal call-up 24/6/2002 © Jacques Vergne TALN 2002 5

Les ressources : toutes celles du français débuts de propos. "à condition que|à condition

Les ressources : toutes celles du français débuts de propos. "à condition que|à condition qu|ainsi que|ainsi qu|auquel|auxquels|combien|comment|dont|dés que|dés qu|lorsque|lorsqu|même si|où|parce que|parce qu|pourquoi|quand|alors que|alors qu|bien que|bien qu|quoi que|quoi qu|tandis que|tandis qu|tant que|tant qu|puisque|puisqu|sans que|sans qu|que|qu|qui|sauf si|si" "et donc|et encore|et ensuite|et même|et non|et pas|et pourtant|et|ou bien|ou même|ou encore|ou|mais aussi|mais|car|mais|or|puis" débuts de chunks "quant à|quant aux|grâce à|grâce aux|face à|face aux|à partir de|à partir du|à partir d|à|À|afin de|afin d|aprés|au-delà de|au-delà du|au-delà des|au|aux|auprés de|auprés du|auprés des|autour de|autour du|autour des|avant|avec|chez|contre|dans|de par|d'entre|d'où|d|de|des|du|depuis|devant|dés|durant| en tant que|en tant qu|en|entre|hors de|hors du|hors des|jusque|jusqu'à|jusqu'aux|lors de|lors du|lors des|malgré|outre|parmi|pendant|pour|près de|près d|sans|sauf|sous|selon|sur|vers|via|voire" "un|une|le|la|l|ce|cette|sa|son|notre|leur|toute|chaque|aucune| Un|Une|Le|La|L|Ce|Cette|Sa|Son|Notre|Leur|Toute|Chaque|Aucune" "les|ces|ses|leurs|nos|toutes|plusieurs|deux|trois|quatre|cinq|six|sept|huit|neuf|dix|d'autres|certains|quelques| Les|Ces|Ses|Leurs|Nos|Toutes|Plusieurs|Deux|Trois|Quatre|Cinq|Six|Sept|Huit|Neuf|Dix|D'autres|Certains|Quelques" pronoms sujets auxiliaires "je|j|tu|il|elle|l'on|on|c|ça|cela|ceci" "ils|elles|nous|vous" "a|avait|aura|ait|aurait|est|était|serait|va|allait|ira|faisait|fera" "ont|avaient|auront|aient|auraient|sont|étaient|seront|seraient|vont|allaient|iront|faisaient|feront" term. verbales "e|a|ed|pand|end|ond|erd|oud|et|it|ît|tient|vient|pent|sent|eint|ort|ut|ût" "ent|ont" clitiques "n'|ne |m'|me |t'|te |s'|se |s'en |s'y |lui |leur |en |y |le |la |les |l'" 24/6/2002 © Jacques Vergne TALN 2002 6

Analyse et Hiérarchies de grains 1 document extraire zones textuelles descente dans la hiérarchie

Analyse et Hiérarchies de grains 1 document extraire zones textuelles descente dans la hiérarchie des grains physiques analyseur purement descendant segmenter / ponctuation phrases segmenter / graphies proto-propositions valider, segmenter, relier propositions baliser / graphies proto-chunks grains physiques 24/6/2002 grains intermédiaires © Jacques Vergne TALN 2002 chunks grains calculés 7

Processus d'analyse 1 phrase débuts de proposition segmentation / graphies proto-propositions (= hypothèses de

Processus d'analyse 1 phrase débuts de proposition segmentation / graphies proto-propositions (= hypothèses de prop. ) processus relier chunking sujet standard - verbe partiel débuts de chunks auxiliaires, pronoms sujet, terminaisons verbales 24/6/2002 © Jacques Vergne sujet & verbe ? diagnostic phrase ? non propositions (= 1 proto-propos. ) couper, postrelier les propositions traitement proto-propositions (= 1/2 proto-propos. ) TALN 2002 8

Processus standard : exemple 1 proto-proposition = proposition Je n'ai jamais dit que l'euro

Processus standard : exemple 1 proto-proposition = proposition Je n'ai jamais dit que l'euro allait remplacer le dollar. (Ouest-France du 18/10/2001) • balisage des débuts de proto-propositions —> segmentation en proto-propositions : 0 : <[>Je n'ai jamais dit 1 : <[cs>que </cs>l'euro allait remplacer le dollar 2 : <[. >. 24/6/2002 © Jacques Vergne TALN 2002 9

Processus standard : exemple 1 • balisage des débuts de chunks —> chunking partiel

Processus standard : exemple 1 • balisage des débuts de chunks —> chunking partiel dans la graphie de la proto-proposition • balisage des pronoms, auxiliaires —> comptage des pronoms et des auxiliaires 0 : <[><pp>Je <V>n'ai jamais dit [nbpp=1 nb. V=1] 1 : <[cs>que </cs><d>l'euro</d> allait remplacer <d>le dollar</d> [nbpp=0 nb. V=0] 2 : <[. >. 24/6/2002 © Jacques Vergne TALN 2002 10

Processus standard : exemple 1 • pour chaque proto-proposition : détecter et relier sujet

Processus standard : exemple 1 • pour chaque proto-proposition : détecter et relier sujet et verbe 0 : <[>|<pp>Je |<V>n'ai jamais dit [nb. V=1 satur. S=1] 1 : <[cs>que </cs>|<d>l'euro</d> |<V>allait remplacer <d>le dollar</d> [nb. V=1 satur. S=1] 2 : <[. >. 24/6/2002 © Jacques Vergne TALN 2002 11

Processus standard : exemple 1 • diagnostic de chaque proposition et de la phrase

Processus standard : exemple 1 • diagnostic de chaque proposition et de la phrase 0 : <[>|<pp>Je |<V>n'ai jamais dit [nb. V=1 satur. S=1] 1 : <[cs>que </cs>|<d>l'euro</d> |<V>allait remplacer <d>le dollar</d> [nb. V=1 satur. S=1] 2 : <[. >. • chaque proposition a son sujet et son verbe et la phrase a une proposition principale (non marquée) 24/6/2002 © Jacques Vergne TALN 2002 12

Processus standard : exemple 2 Eine spektakuläre Operation gelang ihm im November 1974, als

Processus standard : exemple 2 Eine spektakuläre Operation gelang ihm im November 1974, als er ein Spenderherz transplantierte, ohne das Herz des Empfängers zu entfernen. (Der Spiegel du 2/9/2001) • balisage des débuts de proto-propositions —> segmentation en proto-propositions : 0 : <[>Eine spektakuläre Operation gelang ihm im November 1974, 1 : <[cs>als </cs>er ein Spenderherz transplantierte, 2 : <[><pi>ohne </pi>das Herz des Empfängers <pi>zu </pi>entfernen 3 : <[. >. 24/6/2002 © Jacques Vergne TALN 2002 13

Processus standard : exemple 2 • balisage des débuts de chunks —> chunking partiel

Processus standard : exemple 2 • balisage des débuts de chunks —> chunking partiel dans la graphie de la proto-proposition • balisage des pronoms, auxiliaires —> comptage des pronoms et des auxiliaires 0 : <[><d>Eine spektakuläre Operation</d> gelang ihm <p>im November</p> 1974, [nbpp=0 nb. V=0] 1 : <[cs>als </cs><pp>er <d>ein Spenderherz</d> transplantierte, [nbpp=1 nb. V=0] 2 : <[><pi>ohne </pi><d>das Herz</d> <p>des Empfängers</p> <pi>zu entfernen</pi> 3 : <[. >. 24/6/2002 © Jacques Vergne TALN 2002 14

Processus standard : exemple 2 • pour chaque proto-proposition : détecter et relier sujet

Processus standard : exemple 2 • pour chaque proto-proposition : détecter et relier sujet et verbe 0 : <[>|<d>Eine spektakuläre Operation</d> |<V>gelang ihm <p>im November</p> 1974, [nb. V=1 satur. S=1] 1 : <[cs>als </cs>|<pp>er <d>ein Spenderherz</d> |<V>transplantierte, [nb. V=1 satur. S=1] 2 : <[><pi>ohne </pi><d>das Herz</d> <p>des Empfängers</p> <pi>zu entfernen</pi> 3 : <[. >. 24/6/2002 © Jacques Vergne TALN 2002 15

Processus standard : exemple 2 • diagnostic de chaque proposition et de la phrase

Processus standard : exemple 2 • diagnostic de chaque proposition et de la phrase 0 : <[>|<d>Eine spektakuläre Operation</d> |<V>gelang ihm <p>im November</p> 1974, [nb. V=1 satur. S=1] 1 : <[cs>als </cs>|<pp>er <d>ein Spenderherz</d> |<V>transplantierte, [nb. V=1 satur. S=1] 2 : <[><pi>ohne </pi><d>das Herz</d> <p>des Empfängers</p> <pi>zu entfernen</pi> 3 : <[. >. • chaque proposition a son sujet et son verbe et la phrase a une proposition principale (non marquée) 24/6/2002 © Jacques Vergne TALN 2002 16

Post-traitement : proto-proposition =/= proposition 2 opérations sont possibles : • couper 1 proto-proposition

Post-traitement : proto-proposition =/= proposition 2 opérations sont possibles : • couper 1 proto-proposition • relier 24/6/2002 => 2 propositions 2 proto-propositions => 1 proposition © Jacques Vergne TALN 2002 17

Post-traitement : couper une proto-proposition en 2 Résultat du processus standard : 0 :

Post-traitement : couper une proto-proposition en 2 Résultat du processus standard : 0 : <[cs>Although </cs>|<pp>they |<V>have not ruled out <d>a possibility</d> [nb. V=1 satur. S=1] 1 : <[cs>that </cs><d>another criminal</d> <V>could be <p>behind the anthrax</p> attacks, investigators <V>are intensely looking <p>at evidentiary</p> threads linking <d>the letters</d> <p>to the hijackers</p> [nb. V=2] 2 : <[. >. 2 verbes dans 1 proto-proposition => recher un point de coupure 24/6/2002 © Jacques Vergne TALN 2002 18

Post-traitement : couper une proto-proposition en 2 Coupure sur la virgule : 0 :

Post-traitement : couper une proto-proposition en 2 Coupure sur la virgule : 0 : <[cs>Although </cs>|<pp>they |<V>have not ruled out <d>a possibility</d> [nb. V=1 satur. S=1] 1 : <[cs>that </cs>|<d>another criminal</d> |<V>could be <p>behind the anthrax</p> attacks, [nb. V=1 satur. S=1] 2 : <[>|investigators |<V>are intensely looking <p>at evidentiary</p> threads linking <d>the letters</d> <p>to the hijackers</p> [nb. V=1 satur. S=1] 3 : <[. >. chaque proposition a maintenant son sujet et son verbe et la phrase a une proposition principale (non marquée) 24/6/2002 © Jacques Vergne TALN 2002 19

Post-traitement : couper une proto-proposition en 2 + relier 2 proto-propositions Résultat du processus

Post-traitement : couper une proto-proposition en 2 + relier 2 proto-propositions Résultat du processus standard : 0 : <[><d>Les tueurs</d>, [nb. V=0] 1 : <[pr>|qui </pr>|<V>ont assassiné Rehavam Zeevi, ministre israélien <p>du Tourisme</p>, appartiennent <p>au camp</p> <p>des ennemis</p> <p>de la paix</p> [nb. V=1 satur. S=1] 2 : <[. >. 1 proto-proposition n'a pas de verbe => tenter de couper - relier 24/6/2002 © Jacques Vergne TALN 2002 20

Post-traitement : couper une proto-proposition en 2 + relier 2 proto-propositions Processus ping-pong :

Post-traitement : couper une proto-proposition en 2 + relier 2 proto-propositions Processus ping-pong : Couper la proto-proposition 1 en 2 proto-propositions : ping du sujet = mettre un candidat sujet en attente 0 : <[>|<d>Les tueurs</d>, [nb. V=0 S_en_attente=plur] (ping du sujet? ) 1 : <[pr>|qui </pr>|<V>ont assassiné Rehavam Zeevi, ministre israélien <p>du Tourisme</p>, appartiennent <p>au camp</p> <p>des ennemis</p> <p>de la paix</p> [nb. V=1 satur. S=1] 24/6/2002 © Jacques Vergne TALN 2002 21

Post-traitement : couper une proto-proposition en 2 + relier 2 proto-propositions Couper la proto-proposition

Post-traitement : couper une proto-proposition en 2 + relier 2 proto-propositions Couper la proto-proposition 1 en 2 proto-propositions : 0 : <[>|<d>Les tueurs</d>, [nb. V=0 S_en_attente=plur] (ping du sujet? ) 1 : <[pr>|qui </pr>|<V>ont assassiné Rehavam Zeevi, ministre israélien <p>du Tourisme</p>, [nb. V=1 satur. S=1] 2 : <[>appartiennent <p>au camp</p> <p>des ennemis</p> <p>de la paix</p> [nb. V=0] 24/6/2002 © Jacques Vergne TALN 2002 22

Post-traitement : couper une proto-proposition en 2 + relier 2 proto-propositions Processus ping-pong :

Post-traitement : couper une proto-proposition en 2 + relier 2 proto-propositions Processus ping-pong : pong du verbe = un candidat sujet en attente & terminaison verbale accordée 0 : <[>|<d>Les tueurs</d>, [nb. V=0 S_en_attente=0 lien. S=2] (ping du sujet? ) 1 : <[pr>|qui </pr>|<V>ont assassiné Rehavam Zeevi, ministre israélien <p>du Tourisme</p>, [nb. V=1 satur. S=1] 2 : <[>|<V>appartiennent <p>au camp</p> <p>des ennemis</p> <p>de la paix</p> [nb. V=1 satur. S=1 lien. S=0] (pong du verbe) 3 : <[. >. chaque proposition a maintenant son sujet et son verbe et la phrase a une proposition principale (non marquée) 24/6/2002 © Jacques Vergne TALN 2002 23

Implantation du modèle linguistique grains représentés dans une structure répétitive grains balisés dans la

Implantation du modèle linguistique grains représentés dans une structure répétitive grains balisés dans la graphie des (proto-)propositions dans la structure répétitive des (proto-)propositions 24/6/2002 phrases proto-propositions proto-chunks grains intermédiaires grains calculés grains physiques © Jacques Vergne TALN 2002 24

Objectifs du Groupe Syntaxe du GREYC • recherche de solutions minimales : pour une

Objectifs du Groupe Syntaxe du GREYC • recherche de solutions minimales : pour une tâche donnée, minimiser les moyens utilisés - tout petits programmes - algorithmes très simples - solutions calculatoires (sans exploration combinatoire) : . calcul sur des formes et leurs positions - bases linguistiques minimales : . utilisation de très peu de propriétés, seulement celles qui servent aux calculs . très peu de ressources (typographiques, morphologiques) 24/6/2002 © Jacques Vergne TALN 2002 25

Des petits programmes ! • comment ? en utilisant des propriétés linguistiques définies en

Des petits programmes ! • comment ? en utilisant des propriétés linguistiques définies en compréhension et non pas en extension • pourquoi ? parce que ces propriétés sont intéressantes : 24/6/2002 en petit nombre, abstraites comprendre opératoires efficaces agir © Jacques Vergne TALN 2002 26

Conclusions (provisoires) • des tâches classiques sont faisables avec des moyens minimaux (quasi absence

Conclusions (provisoires) • des tâches classiques sont faisables avec des moyens minimaux (quasi absence de dictionnaire) d'autres tâches : calcul du discours rapporté, recherche des explications cf. Nadine Lucas (GREYC) et Emmanuel Giguet (LATTICE) • l'économie de moyens facilite le travail : - on fait l'économie des ressources lexicales (coût inférieur) - facilité d'ajout d'une nouvelle langue - toujours au dessus du mot • débuts d'une voie prometteuse • encore du chemin. . . 24/6/2002 © Jacques Vergne TALN 2002 27

Fin de l'exposé vos questions ? 24/6/2002 © Jacques Vergne TALN 2002 28

Fin de l'exposé vos questions ? 24/6/2002 © Jacques Vergne TALN 2002 28

à télécharger • vous pouvez télécharger cette présentation sur http: //www. info. unicaen. fr/~jvergne/TALN

à télécharger • vous pouvez télécharger cette présentation sur http: //www. info. unicaen. fr/~jvergne/TALN 2002_JVergne. dia • voir aussi ma présentation à TALN 2001 "Analyse syntaxique automatique de langues : du combinatoire au calculatoire" sur http: //www. info. unicaen. fr/~jvergne/TALN 2001_JV. ppt • voir aussi mon tutoriel du Coling 2000 "Trends in Robust Parsing" sur http: //www. info. unicaen. fr/~jvergne/tutorial. Coling 2000. html (présentation et références) 24/6/2002 © Jacques Vergne TALN 2002 29

24/6/2002 © Jacques Vergne TALN 2002 30

24/6/2002 © Jacques Vergne TALN 2002 30

Analyse et Hiérarchies de grains 1 document analyseurs classiques descente dans la hiérarchie des

Analyse et Hiérarchies de grains 1 document analyseurs classiques descente dans la hiérarchie des grains physiques montée dans la hiérarchie des grains calculés 24/6/2002 segmenter phrases syntagmes récursifs, phrase segmenter regrouper tokens et synt. tokens grains physiques © Jacques Vergne TALN 2002 grains calculés 31

Analyse et Hiérarchies de grains 1 document analyseur 98 descente dans la hiérarchie des

Analyse et Hiérarchies de grains 1 document analyseur 98 descente dans la hiérarchie des grains physiques montée dans la hiérarchie des grains calculés 24/6/2002 segmenter relier les chunks phrases chunks segmenter regrouper les tokens grains physiques © Jacques Vergne TALN 2002 grains calculés 32

Analyse et Hiérarchies de grains 1 document analyseur du GREYC descente dans la hiérarchie

Analyse et Hiérarchies de grains 1 document analyseur du GREYC descente dans la hiérarchie des grains physiques montée dans la hiérarchie des grains calculés 24/6/2002 phrases extraire regrouper et relier propositions regrouper et relier chunks zones textuelles segmenter tokens regrouper et relier grains calculés grains physiques © Jacques Vergne TALN 2002 33

Post-traitement : relier 2 proto-propositions Résultat du processus standard : 0 : <[><d>Eine junge

Post-traitement : relier 2 proto-propositions Résultat du processus standard : 0 : <[><d>Eine junge Südafrikanerin</d>, [nb. V=0] 1 : <[pr>|die </pr>1969 <d>ein neues Herz</d> |<V>erhielt, [nb. V=1 satur. S=1] 2 : <[>überlebte damit zwölf Jahre [nb. V=0] 3 : <[. >. 2 proto-propositions n'ont pas de verbe => tenter de les relier 24/6/2002 © Jacques Vergne TALN 2002 34

Post-traitement : relier 2 proto-propositions Relier la proto-proposition 0 à la proto-proposition 2 par

Post-traitement : relier 2 proto-propositions Relier la proto-proposition 0 à la proto-proposition 2 par le processus ping-pong : 0 : <[>|<d>Eine junge Südafrikanerin</d>, [nb. V=0 S_en_attente=1] (ping du sujet) 1 : <[pr>|die </pr>1969 <d>ein neues Herz</d> |<V>erhielt, [nb. V=1 satur. S=1] 2 : <[>überlebte damit zwölf Jahre [nb. V=0] 24/6/2002 © Jacques Vergne TALN 2002 35

Post-traitement : relier 2 proto-propositions Relier la proto-proposition 0 à la proto-proposition 2 par

Post-traitement : relier 2 proto-propositions Relier la proto-proposition 0 à la proto-proposition 2 par le processus ping-pong : 0 : <[>|<d>Eine junge Südafrikanerin</d>, [nb. V=0 S_en_attente=0 lien. S=2] (ping du sujet) 1 : <[pr>|die </pr>1969 <d>ein neues Herz</d> |<V>erhielt, [nb. V=1 satur. S=1] 2 : <[>|<V>überlebte damit zwölf Jahre [nb. V=1 satur. S=1 lien. S=0] (pong du verbe) 3 : <[. >. chaque proposition a maintenant son sujet et son verbe et la phrase a une proposition principale (non marquée) 24/6/2002 © Jacques Vergne TALN 2002 36