How semantic is Latent Semantic Analysis Tonio Wandmacher

  • Slides: 24
Download presentation
How semantic is Latent Semantic Analysis? Tonio Wandmacher Laboratoire d’Informatique (LI) Université François-Rabelais de

How semantic is Latent Semantic Analysis? Tonio Wandmacher Laboratoire d’Informatique (LI) Université François-Rabelais de Tours tonio. wandmacher@etu. univ-tours. fr Présentation RECITAL 2005, Dourdan, 8 juin 2005

Problématique 2 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Problématique 2 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Présentation de LSA (1) Analyse sémantique latente (LSA) : • Développée dés 1990 [Deerwester

Présentation de LSA (1) Analyse sémantique latente (LSA) : • Développée dés 1990 [Deerwester et al. 1990] en vue d‘une amélioration du modèle vectoriel (Vector Space Model) de Salton [1983] • But : Recherche d’information guidée par le sens • Résultats supérieurs au modèle vectoriel en RI • Depuis application dans des domaines divers : - Recherche d‘informations [Dumais et al. 1996] - Acquisition de savoir [Landauer&Dumais 1997] - Évaluation automatique [Landauer et al. 1997] multilingue de dissertations 3 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Présentation de LSA (2) Phases de l’analyse : a) Transformation d‘un corpus de texte

Présentation de LSA (2) Phases de l’analyse : a) Transformation d‘un corpus de texte en matrice terme contexte (pré-traitement: enlèvement des mots stop, lemmatisation etc. ) b) Pondération de la matrice (tf*idf, log-entropie. . . ) c) Décomposition en valeurs singulières (SVD) d) Réduction des matrices à k (env. 100 - 400) dimensions e) Comparaison des vecteurs résultants par des mesures connues (produit scalaire, cosinus. . . ) 4 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Présentation de LSA (3) • Selon la théorie de LSA, la proximité de deux

Présentation de LSA (3) • Selon la théorie de LSA, la proximité de deux vecteurs exprime la similarité sémantique des termes qu‘ils représentent. Vecteurs les plus proches valeur Exemple : cos cf 1. Pilot (‚pilote‘) 0. 72 206 2. Maschine (‚machine‘) 0. 70 552 3. abschießen (‚abattre‘) 0. 63 85 4. Flug (‚vol‘) 0. 61 249 5. abstürzen (‚s’écraser‘) 0. 59 86 6. Luftwaffe (‚armée de l‘air‘) 0. 58 122 7. Rakete (‚fusée‘) 0. 57 335 8. Boeing (n. p. ) 0. 57 97 9. Passagier (‚passager‘) 0. 56 184 0. 56 53 rang à Flugzeug (‚avion‘) 10. Luftraum (‚espace aérien‘) 5 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Objectif (1) Thèses [Landauer et al. 1998, p. 4]: « […] the similarity estimates

Objectif (1) Thèses [Landauer et al. 1998, p. 4]: « […] the similarity estimates derived by LSA are not simple contiguity frequencies, co-occurrence counts, or correlations in usage, but depend on a powerful mathematical analysis that is capable of correctly inferring much deeper relations [. . . ]. » [Wade-Stein & E. Kintsch 2003, p. 10]: « LSA does not reflect the co-occurrence among words but rather their semantic relatedness. » 6 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Objectif (2) Questions à De quelle qualité sont les relations LSA en général ?

Objectif (2) Questions à De quelle qualité sont les relations LSA en général ? à Les relations LSA, sont elles vraiment plus « profondes » et « sémantiques » que celles issues d’une pure analyse des contiguïtés ? 7 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Expérimentations sur LSA 8 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Expérimentations sur LSA 8 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Méthode (1) Construction du corpus de test : • Texte d‘un journal allemand (die

Méthode (1) Construction du corpus de test : • Texte d‘un journal allemand (die Tageszeitung). • Sélection aléatoire de 120. 000 paragraphes des années 1989 – 1998 (env. 20 millions de mots) • Lemmatisation du corpus avec l’analyseur DMOR [Schiller 1995]. • Enlèvement de mots exclus (mots fréquents) et de mots d‘une fréquence de corpus < 5 9 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Méthode (2) Calcul des vecteurs termes : • Construction d‘une matrice terme-contexte de 120.

Méthode (2) Calcul des vecteurs termes : • Construction d‘une matrice terme-contexte de 120. 000 (contextes) 63. 561 (termes) • Pondération en utilisant le schéma log-entropie • SVD calculé par le GTP de M. Berry (v. 3. 0) (http: //www. cs. utk. edu/~lsi) • Réduction à 309 dimensions (meilleurs résultats en termes des relations) 10 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Méthode (3) Echantillon : • Sélection aléatoire de 400 mots (seulement noms, verbes, adjectifs),

Méthode (3) Echantillon : • Sélection aléatoire de 400 mots (seulement noms, verbes, adjectifs), fréquence minimale: 100 • Calcul des 20 voisins les plus proches (VPP) pour les 400 mots de l‘échantillon, en utilisant le cosinus de l’angle entre les vecteurs. • Classification manuelle de chacune des relations lexicales entre le centroïde (mot de test) et ses VPP 11 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Méthode (4) Classification en classes de relations lexicales : Classes: – Synonymie – Antonymie

Méthode (4) Classification en classes de relations lexicales : Classes: – Synonymie – Antonymie – Hypo-/Hyperonymie Relations sémantiques – Co-Hyponymie – Mero-/Holonymie – Association – Relation morphologique – Relation erronée • 2 annotateurs (allemands), déviation maximale 3, 6% 12 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Résultats (1) 13 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Résultats (1) 13 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Résultats (2) Résultats pour les catégories grammaticales (au niveau 20 VPP) : Catégorie R.

Résultats (2) Résultats pour les catégories grammaticales (au niveau 20 VPP) : Catégorie R. sémantiques R. morphologiques Associations R. erronées 14 Noms (202) 15, 1% 2, 4% 39, 3% 43, 2% Verbes Adjectifs (124) (76) 3, 8% 7, 8% 2, 1% 1, 8% 41, 0% 53, 1% Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005 30, 5% 59, 9%

Résultats (3) Corrélations entre la qualité des relations et des paramètres fréquentiels • Influence

Résultats (3) Corrélations entre la qualité des relations et des paramètres fréquentiels • Influence légère de la spécificité des mots Corrélation légère (Pearson Coefft = 0, 32) entre le taux de bonnes relations d‘un mot wi et le quotient : • Corrélation attendue entre le taux de bonnes relations et la moyenne des distances des voisins Pearson Coefficient = 0, 56 15 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Comparaison avec l’analyse de collocations (CA) 16 Tonio Wandmacher - RECITAL 2005, Dourdan -

Comparaison avec l’analyse de collocations (CA) 16 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Présentation de CA L‘analyse des collocations : • Approche simple ne considérant que des

Présentation de CA L‘analyse des collocations : • Approche simple ne considérant que des fréquences singulières et conjointes dans un contexte • Formule donnée par Quasthoff [1998, 2002]. Celle-ci est apparentée à celle de Dunning [1993]. • La similarité collocative entre deux mots A et B (CA, CB, CAB étant le nombre de contextes contenant A, B ou A et B) est calculé comme suit : 17 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Méthode Pour assurer la comparabilité, CA appliquée : • sur le même corpus (120.

Méthode Pour assurer la comparabilité, CA appliquée : • sur le même corpus (120. 000 paragraphes de la Tageszeitung), • le même pré-traitement (enlèvement des mots exclus et des mots rares etc. ), • avec la même taille de contexte, • pour le même échantillon (400 mots), • calcul des 20 collocations les plus fortes, • classification manuelle de même manière comme avant. 18 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Résultats (1) 19 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Résultats (1) 19 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Résultats (2) Rang 20 Voisins LSA Voisins CA 1. Musik (‚musique‘) Sebastian (n. p.

Résultats (2) Rang 20 Voisins LSA Voisins CA 1. Musik (‚musique‘) Sebastian (n. p. ) 2. Beethoven (n. p. ) Johann (n. p. ) 3. musizieren („faire de la musique“) Musik (‚musique‘) 4. klanglich (‚sonore‘) Emanuel (n. p. ) 5. musikalisch (‚musical‘) Elvira (n. p. ) 6. Klang (‚son‘) Mozart (n. p. ) 7. Gesang (‚chant‘) Artist (‚artiste‘) 8. rhythmisch (‚rhythmé‘) runtergehen (‚déscendre‘) 9. komponieren (‚composer‘) verunreinigen (‚polluer‘) 10. Improvisation (‚improvisation‘) Brahms (n. p. ) 11. Mozart (n. p. ) Fluß (‚rivière‘) 12. virtuos („avec virtuosité“) Ton (‚ton‘) 13. Komposition (‚composition‘) runter (‚vers le bas‘) sens: 14. Rhythmus (‚rhythme‘) Gewässer (‚eau‘) Johann S. Bach 15. Saxophon (, saxophone‘) Geige (‚violon‘) ruisseau 16. Geige (‚violon‘) Oboe (‚hautbois‘) non assigné 17. Komponist (‚compositeur‘) Flußufer (‚rive‘) 18. akustisch (‚acoustique‘) Aufführung (‚présentation‘) 19. klassisch (‚classique‘) rauschen (‚murmurer‘) 20. Cello (‚violoncelle‘) Philipp (n. p. ) Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Conclusion 21 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Conclusion 21 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Conclusion (1) 1) De quelle qualité sont les relations LSA en général ? 22

Conclusion (1) 1) De quelle qualité sont les relations LSA en général ? 22 • Les relations LSA sont plutôt associatives que sémantiques dans le sens formel. • Le taux de relations erronées est assez important (presque 50% au niveau 20 VPP). • Influence légère de la spécificité des mots Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Conclusion (2) 2) Les relations LSA, sont elles vraiment plus « profondes » et

Conclusion (2) 2) Les relations LSA, sont elles vraiment plus « profondes » et « sémantiques » ? • Les relations LSA sont légèrement plus sémantiques en comparaison avec CA (de +2% à + 4, 5%). Les avantages sont significatives dans un T-test. • Il n’y a pas de distinction substantielle entre les résultats de LSA et CA. • Mask-out effect: CA représente les deux sens dans ses voisins, tandis que LSA semble filtrer le sens mineur. 23 Tonio Wandmacher - RECITAL 2005, Dourdan - 8 juin 2005

Questions ? Contact: tonio. wandmacher@etu. univ-tours. fr

Questions ? Contact: tonio. wandmacher@etu. univ-tours. fr