Apprentissage automatique et traitement du langage chapitre 18

  • Slides: 64
Download presentation
Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp. 531 -544 Tom Mitchell

Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp. 531 -544 Tom Mitchell Machine Learning)

Différentes méthodes empiriques Représentation: probabiliste, symbolique, Entraînement: supervisé ou non-supervisé Tâches: reconnaissance de la

Différentes méthodes empiriques Représentation: probabiliste, symbolique, Entraînement: supervisé ou non-supervisé Tâches: reconnaissance de la parole; analyse syntaxique (parsing)/désambiguïsation; Classification textes; acquisition lexicale: attachement du PP, classes des mots; désambiguïsation du sens des mots; traduction automatique.

Apprentissage: définition Définition On dit qu'un programme informatique apprend à partir d’une expérience empirique

Apprentissage: définition Définition On dit qu'un programme informatique apprend à partir d’une expérience empirique E par rapport à une tâche T et par rapport à une mesure de performance P, si sa performance P à la tâche T s’améliore à la suite de E. Exemple Tâche T: classer des verbes anglais dans des classes prédéfinies Mesure de performance P : % de verbes classés correctement par rapport à une classification définie par des experts (gold standard) Expérience d’entraînement E: base de données de couples de verbes (et leurs propriétés) et classe correcte

Apprentissage par classification La tâche la plus étudiée en apprentissage automatique (machine learning) consiste

Apprentissage par classification La tâche la plus étudiée en apprentissage automatique (machine learning) consiste à inférer une fonction classant des exemples représentés comme vecteurs de traits distinctifs dans une catégorie parmi un ensemble fini de catégories données.

Apprentissage par classification: exemple Soit un ensemble de verbes. Tâche: classification binaire: verbes de

Apprentissage par classification: exemple Soit un ensemble de verbes. Tâche: classification binaire: verbes de types de mouvement (courir, se promener) et verbes de changement d’état (fondre, cuire). Traits: pour chaque forme du verbe dans un corpus, le verbe, est-il transitif? est-il passif? Son sujet, est-il animé? Vecteur: vecteur du pourcentage de fois où le verbe est transitif, passif et son sujet est animé sur le total d’effectifs dans le corpus.

Apprentissage par classification: exemple Exemple Trans? Pass? Anim? Class courir 5% 3% 90% Mo.

Apprentissage par classification: exemple Exemple Trans? Pass? Anim? Class courir 5% 3% 90% Mo. M marcher 55% 5% 77% Mo. M fondre 10% 9% 20% Co. S cuire 80% 69% 88% Co. S

Apprentissage par classification Fonctions apprises possibles Si Pass? < 10% et Anim? >25% alors

Apprentissage par classification Fonctions apprises possibles Si Pass? < 10% et Anim? >25% alors Mo. M Si Trans? <= 10% et Anim >25% alors Mo. M Si Trans? > 10% et Pass? < 10% alors Mo. M

Arbre de décision Les arbres de décision sont des classifieurs (classeurs? ) qui opèrent

Arbre de décision Les arbres de décision sont des classifieurs (classeurs? ) qui opèrent sur des instances représentées par des vecteurs de traits. Les nœuds testent les traits. Il y a une branche pour chaque valeur du trait. Les feuilles spécifient les catégories. Ils peuvent aussi être écrits comme de règles. Exercices Dessiner les (sous-)arbres de décision correspondant aux règles vues auparavant.

Apprentissage des arbre de décision Les instances sont représentées en tant que vecteurs de

Apprentissage des arbre de décision Les instances sont représentées en tant que vecteurs de couples traits-valeurs. La fonction cible à des valeurs discrètes de sortie. L’algorithme gère des masses de données avec efficacité, il gère des données bruitées, il gère des données auxquelles manquent certaines valeurs.

Algorithme de base d’apprentissage des arbres de décision Arbre. D(exemples, attributs) Si tous les

Algorithme de base d’apprentissage des arbres de décision Arbre. D(exemples, attributs) Si tous les exemples appartient à une catégorie alors retourner une feuille avec cette catégorie comme étiquette Sinon si attributs est vide alors retourner une feuille dont l’étiquette est la catégorie majoritaire dans exemples Sinon choisir un attribut A pour la racine: pour toutes les valeurs possibles vi de A soit exemplesi le sous-ensemble dont la valeur de A est vi ajouter une branche à la racine pour le test A = vi si exemplesi est vide alors créer une feuille dont l’étiquette est la catégorie majoritaire dans exemples sinon appeler récursivement Arbre. D(exemplesi, attributs – {A})

Exercice Construire l’arbre de décision à partir des données suivantes. Exemple Trans? Pass? Anim?

Exercice Construire l’arbre de décision à partir des données suivantes. Exemple Trans? Pass? Anim? Class courir bas haut Mo. M marcher haut bas haut Mo. M fondre bas bas Co. S cuire haut Co. S

Exemple Anim? haut Exemple Trans? Pass? Anim? Classe courir bas haut Mo. M marcher

Exemple Anim? haut Exemple Trans? Pass? Anim? Classe courir bas haut Mo. M marcher haut bas haut Mo. M fondere bas Co. S haut Co. S bas cuocere haut Courir/Mo. M Marcher/Mo. M Cuire/Co. S Trans? haut Marcher/Mo. M Cuire/Co. S Pass? haut bas Cuire/Co. S Marcher/Mo. M bas Courir/Mo. M bas Fondre/Co. S

Exemple Anim? haut bas Trans? haut Fondre/Co. S bas pass? haut bas Cuire/Co. S

Exemple Anim? haut bas Trans? haut Fondre/Co. S bas pass? haut bas Cuire/Co. S Marcher/Mo. M Courir/Mo. M

Choisir la racine En général, on se donne comme but de construire l’arbre de

Choisir la racine En général, on se donne comme but de construire l’arbre de décision le plus petit possible (rasoir d’Occam) Il nous faut un test qui partage les exemples en sous-ensembles homogènes par rapport à une classe donnée, car ils sont plus proche à être des feuilles pass? haut bas Cuire/Co. S Trans? haut Marcher/Mo. M Cuire/Co. S bas Courir/Mo. M Fondre/Co. S Marcher/Mo. M Courir/Mo. M Fondre/Co. S Anim? haut bas Cuire/Co. S Courir/Mo. M Marcher/Mo. M Fondre/Co. S

Choisir la racine En général, on se donne comme but de construire l’arbre de

Choisir la racine En général, on se donne comme but de construire l’arbre de décision le plus petit possible (rasoir d’Occam) Il nous faut un test qui partage les exemples en sous-ensembles homogènes par rapport à une classe donnée, car ils sont plus proche à être des feuilles. Le test parfait diviserait les données en sousensembles pures, appartenant tous à la même classe. L’entropie est la mesure indiquant l’impureté d’un ensemble d’exemples par rapport à une classification Les mesures utilisées pour choisir l’attribut racine sont basées sur l’entropie

Entropie L’entropie est la mesure indiquant l’impureté où le désordre d’un ensemble d’exemples par

Entropie L’entropie est la mesure indiquant l’impureté où le désordre d’un ensemble d’exemples par rapport à une classification L’entropie d’un ensemble d’exemples S par rapport à une classification Où pi est la proportion d’exemples de catégorie i dans S

Exercice Etant donnée la formule de l’entropie, calculer l’entropie des deux classification ci-dessous Exemple

Exercice Etant donnée la formule de l’entropie, calculer l’entropie des deux classification ci-dessous Exemple Class. A Exemple Class. B courir Mo. M marcher Mo. M fondre Co. S voler Mo. M cuire Co. S

Exercice - solution Exemple Class. A Exemple Class. B courir Mo. M marcher Mo.

Exercice - solution Exemple Class. A Exemple Class. B courir Mo. M marcher Mo. M fondre Co. S voler Mo. M cuire Co. S Entropie(Class. A) = -(. 5 log 2. 5) = -(. 5 – 1) –(. 5 – 1) =1 Entropie(Class. B)= -(. 25 log 2. 25) – (. 75 log 2. 75) = -(. 25 -2) –(-75 -. 415) =. 811 Pour une classification donnée, la distribution uniforme est celle avec l’entropie maximale

Gain d’information (information gain) Le gain d’information d’un attribut A est la réduction de

Gain d’information (information gain) Le gain d’information d’un attribut A est la réduction de l’entropie à laquelle on peut s’attendre si on fait une partition sur la base de cet attribut. Values(A)= ensemble des valeurs possibles de l’attribut A Sv= sous-ensemble de S pour lequel A a valeur v |S| = taille de S | Sv|= taille de Sv

Gain d’information (information gain) Le gain d’information est donc la réduction attendue de l’entropie

Gain d’information (information gain) Le gain d’information est donc la réduction attendue de l’entropie (l’entropie des données, moins la moyenne proportionnelle de l’entropie) qui reste après avoir fait la partition. Plus le gain est élevé, plus cet attribut nous fourni de l’information pour la classification des données. Pour la racine de l’arbre, on choisit donc l’attribut qui maximise ce gain.

Exercice Calculer le gain d’information de chaque attribut des données cidessous. Exemple Trans? Pass?

Exercice Calculer le gain d’information de chaque attribut des données cidessous. Exemple Trans? Pass? Anim? Classe courir bas haut Mo. M marcher haut bas haut Mo. M fondre bas bas Co. S cuire haut Co. S

Exercice—solution Gain(S, Anim? ) = 1 – 3/4 (. 39+. 53) – 1/4 (0)

Exercice—solution Gain(S, Anim? ) = 1 – 3/4 (. 39+. 53) – 1/4 (0) = 1 –. 69 =. 31 Gain(S, Pass? ) = 1 – 1/4 (0) – 3/4 (. 39+. 53) = 1 –. 69 =. 31 Gain(S, Trans? ) = 1 – 2/4 (. 5+. 5) =1– 1 =0

Le biais inductif (inductive bias) Toute méthode utilisée par un système de classification pour

Le biais inductif (inductive bias) Toute méthode utilisée par un système de classification pour choisir entre deux fonctions, toutes les deux compatibles avec les données d’entraînement, s’appelle biais inductif. Le biais inductif est de deux types le biais du langage – le langage représentant les fonctions d’apprentissage définit un' espace d’hypothèses limité le biais de la recherche – le langage est assez expressif pour exprimer toutes les fonctions possibles, mais l’algorithme de recherche implique une préférence pour certaines hypothèses plutôt que d’autres Les arbres de décision impliquent un biais pour les arbres plus petits par rapport aux plus grands (biais de recherche)

La futilité de l’apprentissage en absence de biais Un apprenant qui n’utilise aucune assomption

La futilité de l’apprentissage en absence de biais Un apprenant qui n’utilise aucune assomption a priori concernant l’identité du concept cible ne possède aucune base rationnelle pour classer de nouvelles instances. L’apprentissage sans biais est impossible. Le biais inductif décrit la logique avec laquelle l’apprenant généralise au delà des données d’entraînement. Le biais inductif de l’apprenant est l’ensemble d’assomptions ultérieures suffisantes pour justifier l’inférence inductive en tant que déduction

Le rasoir de Occam Pluralitas non est ponenda sine necessitate Pourquoi donner la préférence

Le rasoir de Occam Pluralitas non est ponenda sine necessitate Pourquoi donner la préférence aux hypothèses courtes? Car il y en a moins Mais alors, pourquoi ne pas préférer les hypothèses très spécifiques, qui sont aussi très peux nombreuses

Le rasoir de Occam Pluralitas non est ponenda sine necessitate - citation attribuée à

Le rasoir de Occam Pluralitas non est ponenda sine necessitate - citation attribuée à William of Occam (vers 1320) Interprétation courante : préférer l’hypothèse la plus simple qui décrit les données observées. Pourquoi donner la préférence aux hypothèses courtes? Car il y en a moins. Il y a donc moins de chance qu’une mauvaise hypothèse décrive parfaitement les données d’entraînement par hasard. Autre principe apparenté : description de longueur minimale (minimum description length). Ces principes ne sont pas parfaits, ils sont difficiles à justifier théoriquement, mais la pratique a démontré qu’ils sont utiles. Ils sont donc très souvent utilisés.

Systèmes d’induction d’arbres de décision C 4. 5, par Ross Quinlan. Gratuit à :

Systèmes d’induction d’arbres de décision C 4. 5, par Ross Quinlan. Gratuit à : • http: //www. cse. unsw. edu. au/~quinlan/ C 4. 5 -ofai, version de C 4. 5 modifiée par Johann Petrak. Gratuit à : • http: //www. ai. univie. ac. at/~johann/c 45 ofai. html C 5. 0, par Ross Quinlan. C 5. 0 est une version vastement améliorée de C 4. 5, mais n’est pas gratuit. Démo gratuit—mais limité à 400 exemples—à : • http: //www. rulequest. com/

Classification des verbes • Les verbes sont la source principale d’information relationnelle dans la

Classification des verbes • Les verbes sont la source principale d’information relationnelle dans la phrase Jane hit the ball GN GN Agent Theme • Classifier est une forme d’apprentissage indirect du lexique - organisation facile: les verbes partage des propriétés syntaxique et sémantiques - extension cohérente: l’association d’un verbe à une classe donnée permet d’hériter toutes les propriétés de la classe

Exemple de classification des verbes • Classes des verbes anglais selon Levin (1993) environs

Exemple de classification des verbes • Classes des verbes anglais selon Levin (1993) environs 200 classes pour 3000 verbes • Par exemple Manner of Motion: race, jump, skip, moosey Sound Emission: buzz, ring, crack Change of State: burn, melt, pour Creation/Transformation: build, carve Psychological state: admire, love, hate, despise

Alternances des verbes Comment arrive-t-on à une telle classification? Hypothèse: les verbes avec une

Alternances des verbes Comment arrive-t-on à une telle classification? Hypothèse: les verbes avec une sémantique semblable expriment leurs arguments de façon semblable dans les cadres de sous-catégorisation permis. Ils présentent les mêmes alternances. Exemple si et et alors un verbe peut être transitif il peut être intransitif il peut donner lieu à un adjectif il est change of state melt butter melts melted butter jump horse jumps *jumped horse

La méthode de Merlo et Stevenson (2001) • Selon Levin, il y a un

La méthode de Merlo et Stevenson (2001) • Selon Levin, il y a un correspondance régulière entre la sémantique d’un verbe et sa syntaxe: les verbes qui partagent la même sémantique partagent aussi la même syntaxe. • On peut faire un raisonnement inverse et induire les classes sémantiques à partir de l’usage syntaxique: les verbes qui ont la même syntaxe en surface–-comme dans l’exemple précédent—ont les mêmes propriétés sémantiques. On apprend les classes des verbes sur la base de leurs propriétés dans un corpus.

Méthodologie • Analyser les classes des verbes afin de déterminer leurs propriétés les plus

Méthodologie • Analyser les classes des verbes afin de déterminer leurs propriétés les plus discriminantes. • Développer des indices qui se rapprochent des propriétés discriminantes des verbes et qu’on peut compter dans un corpus. • Compter dans un corpus afin de construire un résumé numérique pour chaque verbe. • Utiliser un algorithme d’apprentissage automatique (par exemple l’algorithme d’induction des arbres décision) pour construire un classificateur et mesurer sa performance.

Classes des verbes anglais Manner of Motion The rider Agent (Causal) raced the horse

Classes des verbes anglais Manner of Motion The rider Agent (Causal) raced the horse Agent past the barn The horse raced past the barn Agent Change of State Creation/Transformation The cook Agent (Causal) melted the butter Theme The butter Theme melted The contractors Agent built the house Theme The contractors Agent built all summer

Résumé des propriétés thématiques Transitif Classes Intransitif Sujet Objet Sujet Manner of Motion (race)

Résumé des propriétés thématiques Transitif Classes Intransitif Sujet Objet Sujet Manner of Motion (race) Agent (Causal) Agent Change of State (melt) Agent (Causal) Theme Create/Transform (build) Agent Theme Agent IDEE PRINCIPALE Les différences thématiques sous-jacentes entre les classes de verbes se reflètent dans des différences d’usage à la surface.

Traits pour la classification automatique Transitif Classes Sujet Exemple Objet Mo. M Agent (Causal)

Traits pour la classification automatique Transitif Classes Sujet Exemple Objet Mo. M Agent (Causal) Agent The jockey raced the horse Co. S Agent (Causal) Theme The cook melted the butter C/T Agent Theme The workers built the house Trait Transitivité (usage de la construction transitive ) • La transitivité par « causation » est plus complexe. • L’objet agent est très rare parmi les langues. • Ordre de fréquence de la transitivité auquel on peut s’attendre : Mo. M < Co. S < C/T

Relation entre fréquence et transitivité • Transitivité par « causation » : Mo. M,

Relation entre fréquence et transitivité • Transitivité par « causation » : Mo. M, Co. S • Complexité plus grande car deux événements (en français : « faire courir » , « faire fondre » ) • Objet Agentif : Mo. M (transitif inergatif) • Rare en Anglais: seulement Mo. M • Rare dans la typologie des langues (* Italien, Français, Allemand, Portugais, Tchèque et Vietnamien) • Difficile à traiter chez l’humain (Stevenson et Merlo, 97, Filip et al. , CUNY 98)

Animacy Sujet du Classes Transitif Exemple Intransitif Mo. M (Causal) Agent The jockey raced

Animacy Sujet du Classes Transitif Exemple Intransitif Mo. M (Causal) Agent The jockey raced the horse The horse raced Co. S (Causal) Agent Theme The cook melted the butter The butter melted C/T Agent The workers built the house The workers built Agent • Il est moins probable que les thèmes soient animés • Ordre de fréquence de « animacy » auquel on peut s’attendre : COS < {Mo. M, C/T}

Utilisation Causative Classes Objet Transitif Sujet Intransitif Exemple Mo. M Agent The jockey raced

Utilisation Causative Classes Objet Transitif Sujet Intransitif Exemple Mo. M Agent The jockey raced the horse The horse raced Co. S Theme The cook melted the butter The butter melted C/T Agent Theme No causative alternation • Transitivité par « causation » : Mo. M, Co. S Sujet causal, même rôle thématique entre sujet intr. et objet trans. • Ordre de fréquence du chevauchement auquel on peut s’attendre : Mo. M, C/T < Co. S

Résumé des fréquences auxquelles on s’attend Transitivité : verbe est transitif Mo. M <

Résumé des fréquences auxquelles on s’attend Transitivité : verbe est transitif Mo. M < Co. S < C/T Causativité : usage causatif Co. S > C/T Animacy : sujet est une entité animé Co. S < {Mo. M, C/T}

Récolte des données Verbes manner of motion: jump, march change of state: open, explode

Récolte des données Verbes manner of motion: jump, march change of state: open, explode Creation/transformation: carved, painted Forme du verbe: ``-ed'‘ Corpus 65 millions mots étiquetés Brown + étiquetés WSJ corpus (LDC) 29 millions mots analysés WSJ (LDC corpus, parser Collins 97)

Récolte des données–-Méthode TRANS Token du verbe suivi immédiatement d’un groupe nominal = transitif

Récolte des données–-Méthode TRANS Token du verbe suivi immédiatement d’un groupe nominal = transitif sinon intransitif. PASS Verbe principal (VBD) = forme active. Token avec étiquette VBN = active si auxiliaire précédent = have = passive si auxiliaire précédent = be. VBN Étiquette POS

Récolte des données–-Méthode CAUS L’objet de la forme causative transitive est le même argument

Récolte des données–-Méthode CAUS L’objet de la forme causative transitive est le même argument sémantique le sujet de la forme intransitive. Étapes d’approximation Récolter les multi-ensembles des sujets et des objets pour chaque verbe Calculer le chevauchement des deux multi-ensembles Calculer la proportion entre le chevauchement et la somme de deux multi-ensembles ANIM Proportion de pronoms sujet sur le total des sujets pour chaque verbe

Analyse statistique des données Fréquences relatives moyennes TRANS PASS VBN CAUS ANIM Mo. M

Analyse statistique des données Fréquences relatives moyennes TRANS PASS VBN CAUS ANIM Mo. M . 23 . 07 . 12 . 00 . 25 Co. S . 40 . 33 . 27 . 12 . 07 Ob. D . 62 . 31 . 26 . 04 . 15 Toutes significatives, sauf la différences entre Co. S et Ob. D pour les traits PASS et VBN

Expériences de classification Entrée Vecteur: Exemple: [ verbe, TRANS, PASS, VBN, CAUS, ANIM, class]

Expériences de classification Entrée Vecteur: Exemple: [ verbe, TRANS, PASS, VBN, CAUS, ANIM, class] [ open, . 69, . 09, . 21, . 16, . 36, Co. S ] Méthode Apprenant: C 5. 0 (algorithme d’induction d’arbre de décision) Entraînement/Test: 10 -fold cross-validation, répété 50 fois

Résultats • Exactitude 69. 8% (baseline 33. 9, limite supérieure experts 86. 5%) 54%

Résultats • Exactitude 69. 8% (baseline 33. 9, limite supérieure experts 86. 5%) 54% réduction du taux d’erreur sur des verbes jamais vus Traits Exactitude % 1 TRANS PASS VBN CAUS ANIM 69. 8 2 TRANS PASS VBN CAUS ANIM 69. 8 3 TRANS PASS VBN CAUS ANIM 67. 3 4 TRANS PASS VBN CAUS ANIM 66. 5 5 TRANS PASS VBN CAUS ANIM 63. 2 6 TRANS PASS VBN CAUS ANIM 61. 6

Résultats Tous les traits sont utiles, sauf le passif

Résultats Tous les traits sont utiles, sauf le passif

Résultats classe par classe Mo. M Levin floated, E hurried, E jumped, E leaped,

Résultats classe par classe Mo. M Levin floated, E hurried, E jumped, E leaped, E marched, E paraded, E raced, E rushed, E vaulted, E wandered, E galloped, E glided, E hiked, E hopped, E jogged, E scooted, E scurried, E skipped, E tiptoed, E trotted, E Program O E E E E A E E E E O Co. S Levin boiled, A cracked, A dissolved, A exploded, A flooded, A fractured, A hardened, A melted, A opened, A solidified, A collapsed, A cooled, A folded, A widened, A changed, A cleared, A divided, A simmered, A stabilized, A Program A O A A A E O O E A A A A E A C/T Levin carved, O danced, O kicked, O knitted, O painted, O played, O reaped, O typed, O washed, O yelled, O borrowed, O inherited, O organized, O rented, O sketched, O cleaned, O packed, O studied, O swallowed, O called, O Program O O E O O A E A O O A

Résultats classe par classe Traits TRANS PASS VBN CAUS ANIM Mo. M (E) P

Résultats classe par classe Traits TRANS PASS VBN CAUS ANIM Mo. M (E) P R 16/24. 67 Co. S (A) P R 16/20 12/17 12/19. 8. 71. 63 F =. 73 F =. 67 C/T (O) P R 12/18. 67 12/20. 6 F =. 63

Analyse des Erreurs Tous traits Sans Animacy Classe donnée Mo. M Vraie Classe Co.

Analyse des Erreurs Tous traits Sans Animacy Classe donnée Mo. M Vraie Classe Co. S 4 C/T 5 Co. S C/T 1 2 3 3 Classe donnée Mo. M Vraie classe Co. S 5 C/T 3 • TRANS augmente la discrimination des trois classes • ANIM augmente la discrimination des Co. S • VBN augmente la discrimination des C/T Co. S C/T 2 2 6 5

Conclusions On peut apprendre trois classes de verbes anglais à l’aide de calculs tirés

Conclusions On peut apprendre trois classes de verbes anglais à l’aide de calculs tirés d’un corpus avec une performance satisfaisante Questions: La méthode, s’applique-t-elle à d’autres verbes? à d’autres classes? à d’autres langues?

Généralisation 1 : nouveaux verbes • Nouveaux verbes - Mêmes classes de verbes, plus

Généralisation 1 : nouveaux verbes • Nouveaux verbes - Mêmes classes de verbes, plus de verbes - Une classe similaire: Verbes d’émission de son (similaire à Mo. Ms) • Données Comptage du corpus BNC (100 M mots) • Exactitude Selon les groupes de verbes, de 58. 8% à 80. 4% • Conclusion 1 - la généralisation de la méthode à de nouveaux verbes a une performance très variable

Généralisation 2 : nouvelle classe • Nouvelle Classe Verbes d’état psychologique • Rôles thématiques

Généralisation 2 : nouvelle classe • Nouvelle Classe Verbes d’état psychologique • Rôles thématiques Experiencer Stimulus Exemple The rich love money Experiencer Stimulus The rich love Experiencer too • Traits d’apprentissage : TRANS, CAUS, ANIM PROG utilisation du progressif (statif/pas statif) carefully indique action volontaire (agent vs experiencer) • Résultats 74. 6% exactitude(baseline 57%) TRANS, CAUS, ANIM meilleurs traits

Discussion • Relation entre fréquence et propriétés thématiques est valable pour la nouvelle classe

Discussion • Relation entre fréquence et propriétés thématiques est valable pour la nouvelle classe • Certains traits d’apprentissage (ANIM, TRANS) sont valables pour plusieurs classes

Généralisation 3 : nouvelle langue • Extension de la méthode mono-langue développé pour l’anglais

Généralisation 3 : nouvelle langue • Extension de la méthode mono-langue développé pour l’anglais à une nouvelle langue (Italien) - on profite des similarités entre langues (anglais, italien) - on étends la couverture de la méthode

Extension monolingue (Merlo, Stevenson, Tsang et Allaria, 2002; Allaria, 2001) Nouvelle langue Italien Classes

Extension monolingue (Merlo, Stevenson, Tsang et Allaria, 2002; Allaria, 2001) Nouvelle langue Italien Classes 20 Cos, 20 Obd, 19 Psy (*Mo. M) Traits: TRANS, CAUS, ANIM (for Co. S et ob. D) PROG, PRES (Psy)

Données et Méthode Corpus : PAROLE 22 millions mots (CNR, Pisa) extraction de patrons

Données et Méthode Corpus : PAROLE 22 millions mots (CNR, Pisa) extraction de patrons pour chaque verbe (CNR, Pisa) comptages manuelle (Allaria, Geneva) Comptages : pourcentages (à différence de comptages pour l’anglais, ils sont exacts) Méthode Algorithme : C 5. 0 Entraînement/Test: 10 -fold cross-validation, répété 50 fois

Résultats Traits Exa% TRANS CAUS ANIM PRES (PROG) 85. 1 TRANS CAUS ANIM PROG

Résultats Traits Exa% TRANS CAUS ANIM PRES (PROG) 85. 1 TRANS CAUS ANIM PROG 85. 4 TRANS (CAUS) ANIM 86. 4 • 79% réduction du taux d’erreur pour nouveaux verbes • Classification est faite avec les traits développés pour l’anglais (TRANS ANIM)

Conclusions • Méthode générale s’applique à une nouvelle langue • Certains traits sont portables

Conclusions • Méthode générale s’applique à une nouvelle langue • Certains traits sont portables à travers les langues • En pratique on peut utiliser la technique pour démarrer une classification dans une nouvelle langue

Généralisation 4 : données multilingues Extension à l’utilisation de données multilingues pour classifier une

Généralisation 4 : données multilingues Extension à l’utilisation de données multilingues pour classifier une langue Par exemple, Chinois et Anglais pour classifier verbes anglais - On exploite les différences entre les langues - On améliore la précision de la classification

Extension multilingue (Tsang, Stevenson et Merlo, 2002) Ce qui est implicite dans une langue

Extension multilingue (Tsang, Stevenson et Merlo, 2002) Ce qui est implicite dans une langue peut être explicite dans une autre Exemple - Verbes psychologique en allemand ou italien ont souvent une forme réflexive pléonastique sich - Forme causative en chinois a une marque morphologique On utilise données des plusieurs langues pour en classer une Entraînement Chinois Anglais Test Anglais

Classification monolingue avec données multilingues Classes des verbes anglais: 20 Mo. M, 20 Co.

Classification monolingue avec données multilingues Classes des verbes anglais: 20 Mo. M, 20 Co. S, 20 C/T Traits anglais: TRANS, PASS, VBN, CAUS, ANIM. Traduction chinoise des verbes (on garde toutes les traductions) Comptage de nouveaux traits adaptés au chinois - étiquette POS (sous-catégorisation et statif/actif) - particule passive - particule périphrastique causative

Données et méthode Données anglaises du BNC (étiquetés et chunked), Données chinoises du Mandarin

Données et méthode Données anglaises du BNC (étiquetés et chunked), Données chinoises du Mandarin News (165 millions de caractères) Proportions de étiquette CKIP particule causative particule passive Algorithme: C 5. 0 Entraînement/Test : 10 -fold cross-validation, répété 50 fois

Résultats • Meilleur résultat : combinaison de traits chinois et anglais • Les traits

Résultats • Meilleur résultat : combinaison de traits chinois et anglais • Les traits chinois donne une meilleure performance que les traits anglais.

Conclusions • Les différences parmi les langue fournissent différents points de vue à l’algorithme

Conclusions • Les différences parmi les langue fournissent différents points de vue à l’algorithme et améliorent ainsi la performance. • En pratique, cela élargit la quantité de données disponibles.