TAL Traitement automatique des langues Prsent par L

  • Slides: 73
Download presentation
TAL (Traitement automatique des langues) Présenté par: L. BERDJEGHLOUL 1

TAL (Traitement automatique des langues) Présenté par: L. BERDJEGHLOUL 1

Sommaire n n n n Introduction à TAL Traduction Automatique Correction automatique Recherche d’information

Sommaire n n n n Introduction à TAL Traduction Automatique Correction automatique Recherche d’information et fouille de texte Résumé automatique Reconnaissance vocale Synthèse vocale Conclusion et bibliographie 2

Introduction à TAL 3

Introduction à TAL 3

Définition n n Application des programmes et techniques informatiques sur le langage naturel [Wikipedia]

Définition n n Application des programmes et techniques informatiques sur le langage naturel [Wikipedia] « Le TAL s’intéresse aux traitements informatisés mettant en jeu du matériau linguistique. » (Jacquemin & Zweigenbaum 2000). Linguistique TAL Informatique Intelligence Artificielle 4

Applications TAL n n n n Traduction automatique Correction automatique Recherche de l’information et

Applications TAL n n n n Traduction automatique Correction automatique Recherche de l’information et Fouille de texte Résumé automatique de texte Synthèse de la parole Reconnaissance vocale …etc. 5

Traduction automatique 6

Traduction automatique 6

Définition n n Premier domaine de TAL (1950) TA a pour entrée un texte

Définition n n Premier domaine de TAL (1950) TA a pour entrée un texte "t 1", ou texte source écrit dans une langue « L 1 » ou langue cible. TA a pour sortie un texte "t 2" ou texte traduit écrit dans une langue « L 2 » ou langue cible Exemples: n n n SYSTRAN ALPS Translator 7

Historique n 1950: n n 1970: n n Traduction mot à mot Moteur de

Historique n 1950: n n 1970: n n Traduction mot à mot Moteur de traduction: Systran 1990: n Systèmes à mémoire de traduction 8

Méthodes n TA : Traduction automatique n n Traduire entièrement un texte sans intervention

Méthodes n TA : Traduction automatique n n Traduire entièrement un texte sans intervention de l’humain TAO : Traduction assistée par ordinateur n L’humain traduit, avec l’aide du support informatique 9

Difficultés n n Écueils linguistiques propres à la langue naturelle Ambiguïtés n n Lexicales

Difficultés n n Écueils linguistiques propres à la langue naturelle Ambiguïtés n n Lexicales Syntaxiques Sémantique Nécessité du contexte ! Mais comment le représenter informatiquement ? 10

Techniques n n Mot à mot + arrangement de surface Syntagmes + arrangement de

Techniques n n Mot à mot + arrangement de surface Syntagmes + arrangement de surface Dictionnaire (ou base de données) n Régles n n Alignement de corpus Meilleure prise en compte du contexte n Réalisations linguistiques « attestées » n 11

Évaluation des logiciels TA n Quelques campagnes d’évaluation existantes : n n n Open.

Évaluation des logiciels TA n Quelques campagnes d’évaluation existantes : n n n Open. MT (Open Machine Translation, NIST) CESTA (Technolangue) Tâche à accomplir : traduction d’un texte d’une langue source vers une langue cible Protocole : on donne un texte au système, on compare le résultat (texte candidat) à une traduction faite par l’humain (texte référent), et on attribue une note Ressources n n Textes en langue source Traduction référence pour chaque texte 12

Eurotra n n n La France participe actuellement à un projet expérimental de Traduction

Eurotra n n n La France participe actuellement à un projet expérimental de Traduction Automatique de grande envergure, le projet "Eurotra". lancé vers 1975 objectif de mettre au point un système informatique multilingue capable de traduire des textes relatifs au fonctionnement de la Communauté Européenne depuis et vers - chacune des langue de la Communauté : anglais, allemand, danois, français, espagnol, grec, italien, néerlandais, portugais, soit 72 couples de langues. 13

Correction automatique 14

Correction automatique 14

Correction automatique n Correcteur orthographique vs grammatical 1. Orthographe d’usage ou lexicale • écriture

Correction automatique n Correcteur orthographique vs grammatical 1. Orthographe d’usage ou lexicale • écriture du mot en lui-même, sans considération des rapports qu’il entretient avec le reste de la phrase – ex. fôte, ortografe, lappin, etc. Orthographe grammaticale partie qui dépend des relations grammaticales 2. – accords : des faute d’orthographe, nous sommes venu – conjugaisons : je vous aimez, nous avons manger – homographes grammaticaux : c’est – ces –ses, à – a, etc. 15

Techniques Distinguer Vérification (détection des erreurs potentielles) n – Approche statistique de la détection

Techniques Distinguer Vérification (détection des erreurs potentielles) n – Approche statistique de la détection – Consultation de dictionnaires Correction (suggestions ordonnées pour corriger l’erreur identifiée) n 16

Techniques : distance lexicographique n n Calcul du nombre minimum d’insertion, suppression et substitution

Techniques : distance lexicographique n n Calcul du nombre minimum d’insertion, suppression et substitution de lettres nécessaires pour transformer un mot en un autre: – Suppression : beauoup – Insertion : beazcoup – Substitution : bezucoup – Interversion : baeucoup Puis vérification au dictionnaire Principe de base: les mots les plus proches seront proposés Exemple: – *Prèferrer préférer (distance=1) puis préféré, préfère (distance=2) puis préférée (distance=3) Exemple: prèferre 17

Techniques : réinterprétation phonétique n Algorithme: 1. mot inconnu phonétiseur transcription phonétique (ex. *puit

Techniques : réinterprétation phonétique n Algorithme: 1. mot inconnu phonétiseur transcription phonétique (ex. *puit /pyi/) 2. transcription phonétique = clé pour recher dans dictionnaire toutes les orthographes pour cette séquence de sons 3. si aucun mot n’est trouvé avec la transcription phonétique entière, quels mots orthographiques sont proches de la chaîne phonétique? 4. on propose comme correction le(s) mot(s) ainsi réinterprété(s) (puis, puits) 18

Evaluation 19

Evaluation 19

caractéristiques L’analyse en temps réel n Attirer l’attention de l’utilisateur afin de corriger Des

caractéristiques L’analyse en temps réel n Attirer l’attention de l’utilisateur afin de corriger Des propositions de correction n L’utilisateur peut être amener à compléter le dictionnaire intégré (noms propres) n Spécifiés de la langue: n n Anglais: Les mots s’écrivent toujours de la même façon 20

Antidote n Antidote est un logiciel de correction grammaticale et d’aide à la rédaction

Antidote n Antidote est un logiciel de correction grammaticale et d’aide à la rédaction en français qui réunit : n n n un correcteur : fait une analyse par phrase, souligne les erreurs et propose des corrections. dix dictionnaires: pour les définitions , synonymes, antonymes, … Dix guides linguistiques: pour la syntaxe, ponctuation, … 21

Antidote n Le prisme de révision: pour améliorer le contenu et le contenu Filtre

Antidote n Le prisme de révision: pour améliorer le contenu et le contenu Filtre de style: phrases longues n Filtre pour l’abréviation n 22

Recherche de l’information et fouille de texte 23

Recherche de l’information et fouille de texte 23

Définitions n n n Définition: retrouver des documents textuels répondant à un besoin d’information

Définitions n n n Définition: retrouver des documents textuels répondant à un besoin d’information spécifié par une requête recherche d'information : « Ensemble des méthodes, procédures et techniques permettant, en fonction de critères de recherche propres à l’usager, de sélectionner l’information dans un ou plusieurs fonds de documents plus ou moins structurés » . recherche de l'information : « Ensemble des méthodes, procédures et techniques ayant pour objet d’extraire d’un document ou d’un ensemble de documents les informations pertinentes » . 24

Méthodes de RI n Deux aspects: n n n Indexation des corpus l'interrogation du

Méthodes de RI n Deux aspects: n n n Indexation des corpus l'interrogation du fonds documentaire ainsi constitué. Les étapes de la RI n n Prétraitement: indexation du document Recherche: l’approche ensembliste (SQL) Mesures: pour sélectionner les meilleurs documents Prise en compte de l'utilisateur 25

Moteur de recherche n Le modèle de l’Information Retrieval : n n Constitué de

Moteur de recherche n Le modèle de l’Information Retrieval : n n Constitué de l’usager, la BDD des documents, et le spécialiste de l’information Un moteur de recherche est un logiciel permettant de retrouver des ressources, constitué des étapes: n L’exploration n Indexation n Recherche 26

Fouille de Texte n n définition: extraction des connaissances dans des textes Constituée des

Fouille de Texte n n définition: extraction des connaissances dans des textes Constituée des deux étapes: Analyse: reconnaître les mots, les phrases n Interprétation de l’analyse: pour faire la sélection n n Exemple: classification des courriers en spams 27

Architecture KENi. A® : Knowledge Extraction and Notification Architecture n développée dans le langage

Architecture KENi. A® : Knowledge Extraction and Notification Architecture n développée dans le langage Java en tenant compte de techniques et de ressources exclusivement linguistiques (aucun appel à la statistique) 28

Résumé automatique 29

Résumé automatique 29

Résumé automatique (Définition) n Une transformation réductrice d’un texte source vers un résumé par

Résumé automatique (Définition) n Une transformation réductrice d’un texte source vers un résumé par compression du contenu à l’aide d’une sélection et/ou généralisation de ce qui est important dans le texte source. 30

Fonction Auto. Summarize de MS Office 31

Fonction Auto. Summarize de MS Office 31

Caractéristiques d’un résumé n Indicatif ou Informatif n n n Extrait ou abrégé n

Caractéristiques d’un résumé n Indicatif ou Informatif n n n Extrait ou abrégé n n n Indicatif: indique la nature du texte Informatif: tente de se substituer au texte Extrait: phrases ou passages tirés du texte Abrégé: reformule, compresse le texte Court ou long n Taux de compression = 32

Mécanique de construction d’un résumé n n n Document → Repr. interne du document

Mécanique de construction d’un résumé n n n Document → Repr. interne du document → Repr. interne du résumé → Texte du résumé 33

Facteurs à considérer n Facteurs d’entrée: n n n Facteurs d’intentions: n n n

Facteurs à considérer n Facteurs d’entrée: n n n Facteurs d’intentions: n n n Forme: structure, type de langue, … Type de sujet: ordinaire, spécialisé. Audience: ciblée, non ciblée Utilisation: Tache (recherche, sommaire, …) Facteurs de sortie: n n Contenu: tous le sujet ou bien le sujet central Style: indicatif, informatif, . . 34

Approches étalon n Approche aléatoire n n On sélectionne n phrases au hasard dans

Approches étalon n Approche aléatoire n n On sélectionne n phrases au hasard dans le document Approche en-tête n On sélectionne les n premières phrases du document 35

Approche basée sur la RI n n Luhn 1958 Extrait = phrases significatives Une

Approche basée sur la RI n n Luhn 1958 Extrait = phrases significatives Une phrase significative contient des mots significatifs (mots-clés) Mots significatifs = entre A et B 36

Approches basée sur la structure du texte n n Edmundson 69 Mots-repères (cues) Mots-bonus:

Approches basée sur la structure du texte n n Edmundson 69 Mots-repères (cues) Mots-bonus: greatest, significant, … n Mots-malus: hardly, impossible, … n n Mots-titre n Mots-clés se trouvant dans le titre et les soustitres 37

Approches basée sur la structure du texte n Positionnement Début du texte n Fin

Approches basée sur la structure du texte n Positionnement Début du texte n Fin du texte n Première phrase d’un paragraphe n Dernière phrase d’un paragraphe n n Toutes les méthodes! n 1 Mots-repère + 2 Mots-clés + 3 Mots-titre + 4 Positionnement 38

Évaluation (Edmundson) n n Corpus d’entraînement avec des extraits sélectionnés manuellement (compression 25%) Comparaison

Évaluation (Edmundson) n n Corpus d’entraînement avec des extraits sélectionnés manuellement (compression 25%) Comparaison entre les résumés obtenus manuellement et automatiquement 39

Exemple n Pertinence Summarizer 40

Exemple n Pertinence Summarizer 40

Système de traduction automatique du langage texto 41

Système de traduction automatique du langage texto 41

Système de traduction automatique du langage texto n n Proposé à Université de Franche-Comté

Système de traduction automatique du langage texto n n Proposé à Université de Franche-Comté – Besançon – FRANCE Apparition du langage texto avec le développement des nouvelles formes de communication écrite : n Sur internet : chat, forum de discussion, courrier électronique (e-mail) n Sur téléphone portable : sms ( En 2003 : 8 milliards de SMS envoyés ) 42

Le langage texto : caractéristiques n n n simplification de la langue une situation

Le langage texto : caractéristiques n n n simplification de la langue une situation de communication particulière nécessitant une certaine précision de langage et une rapidité de réponse Objectif: n Être concis et compris n Besoin d’un traducteur et correcteur automatique 43

Traduction automatique n Utilité d'un tel système : n n Plusieurs niveaux d'utilisateurs :

Traduction automatique n Utilité d'un tel système : n n Plusieurs niveaux d'utilisateurs : novice, expert. (sur les 8 milliards de SMS envoyés en 2003, 75% l’ont été par les 8 -24 ans. Les utilisateurs qui en envoient le plus sont les 8 -15 ans : 55 textos par mois et par personne. [Que choisir, déc. 2003] ) Connaître les nouvelles tendances de troncation, de symboles utilisés. Si on ne connait pas la “norme” alors difficile de lire le texto : ➔ gain de temps à écrire ➔ perte de temps à déchiffrer 44

Traduction automatique n Intérêt d'un traducteur automatique C T ki ? --> c'était qui

Traduction automatique n Intérêt d'un traducteur automatique C T ki ? --> c'était qui ? n kestufé ? --> qu'est-ce que tu fais ? n n Publicité pour Nokia, 2002 : 45

La démarche n n Bi-directionnel : français-texto / texto-français Architecture générale n Trois étapes

La démarche n n Bi-directionnel : français-texto / texto-français Architecture générale n Trois étapes : 1 : lecture du texte source n 2 : langage pivot n 3 : génération du texte cible n 46

La démarche n n Etape 1 : Lecture du texte source L'utilisateur entre son

La démarche n n Etape 1 : Lecture du texte source L'utilisateur entre son texte : n Soit sous forme texto : n n HT du p 1 E D poiro (acheter du pain et des poireaux) Soit en français : n J'ai une bonne idée (G 1 bon ID) 47

La démarche n Etape 2 : Langage pivot Transcription à l'aide d'un système de

La démarche n Etape 2 : Langage pivot Transcription à l'aide d'un système de règles n Utilisation d'un langage pivot adéquat n 48

La démarche n n Etape 3 : Génération du texte cible A partir du

La démarche n n Etape 3 : Génération du texte cible A partir du langage pivot : n Système de règles pour générer le texte n Système de validation des formes produites n Pour sms-français : désambiguïsation lexico-syntaxique et sémantique n Pour français-sms : plusieurs productions sont possibles (ce qui correspond à la réalité) 49

Exemple n Phrase de départ : G 1 ID n Langage pivot : G

Exemple n Phrase de départ : G 1 ID n Langage pivot : G –> Ze n 1 –> U~/ yn yn@ n ID –> ide Génération du Français : n Ze –> jé, jet, jei, jais, jay, j'é, j'ai. . . n n n U~/ –> un, ein, ain, in. . . yn –> une, hune. . . Yn@ –> une, hune. . . n Ide –> idé, idée, idai. . . n n 50

Exemple n n Validation lexicale : n J'ai un/une idée(s) n Jet un/une idée(s)

Exemple n n Validation lexicale : n J'ai un/une idée(s) n Jet un/une idée(s) n Geai un/une idée(s) n Jais un/une idée(s) Analyses morpho-syntaxiques et sémantiques : n J'ai un/une idée(s) n Jet un/une idée(s) n Geai un/une idée(s) 51

1. Traitement de la parole Reconnaissance vocale 2. Synthèse vocale 52

1. Traitement de la parole Reconnaissance vocale 2. Synthèse vocale 52

Traitement de la parole n n Définition: des techniques permettent notamment de réaliser des

Traitement de la parole n n Définition: des techniques permettent notamment de réaliser des interfaces vocales c'est-à-dire des IHM où une partie de l'interaction se fait à la voix Constituée de: n Reconnaissance vocale n Synthèse vocale n Identification de locuteur n Vérification de locuteur 53

Traitement de la parole(exemples) n n Dictée vocale sur PC: a pour difficulté, la

Traitement de la parole(exemples) n n Dictée vocale sur PC: a pour difficulté, la taille de vocabulaire et la taille des phrases Applications téléphonique de type serveur vocal: a pour difficulté, la nécessité de reconnaître n’importe quelle voix dans toutes les conditions. 54

La reconnaissance vocale sert à retranscrire les mots prononcés par un locuteur lors de

La reconnaissance vocale sert à retranscrire les mots prononcés par un locuteur lors de traitement de textes. Cette fonction permet à l’utilisateur un gain de temps considérable. « Parlez à votre ordinateur et il retranscrit vos paroles à l’écran » n -1952 : reconnaissance des 10 chiffres, par un dispositif câblé. -1994 : IBM lance son premier système de reconnaissance vocale sur PC. -1997 : lancement de la dictée vocale en continue par IBM 55

Les principes de fonctionnement n Principe de fonctionnement 56

Les principes de fonctionnement n Principe de fonctionnement 56

Les principes de fonctionnement 1. 2. 3. 4. Le locuteur émet une phrase, une

Les principes de fonctionnement 1. 2. 3. 4. Le locuteur émet une phrase, une fois le son émis, il est capté par un microphone. Le signal vocal est ensuite numérisé à l’aide d’un convertisseur analogique-numérique. Le paramétrage du signal permet d’avoir une empreinte. Le décodage consiste à décrire le signal acoustique en termes d’unités linguistiques. Il a pour but de segmenter le signal, l’identification des différents segments se fait en fonction des contraintes phonétiques et linguistiques. 57

Principe n Traitement acoustique: numériser le signal de parole sous forme de vecteurs acoustiques

Principe n Traitement acoustique: numériser le signal de parole sous forme de vecteurs acoustiques de 30 ms par les techniques de traitement du signal n Apprentissage automatique: réalise une association entre les segments élémentaires de paroles et les éléments lexicaux par la technique des Modèles MARKOV cachés ou réseaux de neurones n Reconnaissance: en concaténant les segments élémentaires de paroles précédemment appris reconstitue le discours le plus probable 58

Les facteurs 59

Les facteurs 59

Les mots isolés n La phase d’apprentissage : Le locuteur prononce l’ensemble du vocabulaire

Les mots isolés n La phase d’apprentissage : Le locuteur prononce l’ensemble du vocabulaire souvent plusieurs fois afin de créer un dictionnaire de référence. n La phase de reconnaissance : Le locuteur un mot énoncé auparavant. n Pour reconnaître les mots émis par le locuteur il y a trois parties : n n Le CAPTEUR permettant d’appréhender le phonème physique considéré, nous dans notre cas c’est le microphone. Un signal est émis au microphone lorsque le locuteur parle. n La PARAMETRISATION des formes qui nous donne une empreinte c’està-dire la caractéristique du son (Temps/Fréquence/Intensité). n Et enfin l’IDENTIFICATION des formes « Tout les mots prononcés sont séparés par des silences de durée 60

La parole continue n 1ère approche : ASCENCANTE n n n Reconstruction de la

La parole continue n 1ère approche : ASCENCANTE n n n Reconstruction de la phrase à partir du signal. On se contente de le décrypter, cette approche est souvent utilisée pour un vocabulaire très restreint. 2ème approche : DESCENDANTE n Une sorte de prédiction du mot qu’il va falloir reconnaître. Cette approche permet à ne pas avoir à tester tout le dictionnaire de la machine « C’est un discours de phrases où les mots s’enchaînent sans moyen de se séparer, contrairement aux mots isolés » . 61

Applications n Chaque application a ses propres caractéristiques et ses performances : Débit du

Applications n Chaque application a ses propres caractéristiques et ses performances : Débit du flux de la parole. Pause entre les mots (mots isolés) ou non (parole continue). n Taille du vocabulaire reconnu. n Acceptation du bruit de fond. n 62

Applications n IMB : n n Avec un taux de reconnaissance à 97%, la

Applications n IMB : n n Avec un taux de reconnaissance à 97%, la dictée d’IBM est assez performante avec pour cadence 70 à 100 mots par minute. Par contre ce logiciel est incapable de retrouver le découpage des mots par leur sens comme pourrait le faire le cerveau humain. Dragon Naturally Speaking : n Ce logiciel est à la pointe de la technologie qui est marquée par une avancée très significative. Il permet une diction la plus naturelle possible, sans avoir à marquer de pauses entre les mots avec une cadence d’environ 130 mots par minute et même voir plus. Il possède un dictionnaire très varié (240000 mots) qui recouvre un vocabulaire accessible à tous. Et surtout, il peut accueillir plusieurs locuteurs. 63

Synthèse vocale La synthèse vocale est une technologie qui permet d'automatiser la production d'une

Synthèse vocale La synthèse vocale est une technologie qui permet d'automatiser la production d'une parole artificielle par une machine. • Processus qui permet de transformer un message symbolique ou un ensemble de paramètres de commandes, en message acoustique. • Synthèse à partir du texte : Text to speech n 64

Applications – lecture d ’e-mails ou de fax – sorties vocales pour tout type

Applications – lecture d ’e-mails ou de fax – sorties vocales pour tout type d ’information présente dans une Base de Données – sorties vocales pour tout type d ’information présente dans une interface – livres et sites web parlants – Utile pour les mal-voyants ou en cas d ’éclairage insuffisant 65

Situations favorables Message court • Interprétation du message simple (pas de répétition à la

Situations favorables Message court • Interprétation du message simple (pas de répétition à la demande de l ’usager) • Action relative au message immédiate • Les conditions ne favorisent pas la représentation visuelle (mauvais éclairage, l ’utilisateur bouge fréquemment, écran déjà surchargé d ’informations visuelles) • L ’opérateur à les mains occupées n 66

Situations défavorables Messages trop longs – lecture préférable alors… • Messages complexes par le

Situations défavorables Messages trop longs – lecture préférable alors… • Messages complexes par le sens qu’ils véhiculent – schéma ou explication textuelle détaillée préférables • Environnement très bruyant • Confidentialité nécessaire n 67

Les différentes générations n Synthèses vocales par règles (formants): générer un spectre sonore artificiel

Les différentes générations n Synthèses vocales par règles (formants): générer un spectre sonore artificiel à partir duquel on génère le signal acoustique de synthèse n La seconde génération: consisté à assembler des petits segments élémentaires de parole naturelle pour constituer n'importe quel énoncé synthétique souhaité. n synthèse vocale par diphones: Les sons synthétisés sont en fait des segments d'enregistrement de parole artificiellement attachés les uns à la suite des autres 68

Techniques de synthèse n 1. 2. 3. 4. n 1. 2. Traitements linguistiques: Le

Techniques de synthèse n 1. 2. 3. 4. n 1. 2. Traitements linguistiques: Le prétraitement du texte La transcription orthographique L’analyse grammaticale et lexicale L’analyse prosodique Traitements acoustiques: Les méthodes de fabrication du signal Modifications des paramètres prosodiques 69

Synthèse à partir de texte 70

Synthèse à partir de texte 70

D’autres types de synthèses n n n Synthèse par assemblage de mots Synthèse par

D’autres types de synthèses n n n Synthèse par assemblage de mots Synthèse par unité stockées Synthèse audio visuelle Le mouvement des lèvres n Agents visuels n 71

Conclusion n n Explosion du domaine Intégration des technologies connexes Traitement en langue naturelle

Conclusion n n Explosion du domaine Intégration des technologies connexes Traitement en langue naturelle n Recherche d’information n Linguistique n n n Avenir prometteur Encore beaucoup de travail 72

Bibliographie n n n n http: //fr. wikipedia. org/wiki/Traitement_automatique_du_langage_n aturel http: //fr. wikipedia. org/wiki/Fouille_de_textes

Bibliographie n n n n http: //fr. wikipedia. org/wiki/Traitement_automatique_du_langage_n aturel http: //fr. wikipedia. org/wiki/Fouille_de_textes http: //halshs. archivesouvertes. fr/docs/00/03/07/47/PDF/b 52 p 165. pdf http: //eprints. pascalnetwork. org/archive/00001071/01/Usunier_Rsm. Txt. pdf http: //www. multitel. be/TTS/Download/plaquettes/synthesis_fr. pdf http: //deptinfo. unice. fr/twiki/pub/Linfo/Planning. Des. Soutenances 200 32004/Benguigui-Ismais-Hamdan. pdf … 73