Profilage de textes Pierre Luc Carrier IFT 6010

Problèmes typiques Catégorisation de documents Sujet Type (roman, texte journalistique, …) Niveau de langue

Problèmes typiques (suite) Reconnaissance et vérification d’auteurs Évaluation de documents historiques Détection de cas

Plan de la présentation Méthodes traditionnelles Méthodes basées sur les caractères Méthodes visuelles

Méthodes traditionnelles 1. 2. Extraction de caractéristiques à partir des documents Entraînement d’un classifieur

Extraction de caractéristiques Caractéristiques « token-level » Caractéristiques syntaxiques Richesse du vocabulaire Fréquences relatives

Extraction de caractéristiques Caractéristiques « token-level » Mesures élémentaires relatives aux mots et signes

Extraction de caractéristiques Caractéristiques « token-level » Exemples • Nombre de mots • Nombre

Extraction de caractéristiques Caractéristiques syntaxiques Caractéristiques relatives à la structure des phrases Souvent complexes

Extraction de caractéristiques Caractéristiques syntaxiques Exemples Fréquences de catégories syntaxiques (noms, verbes, adjectifs, etc.

Extraction de caractéristiques Richesse du vocabulaire Correspond à la diversité du vocabulaire d'un texte

Extraction de caractéristiques Richesse du vocabulaire Mesure proposée par Yule (1944) Mesure proposée par

Extraction de caractéristiques Richesse du vocabulaire Mesure proposée par Brunet (1978) Mesure proposée par

Extraction de caractéristiques Richesse du vocabulaire Mesure proposée par Simson (1949) Toutefois, richesse du

Extraction de caractéristiques Fréquences relatives de mots usuels Calcul simple et rapide La difficulté

(PCA : Principal Component Analysis… Permet, pour un ensemble d’observations corrélées, d’obtenir les vecteur

. . . PCA : Principal Component Analysis) Exemple 1 : 1. http: //en.

Extraction de caractéristiques Caractéristiques d'analyse Introduites par E. Stamatatos 1 Représentent la façon dont

(Article de E. Stamatatos 1. . . Propose un ensemble de caractéristiques pouvant être

. . . Article de Stamatatos 1. . . 1. E. Stamatatos, N. Fakotakis

. . . Article de Stamatatos 1. . . Utilisation du chunker SCBD Sentence

. . . Article de Stamatatos 1. . . Caractéristiques utilisées « Token-level »

. . . Article de Stamatatos 1. . . Mesures utilisées (suite) Mesures d'analyse

. . . Article de Stamatatos 1. . . Classifieurs employés Basé sur une

. . . Article de Stamatatos 1. . . Résultats L'analyse discriminante obtient généralement

. . . Article de E. Stamatatos 1) Résultats (suite) L'approche proposée a également

Entraînement d’un classifieur Classifieur souvent utilisés dans la littérature 1 Arbres de décision Réseaux

Méthodes basées sur les caractères Un texte est rien de plus qu’une séquence de

Méthodes basées sur les caractères Exemple : Entraîner un modèle n-gramme pour chaque catégorie

Méthodes visuelles Méthodes se concentrant sur l’apparence d’un document plutôt que sur son contenu

Méthodes visuelles Méthode de Bagdanow et Worring 1 Séparer un document en zones de

Méthodes visuelles Méthode de Bagdanow et Worring 1 Pour chaque classe à reconnaître, généraliser

Slides: 36

Download presentation

Profilage de textes Pierre Luc Carrier IFT 6010

Problèmes typiques Catégorisation de documents Sujet Type (roman, texte journalistique, …) Niveau de langue Etc.

Problèmes typiques (suite) Reconnaissance et vérification d’auteurs Évaluation de documents historiques Détection de cas de plagiats Etc.

Plan de la présentation Méthodes traditionnelles Méthodes basées sur les caractères Méthodes visuelles

Méthodes traditionnelles 1. 2. Extraction de caractéristiques à partir des documents Entraînement d’un classifieur sur les caractéristiques extraîtes

Extraction de caractéristiques Caractéristiques « token-level » Caractéristiques syntaxiques Richesse du vocabulaire Fréquences relatives de mots usuels Catégorisation inspirée de E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author. 2001.

Extraction de caractéristiques Caractéristiques « token-level » Mesures élémentaires relatives aux mots et signes de ponctuation présent dans le texte. Souvent simples et rapides à calculer Largement utilisées

Extraction de caractéristiques Caractéristiques « token-level » Exemples • Nombre de mots • Nombre de phrases • Longueur moyenne des mots • Nombre moyen de mots par phrases • Nombre et fréquences des signes de ponctuation • Etc.

Extraction de caractéristiques Caractéristiques syntaxiques Caractéristiques relatives à la structure des phrases Souvent complexes à obtenir Requièrent généralement l'utilisation d'un POS-tagger ou davantage Il n’est pas toujours possible de les extraire de façon fiable à partir d’un texte avec les outils actuels

Extraction de caractéristiques Caractéristiques syntaxiques Exemples Fréquences de catégories syntaxiques (noms, verbes, adjectifs, etc. ) Proportion de phrases passives/actives Fréquence de nominalisations • Ex : « Rouge est une couleur » Etc.

Extraction de caractéristiques Richesse du vocabulaire Correspond à la diversité du vocabulaire d'un texte Généralement peu coûteux à calculer Plusieurs métriques différentes, proposées par divers auteurs

Extraction de caractéristiques Richesse du vocabulaire Mesure proposée par Yule (1944) Mesure proposée par Honoré (1979)

Extraction de caractéristiques Richesse du vocabulaire Mesure proposée par Brunet (1978) Mesure proposée par Sichel (1975)

Extraction de caractéristiques Richesse du vocabulaire Mesure proposée par Simson (1949) Toutefois, richesse du vocabulaire peu utilisée en pratique car mesures peu fiables pour des textes < 1000 mots. 1 1. M. Lustrek, Overview of Automatic Genre Identification. 2007.

Extraction de caractéristiques Fréquences relatives de mots usuels Calcul simple et rapide La difficulté tient dans la sélection des mots appropriés • Grand nombre de mots possibles • Les mots appropriés pour un type de texte ne le sont pas nécessairement pour un autre • L'utilisation d'une PCA sur les fréquences des mots les plus fréquent donne de bons résultats

(PCA : Principal Component Analysis… Permet, pour un ensemble d’observations corrélées, d’obtenir les vecteur composantes principales. Utilité : – – Réduction de dimensionnalité Décorrélation des composantes des observations Bref, plus facile d'apprendre un classifieur

. . . PCA : Principal Component Analysis) Exemple 1 : 1. http: //en. wikipedia. org/wiki/File: Gaussian. Scatter. PCA. png

Extraction de caractéristiques Caractéristiques d'analyse Introduites par E. Stamatatos 1 Représentent la façon dont un texte a été traité par un chunker 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author. 2001.

(Article de E. Stamatatos 1. . . Propose un ensemble de caractéristiques pouvant être utilisé pour classifier un texte selon l'auteur et/ou le genre Cherche à tirer parti de la façon dont un texte est analysé (pas seulement le résultat de l'analyse) 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author. 2001.

. . . Article de Stamatatos 1. . . 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author. 2001.

. . . Article de Stamatatos 1. . . Utilisation du chunker SCBD Sentence and Chunk Boundaries Detector Analyse le texte en 5 itérations • Les premières permettent d'analyser les éléments les plus simples • Les dernières traitent les éléments les plus complexes 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author. 2001.

. . . Article de Stamatatos 1. . . Caractéristiques utilisées « Token-level » • Nb phrases / Nb mots • Nb signes de ponctuation / Nb mots • Nb phrases / Nb débuts de phrase possibles Syntaxiques • Nb de {NP, VP, AP, PP, CON} / Nb chunks • Nb moyen de mots par {NP, VP, AP, PP, CON} 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author. 2001.

. . . Article de Stamatatos 1. . . Mesures utilisées (suite) Mesures d'analyse • Nb mots clef / Nb mots • Nb mots spéciaux / Nb mots • Nb descriptions morphologiques assignées / Nb mots • Nb moyen de descriptions morphologiques assignées à des chunks / Nb chunk • Nb mots non-analysés après {1, 2, 3, 4, 5} passes d'analyse 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author. 2001.

. . . Article de Stamatatos 1. . . Classifieurs employés Basé sur une régression multiple Analyse discriminante 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author. 2001.

. . . Article de Stamatatos 1. . . Résultats L'analyse discriminante obtient généralement de meilleurs résultats que la régression multiple Caractéristiques les plus importantes • Selon les valeurs absolues des coefficients obtenus pour la régression multiple • En général, « Token-level » > Analyse > Syntaxiques pour détection de genre et reconnaissance d'auteur 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author. 2001.

. . . Article de E. Stamatatos 1) Résultats (suite) L'approche proposée a également été comparée à d'autres approches • Utilisation des fréquences des {30, 50} mots les plus fréquent de la langue • Utilisation de 5 formules différentes pour calculer la richesse du vocabulaire • Toutefois, ces approches sont trop simples pour évaluer objectivement les gains obtenus. 1. E. Stamatatos, N. Fakotakis et G. Kokkinakis. Automatic Text Categorization in Terms of Genre and Author. 2001.

Entraînement d’un classifieur Classifieur souvent utilisés dans la littérature 1 Arbres de décision Réseaux bayesiens naïfs Machine à vecteurs de support Analyse discriminante KNN Etc. 1. M. Lustrek, Overview of Automatic Genre Identification. 2007.

Plan de la présentation Méthodes traditionnelles Méthodes basées sur les caractères Méthodes visuelles

Méthodes basées sur les caractères Un texte est rien de plus qu’une séquence de caractères Intéressant pour les langages sans délimitation entre les mots (chinois, japonais, …)1 Indépendance vis-à-vis la langue du texte 1. M. Lustrek, Overview of Automatic Genre Identification. 2007.

Méthodes basées sur les caractères Exemple : Entraîner un modèle n-gramme pour chaque catégorie de texte Un texte peut ensuite à assigné à une classe selon : Probabilité d’appartenance à chaque classe 1 Cross-entropie avec chaque classe 2 Etc. 1. F. Peng, Language and Task Independent Text Categorization with Simple Language Models. 2003. 2. W. Teahan, Text Classification and Segmentation Using Minimum Cross. Entropy. 2000

Plan de la présentation Méthodes traditionnelles Méthodes basées sur les caractères Méthodes visuelles

Méthodes visuelles Méthodes se concentrant sur l’apparence d’un document plutôt que sur son contenu Utilisées pour les documents disponibles sous forme d’image (documents numérisés, etc. ) Peu d’informations semblent disponibles dans la littérature

Méthodes visuelles Méthode de Bagdanow et Worring 1 Séparer un document en zones de texte Construire un graphe décrivant la structure du document Un nœud par zone de texte avec attributs tels que position, taille et police de caractère Relations entre les nœuds associés à des zones de texte voisines 1. A. D. Bagdanow et M. Worring, Content-Free Document Genre Classification Using First Order Random Graphs. 2001.

Méthodes visuelles Méthode de Bagdanow et Worring 1 Pour chaque classe à reconnaître, généraliser les graphes documents de cette classe en un seul. Classification d’un document selon la ressemblance entre son graphe et les graphes associées à chacune des classes. 1. A. D. Bagdanow et M. Worring, Content-Free Document Genre Classification Using First Order Random Graphs. 2001.

Questions?