La classification de textes par les algorithmes de












- Slides: 12
La classification de textes par les algorithmes de Bayes naïfs
La classification supervisée de textes politique sports sciences Arsenal frappe fort ? Le troisième tour de la Cup ne s'est passé sans casse ce samedi pour les équipes de la Premiership. Le pire provient de Sheffield United, écrasé (3 -0) à domicile par une équipe de troisième division, Swansea. Le choc du week-end est revenu à Arsenal, vainqueur sur la pelouse de Liverpool (3 -1) avec un doublé du Tchèque Tomas Rosicky et un but de Thierry Henry. Ces deux formations se retrouveront dès mardi, toujours à Anfield, en quarts de finale de la League Cup. ?
Les hypothèses de l’algorithme de Bayes naïf n Il existe un modèle génératif de textes : c’est un modèle de mélange dont les composantes sont les catégories de documents. n La présence d’un mot dans un texte est indépendante de la présence des autres mots.
Deux algorithmes de Bayes naïfs distincts 1. Le modèle de Bernoulli multivarié Le troisième tour de la Cup ne s'est passé sans casse ce samedi pour les équipes de la Premiership. Le pire provient de Sheffield United, écrasé (3 -0) à domicile par une équipe de troisième division, Swansea. Le choc du week-end est revenu à Arsenal, vainqueur sur la pelouse de Liverpool (3 -1) avec un doublé du Tchèque Tomas Rosicky et un but de Thierry Henry. Ces deux formations se retrouveront dès mardi, toujours à Anfield, en quarts de finale de la League Cup. = Amazone Ambassade Arsenal But Chauve Domicile Drame Druide Équipe Finale … … Pataugeoire Pelouse Vainqueur Vêtement Zoologie Arsenal frappe fort [ 0 0 1 1 0 0 11. . . 0 1 10 0 ]
Deux algorithmes de Bayes naïfs distincts 2. Le modèle multinomial Arsenal frappe fort Le troisième tour de la Cup ne s'est passé sans casse ce samedi pour les équipes de la Premiership. Le pire provient de Sheffield United, écrasé (3 -0) à domicile par une équipe de troisième division, Swansea. Le choc du week-end est revenu à Arsenal, vainqueur sur la pelouse de Liverpool (3 -1) avec un doublé du Tchèque Tomas Rosicky et un but de Thierry Henry. Ces deux formations se retrouveront dès mardi, toujours à Anfield, en quarts de finale de la League Cup. = Football 3 But 5 Tour 1 Division 2 Mardi 1 Finale 3 Deux 1 Choc 1
Classification avec l’algorithme de Bayes naïf
Amazone Ambassade Arsenal But Chauve Domicile Drame Druide Équipe Finale … … Pataugeoire Pelouse Vainqueur Vêtement Zoologie Calcul de p(d|ci ) 1. Le modèle de Bernoulli multivarié b=[ 0 0 1 1. . . 0 1 1 0 0 ]
Calcul de p(d|ci ) 2. Le modèle multinomial Nj ≈ tirage des mots du dictionnaire avec remise : tirage selon une loi multinomiale Football 3 But 5 Tour 1 Division 2 Mardi 1 Finale 3 Deux 1 Choc 1
Création d’un « bon » dictionnaire n Les résultats varient beaucoup selon le dictionnaire utilisé à Suppression des mots vides de sens Recherche de radical Sélection grâce à l’information mutuelle : IM(C, mi ) = H(C) – H(C|mi ) à à
Résultats expérimentaux n Aujourd’hui facile de se procurer de grosses bases de données d’apprentissage grâce à Internet. à Le modèle de Bernoulli multivarié fonctionne mieux lorsque le dictionnaire est petit, alors que le modèle multinomial est plus performant avec des gros dictionnaires. à D’une manière générale, le modèle multinomial atteint des performances supérieures et est donc généralement à privilégier
Explications n Prendre en compte le nombre d’occurrences ne peut bien-sûr être que bénéfique n Le modèle de Bernoulli multivarié est dépendant de la taille des documents
Conclusion n L’algorithme de Bayes naïf est apparu pour la catégorisation de textes vers la fin des années 1990 mais il est toujours très utilisé car il est bien connu et simple à mettre en œuvre. n Néanmoins, cette méthode est aujourd’hui surpassée par d’autres algorithmes (SVM et k plus proches voisins notamment).