Thomas Hassan Rafael Peixoto Christophe Cruz Aurelie Bertaux
Thomas Hassan Rafael Peixoto, Christophe Cruz, Aurelie Bertaux, Nuno Silva thomas. hassan@u-bourgogne. fr Laboratoire LE 2 I – UMR CNRS 6306 – Université de Bourgogne Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France Approche Big Data et Web Sémantique pour la fouille et la classification automatique de données Web
1. Contexte, Problématique 2. Processus Modèle prédictif Limites 3. Nouveau Processus 4. Conclusion 5. Travaux futurs Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France Plan 2
Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France Contexte <#>/17
Processus d’analyse de données adapté aux grands volumes de données et à des connaissances métier. Passage à l’échelle Hétérogénéité des données Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France Contexte Verrou scientifique : 4
La Classification Multi-Label Hiérarchique (HMC) est la combinaison de la Classification Multi. Label et de la Classification Hiérarchique 6 Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France Modèle prédictif
Classification WORKS with Standard DL Reasonners Tax Classification DOESN’T WORK with Standard DL Reasonners Tax 10 Tax 11 Tax 2=Tax 3 Tax 4 Tax 5 Tax… Tax 12 Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France Modèle prédictif
Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France Limites Résultats : Delicious Dataset 8
Index Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France Nouvelle architecture Big. Data Architecture : processus à 5 phases distinctes 9
Nouvelle architecture Big. Data Montée en charge Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France Utilisation du framework Hadoop et du modèle Map. Reduce Comment distribuer chacune des phases du processus ? Dean, J. , & Ghemawat, S. (2008). Map. Reduce: simplified data processing on large clusters. Communications of the ACM, 51(1), 107 -113. 10
Parsing, Traitement du Langage Naturel* Index * Tokenisation, Lemmatisation, Suppression des mots Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France 1. Indexation Génération d’un index des termes 11
Index * Tokenisation, Lemmatisation, Suppression des mots vides Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France 1. Indexation Distribution de l’index 12
• Uni-grams (termes) • N-grams (collocations) - Amélioration Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France 2. Vectorisation Détection des termes pertinents basée sur l’index 13
Algorithme de collocations (Map. Reduce) Sequence Files Liste de collocation { uni-grams + n-grams } 14 Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France 2. Vectorisation - Collocation Génération de la liste des termes et des n-grams
Liste de collocation { uni-grams + n-grams } Liste des fréquences Seuil de pertinence Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France 2. Vectorisation - Vecteurs Génération des vecteurs de fréquences 15
Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France 3. Hiérarchisation Génération de la hiérarchie de concepts 16
3. Hiérarchisation Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France Algorithme de subsomption P X De Knijff, Jeroen and Frasincar, Flavius and Hogenboom, Frederik, 2013. Domain taxonomy learning from text: The subsumption method versus hierarchical clustering, Data & Knowledge Engineering, pp. 54 -69 17
3. Hiérarchisation Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France Algorithme de subsomption Map. Reduce Seuil de pertinence De Knijff, Jeroen and Frasincar, Flavius and Hogenboom, Frederik, 2013. Domain taxonomy learning from text: The subsumption method versus hierarchical clustering, Data & Knowledge Engineering, pp. 54 -69 18
Thésaurus Triple Store Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France 3. Hiérarchisation Hiérarchie chargée dans un triple store 19
Clauses de Horn (SWRL) % W 1 W 2 W 3 W 4 W 5 W 6 W 7 Tax 1 0 0 5 25 25 Tax 2 0 75 0 0 0 75 5 Tax 3 0 0 75 0 25 0 0 Tax 4 5 25 25 0 5 93 25 Tax 5 95 0 0 0 60 0 5 Tax 6 0 60 0 95 0 0 90 Tax 7 5 98 5 60 25 0 79 Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France 4. Résolution Génération de règles de classification 20
Clauses de Horn (SWRL) Approche « diviser pour régner » % W 1 W 2 W 3 W 4 W 5 W 6 W 7 Tax 1 0 0 5 25 25 Tax 2 0 75 0 0 0 75 5 Tax 3 0 0 75 0 25 0 0 Tax 4 5 25 25 0 5 93 25 Tax 5 95 0 0 0 60 0 5 Tax 6 0 60 0 95 0 0 90 Tax 7 5 98 5 60 25 0 79 21 Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France 4. Résolution Génération de règles de classification
Règles Triple Store Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France 4. Résolution Génération de règles de classification 22
Règles Triple Store L 1 L 2 L 3 L 4 L 5 Doc 1 x x Doc 2 x x x Doc 3 x x - Doc 4 x - Doc 5 x x - Doc 6 x x Doc 7 x x - Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France 5. Réalisation Utilisation des règles SWRL pour classer Vecteurs « item » 23
• Algorithmes Map. Reduce • N-grams • Raisonneur basé sur les règles Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France Conclusion Prototype fonctionnel d’analyse des données 24
Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France Travail futur Evaluation de la performance du processus : 25
Travail futur Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France Evaluation de la qualité de la hiérarchie : Utilisation de jeux de données standards (exemple Repub). Comparaison entre la hiérarchie générée et la hiérarchie de référence (étalon) Données de test HMC Sémantique Hiérarchie de référence 26
Travail futur • Lien avec des bases de connaissance lexicales (type Wordnet) • Lien avec des bases de connaissances générales • Lien avec la taxonomie d’entreprise. • Extraction d’événements complexes basés sur les bases de connaissances. 27 Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France Amélioration de la définition des concepts :
HMC Sémantique Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France Travail futur Rapprochement avec la connaissance métier : Validation des concepts 28
Laboratoire LE 2 I – UMR CNRS 6306 – Université de Bourgogne Thomas Hassan – thomas. hassan@gmail. com - Equipe de projet Checksem – Laboratoire Electronique Informatique et Image (LE 2 I – UMR CNRS 6306) IUT Dijon-Auxerre – Université de Bourgogne, BP 47870, 21078 Dijon Cedex, France RESEARCH & BUSINESS APPROACH 29
- Slides: 28