1 Introduction 1 1 Objectif du projet 1
1. Introduction 1. 1. Objectif du projet 1. 2. Répartition des tâches 2. Le Graphe des liens 2. 1. Descriptions 2. 2. Solutions 3. Differentiation article / rubrique 3. 1. Article 3. 2. Rubrique 4. Étude Terminologique 4. 1. Indexation des articles 4. 2. Indexation des termes Anthony LECOT / Antoine CAUCHARD 21 Juin 2004
Anthony LECOT / Antoine CAUCHARD 21 Juin 2004
Objectif du projet • faciliter l'accès au contenu d'un site de presse • par une étude terminologique de ce contenu • en utilisant une interface graphique basée sur les termes Anthony LECOT / Antoine CAUCHARD 21 Juin 2004
Répartition des tâches Les tâches préparatives Récupération du graphe de liens Différenciation article/rubrique Etude terminologique Les tâches d’interfacage Collecter les informations Créer l’interface Anthony LECOT / Antoine CAUCHARD 21 Juin 2004
Anthony LECOT / Antoine CAUCHARD 21 Juin 2004
Ouest France Page d’accueil 32 47 pages html 1356 421 pages html 12877 810 pages html Anthony LECOT / Antoine CAUCHARD 21 Juin 2004
Explications Anthony LECOT / Antoine CAUCHARD • Un lien : <a href=url>texte de lien</a> • Le graphe de liens • Éviter les redondances de graphe • Eviter les liens inutiles • Choisir une profondeur 21 Juin 2004
Anthony LECOT / Antoine CAUCHARD 21 Juin 2004
Différenciation d’un article Anthony LECOT / Antoine CAUCHARD • Formule de tri sur la base de données • Comptage du nombre de mots lors de la phase d’indexation 21 Juin 2004
Différenciation d’une rubrique Anthony LECOT / Antoine CAUCHARD • Formule de tri sur la base de données • Si un article est pointé par une rubrique (indexation) 21 Juin 2004
Anthony LECOT / Antoine CAUCHARD 21 Juin 2004
Indexation des articles • Récupération d’un article • Algorithme d’indexation d’un article par un schéma: Anthony LECOT / Antoine CAUCHARD 21 Juin 2004
Indexation des articles Anthony LECOT / Antoine CAUCHARD 21 Juin 2004
Indexation des termes • Stratégie pour récupérer les termes Mots pleins et mots vides, loi de Zipf Anthony LECOT / Antoine CAUCHARD 21 Juin 2004
Indexation des termes • Algorithme d’indexation des termes d’un article par un schéma: Anthony LECOT / Antoine CAUCHARD 21 Juin 2004
- Slides: 15