Lvolution du Web et les implications dun crawler
L’évolution du Web et les implications d’un crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler» , Junghoo Cho et Hector Garcia-Molina
Plan n Introduction ¡ ¡ n Expérience ¡ ¡ n n Définition Types Configuration Résultats Architecture d’un Crawler Incrémental Conclusion
Introduction
Introduction n Qu’est-ce qu’un crawler ? ¡ Programme qui collecte automatiquement des pages web pour construire un index ou une collection locale.
Fonctionnement d’un crawler n Généralement : ¡ ¡ Seed Urls Récupération des pages (à partir des seed) Extraction des Urls contenues dans ces pages Addition de celles-ci aux Urls à scanner
Illustration Seed Urls Ajout dans l’index Index / collection locale File de pages à visiter Ajout des Urls récoltées lors du parcours des pages
Types différents de crawler n 2 types : ¡ Le crawler periodique n ¡ Quand nous avons besoin de raffraîchir la collection, il recommence de zéro et remplace la collection par celle trouvée Le crawler incrémental n Continue à visiter les pages, même après l’atteignabilité de la taille maximum de la collection, puis lorsque l’on demande de remettre à jour la collection on remplace les pages selon leur «importance» .
Types différents de crawler n Le crawler incrémental est plus efficace que le crawler periodique. ¡ ¡ Par exemple le crawler incrémental n’aura besoin que de vérifier les pages ayant changées (probabilité) Donc la page à indexer sera indexée en moins de temps à l’aide de ce type de crawler
Expérience Configuration
Configuration de l’Expérience n Questions importantes : ¡ ¡ ¡ Quelle est la fréquence de changement d’une page ? Quelle est la durée de vie d’une page ? Combien de temps est nécessaire au WEB pour changer 50 % de ces pages ?
Configuration de l’Expérience n n Analysé 720’ 000 pages depuis 270 sites pendant 5 mois. Séléction des sites faites selon un critère de « popularité » ¡ n exemple: http: //yahoo. com, http: //microsoft. com , etc… Le nombre maximum de pages parcouru depuis ces sites est de 3’ 000.
Expérience Résultats
Résultats n Quelle est la fréquence de changement d’une page ? ¡ Si vous mesurez 5 changements et que la page est présente 20 jours dans la sélection des pages nous obtenons une valeur de 20/5 = 4. Ce qui signifie que la page change tout les 4 jours.
Résultats
Résultats
Résultats n Quelle est la durée de vie d’une page?
Résultats n Quelle est la durée de vie d’une page? ¡ 2 méthodes différentes pour calculer celle -ci : n n Calcul de la longueur normal (c’est-à-dire le temps que la page se trouve dans la fenêtre) On calcule le temps comme 2 s (où s est la période de temps où la page est présente dans la fenêtre)
Résultats
Résultats
Résultats n Combien de temps est nécessaire au WEB pour changer 50 % de ces pages? ¡ Remarque: n Lorsque une page disparaît de notre fenêtre d’analyse, elles sont considérées comme changée
Résultats
Architecture d’un Crawler Incrémental
Algorithme : Crawler Incrémental
Architecture
Conclusion
Conclusion n Nous venons de voir comment implémenter un crawler incrémental et comme nous l’avons vu celui-ci possède de nombreux avantages par rapport au crawler périodique
Références n n n « The Evolution of the Web and Implications for an Incremental Crawler » , Junghoo Cho, Hector Garcia-Molina Cours d’algorithmes pour le Web 20062007, J. Rolim http: //en. wikipedia. org/wiki/Web_crawl er
- Slides: 27