Comment classer les pages web Principe du moteur
Comment classer les pages web
Principe du moteur de recherche • Mise en mémoire des pages web • Associer chaque page à des mot-clefs • Objectif : Classification selon deux critères : pertinence et popularité
Première approche
Exploitation
Comptage naïf Avec le comptage naïf, la page 1 et la page 9 arrivent en tête : m 1 = m 9 = 4.
Comptage pondéré l j : Nombre de liens émis par la source j vers i. La page 7 reçoit des liens depuis les pages 5, 6 et 8. Venant de la page 5, il s'agit d'un lien parmi 3 liens émis, ℓ 5 = 3. De même, ℓ 6 = ℓ 8 = 2. Donc avec le comptage pondéré, m 7 = 1 / ℓ 5 + 1 / ℓ 6 + 1 / ℓ 8 = 1/3 + 1/2 = 4/3.
Comptage récursif m : poids de la source j vers i. P 1 P 2 P 3 P 4 P 5 P 6 P 7 P 8 P 9 P 10 P 11 P 12 M = ( 2 ; 1 ; 1 ; 3 ; 1 ; 2 ; 1 ; 1 )
Promenade aléatoire P 1 P 2 P 3 P 4 P 5 P 6 P 7 P 8 P 9 P 10 P 11 P 12 t=0 0. 00 1. 00 0. 00 t=1 0. 00 1. 00 0. 00 t=2 0. 00 0. 33 0. 00 t=3 0. 17 0. 00 0. 33 0. 00 0. 17 0. 00 t=4 0. 00 0. 04 0. 42 0. 11 0. 00 0. 04 t=5 0. 12 0. 02 0. 11 0. 14 0. 25 0. 14 0. 12 0. 02 t=29 0. 12 0. 06 0. 06 t=30 0. 12 0. 06 0. 06 …
Cas des « trous noirs » m = (0, 0, 0, 1).
Modèle utilisé par Google (c/n) provient de la « téléportation » Avec 0 < c ≤ 1 Pour échapper aux trous noirs, Google utilise un modèle plus raffiné : avec une probabilité fixée c, le surfeur abandonne sa page actuelle Pj et recommence sur une des n pages du web, choisie de manière équiprobable; sinon, avec la probabilité 1 − c, le surfeur suit un des liens de la page Pj, choisi de manière équiprobable. Cette astuce de « téléportation » évite de se faire piéger par une page sans issue, et garantit d’arriver n’importe où dans le graphe.
Conclusion • Pour être utile, un moteur de recherche doit non seulement énumérer les résultats d’une requête, mais les classer par ordre d’importance. Or, estimer la pertinence des pages web est un profond défi de modélisation. • En première approximation, Google analyse le graphe formé par les liens entre pages web. Interprétant un lien j → i comme « vote » de la page Pj en faveur de la page Pi, le modèle Page-Rank (6) définit une mesure de « popularité » . • Le théorème du point fixe assure que cette équation admet une unique solution, et justifie l’algorithme itératif (5) pour l’approcher. Celui-ci est facile à implémenter et assez efficace pour les graphes de grandeur nature. • Muni de ces outils mathématiques et d’une habile stratégie d’entreprise, Google gagne des milliards de dollars. Il fallait y penser !
Source • http: //interstices. info/jcms/c_47076/commen t-google-classe-les-pages-web
- Slides: 12