Karen Chabriac Jacques Piot CRDP Midi Pyrnes janvier
Karen Chabriac Jacques Piot CRDP Midi. Pyrénées janvier 2008 1
PREMIÈRE PARTIE PRÉALABLES A LA RECHERCHE
La première des choses à faire quand on se lance dans une recherche sur le Web, c'est de ne pas aller sur le web lancer son automate préféré
10 règles d'or –Briser le réflexe Google : l'enlever des bureaux des postes de travail ou y mettre des “Google personnels”. –Savoir questionner : mobilisation des idées, cerner le sujet, définir le concept, le traduire en mots-clés –Maïtriser les outils de recherche : avoir une connaissance approfondie d'au moins deux outils et croiser les réponses (ex http: //twingine. com/ ) ou Google/Exalead ou Google/Ujiko –Maîtriser les outils de navigation (gestion des signets, récupération des données) –Interroger prioritairement son fonds avec le logiciel local puis élargir éventuellement à partir des documents trouvés.
10 règles d'or connaître les sites référence qui servent de point de repère, bons sites d'un domaine, portails spécialisés exerçant une veille spécialisée ex : http: //crdp. acamiens. fr/edd 2/ analyser l'information trouvée déterminer sa qualité, les dates trouvées, regarder les “métatags” en code source, appliquer une grille d'analyse, faire preuve d'esprit critique systématique face à l'information du Net ex : http: //www. webalpa. net/ garder des traces de sa recherche par le bookmark local ou utiliser un moteur personnalisable qui gardera en mémoire l'historique de vos recherches ( Google history, Ujiko, Copernic. . . ) ou encore utiliser le partage de signets sur serveur externalisé (del. icio. us) rester clair sur ses objectifs et ses critères (trajectoire parcourue et qui reste à parcourir) cher en conjuguant les outils classiques et la navigation liée
STRATEGIE : Deux préalables avant toute recherche : avoir compris le mode de fonctionnement des outils pour choisir le mieux adapté à la question avoir pensé sa recherche et prendre le temps de définir une stratégie
STRATEGIE : Utiliser les bons mots-clés trouver les bons mots-clés ; eviter terme trop généraux, choisir de préférence des noms; choisir le nombre de mots saisir correctement les mots dans l'outil choisi , vérifier de l'importance de l' ordre des mots utiliser un thésaurus en ligne : Motbis par ex utiliser les propositions de moteurs utilisant la “clusterrisation” TA d' Exalead en informatique un cluster est un ensemble de données ou d'éléments présentant des similarités. cher des synonymes avec des dictionnaires , utiliser les encyclopédies pour trouver des notions associées des concepts liés ou voisins , , ,
DEUXIEME PARTIE LA RECHERCHE D'INFORMATIONS
Les tendances de la recherche d'information : (A. Serres) De la dépendance à l' autonomie de l'usager De la maîtrise des stocks à la surabondance des flux De la validation « à priori » à la validation « à postériori De la rareté à l' explosion des outils et modes de recherche du « retrouvage booléen » à la sérendipité une place est désormais laissée au hasard : Notion de sérendipité : découverte par chance de résultats que l’on attendait pas. Fondée sur intuition, association d’idées. . . du modèle de l' accés à celui du traitement de l' information 9
Sur le web : 2 approches méthodologiques dominantes L’approche par mots clés : recherche par mots clés sur le texte intégral. ‣ Qualité de la recherche dépend du choix des mots clés : nombre, précision, combinaison. . . • L’approche par exploration des sources : identifier des sources d’information pertinentes par rapport à la requête : sites phares ‣ Utilisation des outils de recherche intégrés à ces sources, et navigation hypertextuelle. Suppose une bonne connaissance des sources 1 0
Troisième PARTIE LES OUTILS DE RECHERCHE
Outils de recherche : les grandes catégories • Les annuaires : ressources catégorisées (plutôt répertoire) : dmoz • apparentés aux annuaires : les listes de signets structurées ex BNF, BPI, , • Les moteurs de recherche : recherche par mots clés sur les contenus • Les métamoteurs : interrogation simultanée de plusieurs moteurs : Copernic, Kartoo • Les multimoteurs : (pas de retraitement des flux des moteurs) ex : Lecdi. net, manhack, Zefab Veosearch • Les portails et sites spécialisés: point d’accès à des ressources et services multiples. 1 2
Les portails fédérateurs d’outils de recherche : Multimoteurs • Regroupe en une seule interface un grand nombre d’outils de recherche : trois exemples ‣http: //manhack. net/ : Manhack. net est un outil de veille et de recherche sur internet permettant d'interroger, en quelques clics et à partir d'un seul et même formulaire plusieurs outils (moteurs, dictionnaires, blogs, bases de données. . . ‣Zefab. info : centre de recherche d'information. Portail d’accès à un grand nombre d’outils de recherche, classés par catégories. ‣lecdi. net est un portail de recherche documentaire C’ est un outil de type métamoteur qui permet un accès rapide et simultané au contenu de plusieurs sites sélectionnés. 1 3
TP : 20 minutes • consigne : je découvre les outils que je ne connais pas : • les signets structurés de la BNF, BPI • les moteurs ujiko, exalead • le portail de la recherche : Zefab • Les multimoteurs : (pas de retraitement des flux des moteurs) ex : Lecdi. net, manhack, net,
Les Annuaires : Tendances et Exemples • A l’heure actuelle, les annuaires sont délaissés. • Annuaires généralistes : Google Directory utilise DMOZ Annuaire Yahoo Dmoz (annuaire contributif et bénévole) quasiment seul “survivant” : repérage et sélection par internautes 1 5
Les Portails et sites spécialisés Définitions : – "Ressource accessible via Internet, constituant un point d'accès unique, simplifié, facile d'emploi et unifié, pour un public cible, à des ressources (services, produits) électroniques distantes, variées et hétérogènes". (Sylvie Dalbin, Instruments de recherche sur le Web, in La Recherche d'information sur les réseaux, cours INRIA 2002) – Un site Web considéré comme le point d’entrée d’autres sites Web, souvent en constituant ou en offrant l’accès à un moteur de recherche. 1 6
Les Portails et sites spécialisés : les grandes catégories Portails généralistes : ex : Portails des fournisseurs d’accès Internet ex : free. fr, Wanadoo. . . Portails spécialisés : ex : Portail de la culture ; • Sites spécialisés : ex éducation pour la défense ; éducation pour la santé ; EDD • Base de données spécialisées : ex Educasources 1 7
Les Moteurs de Recherche : Définition - Caractéristiques Définition : outil automatisé d’indexation et de recherche des ressources du web Interrogeables par mots clés • Généralistes (Google, Yahoo, Exalead , MSN. . . ) • ou spécialisés ( Google Scholar, Spinoo, in-extenso. org. . . ) voire personnel (Google Piot ) 1 8
Les Moteurs de Recherche : Définition - Caractéristiques Fonctionnement : 3 modules autonomes : • robot collecteur ( spider ou crawler): collecte des données dans les milliards de pages • module d’indexation : base de données du moteur qui contient tous les mots significatifs des pages visitées par le robot d'exploration • module de requête : gestion des requêtes et des résultats
Fonctionnement des moteurs de recherche : la collecte des données ‣ Les robots collecteurs explorent les réseaux de liens et parcourent les différentes ressources du Web soit de manière aléatoire soit à la suite d’une demande de référencement. S'y ajoute le parcours des liens à l’intérieur des pages ‣ Les données ainsi collectées par le robot permettent alors la constitution d’une base de données qui contiendra alors tous les mots significatifs des pages visitées par le robot d'exploration 2 0
Fonctionnement des moteurs de recherche : la collecte des données La collecte est au coeur du système une part croissante est indexée il est difficile d'obtenir des chifffres précis sur le volume indéxé: l'index de google est mis à jour quotidiennement. les index de moteurs sont répartis sur plusieurs machines (+ de 50000 serveurs pour Google sur plus d'une dizaine de « Data Center » 2 2
Fonctionnement des moteurs de recherche : la construction des index Deux méthodes de traitement et d’indexation • Analyse linguistique (reconnaissance des mots) : • Analyse statistique (fréquence des mots)
Fonctionnement des moteurs de recherche : la construction des index : analyse linguistique • • Les moteurs de recherche utilisent des techniques d’indexation automatisée Quatre niveaux : morphologique, lexical (lemmatisation d' Exalead par ex), syntaxique, sémantique (pas utilisé par les moteurs à ce jour) 2 4
Les Moteurs de Recherche : Affichage et classement des résultats (relevance ranking) méthodes de classement : – tri par indice de densité du mot-clef, indice de pertinence : calculs statistiques sur la fréquence des termes… nbre d'occurence – tri par popularité : indice de popularité, – …. + positionnement payant. . . 2 5
Les Moteurs de Recherche : Affichage et classement des résultats (relevance ranking) L’indice de pertinence : mesure fondée à la fois sur la fréquence d’apparition des termes de la requête dans la page et sur la localisations. Pondération des termes (poids plus grand s’il s’agit des termes du titres, des metatags, du début de la page. . . ). Cet indice est présent sur la majorité des moteurs de recherche • L’indice de popularité : Critère de classement introduit par Google (Page Rank). Mesure fondée sur les hyperliens : les pages web les plus citées (liens fournit par d’autres pages) sont considérées comme les plus populaires et pertinentes donc classées en premier. ‣ En découlent les algorithmes de pertinence propres à chaque moteur et gardés secrets. 2 6
Les Moteurs de Recherche : Gestion des requêtes et Présentation des résultats • Néanmoins, quelques problèmes posés : ‣ Spamdexing : consiste ainsi à ajouter des mots-clés sans rapport avec la page et à les dissimuler aux yeux des visiteurs. Parmi les techniques souvent considérées comme du spamdexing citons les suivantes : • La mise en place de mots-clés de la même couleur que le fond de page (invisible words), • l'ajout de mots-clés dans les méta tags sans aucun rapport avec la page, la répétition de mots-clés (appelé aussi bourrage de motsclés, en anglais keywords stuffing), • Le détournement de pages web (pagejacking). . . (source CCM) 2 7
Règles de base pour l’utilisation des moteurs on note un effort des producteurs de moteurs pour normaliser les syntaxes d'interrogation (le – veut dire sauf, les « « encadrent une expression. . . ) • Les majuscules, minuscules et accents: différences dans la prise en compte ou non de la casse. - Même principe pour les accents • Les opérateurs + et + : présence obligatoire du mot dans la page - : absence obligatoire du mot dans la page • 2 8
Les Moteurs de Recherche Quelques avancées et tendances • La personnalisation ‣ ‣ ‣ Au delà de la personnalisation de l'interface et des préférences : stockage des éléments d'information ; historique des recherches ex 1 : Ujiko (technologie Yahoo) : mémorisation et personnalisation des recherches ; url annotées, cochées, coup de coeur, filtrées, supprimées ex 2 : « sauvegarde les résultats ; Google « my Search History » ex 3 : Mozbot (technologie Google) : 20 dernières recherches ; mise en favoris, exclusion, envoi par mail, suggestions de mots ‣ Prise en compte des requêtes précédentes. . . ‣ Possibilité de créer son propre moteur de recherche (Google CSE) Google Custom Search Engine. 2 9
Quelques outils pour faciliter la recherche d'information sur internet Google CSE : moteur Google personnalisé ex : http: //www. google. com/coop/cse/ XIPPEE : module additif (pour firefox, yahoo, . . . ) http: //www. xippee. com/default. aspx Addififs pour Firefox de technologies de l' Open. Search http: //fr. wikipedia. org/wiki/Open. Search Opensearch. Fox permet de rajouter des sites ou moteurs dans la barre Web Search Pro permet d'organiser et de ranger ces éléments dans des groupes pour des réponses multiples à une requête unique
TP : Nouveaux outils de recherche • 1 Créer son moteur personnalisé démonstration collective (l'enregistrement est trop long: voir fiche jointe à l'article du stage sur cdi_acad • 2 demo xippee : ajouter le module xippee de firefox utilisez avec Google • 3 demo firefox Opensearch : ajouter les modules additifs de firefox pour l'Open. Search 3 2
- Slides: 30