21 Reprage de linformation 15102021 Robert Godin Tous
21 Repérage de l’information 15/10/2021 © Robert Godin. Tous droits réservés. 1
Processus de base 15/10/2021 © Robert Godin. Tous droits réservés. 2
Furetage (browsing) Navigation dans un espace n Classification hiérarchique n Hypertexte n 15/10/2021 © Robert Godin. Tous droits réservés. 3
The ACM Computing Classification System (1998) : http: //www. acm. org/class/1998/ A. General Literature ·A. 0 GENERAL ·Biographies/autobiographies ·Conference proceedings ·General literary works (e. g. , fiction, plays) ·A. 1 INTRODUCTORY AND SURVEY ·A. 2 REFERENCE (e. g. , dictionaries, encyclopedias, glossaries) ·A. m MISCELLANEOUS B. Hardware ·B. 0 GENERAL ·B. 1 CONTROL STRUCTURES AND MICROPROGRAMMING (D. 3. 2) ·B. 1. 0 General ·B. 1. 1 Control Design Styles ·Hardwired control [**] ·Microprogrammed logic arrays [**] ·Writable control store [**] ·B. 1. 2 Control Structure Performance Analysis and Design Aids ·Automatic synthesis [**] ·Formal models [**] ·Simulation [**] ·… 15/10/2021 © Robert Godin. Tous droits réservés. 4
Classification Yahoo. fr Actualités et médias Sports et loisirs Sujets d’actualité, Télévision, Journaux. . . Commerce et économie B 2 B, Shopping, Emploi, Immobilier. . . Informatique et Internet, Logiciels, Matériel. . . Santé Foot, Tourisme, Auto/Moto, Jeux. . . Art et culture Littérature, Cinéma, Musique, Musées. . . Divertissement À voir, Loteries, Humour, Sorties. . . Exploration géographique Diététique, Médecine, Organismes. . . Enseignement et formation Primaire, Secondaire, Supérieur. . . Institutions et politique Ministères, Droit, Services publics. . . Sciences et technologies Animaux, Astronomie, Physique. . . Zones régionales, Pays, Europe, France. . . Références et annuaires Dictionnaires, Annuaires, Bibliothèques. . . Société Enfants, Gastronomie, Religion. . . Sciences humaines Archéologie, Histoire, Économie. . . 15/10/2021 © Robert Godin. Tous droits réservés. 5
20. 1 Indexation 15/10/2021 © Robert Godin. Tous droits réservés. 6
Variantes n n Granularité du document Nature des termes (descripteurs, mots-clés) – – – n n n Uniterme, multiterme (phrase), n-gramme, concepts, représentation conceptuelle, … Unilingue ou multilingue Chiffres, caractères spéciaux, … Lemmatisation, troncature Vocabulaire contrôlé ou libre Pondération 15/10/2021 © Robert Godin. Tous droits réservés. 7
Indexation automatique : principes de base n Mots "fonctionnels" sont inutiles – – n Adverbes, prépositions, . . . (et, ou, alors, le, la, les. . . ) Constitution d'un anti-dictionnaire ("stop list") Analyse des fréquences des termes – Termes fréquents dans un texte sont-ils bons? n n – mots fonctionnels sont fréquents. . . collection informatique: "informatique" ? Besoin de termes discriminants n pas fréquents pas tous les documents – n maximisent l'information – n 15/10/2021 valeur discriminante (vd) distinguent pertinents de non pertinents – n « signal-noise ratio » dispersent les documents – n « inverse document frequency » (idf) méthode probabiliste distribution “non aléatoire” au sens du repérage de l’information © Robert Godin. Tous droits réservés. 8
Indexation automatique de textes n 0) Segmentation – n 1) Éliminer les termes non significatifs – n n Anti-dictionnaire 2) Analyse lexicale -> radical/lemme – n Découpage en termes Porter pour l’anglais (liste suffixes) 3) Calculer le poids pij du terme ti dans chaque document dj 4) Conserver si pij > Seuil 15/10/2021 © Robert Godin. Tous droits réservés. 9
Pondération n pij formé de trois composantes – n (Salton & Buckley, 1988) Composante fréquence dans le document – – – 1. 0 fij 0. 5 + 0. 5 (fij /maxi(fij)) [0. 5, 1] n n (cf 1) (cf 2) (cf 3) variations dans la longueur des documents Composante normalisation – 15/10/2021 Diviser par la taille du vecteur © Robert Godin. Tous droits réservés. 10
Composante fréquence documentaire inverse 1. 0 n log (N / fdi) n – – – n 15/10/2021 N: nombre total de documents (|D|) fdi : fréquence de ti dans la collection (cf 2)+(cd 2) : « tfidf » log ((N - fdi) / fdi) – (cd 1) (cd 2) (cd 3) probalistic term relevance (Croft & Harper, 1975) © Robert Godin. Tous droits réservés. 11
Index sous forme de listes inversées n Implémentation – – n index + tables « Tableau trié » sur disque arbre digital (trie) … Informations supplémentaires – – 15/10/2021 poids localisation des termes © Robert Godin. Tous droits réservés. 12
Indexation par vocabulaire contrôlé n Approche à base de connaissances – n Règles acquises d'un expert (SE) Induction de règles à partir d'un corpus déjà indexé – 15/10/2021 Classification automatique © Robert Godin. Tous droits réservés. 13
Recherche plein texte pour petites collections n Algorithmes de recherche – – – n Fichiers de signatures – n KMP (Knuth, Morris & Pratt, 1977) BM (Boyer & Moore, 1977) … Superposition de codes pour filtrer les textes Inverser tout le texte 15/10/2021 © Robert Godin. Tous droits réservés. 14
20. 2 Modèle booléen Problème du tout ou rien n Formulation de requête difficile n 15/10/2021 © Robert Godin. Tous droits réservés. 15
20. 3 Modèle vectoriel Métrique du cosinus 15/10/2021 © Robert Godin. Tous droits réservés. 16
Limites principales du vectoriel Hypothèse d’indépendance des termes n Expressivité limitée de la requête n 15/10/2021 © Robert Godin. Tous droits réservés. 17
Intégration booléen/degré de pertinence Modèle flou n Modèle booléen étendu n Réseaux probabilistes n 15/10/2021 © Robert Godin. Tous droits réservés. 18
Booléen flou n n n sim(dj, q 1 ET q 2) = min[sim(dj, q 1), sim(dj, q 2)] sim(dj, q 1 OU q 2) = max[sim(dj, q 1), sim(dj, q 2)] sim(dj, NON q) = 1 - sim(dj, q) sim(dj, ti) = dij [0, 1] Problème – évaluation dominée par les petits poids dans les conjonctions et grands poids dans les disjonctions Variante Mixed Min and Max (MMM) (Fox, Betrabet, Koushik & Lee, 1992) – Combinaison linéaire de min et max n Paice (Fox et al. , 1992) – 15/10/2021 Tient compte de tous les poids © Robert Godin. Tous droits réservés. 19
Modèle étendu de requêtes Booléennes (Salton, Fox & Wu, 1983) n n n Généralisation de Booléen flou et vectoriel Pondération des termes dans documents et requêtes Possibilité de requêtes Booléennes Distance paramétrisée : p-norm Paramètre p [1, ∞] détermine l'interprétation – p = 1 : vectoriel n – p = ∞ : Booléen flou n 15/10/2021 Tous les termes sont utilisés Seulement le min ou max © Robert Godin. Tous droits réservés. 20
Feedback 15/10/2021 © Robert Godin. Tous droits réservés. 21
Feedback du système n Fréquence des termes de la sous-collection extraite (Ingwerson & Wormell, 1986) – n n n Nuages d’étiquettes Graphes des associations entre documents, termes. . . (Belew, 1989) Classification des documents extraits (Crouch, Crouch & Andreas, 1989; Cutting, Karger, Pedersen & Tukey, 1992) Requêtes "voisines" pertinentes à la collection (Carpineto & Romano, 1996; Godin, Davidson, Missaoui & Mili, 1993 a; Godin, Missaoui & April, 1993 b) 15/10/2021 © Robert Godin. Tous droits réservés. 22
Réaction de l’utilisateur Pertinence des documents extraits (relevance feedback) n Pertinence des termes n Sélection de classes/requêtes voisines n 15/10/2021 © Robert Godin. Tous droits réservés. 23
Apprentissage n Requête modifiée selon pertinence – – n Requête modifiée selon documents extraits – n n Query expansion Indexation modifiée (Belew, 1989; Brauen, 1971) – n Relevance feedback (Rocchio, 1971; Salton et al. , 1985) Probabiliste, RNA, génétique, … Hypertexte (liens entre documents) modifié Profil d’utilisateur – 15/10/2021 Système de recommandation © Robert Godin. Tous droits réservés. 24
Raffinements n Tenir compte de la structure du document – n Représentation plus riche – n Multi-termes, thesaurus, CG, DL, XML, RDF, Ontologies (OWL), Web sémantique, … Analyse de langue naturelle – n <title> plus important que <body>, … E. g. extraire groupes nominaux Modèles statistiques de la langue – – – Statistiques sur grands corpus P(Requête soit générée par un modèle de langue du Document) Estimer la probabilité d’une suite de termes n n n Latent Semantic Indexing (LSI) – n n P(terme|les termes qui précèdent) Modèle unigramme donne de bons résultats Réduction à un ensemble de dimensions “significatives” par décomposition matricielle Indexation par ensembles fréquents Apprentissage de la fonction d’appariement – 15/10/2021 Méthode d’apprentissage machine © Robert Godin. Tous droits réservés. 25
Thesaurus n Termes de requête vs termes d’index – n n Terme => concept Relations sémantiques entre termes – – n synonymes généralisation/spécialisation relié à … Construction – – n (Furnas, Landauer, Gomez & Dumais, 1983) manuel, automatique, assisté général ou par domaine Utilisation – – – 15/10/2021 à l'indexation expansion de requête métrique d’appariement © Robert Godin. Tous droits réservés. 26
Système de recommandation n Pas de requête « ad hoc » – – n Recommander des items pertinents au profil – n n Items semblables à ceux jugés pertinents auparavant Filtrage collaboratif – – n Exploiter les jugements de pertinence antérieurs Application populaire en commerce électronique Recommandation basée sur le contenu (content-based recommendation) – n Profil d’utilisateur Collection d’items qui évolue Exploiter patrons d’utilisation de communautés d’utilisateurs Recommander les items jugés pertinents par les utilisateurs semblables Recommandation hybride 15/10/2021 – © Robert Godin. Tous droits réservés. Contenu + collaboratif 27
Fouille de textes (text mining) n Extraction d’une représentation du texte – n E. g. indexation automatique Fouille de données sur la représentation – – regroupement classification automatique n Détection 15/10/2021 de pourriel © Robert Godin. Tous droits réservés. 28
Exploiter les liens entre documents Exploiter les termes documents reliés n Exploiter les étiquettes des liens hypertextes n – n Forme d’indexation sociale Plus de liens = plus de pertinence ? - 15/10/2021 HITS : page d’autorité, page hub Page Rank (Google) © Robert Godin. Tous droits réservés. 29
Analyse du graphe du Web n Hyperlink-Induced Topic Search (HITS) de Kleinberg – – ap : poids d’autorité de la page p hp : poids hub de la page p n – initialisés à 1/n (n : nombre de pages) Répéter jusqu’à convergence : I(p) : pages qui pointent vers p – O(p) : pages pointées par p Normaliser : – n 15/10/2021 © Robert Godin. Tous droits réservés. 30
Page. Rank de Google n n n Ne distingue pas entre autorité et hub rp : Page. Rank d’une page Principe de base – n r = r. T M – – n n Importance d’une page est fonction de l’importance des pages qui lui font référence Mpq = 1/||O(p)|| si la page p pointe vers la page q Mpq = 0 autrement Page p sans hyperlien – Mpq = (1/n) si ||O(p)|| = 0 – Pour convergence (chaîne de Markov irréductible) M’ = M+ (1 - ) E où Eij = 1/n – Probabilité (1 - ) de sauter à une page quelconque 15/10/2021 © Robert Godin. Tous droits réservés. 31
Ordonnancement Google n Page. Rank global + n Indexation automatique du contenu – Pondération basée sur n fréquence, fonte, position dans la page, … 15/10/2021 © Robert Godin. Tous droits réservés. 32
Repérage d’images n n Texte d’accompagnement Analyse automatique du contenu – Indexation par propriétés visuelles génériques n – Extraction de patrons + dépendants du domaine n n couleur, patrons de texture, de forme. . . ex: visages, empreintes digitales Métadonnées spécifiques aux images – – – 15/10/2021 dimensions type d’encodage, de compression (TIFF, GIF, . . . ) encodage de la couleur (CMYK, RGB, . . . ) processus d’imagerie (type de scanner, date, . . . ) surtout pour experts authenticité (signatures digitales, . . . ) © Robert Godin. Tous droits réservés. 33
Oracle inter. Media n UDT pour image, son, vidéo – ORDImage, ORDAudio, ORDVideo n Support n de formats normalisés Stockage – – BLOB Externe : BFILE, URL, serveurs spécialisés, … Extraction et stockage de métadonnées n Serveurs spécialisés pour contrôle de flux n 15/10/2021 © Robert Godin. Tous droits réservés. 34
Architectures de services bibliographiques Protocole client/serveur : service Z 39. 5 n Normes de méta-données bibliographiques n – n MARC, USMARC Comment choisir la bonne source ? – projets de Bibiothèques Électroniques n métadonnées 15/10/2021 sur collections et service © Robert Godin. Tous droits réservés. 35
Architectures Web n Moteurs de recherche – ne voient pas le Web profond (deep Web : contenu dynamique provenant de BD) n – – Dublin Core Metadata Element Set RDF Web sémantique Architectures de courtiers – – n World Wide Database (WWD) indexation limitée Méta-données Web – n 100 fois plus de données que le Web de surface ! COIN, Info. Sleuth, Information Manifold, TSIMMIS (Stanford-IBM), … Traduction entre sources hétérogènes Médiateurs : vue virtuelle intégrée (modèle commun) de sources hétérogènes Ontologies Repérage de Pair à Pair (P 2 P, Peer to Peer) – Projet Ju. XTApose (JXTA : http: //www. jxta. org) n Accès au Web profond Méta-données en XML n Espace de requête (~namespace) n – – 15/10/2021 Processus d’enregistrement auprès de HUB JXTA Agents mobiles © Robert Godin. Tous droits réservés. 36
Étiquetage Retour de l’indexation manuelle ! n Étiquette (tag) n – – n mot clé donné par un utilisateur pour représenter une ressource vocabulaire libre Étiquetage social (folksonomy) – – 15/10/2021 dans un contexte collaboratif combinaison des étiquettes différents utilisateurs © Robert Godin. Tous droits réservés. 37
Nuage d’étiquettes (tag cloud) Ensemble d’étiquettes pondérées n Taille de la fonte d’une étiquette en fonction de son poids n – n fréquence du terme Représentation d’une collection de ressources – n 15/10/2021 pages d’un site Web, résultat d’une requête, … Mécanisme de navigation © Robert Godin. Tous droits réservés. 38
Évaluation n n Rappel : (Extraits Pertinents) / Pertinents Précision : (Extraits Pertinents) / Extraits 15/10/2021 © Robert Godin. Tous droits réservés. 39
Oracle : Indexation de colonnes textuelles Paramétrage de l’indexation: (sections, langue, stemmer, antidictionnaire, …) 15/10/2021 © Robert Godin. Tous droits réservés. 40
CONTAINS et SCORE 15/10/2021 © Robert Godin. Tous droits réservés. 41
Oracle : Indexation textuelle de XML 15/10/2021 © Robert Godin. Tous droits réservés. 42
Requête approximative textuelle sur chemin 15/10/2021 © Robert Godin. Tous droits réservés. 43
Combinaison structuré/semistructuré/indexation automatique 15/10/2021 © Robert Godin. Tous droits réservés. 44
- Slides: 44