Recuperacin de informacin Information Retrieval Raquel Trillo Lado

  • Slides: 47
Download presentation
Recuperación de información Information Retrieval Raquel Trillo Lado (raqueltl@unizar. es) Sistemas de Información Distribuido(http:

Recuperación de información Information Retrieval Raquel Trillo Lado (raqueltl@unizar. es) Sistemas de Información Distribuido(http: //sid. cps. unizar. es) Raquel Trillo, 13 de marzo

Guión: Recuperación de Información Recuperación de información en grandes corpus documentales n n Introducción

Guión: Recuperación de Información Recuperación de información en grandes corpus documentales n n Introducción Arquitectura genérica de un sistema de Recuperación de información n El modelo booleano n El modelo vectorial n El modelo probabilístico n Los índices invertidos n Técnicas de compresión Recuperación de información en la web n Introducción: directorios y buscadores n Funcionamiento de los buscadores web n Las bibliotecas digitales Raquel Trillo, 13 de marzo

RI en corpus documentales Introducción RI trata el problema de recuperar los documentos relevantes

RI en corpus documentales Introducción RI trata el problema de recuperar los documentos relevantes a una necesidad de información expresada en forma de consulta (query) dada una colección de documentos (texto no estructurado). n Ejemplo 1: w Corpus: Noticias publicadas en un determinado periódico w Consulta (query): Las noticias acerca de los partidos Barcelona-Madrid n Ejemplo 2: w Corpus: Historial médico de todos los aragoneses w Consulta (query): Área donde viven los enfermos afectados por legionela Raquel Trillo, 13 de marzo

RI en corpus documentales Introducción En la mayoría de los casos no basta un

RI en corpus documentales Introducción En la mayoría de los casos no basta un simple emparejamiento de patrones (pattern matching). n Ejemplo 1: w Un documento en el que aparezcan las palabras Barcelona, Madrid y partido de futbol no tiene porque ser relevante a la consulta. n Ejemplo 2: w Un documento en el que no aparezcan las palabras legionela enfermo puede ser relevante para la consulta. w Un documento en el que se hable de síntomas de neumonía en un paciente puede ser relevante w Un documento donde se denomine a la enfermedad con el nombre científico Legionella pneumophila. Raquel Trillo, 13 de marzo

RI en corpus documentales Introducción Es un problema distinto al abordado en el campo

RI en corpus documentales Introducción Es un problema distinto al abordado en el campo de las BDs: n n n Se trata con objetos (datos) que tienen una estructura y semántica bien definida a través del modelo relacional o modelo entidad-relación Existe un lenguaje de consulta definido para recuperar los datos: el álgebra relacional o el sql. Ejemplo 1: w Una base de datos donde se almacenaran los partidos de futbol de los últimos años. w Select * from partido where local=‘Barcelona’ and visitante=‘Madrid’; Raquel Trillo, 13 de marzo

RI en corpus documentales Introducción Un modelo de RI se compone de: n Un

RI en corpus documentales Introducción Un modelo de RI se compone de: n Un formalismo para representar documentos y consultas (queries) n Una medida de similaridad entre un documento y una consulta. Existen diferentes modelos: n Modelo Booleano. w El primero por lo tanto el más antiguo n Modelos vectoriales n Modelos probabilísticos Raquel Trillo, 13 de marzo

RI en corpus documentales Introducción Para evaluar la efectividad de los modelos y técnicas

RI en corpus documentales Introducción Para evaluar la efectividad de los modelos y técnicas de RI: n Precision: nº de doc. relevantes recuperados/ nº total de doc. recuperados n Recall: nº de doc. relevantes recuperados/ nº total de doc. Relevantes Corpus documental Doc. Recuperados Documentos relevantes n Curva precision/recall: Calcular la precisión para distintos niveles de recall n Corpus TREC y la competición Raquel Trillo, 13 de marzo

RI en corpus documentales Introducción Además de ser efectivo un sistema de RI debe

RI en corpus documentales Introducción Además de ser efectivo un sistema de RI debe ser: n Eficiente (rápido, bajo coste en espacio, . . . ) RI no sólo trata modelos para representar documentos y consultas (queries) sino también: n Métodos de almacenamiento de documentos w Métodos de compresión. w Métodos de indexación de documentos n Métodos de organización de documentos w Almacenamiento de metadatos y búsquedas de metadatos w Clasificación automática de documentos (text classification) w Agrupamiento de documentos similares (clustering) Raquel Trillo, 13 de marzo

Arquitectura genérica de un sistema de Recuperación de información Interfaz de Usuario Texto documentos

Arquitectura genérica de un sistema de Recuperación de información Interfaz de Usuario Texto documentos Texto Interfaz de usuario consulta Módulo de operaciones Representación Módulo de operaciones de texto Representación de documentos de queries Buscador Módulo de gestión Indexador Ficheros de Ranking índices invertidos Índices sobre los documentos Raquel Trillo, 13 de marzo Colección de documentos

Arquitectura genérica de un sistema de Recuperación de información Módulo de gestión de documentos

Arquitectura genérica de un sistema de Recuperación de información Módulo de gestión de documentos n n Parsear los documentos que forman la colección para extraer información de ellos (autor, título, palabras clave, extraer metadatos, clasificar los documentos. . . ) Acceder a los documentos o a la información asociada a estos Módulo de operaciones de texto n Transformar el documento original en una representación del mismo (vista lógica): w En general la vista lógica consiste en una secuencia de términos (terms). Técnicas tradicionalmente empleadas son las stoplist y los stemmers w Otras técnicas empleadas: Procesamiento de lenguaje natural (NLP), obtención de estadísticas por ejemplo para obtener el sentido de una determinada palabra o para obtener representaciones basadas en pares de términos como ‘data bases’. Raquel Trillo, 13 de marzo

Arquitectura genérica de un sistema de Recuperación de información Módulo de operaciones de texto

Arquitectura genérica de un sistema de Recuperación de información Módulo de operaciones de texto n Transformar la consulta (query) original en una representación de la misma (vista lógica). Esto no se aplica en todos los modelos. Módulo de indexación n Construir índices sobre los documentos. w Los más conocidos y probados son los ficheros invertidos o índices invertidos. w La unidad de indexación es el término (term): una palabra, una frase, conjunto de palabras o frases o una raíz (stem) n Los recursos de tiempo y espacio que conllevan la creación de índices se amortizan en la recuperación. Raquel Trillo, 13 de marzo

Arquitectura genérica de un sistema de Recuperación de información Módulo de operaciones de queries:

Arquitectura genérica de un sistema de Recuperación de información Módulo de operaciones de queries: n Expansión de términos de la representación (vista lógica) de la query. w Ejemplo: ‘coche’ pasa a ser ‘coche o auto o carro’ w Pueden obtenerse mediante: n n Recursos lingüísticos como Thesaurus Léxicos (Word. Net) n Otros recursos como ontologías n Mediante un proceso de relevance feedback por parte del usuario Eliminación de términos Módulo de búsqueda n Busca en los índices para lograr matchings entre las representaciones de los documentos y la query. Raquel Trillo, 13 de marzo

Arquitectura genérica de un sistema de Recuperación de información Módulo de ranking: n n

Arquitectura genérica de un sistema de Recuperación de información Módulo de ranking: n n Ordena los documentos recuperados de acuerdo con la relevancia respecto a la query A veces también se cierra el ciclo aquí con relevance feedback. Otros módulos: Compresores n n Para reducir el espacio que ocupa el almacenamiento de los documentos y los índices Fundamentalmente se distingue entre técnicas de compresión que permiten la búsqueda sobre texto comprimido y entre las que no. (Las primeras son más eficientes) Raquel Trillo, 13 de marzo

Modelo Booleano 1º modelo de recuperación de información Se utilizó en: n Bibliotecas: Buscar

Modelo Booleano 1º modelo de recuperación de información Se utilizó en: n Bibliotecas: Buscar información en los resúmenes (abstracts) de los libros. n Documentos legales en E. E. U. U. , el sistema Lexis Nexis. n Documentos médicos. Cada documento se representa por una lista de bits (0 o 1) que indican si en ese documento aparece determinado término o no. n Ejemplo 1: w Lista de términos: CASA, ES, VERDE, AZUL, AMARILLA, CARA, BARATA. w Documento: “Mi casa es amarilla y barata” -> vista lógica (1, 1, 0, 0, 1) w Consulta 1 (query): Casa and barata -> (1, 0, 0, 0, 1) Raquel Trillo, 13 de marzo

Modelo Booleano w Consulta 2 (query): Casa and (amarilla or azul) -> (1, 0,

Modelo Booleano w Consulta 2 (query): Casa and (amarilla or azul) -> (1, 0, 0, 0) or (1, 0, 0, 0, 1, 0, 0) n Ejemplo 2: w Consulta (query): (coste OR precio) AND papel w Documento 1: “El coste del papel aumentó un 5%” (Documento relevante) w Documento 2: “El precio de los alimentos aumentó” (Documento no relevante) Ventajas: n Existen implementaciones eficientes mediante operaciones con bits e índices invertidos Problemas: n Dificultad de los usuarios para expresar queries booleanas n Recupera muy pocos documentos o demasiados Raquel Trillo, 13 de marzo

Modelo Booleano Extendido En lugar de considerar sólo 0 y 1 en los vectores

Modelo Booleano Extendido En lugar de considerar sólo 0 y 1 en los vectores considera la frecuencia con que aparece un término en un documento. Ventajas: n n Se puede hacer un ranking de los documentos recuperados: los que tienen frecuencias más altas en los términos indicados por el usuario/a van antes que los documentos con menos apariciones en dichos términos. Dio lugar al Modelo Vectorial (Vector Space Model) Raquel Trillo, 13 de marzo

Modelo Vectorial Marcó el inicio de la investigación en el campo de la RI.

Modelo Vectorial Marcó el inicio de la investigación en el campo de la RI. Ofrece altas prestaciones y permite ranking. Las queries y los documentos se representan mediante vectores. n n Dimensión del espacio vectorial es la cardinalidad del conjunto de términos En modelos avanzados se usan técnicas de reducción de las dimensiones Cada dimensión representa la frecuencia para cada término (El nº de veces que aparece un término en un documento) Ejemplo: w Considerar un vocabulario de 3 términos A, B y C w Sean Di documentos tales que: - D 1 contiene los términos A, B y C una vez - D 2 contiene el término A una vez - D 3 contiene los términos A y B una vez Raquel Trillo, 13 de marzo

Modelo Vectorial B D 1 D 3 D 2 A C Para obtener el

Modelo Vectorial B D 1 D 3 D 2 A C Para obtener el ranking se considera la similaridad a través del coseno del ángulo que forman la query y los documentos. Raquel Trillo, 13 de marzo

Modelo Vectorial Si X e Y son dos vectores y alfa el ángulo que

Modelo Vectorial Si X e Y son dos vectores y alfa el ángulo que forman: n X Y = |X| |Y| cos (alfa) n Cos (alfa) = X Y / |X| |Y| n Cos (alfa) € [0 -1] w Cuanto más parecidos sean X e Y más próximo a 1 será el cos (alfa) w Cuanto más diferentes sean X e Y más próximo a 0 estará el cos(alfa) Ejemplo: n Consulta (query) q: documentos con A y B n q = <1, 1, 0> n D 1 = <1, 1, 1> n D 2 = <1, 0, 0> n D 3 = <1, 1, 0> Raquel Trillo, 13 de marzo

Modelo Vectorial n q D 1 = 1 1 + 0 1 = 2

Modelo Vectorial n q D 1 = 1 1 + 0 1 = 2 n |q| = sqrt(1^2 + 0^2) = sqrt(2) n |D 1| = sqrt(1^2 + 1^2) = sqrt(3) n Cos(q y D 1) = 2/(sqrt(2) sqrt(3)) = 2 / (1. 414 )(1. 732) = 2 / 2. 449 = 0, 81 n q D 2 = 1 1 + 1 0 + 0 0 = 1 n |D 2| = sqrt(1^2 + 0^2) = sqrt(1)=1 n Cos(q y D 2) = 1/(sqrt(2) 1)= 1/sqrt(2)= 1 / 1. 414 = 0. 707 n q D 3 = 1 1 + 0 0 = 2 n |D 3| = sqrt(1^2 + 0^2) = sqrt(2) n Cos(q y D 3) = 2/(sqrt(2))= 2 / 2 = 1 Raquel Trillo, 13 de marzo

Modelo Vectorial Existen muchas variantes considerando otras medidas de similitud: n Dice: similaridad (X,

Modelo Vectorial Existen muchas variantes considerando otras medidas de similitud: n Dice: similaridad (X, Y) = (2 X Y )/ (X^2 Y^2) n Jaccard: similaridad (X, Y) = (X Y) / (X^2 + Y^2 - |X||Y|) Otras variantes: n En lugar de considerar la frecuencia de los términos (tf: term frequency) consideran la frecuencia inversa de los términos (idf). w Las palabras de menor frecuencia en un documento son más informativas n Utilizar log(idf) en lugar de valores absolutos w Con frecuencias bajas las considera muy similares, sin embargo las frecuencias altas las considera muy distantes (No es lo mismo cambiar de 1 a 2 que de 25 a 26, le da más importancia al cambio de 25 a 26) Raquel Trillo, 13 de marzo

Modelo Vectorial Ventajas: n Poco coste computacional n Muy popular: SMART (Sistema libre) n

Modelo Vectorial Ventajas: n Poco coste computacional n Muy popular: SMART (Sistema libre) n Alto rendimiento Inconvenientes: n n Asume independencia de términos (cada dimensión se trata de forma independiente de las otras) No tiene en cuenta el tamaño de los documentos (en documentos más grandes es más probable encontrar más términos) Raquel Trillo, 13 de marzo

Modelo probabilístico Estrategia adaptativa, las anteriores eran representativas y tiene un mayor fundamento lógico-matemático

Modelo probabilístico Estrategia adaptativa, las anteriores eran representativas y tiene un mayor fundamento lógico-matemático (las anteriores se basaban en heurísticas). Estudia la probabilidad de relevancia dada una query q y un documento Di: n Probabilidad (Di sea relevante a q/ Di tiene las características X) = = p(rel/x) Hace el ranking de los documentos recuperados ordenándolos según la probabilidad de relevancia. Raquel Trillo, 13 de marzo

Índices invertidos Son una estructura eficiente para almacenar datos a los que se necesita

Índices invertidos Son una estructura eficiente para almacenar datos a los que se necesita acceder. Son independientes del modelo de RI que se use A cada término relevante de los documentos (del vocabulario) se le asocian los documentos en los que aparece y el offset dentro de estos donde está. Compromiso entre coste de construir el índice y aumento de la velocidad de acceso a la información n Corpus de más de 200 Mb compensa. Raquel Trillo, 13 de marzo

Técnicas de compresión En la última década la cantidad de colecciones de texto ha

Técnicas de compresión En la última década la cantidad de colecciones de texto ha crecido exponencialmente n n La web ha explotado llegando a ser una gran base de datos de texto. Hay numerosas bases de datos documentales específicas (linguisticas, jurisprudencia, datos coorporativos, bibliotecas digitales, etc. ) Las técnicas de compresión ahorran espacio y tiempo de transmisión. Las técnicas de compresión clásicas como Ziv-Lempel no son adecuadas para bases de datos de textos porque en general no permiten búsquedas en texto comprimido. Las nuevas técnicas si permiten buscar en texto comprimido. Raquel Trillo, 13 de marzo

Técnicas de compresión Diferentes tipos de códigos: n Códigos orientados a carácter (Huffman) w

Técnicas de compresión Diferentes tipos de códigos: n Códigos orientados a carácter (Huffman) w En primer lugar se calcula la frecuencia de cada símbolo del vocabulario w Los símbolos más frecuentes se codifican con palabras más cortas w Es un código de lóngitud variable y de prefijo libre n Códigos orientados a palabras (Plain Huffman) w Similar al anterior pero considera como vocabulario las palabras en lugar de los símbolos. w Cada código es una secuencia de bytes en lugar de bits w En general se obtiene un ratio de compresión mayor que codificando símbolos. n Tagged Huffman y End Tagged Dense Code. w Nuevas técnicas Laboratorio Bases de Datos Universidad de A Coruña Raquel Trillo, 13 de marzo

RI en corpus documentales Bibliografía: n Information Retrieval, Ricardo Baeza-Yates w 2 volúmenes. Cubre

RI en corpus documentales Bibliografía: n Information Retrieval, Ricardo Baeza-Yates w 2 volúmenes. Cubre algoritmos de stemming y búsqueda de cadenas n Managing Gigabytes, Moffat and Zobel w Cubre detalles de implementación de RI y Recuperación de imágenes. n Information Retrieval, Gerard Salton w Es un libro clásico, la última versión es de 1989 n Information Retrieval, Jerry Kowalski w Un buen resumen de las arquitecturas de los sistemas de RI. Raquel Trillo, 13 de marzo

RI en corpus documentales Otras fuentes: Conferencias: n SIGIR (Conference on Research & Development

RI en corpus documentales Otras fuentes: Conferencias: n SIGIR (Conference on Research & Development on Information Retrieval) n SIGMOG (International Conference Management of Data) n CIKM (Conference on Information and Knowledge and Management) Otras fuentes: Revistas: n Journal of the American Society of Information Science (JASIS) n ACM Transactions on Information Systems Raquel Trillo, 13 de marzo

Guión: Recuperación de Información Recuperación de información en grandes corpus documentales n Introducción n

Guión: Recuperación de Información Recuperación de información en grandes corpus documentales n Introducción n Arquitectura genérica de un sistema de Recuperación de información n El modelo booleano n El modelo vectorial n El modelo probabilístico n Los índices invertidos n Técnicas de compresión Recuperación de información en la web n Introducción: directorios, buscadores, metabuscadores, buscadores semánticos n Funcionamiento de los buscadores web n La web oculta Raquel Trillo, 13 de marzo

Arquitectura genérica de un sistema de Recuperación de información Crawlers o arañas Usuario Texto

Arquitectura genérica de un sistema de Recuperación de información Crawlers o arañas Usuario Texto Interfaz de usuario consulta Módulo de operaciones Representación Módulo de operaciones de texto Representación de documentos de queries Buscador Módulo de gestión Indexador Ficheros de Ranking índices invertidos Índices sobre los documentos Raquel Trillo, 13 de marzo Colección de documentos

Recuperación de información en la web: Introducción Directorios de búsqueda: n Organización manual de

Recuperación de información en la web: Introducción Directorios de búsqueda: n Organización manual de las páginas en unas categorías. n Ejemplos: w Yahoo empezó siendo un directorio de búsqueda w Hoy en día la mayoría de los buscadores mantienen también un directorio. n Inconvenientes: Organización manual y cubren una parte muy pequeña de la web Motores de búsqueda o buscadores: n n Los motores de búsqueda son sistemas que buscan en Internet cuando les pedimos información sobre algún tema. Normalmente por palabras clave. Ejemplos: w Altavista, Google, Alltheweb. . Raquel Trillo, 13 de marzo

Recuperación de información en la web: Introducción Metabuscadores: n n Definición: Buscadores que buscan

Recuperación de información en la web: Introducción Metabuscadores: n n Definición: Buscadores que buscan en buscadores y luego integran sus resultados en tiempo real. Se han utilizado para mejorar la relevancia en buscadores en Internet. Mediante algoritmos de ponderación: Meta. Crawler, Savvy. Search, Multibuscador, . . . n En entorno corporativo surgen como soluciones de ‘búsqueda federada’ n Dificultades: w Traducción de consultas del formato general al de la fuente: Traducción de sintaxis y postprocesados w Construcción de ‘envoltorios’ sobre los buscadores origen. w Relevancia ponderada de resultados: relevancia del origen, de la fuente. . . w Eficiencia en las consultas Raquel Trillo, 13 de marzo

Recuperación de información en la web: Introducción Buscadores semánticos: n n Son buscadores que

Recuperación de información en la web: Introducción Buscadores semánticos: n n Son buscadores que tienen en cuenta los distintos significados semánticos de las palabras. Ejemplo: w Java puede referirse a la ciudad, al lenguaje de programación o incluso al café. . . n Ejemplos: w Vivísimo, Sem. Search, . . . Raquel Trillo, 13 de marzo

RI en web: Funcionamiento de los buscadores web Motores de Recuperación de información web:

RI en web: Funcionamiento de los buscadores web Motores de Recuperación de información web: n n Construcción de un gran índice de palabras sobre todos los documentos del web estático. Búsquedas por palabras clave o keywords sobre el índice, obteniendo granularidad de documento. Problemas adicionales de investigación: n Construcción del índice (arañas o crawling) n Distribución del índice (gran volumen de información) n Algoritmo de ejecución distribuida de consultas. n n Algoritmos de relevancia mucho más críticos. Hay que sacar partido de la estructura proporcionada por los hiperenlaces Problema de la web oculta (todavía sin resolver) Raquel Trillo, 13 de marzo

RI en web: Funcionamiento de los buscadores web Motores de Recuperación de información web:

RI en web: Funcionamiento de los buscadores web Motores de Recuperación de información web: n Ejemplo clásico: Altavista. w Arquitectura basada en grandes servidores -> No escala w Algoritmos de relevancia de las páginas basados en los tradicionales de bases de datos documentales -> Se inundaron por la cantidad de información. Además contar los hiperenlaces no resuelve el problema porque algunas páginas son muy comunes en cualquier contexto. w Sólo tratan la web estática n Ejemplo avanzado: Google w Arquitectura distribuida basada en miles de estaciones de bajo precio w Algoritmos de relevancia que sacan partido de la estructura basada en hiperenlaces de formas más sofisticadas. w Siguen limitándose a la web estática aunque investigan en la línea de la web oculta. Raquel Trillo, 13 de marzo

RI en web: Funcionamiento de los buscadores web Google debe su éxito al pagerank:

RI en web: Funcionamiento de los buscadores web Google debe su éxito al pagerank: n Los enlaces son considerados como ‘citas’ de otros documentos. n Se asumen como más relevantes lo documentos más citados. n También importa quién es el que te cita. n n Una página tiene un pagerank alto si tiene muchas páginas que la apuntan o la apuntan páginas con un Page. Rank alto (“Hubs”). El texto en los enlaces se asocia también a la página destino. Raquel Trillo, 13 de marzo

RI en web: Funcionamiento de los buscadores web Relevancia basada en hiperenlaces fue: HITS

RI en web: Funcionamiento de los buscadores web Relevancia basada en hiperenlaces fue: HITS n Búsqueda previa sobre un índice pre-construido. n Algorimo iterativo sobre los enlaces entre documentos. w Hubs son páginas que enlazan muchas ‘páginas buenas’ (autoridades) w Autoridades son páginas enlazadas desde muchos ‘referentes buenos’. (hubs). n Si buscamos autoridades relacionadas con un cierto tema, no llega con que sean páginas apuntadas desde muchas otras: debe existir cierto solape entre las páginas que las apuntan (hubs). Raquel Trillo, 13 de marzo

RI en web: Funcionamiento de los buscadores web Procedimiento básico HITS: n n n

RI en web: Funcionamiento de los buscadores web Procedimiento básico HITS: n n n Se realiza la búsqueda en un motor tradicional Se expanden sus resultados con páginas que ‘son apuntadas’ por páginas de los resultados y con páginas que ‘apuntan’ a páginas resultados, hasta un cierto nivel de profundidad. Cada página (nodo del grafo) comienza con un ‘peso de hub’ y un ‘peso de autoridad’ En cada iteración, el peso de’autoridad’ de un nodo se calcula como la suma del ‘peso de hub’ de la iteración anterior de los nodos que lo apuntan. El ‘peso de hub’ se calcula como la suma del ‘peso de autoridad’ de los nodos a los que apunta. Se demuestra que el algoritmo converge Raquel Trillo, 13 de marzo

RI en web: Funcionamiento de los buscadores web Relevancia basada en hiperenlaces: Page. Rank

RI en web: Funcionamiento de los buscadores web Relevancia basada en hiperenlaces: Page. Rank n Idea similar a HITS n PR(A) = (1 -d) + d(PR(t 1)/C(t 1)+. . . (PR(tn)/C(tn)) n T 1, Tn son las páginas que apuntan a A n C(Ti) número de enlaces salientes de Ti. n D. ‘damping factor’ es 0. 85. n n Una página tiene un Page. Rank alto si la apuntan muchas páginas, o la apuntan menos páginas pero con un Page. Rank muy alto. Eficiente y no dependiente de búsqueda inicial como HITS. Raquel Trillo, 13 de marzo

RI en web: La web oculta Hace referencia a las páginas generadas dinámicamente: n

RI en web: La web oculta Hace referencia a las páginas generadas dinámicamente: n Cliente: Javascript, HTML dinámico, applets, etc n Servidor: CGIs, Servlets, JSPs, ASPs, PHPs, . . n Los crawlers tradicionales no pueden acceder a esta información: w Dificil implementar soporte para Java. Script n Objetos del browser (navegador) n Frames n Etc w ¿Cómo entender formularios, aprender a consultarlos y saber consultar en ellos? ¿Problemas de acceso mediante claves? Raquel Trillo, 13 de marzo

RI en web: La web oculta Caracterización de la web oculta: n Entre 400

RI en web: La web oculta Caracterización de la web oculta: n Entre 400 y 500 veces mayor que la web estática n Unos 300. 000 sitios web n n Sitios de la web oculta reciben en torno al 65% más de tráfico que los sitios de la web estática. Crece mucho más rápido que la web estática. Más del 60% de los sitos son bases de datos de temas específicos que proporcionan información de alta calidad. Más del 80% de los datos están accesibles públicamente. Raquel Trillo, 13 de marzo

RI en web: La web oculta Avances en la web oculta cliente: n n

RI en web: La web oculta Avances en la web oculta cliente: n n Aparecen primeros sistemas capaces de tratar Java. Script real. El proceso de crawling pierde eficiencia (crawler es casi un browser), con lo que su utilidad se restringe a problemas específicos. Avances en la web oculta servidor: n n Actualmente sólo mediante ‘wrappers’ o envoltorios ad-hoc para cada fuente, o mediante acuerdos particulares. Se parte de una especificación de dominio (por ejemplo: tiendas electrónicas de libros) w Se estudian los atributos: tipos de datos y nombres posibles w Se dan ejemplos de datos reales w Se configura especificamente el dominio Raquel Trillo, 13 de marzo

RI en web: La web oculta Avances en la web oculta servidor: n Se

RI en web: La web oculta Avances en la web oculta servidor: n Se parte de una especificación de dominio (por ejemplo: tiendas electrónicas de libros) w Se estudian los atributos: tipos de datos y nombres posibles. w Se dan ejemplos de datos reales. w Se configura especificamente el dominio. n Tareas: w Identificar automáticamente formularios relevantes. w Aprender a realizar consultas sobre el formulario. w Generar consultas relevantes partiendo de los ejemplos del dominio y de los obtenidos de consultas previas. Raquel Trillo, 13 de marzo

RI en web Bibliografía: n Information Retrieval, Ricardo Baeza-Yates w 2 volúmenes. Cubre algoritmos

RI en web Bibliografía: n Information Retrieval, Ricardo Baeza-Yates w 2 volúmenes. Cubre algoritmos de stemming y búsqueda de cadenas n Managing Gigabytes, Moffat and Zobel w Cubre detalles de implementación de RI y Recuperación de imágenes. Raquel Trillo, 13 de marzo

RI en web Otras fuentes: Conferencias: n SIGIR (Conference on Research & Development on

RI en web Otras fuentes: Conferencias: n SIGIR (Conference on Research & Development on Information Retrieval) n SIGMOG (International Conference Management of Data) n WWW (The International World Wide Web Conferences) n CIKM (Conference on Information and Knowledge and Management) n ESWC (European Semantic Web Conference) n ISWC (International Semantic Web Conference) Raquel Trillo, 13 de marzo

Prácticas RI Creación de un wrapper que acceda a una o varias páginas de

Prácticas RI Creación de un wrapper que acceda a una o varias páginas de recetas de cocina y obtengan información acerca de ellas: n Los tipos de recetas que oferta n Los nombres de recetas de un determinado tipo n Los ingredientes de una determinada receta Modificación del wrapper para que sea un agente SPRINGS. Raquel Trillo, 13 de marzo

Raquel Trillo Lado (raqueltl@unizar. es) Sistemas de Información Distribuidos (http: //sid. cps. unizar. es)

Raquel Trillo Lado (raqueltl@unizar. es) Sistemas de Información Distribuidos (http: //sid. cps. unizar. es) Muchas gracias. Sugerencias y preguntas. Raquel Trillo, 13 de marzo