Minera de textos y datos paratextuales Universitat Autnoma

  • Slides: 48
Download presentation
Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero

Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

Minería de textos y datos para-textuales Indice: 1. Introducción 2. Métodos de análisis. Codificación

Minería de textos y datos para-textuales Indice: 1. Introducción 2. Métodos de análisis. Codificación y distancia 3. Primer ejemplo: evaluación de un producto mediante una nota y comentarios abiertos 4. Segundo ejemplo: clasificación de los entrevistados a partir de sus preguntas cerradas y abiertas

Minería de textos y datos para-textuales 1. Introducción: La minería de textos analiza textos

Minería de textos y datos para-textuales 1. Introducción: La minería de textos analiza textos en lengua natural mediante procedimientos automáticos para: • extraer los temas • determinar la estructura de un texto: localización de las rupturas… • visualizar la proximidad entre documentos y/o entre términos • indexar les documentos (multi-indexación) • construir bases de documentos para una interrogación automática posterior • …

Minería de textos y Estadística textual Búsqueda de información BI versus Extracción de información

Minería de textos y Estadística textual Búsqueda de información BI versus Extracción de información EI • BI: tratamiento global de un gran número de documentos, búsqueda de temas, construcción de una tipología de los documentos • EI: búsqueda de información “ciblada”, para alimentar una base de datos estructurada (relleno automático de los campos de la base)

Minería de textos y Estadística textual Estadística léxica, Lexicometría y estadística textual, Minería de

Minería de textos y Estadística textual Estadística léxica, Lexicometría y estadística textual, Minería de textos Medida del vocabulario: recuento de las palabras Estadística léxica (Muller, Labbé, Holmes). Estructura de un texto o de una obra. Análisis de textos clásicos. Modelos de urnas. • • El corpus visto como una tabla de frecuencias (J. P. Benzécri, L. Lebart). Métodos multidimensionales • Más recientemente, métodos de data mining, como LSI, SVM, Market basket analysis

Minería de textos y Estadística textual Tipos de textos analizados • Encuestas de opinión

Minería de textos y Estadística textual Tipos de textos analizados • Encuestas de opinión • Encuestas de satisfacción de clientela • Entrevistas semi-abiertas en estudios de clientela • Revistas de prensa • Vigilia tecnológica: resúmenes de artículos contenidos en las bases científicas, patentes, …

Minería de textos y datos Textos e información complementaria • Encuestas: preguntas abiertas +

Minería de textos y datos Textos e información complementaria • Encuestas: preguntas abiertas + preguntas cerradas • más generalmente, textos acompañados de una información complementaria “cerrada” - guía de vinos: comentarios + nota dada al vino - sentencias de tribunal: texto de la sentencia + fecha, juez-ponente, delito Métodos que analizan simultáneamente los textos y la información cerrada No hay una única manera de hacerlo. La elección del méetodo depende de los objetivos y de los datos.

Minería de textos y datos 2. Métodos de análisis Dos puntos importantes: la codificación:

Minería de textos y datos 2. Métodos de análisis Dos puntos importantes: la codificación: se debe saber cómo se codifica el corpus (algunas veces, el software opera una codificación parcialmente transparente para el usuario) • • el papel fundamental de la distancia escogida en el análisis estadístico de textos. Distancia entre que elementos (entrevistados, categorías de entrevistados, palabras, etc. )

Minería de textos y datos Codificación del corpus: tabla léxica Variable textual pal 1

Minería de textos y datos Codificación del corpus: tabla léxica Variable textual pal 1 palt 2 Individuos/ textos kij La codificación transforma el corpus en una tabla que se puede analizar mediante métodos estadísticos

Minería de textos y Estadística textual Utilizar la información cerrada Tabla mixta Variables textuales

Minería de textos y Estadística textual Utilizar la información cerrada Tabla mixta Variables textuales Variables cualitativas Variables cuantitativas Individuos Information a analizar: ¿cuál es la parte activa? ¿cuál es la parte suplementaria?

Minería de textos y Estadística textual La codificación escogida tiene una incidencia sobre la

Minería de textos y Estadística textual La codificación escogida tiene una incidencia sobre la distancia 2 ¿A partir de que información se calcula la distancia? A partir 1 1 • de las palabras, • de los lemas • de las palabras y de las preguntas cerradas ¿Cuál es la distancia escogida?

Minería de textos y Estadística textual Representación gráfica : Análisis de correspondencias Tipología de

Minería de textos y Estadística textual Representación gráfica : Análisis de correspondencias Tipología de documentos: Clasificación Tipología a partir de tablas múltipes: Análisis factorial múltiple y clasificación

Minería de textos y Estadística textual • Enfoque geométrico que visualiza las proximidades entre

Minería de textos y Estadística textual • Enfoque geométrico que visualiza las proximidades entre filas, las proximidades entre columnas, y las interrelaciones G 2 F 2 k . . i. . G . . F . G 1 1 O . . . Análisis de correspondencias

Minería de textos y Estadística textual • Formación de clases homogéneas Clasificación

Minería de textos y Estadística textual • Formación de clases homogéneas Clasificación

Primer ejemplo: Evaluación de vinos mediante notas y comentarios

Primer ejemplo: Evaluación de vinos mediante notas y comentarios

Minería de textos y Estadística textual Castilla y León 5 denominaciones: Bierzo, Cigales, Ribera

Minería de textos y Estadística textual Castilla y León 5 denominaciones: Bierzo, Cigales, Ribera del Duero, Rueda, Toro

Minería de textos y Estadística textual Ejemplo: guía de vinos de Castilla y León

Minería de textos y Estadística textual Ejemplo: guía de vinos de Castilla y León ---- Note= 80 Valdelosfriales-2003 Joven típico, con notas de tempranillo y balsámicos; en boca amable y frutoso. ---- Note=91 Tares P 3 -2001 premium Mucho terruño se detecta en el bouquet de este gran tinto; pólvora, sílex, pizarra, cascajo caliente con el contraste de tierra húmeda y mucha fruta madura de hueso. concentrado, tacto graso sobre el paladar; impresionante viscosidad en la lengua, otra vez impresiones de tierra húmeda y pólvora en el largo final.

Minería de textos y Estadística textual Doble objetivo • Estudiar la relación entre la

Minería de textos y Estadística textual Doble objetivo • Estudiar la relación entre la nota y la evaluación en forma de comentario libre • Si esta relación existe, sería posible construir un nuevo score que tenga en cuenta a la vez la nota y los comentarios (mediante el recuenta de las palabras utilizadas)? Problemática similar a la abordada por los métodos multicanónicos: buscar la(s) variable(s) general(es) que constituye la mejor síntesis de varios grupos de variables

Minería de textos y Estadística textual Tabla a analizar Grupo textual Jf columnas Método

Minería de textos y Estadística textual Tabla a analizar Grupo textual Jf columnas Método de referencia: AC Grupo notas Jc columnas Métode de referencia: ACP

Minería de textos y Estadística textual Tabla léxica activa

Minería de textos y Estadística textual Tabla léxica activa

Minería de textos y Estadística textual Nota y commentarios activos

Minería de textos y Estadística textual Nota y commentarios activos

Minería de textos y Estadística textual A PARTIR DE AQUÍ, SÓLO LOS VINOS TINTOS

Minería de textos y Estadística textual A PARTIR DE AQUÍ, SÓLO LOS VINOS TINTOS

Minería de textos y Estadística textual Nota y commentarios activos Eje de calidad

Minería de textos y Estadística textual Nota y commentarios activos Eje de calidad

Minería de textos y Estadística textual tempranillo Axis 2 : 1. 75% 2. 25

Minería de textos y Estadística textual tempranillo Axis 2 : 1. 75% 2. 25 First Principal NOUNS Plane 1. 50 tiempo equilibrio estructura concentración 0. 75 intensidad n ciruela vino cuerpo aroma tinto paladar Ribera recuerdo acidez cuero paso roble mineral frutosidad madurez estilo crianza Axis 1: 3. 52% sequedad expresi ón coco tacto 0 -1. 0 -0. 5 1. 0 consistencia bouquet capa sobremadurez chocolate vez tuestes sílex potencial carne gominola monte frutillos fondo bosque -0. 75 pó lvora hierba% caf é grosella torrefacto ceniza zumo cascajo tierra

Minería de textos y Estadística textual First Principal Plane ADJECTIVES joven amable típico Axis

Minería de textos y Estadística textual First Principal Plane ADJECTIVES joven amable típico Axis 2 : 1. 75% 2. 25 1. 50 corto franco frutoso limpio americano primer gran 0. 75 vivo vigoroso tostado sabroso accesible voluptuoso ensamblado todo complejoenérgico linealabierto rústico concentrado salado Axis 1: 3. 52% medio 0 magnífico -1. 50 -0. 75 agradable granuloso noble denso tradicional largo pulido ligero integrado silvestreoscuro potente frutal impresionante jugoso amargo -0. 75 rico salino graso aromá tico precioso fácil herbáceo mojado

Minería de textos y Estadística textual lowest marks agradable sobremadurez frutal sequedad crianza tuestes

Minería de textos y Estadística textual lowest marks agradable sobremadurez frutal sequedad crianza tuestes medio algo cierto tempranillo limpio abierto ligeramente ligero alg ún americano beber demasiado evolucionar capa franco fácil tradicional rústico joven roble lineal highest marks reducido discreto frutosidad ensamblado seco rojo clásico dominar típico expresi ón compotado suave Ribera cesta toque corto amable herb áceo consistencia -1, 9 -1, 5 Mark 81 -1, 1 82 -0, 7 83 84 salino fino donde mucho ser bouquet sílex intenso firme vino chocolate -0, 3 potente estilo puro concentrado dejar necesitar mineral potencial primer sabroso moderno sorprende carnoso tacto amargo complejo largo todo noble cascajo coco pólvora voluptuoso magnífico 0, 1 85 denso vez salado graso torrefacto impresionante granuloso gran enérgico tiempo 86 Averagemark: 85. 16 0, 5 87 0, 9 88 89 1, 3 90

Minería de textos y Estadística textual lowest marks agradable sobremadurez frutal sequedad crianza tuestes

Minería de textos y Estadística textual lowest marks agradable sobremadurez frutal sequedad crianza tuestes medio algo cierto tempranillo limpio abierto ligeramente ligero alg ún americano beber demasiado evolucionar capa franco fácil tradicional rústico joven roble lineal highest marks reducido discreto frutosidad ensamblado seco rojo clásico dominar típico expresi ón compotado suave Ribera cesta toque Algunos defectos: sequedad, sobremadurez, corto amable herb áceo evolucionado consistencia -1, 9 defectos importantes en el -1, 1 -1, 5 -0, 7 mundo del vino Mark 81 82 83 84 salino fino donde mucho ser bouquet sílex intenso firme vino chocolate potente estilo puro concentrado dejar necesitar mineral potencial primer sabroso moderno sorprende carnoso tacto amargo complejo largo denso vez salado graso torrefacto impresionante granuloso gran enérgico tiempo Criterio dominante: todo potencia del vino; noble las palabras denso, cascajo graso, concentradococo pólvora voluptuoso magnífico Se oponen a ligero, fácil, -0, 3 0, 1 85 86 Averagemark: 85. 16 0, 5 87 0, 9 88 89 1, 3 90

Minería de textos y Estadística textual Variables suplementarias

Minería de textos y Estadística textual Variables suplementarias

Minería de textos y Estadística textual Axis 2 Variables suplementarias Mesoneros de Castilla (03)

Minería de textos y Estadística textual Axis 2 Variables suplementarias Mesoneros de Castilla (03) Jaros Chafandín (01) Vega Sicilia 'Único' (94) Viña Sastre Pesus(01) 4. 5 Valdelosfrailes (03) Fuentenarro (02) Astrales (02) 3. 0 0 -4, 9€ 5 -9, 9€ Torondos (02)Valdecuadrón (02) Tinto joven Gayubar (02) Valdetán (02) 20 -24, 9€ 15 -19, 9€ 10 -14, 9€ 25 -29, 9€ 50 -99, 9€ Tinto crianza 1. 5 Viñatorondos (03) 94 100 -300€ 79 78 Viña Valdable Punta Esencia (01) Gran Reserva 80 (03) - 3. 0 Marqués de Olivara (98) Rauda (01) El Marqués (02) Carramimbre (03)Valsotillo (01) Viña Eremos (03) Marqués de Peñamonte (01) 93 81 82 - 1. 5 88 83 84 85 86 87 30 -49, 9€ 90 89 1. 5 91 92 97 Axis 1 95 - 1. 5 San Román (01) Tinto reserva Tinto roble Numanthia (02) Bienvenida Sitio de El Palo (01) Termanthia (02) Bienvenida Sitio de El Palo (02) Gran Elías Mora (00)Tares P 3 (01)

Minería de textos y Estadística textual Importancia relativa de los comentarios y de la

Minería de textos y Estadística textual Importancia relativa de los comentarios y de la nota palabra Contribución de cada palabra al score global nota La nota aporta 51. 7% de la varianza del score global y las palabras 48. 3%

Minería de textos y Estadística textual Punto de vista global/ Tares P 3 -2001

Minería de textos y Estadística textual Punto de vista global/ Tares P 3 -2001 premium: • score global máximo punto de vista parcial • nota inicial 91 • emplea 8 de las 20 palabras con coordenadas mayores sobre el primer eje (impresionant/, gran/ vez graso/ cascajo, pólvora largo/and tacto/ Vega Sicilia 'Único' -1. 994 • Es sólo el tercero en score global • nota inicial 97 • 4 de las 20 palabras con coordenadas mayores sobre el primer eje (enérgico, tiempo, gran, y largo) Legaris-2001 (85): • lejos (por abajo) de los otros vinos con la misma nota • Note incial 85 • 4 de las 20 palabras de coordenadas más negativas(consistencia, lineal, frutal y algo)

Minería de textos y Estadística textual ---- Wine 212 (mark= 85) Legaris-2001 Tuestes, gominolas

Minería de textos y Estadística textual ---- Wine 212 (mark= 85) Legaris-2001 Tuestes, gominolas y buenos balsámicos marcan la intensidad media frutal de este crianza. En boca aparece muy lineal, consistencia media; el retrogusto frutal todavía tapado por una madera algo rústica. ---- Wine 30 (mark=91) Tares P 3 -2001 premium Mucho terruño se detecta en el bouquet de este gran tinto; pólvora, sílex, pizarra, cascajo caliente con el contraste de tierra húmeda y mucha fruta madura de hueso. concentrado, tacto graso sobre el paladar; impresionante viscosidad en la lengua, otra vez impresiones de tierra húmeda y pólvora en el largo final. ---- Wine 314 (mark=97) Vega Sicilia 'Único-1994 Hay que realizar un ejercicio de disciplina gustativa de primer rango para describir este gran vino. el bouquet es fresco, bien armado de fruta roja que se ve potenciada por tintes de chocolates, tabacos, notas de sotobosque y una madera que se manifiesta pero que resulta difícil de localizar y menos de concretar. Tenemos el caso raro de un tinto que sale ileso del paso del tiempo sin lucir su armadura, que es la barrica. En boca joven, aunque ya tiene su cuerpo vigoroso y enérgico bastante ensamblado, con la excepción de algunos taninos saltamontes quedan para domesticar. Largo y vibrante final que mezcla madurez con una notable finura fresca.

Minería de textos y Estadística textual Presentación detallada de la metodología en: Bécue-Bertaut, M.

Minería de textos y Estadística textual Presentación detallada de la metodología en: Bécue-Bertaut, M. & Pagès J. “Analysis of a mixture of quantitative, categorical and frequency data through an extension of multiple factor analysis. Application to survey data. ” aceptado para publicación por Computational Statistics and Data Analysis

Segundo ejemplo: Los niños y la lectura

Segundo ejemplo: Los niños y la lectura

Encuesta Lectura Preguntas cerradas 1. En la escuela, leemos 2. En casa, tenemos 3.

Encuesta Lectura Preguntas cerradas 1. En la escuela, leemos 2. En casa, tenemos 3. Leo 4. Leo 5. Libros dados por maestro 6. Leo cuando 7. Prefiero leer 8. Leer los libros escolares Nuria Rajadell, UB (poco, bastante, mucho) (pocos, bastantes, muchos libros) (poco, bastante, mucho) (muy fácilmente, con dificultades) (me gustan, no me gustan) (me gusta, hago trabajos, los dos) (en silencio, en voz alta, las dos cosas) (me gusta, no me gusta, depende) Preguntas abiertas (datos textuales) • Para mí leer es… • Creo que leer es importante porque…

Minería de textos y Estadística textual Ejemplos de respuestas ----A 130 es un rollo

Minería de textos y Estadística textual Ejemplos de respuestas ----A 130 es un rollo porque hay muchas letras ++++ si no sabes leer no sabes escribir ----D 214 como vivir otra clase de vida, aprendo, me divierto y me entrego, no sé como explicarlo, pero me gusta leer ++++ aprendes cosas nuevas

ABIERTO y J 127 CERRADO Respuestas cerradas: leo bastante, leo muy fácilmente Respuestas abiertas:

ABIERTO y J 127 CERRADO Respuestas cerradas: leo bastante, leo muy fácilmente Respuestas abiertas: ---- para mí, leer es es muy interesante porque te puedes ir al mundo de la fantasía. por ejemplo puedes viajar a la edad media o estar en la prehistoria ++++ Leer es importante por que sin la lectura no podría viajar N 314 Respuestas cerradas: leo bastante, leo muy fácilmente Respuestas abiertas: ---- para mí, leer es aprender ++++ Leer es importante por que se aprenden cosas nuevas

Minería de textos y Estadística textual En el ejemplo: tabla múltiple mixta Preguntas cerradas

Minería de textos y Estadística textual En el ejemplo: tabla múltiple mixta Preguntas cerradas categóricas Q 1 Ind i Ind n Q 2 1000 Pregunta abierta 2 Aprender Aventura… Aprender Importante Q 3 Ik 1 001 Pregunta abierta 1 0100 … 1 … 2 0 0 0 …… 2

Minería de textos y Estadística textual Primer plano factorial: Individuos 3. 0 Axis 2

Minería de textos y Estadística textual Primer plano factorial: Individuos 3. 0 Axis 2 Factor 2 l 2=1. 2; 1. 7% N 314 1. 5 0 Axis 1 l 1=1. 4; 2% -1. 5 -3. 0 -2 J 127 0 2 4 6 Factor 1

Minería de textos y Estadística textual eje 2 (l =1. 2, 1. 7%) 2

Minería de textos y Estadística textual eje 2 (l =1. 2, 1. 7%) 2 entretenido 1. 50 importantes roll aprende interesante divierto divertido divertirme CLASE SOCIAL ELEVADA entretenimiento 0. 75 PADRE EST. SUP aprendo aprender NOTA GLOBAL: EXCELENTE Leo mucho aprendes NOTA GLOBAL: importante SUSPENSO 0 importante fantasia diversion -1 PADRE. : SIN ESTUDIOS 1 imaginación aventuras imaginacion enseña Ieo poco Leo con dificultades aburrimiento Leo muy fácilmente diviertes aventuras aburrido saber Leo bastante leo fácilmente aventura -0. 75 mundo entrar divertida -1. 50 sino 2 eje 1 ( l =1. 4, 2%) 1 3

Minería de textos y Estadística textual Análisis Cluster de los individuos a partir de

Minería de textos y Estadística textual Análisis Cluster de los individuos a partir de sus coordenadas sobre los 7 primeros ejes Método jerárquico, con el criterio de Ward 7 clases (una residual cluster con 11 niños)

Minería de textos y Estadística textual GRUPO 220 NIÑOS CERRADAS Leo mucho (50% ;

Minería de textos y Estadística textual GRUPO 220 NIÑOS CERRADAS Leo mucho (50% ; 28%) Leo muy fácilmente (81%; 58%) …. PARA MI, LEER ES PALABRAS SOBRE-REPRESENTADAS pasar (pasar un buen rato), diversión, aventura, rato tiempo, divertirme, mundo, libro entrar, fantasia, forma MEDIA: 8. 8 PALABRAS RESPUESTAS MODALES -Entrar en el libro que estoy leyendo y pasar las aventuras que hay en el libro -Entrar en el libro, ser el protagonista y pasar aventuras leyendo MEDIA EN LA MUESTRA 6. 8 PALABRAS CREO QUE LEER ES IMPORTANTE PORQUE… MEDIA EN LA MUESTRA 7. 4 PALABRAS SOBRE-REPRESENTADAS imaginación, hace , aprende, vocabulario, divertido, ayuda, aventura MEDIA: 8. 7 PALABRAS RESPUESTAS MODALES -Te enseña palabras nuevas. Viajas a paises con la imaginación -Aprendo ortografía, se me abre la imaginación

Minería de textos y Estadística textual Pregunta Coef. de Cramer En casa tenemos (cantidad

Minería de textos y Estadística textual Pregunta Coef. de Cramer En casa tenemos (cantidad de libros) 0. 52 Leer los libros escolares 0. 44 Leo (cantidad de lectura) 0. 41 Para mí, leer es (abierta) 0. 38 Leo (facilidad de lectura) 0. 35 Leer es importante porque (abierta) 0. 27 Los libros dados por el maestro 0. 26 Prefiero leer (forma de leer) 0. 20 Leo cuando (contexto de la lectura) 0. 20 En la escuela leemos (cantidad de lectura 0. 14 escolar)

Minería de textos y Estadística textual Si sólo se tiene en cuenta las preguntas

Minería de textos y Estadística textual Si sólo se tiene en cuenta las preguntas cerradas, tomando las palabras y respuestas como ilustrativas Se obtiene…

Minería de textos y Estadística textual GRUPO 168 NIÑOS CERRADAS CATEGORIAS SOBREREPRESENTADAS LEO MUCHO

Minería de textos y Estadística textual GRUPO 168 NIÑOS CERRADAS CATEGORIAS SOBREREPRESENTADAS LEO MUCHO (82%; 28%) LEO MUY FÁCILMENTE (93%; 58%) … PARA MI, LEER ES PALABRAS SOBRE-REPRESENTADAS NINGUNA MEDIA EN LA MUESTRA 6. 8 PALABRAS MEDIA, 7. 6 PALABRAS CREO QUE LEER ES IMPORTANTE PORQUE… MEDIA EN LA MUESTRA 7. 4 PALABRAS SOBRE-REPRESENTADAS Aprende, cosas MEDIA 7. 8 PALABRAS RESPUESTAS MODALES -Se aprende

Minería de textos y Estadística textual Pregunta Leo (cantidad de lectura) Leo con (facilidad

Minería de textos y Estadística textual Pregunta Leo (cantidad de lectura) Leo con (facilidad de lectura) Leo cuando (contexto de lectura) Los libros dados por el maestro Leer los libros escolares En la escuela, leemos (cantidad) I prefer reading (manera de leer) At home, we have (cantidad de libros) For me, to read means (open-ended) Reading is important because (openended) Coeficiente de Cramer 0, 62 0. 50 0. 45 0. 43 0. 39 0. 32 0. 30 0. 17 0. 15

Minería de textos y Estadística textual Conclusión: textos e información paratextual Olvidaros Es práctico

Minería de textos y Estadística textual Conclusión: textos e información paratextual Olvidaros Es práctico Todo es automático

Minería de textos y Estadística textual Bibliografía Lebart, Salem, Bécue, 2000, Análisis estadístico de

Minería de textos y Estadística textual Bibliografía Lebart, Salem, Bécue, 2000, Análisis estadístico de textos Editorial MILENIO, Lleida Presentación detallada de la metodología en: Bécue-Bertaut, M. & Pagès J. “Analysis of a mixture of quantitative, categorical and frequency data through an extension of multiple factor analysis. Application to survey data. ” aceptado para publicación por Computational Statistics and Data Analysis Sobre el estudio de los vinos: Bécue-Bertaut M. , Pagès J. , Alvarez-Esteban R. , Vásquez Burguete J. L. Détermination d’une note globale, synthèse d’une évalautaion numérique et d’appréciations libres. Application aux études de marché. Actes des JADT 2006. http: //www. cavi. univ-paris 3. fr/lexicometrica/jadt 2006/toc. JADT 2006. htm