La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya.

Presentaciones similares


Presentación del tema: "Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya."— Transcripción de la presentación:

1 Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya

2 Indice: 1.Introducción 2.Métodos de análisis. Codificación y distancia 3. Primer ejemplo: evaluación de un producto mediante una nota y comentarios abiertos 4.Segundo ejemplo: clasificación de los entrevistados a partir de sus preguntas cerradas y abiertas Minería de textos y datos para-textuales

3 La minería de textos analiza textos en lengua natural mediante procedimientos automáticos para: extraer los temas determinar la estructura de un texto: localización de las rupturas… visualizar la proximidad entre documentos y/o entre términos indexar les documentos (multi-indexación) construir bases de documentos para una interrogación automática posterior … 1. Introducción :

4 Búsqueda de información BI versus Extracción de información EI BI: tratamiento global de un gran número de documentos, búsqueda de temas, construcción de una tipología de los documentos EI: búsqueda de información “ciblada”, para alimentar una base de datos estructurada (relleno automático de los campos de la base) Minería de textos y Estadística textual

5 Estadística léxica, Lexicometría y estadística textual, Minería de textos Medida del vocabulario: recuento de las palabras Minería de textos y Estadística textual Estadística léxica (Muller, Labbé, Holmes). Estructura de un texto o de una obra. Análisis de textos clásicos. Modelos de urnas. El corpus visto como una tabla de frecuencias (J.P. Benzécri, L. Lebart). Métodos multidimensionales Más recientemente, métodos de data mining, como LSI, SVM, Market basket analysis

6 Tipos de textos analizados Encuestas de opinión Encuestas de satisfacción de clientela Entrevistas semi-abiertas en estudios de clientela Revistas de prensa Vigilia tecnológica: resúmenes de artículos contenidos en las bases científicas, patentes, … Minería de textos y Estadística textual

7 Minería de textos y datos Textos e información complementaria Encuestas: preguntas abiertas + preguntas cerradas más generalmente, textos acompañados de una información complementaria “cerrada” - guía de vinos: comentarios + nota dada al vino - sentencias de tribunal: texto de la sentencia + fecha, juez-ponente, delito Métodos que analizan simultáneamente los textos y la información cerrada No hay una única manera de hacerlo. La elección del méetodo depende de los objetivos y de los datos.

8 2. Métodos de análisis Dos puntos importantes: la codificación: se debe saber cómo se codifica el corpus (algunas veces, el software opera una codificación parcialmente transparente para el usuario) el papel fundamental de la distancia escogida en el análisis estadístico de textos. Distancia entre que elementos (entrevistados, categorías de entrevistados, palabras, etc.) Minería de textos y datos

9 Individuos/ textos Codificación del corpus: tabla léxica Variable textual pal1 palt2 k ij La codificación transforma el corpus en una tabla que se puede analizar mediante métodos estadísticos Minería de textos y datos

10 Utilizar la información cerrada Individuos Information a analizar: ¿cuál es la parte activa? ¿cuál es la parte suplementaria? Variables cuantitativas Variables textuales Variables cualitativas Tabla mixta Minería de textos y Estadística textual

11   1 La codificación escogida tiene una incidencia sobre la distancia ¿A partir de que información se calcula la distancia? A partir de las palabras, de los lemas de las palabras y de las preguntas cerradas ¿Cuál es la distancia escogida? Minería de textos y Estadística textual

12 Representación gráfica : Análisis de correspondencias Tipología de documentos: Clasificación Tipología a partir de tablas múltipes: Análisis factorial múltiple y clasificación Minería de textos y Estadística textual

13 Enfoque geométrico que visualiza las proximidades entre filas, las proximidades entre columnas, y las interrelaciones...... i G F 1 F 2 O G 1 G 2 k.......... Minería de textos y Estadística textual Análisis de correspondencias

14 Formación de clases homogéneas Clasificación Minería de textos y Estadística textual

15 Primer ejemplo: Evaluación de vinos mediante notas y comentarios

16 Castilla y León 5 denominaciones: Bierzo, Cigales, Ribera del Duero, Rueda, Toro Minería de textos y Estadística textual

17 ---- Note= 80 Valdelosfriales-2003 Joven típico, con notas de tempranillo y balsámicos; en boca amable y frutoso. ---- Note=91 Tares P3-2001 premium Mucho terruño se detecta en el bouquet de este gran tinto; pólvora, sílex, pizarra, cascajo caliente con el contraste de tierra húmeda y mucha fruta madura de hueso. concentrado, tacto graso sobre el paladar; impresionante viscosidad en la lengua, otra vez impresiones de tierra húmeda y pólvora en el largo final. Minería de textos y Estadística textual Ejemplo: guía de vinos de Castilla y León

18 Doble objetivo Estudiar la relación entre la nota y la evaluación en forma de comentario libre Si esta relación existe, sería posible construir un nuevo score que tenga en cuenta a la vez la nota y los comentarios (mediante el recuenta de las palabras utilizadas)? Problemática similar a la abordada por los métodos multicanónicos: buscar la(s) variable(s) general(es) que constituye la mejor síntesis de varios grupos de variables Minería de textos y Estadística textual

19 Método de referencia: AC Métode de referencia: ACP Tabla a analizar Grupo textual J f columnasGrupo notas J c columnas Minería de textos y Estadística textual

20 Tabla léxica activa Minería de textos y Estadística textual

21 Nota y commentarios activos Minería de textos y Estadística textual

22 A PARTIR DE AQUÍ, SÓLO LOS VINOS TINTOS

23 Nota y commentarios activos Minería de textos y Estadística textual Eje de calidad

24 Minería de textos y Estadística textual

25

26 82 highest marks enérgico lowest marks Averagemark: 85.16 corto coco p ó lvora voluptuoso magn í fico -1,9 -1,1 1,3 0,9 0,5 -1,5-0,7 -0,3 0,1 herbáceo tradicional rústico joven roble lineal amable denso salado impresionante 83 86 consistencia frutal crianza algo limpio ligero beber evolucionar fácil agradable sobremadurez sequedad medio tempranillo ligeramente americano capa tuestes cierto abierto algún demasiado franco reducido discreto frutosidad ensamblado seco clásico dominar rojo típico expresión compotado suave Ribera cesta toque vez graso torrefacto granuloso gran tiempo todo noble cascajo estilo concentrado necesitar potencial sabroso sorprende tacto complejo largo potente puro dejar mineral primer moderno carnoso amargo salino fino donde mucho ser bouquet s í lex intenso firme vino chocolate Mark81 848587888990

27 Minería de textos y Estadística textual 82 highest marks enérgico lowest marks Averagemark: 85.16 corto coco p ó lvora voluptuoso magn í fico -1,9 -1,1 1,3 0,9 0,5 -1,5-0,7 -0,3 0,1 herbáceo tradicional rústico joven roble lineal amable denso salado impresionante 83 86 consistencia frutal crianza algo limpio ligero beber evolucionar fácil agradable sobremadurez sequedad medio tempranillo ligeramente americano capa tuestes cierto abierto algún demasiado franco reducido discreto frutosidad ensamblado seco clásico dominar rojo típico expresión compotado suave Ribera cesta toque vez graso torrefacto granuloso gran tiempo todo noble cascajo estilo concentrado necesitar potencial sabroso sorprende tacto complejo largo potente puro dejar mineral primer moderno carnoso amargo salino fino donde mucho ser bouquet s í lex intenso firme vino chocolate Mark81 848587888990 Criterio dominante: potencia del vino; las palabras denso, graso, concentrado Se oponen a ligero, fácil, Algunos defectos: sequedad, sobremadurez, evolucionado defectos importantes en el mundo del vino

28 Minería de textos y Estadística textual Variables suplementarias

29 Minería de textos y Estadística textual Variables suplementarias

30 Importancia relativa de los comentarios y de la nota Contribución de cada palabra al score global La nota aporta 51.7% de la varianza del score global y las palabras 48.3% Minería de textos y Estadística textual palabranota

31 Tares P3-2001 premium: score global máximo nota inicial 91 emplea 8 de las 20 palabras con coordenadas mayores sobre el primer eje (impresionant/, gran/ vez graso/ cascajo, pólvora largo/and tacto/ Vega Sicilia 'Único' -1.994 Es sólo el tercero en score global nota inicial 97 4 de las 20 palabras con coordenadas mayores sobre el primer eje (enérgico, tiempo, gran, y largo) Legaris-2001 (85): lejos (por abajo) de los otros vinos con la misma nota Note incial 85 4 de las 20 palabras de coordenadas más negativas(consistencia, lineal, frutal y algo) Minería de textos y Estadística textual Punto de vista global/ punto de vista parcial

32 ---- Wine 212 (mark= 85) Legaris-2001 Tuestes, gominolas y buenos balsámicos marcan la intensidad media frutal de este crianza. En boca aparece muy lineal, con consistencia media; el retrogusto frutal todavía tapado por una madera algo rústica. ---- Wine 30 (mark=91) Tares P3-2001 premium Mucho terruño se detecta en el bouquet de este gran tinto; pólvora, sílex, pizarra, cascajo caliente con el contraste de tierra húmeda y mucha fruta madura de hueso. concentrado, tacto graso sobre el paladar; impresionante viscosidad en la lengua, otra vez impresiones de tierra húmeda y pólvora en el largo final. ---- Wine 314 (mark=97) Vega Sicilia 'Único-1994 Hay que realizar un ejercicio de disciplina gustativa de primer rango para describir este gran vino. el bouquet es fresco, bien armado de fruta roja que se ve potenciada por tintes de chocolates, tabacos, notas de sotobosque y una madera que se manifiesta pero que resulta difícil de localizar y menos de concretar. Tenemos el caso raro de un tinto que sale ileso del paso del tiempo sin lucir su armadura, que es la barrica. En boca joven, aunque ya tiene su cuerpo vigoroso y enérgico bastante ensamblado, con la excepción de algunos taninos saltamontes que quedan para domesticar. Largo y vibrante final que mezcla madurez con una notable finura fresca. Minería de textos y Estadística textual

33 Presentación detallada de la metodología en: Bécue-Bertaut, M. & Pagès J. “Analysis of a mixture of quantitative, categorical and frequency data through an extension of multiple factor analysis. Application to survey data.” aceptado para publicación por Computational Statistics and Data Analysis Minería de textos y Estadística textual

34 Segundo ejemplo: Los niños y la lectura

35 1. En la escuela, leemos(poco, bastante, mucho) 2. En casa, tenemos (pocos, bastantes, muchos libros) 3. Leo (poco, bastante, mucho) 4. Leo (muy fácilmente, fácilmente, con dificultades) 5. Libros dados por maestro (me gustan, no me gustan) 6. Leo cuando (me gusta, hago trabajos, los dos) 7. Prefiero leer (en silencio, en voz alta, las dos cosas) 8. Leer los libros escolares (me gusta, no me gusta, depende) Preguntas cerradas Preguntas abiertas (datos textuales) Para mí leer es… Creo que leer es importante porque… Encuesta Lectura Nuria Rajadell, UB

36 ----A130 es un rollo porque hay muchas letras ++++ si no sabes leer no sabes escribir ----D214 como vivir otra clase de vida, aprendo, me divierto y me entrego, no sé como explicarlo, pero me gusta leer ++++ aprendes cosas nuevas Minería de textos y Estadística textual Ejemplos de respuestas

37 Respuestas abiertas: ---- para mí, leer es es muy interesante porque te puedes ir al mundo de la fantasía. por ejemplo puedes viajar a la edad media o estar en la prehistoria ++++ Leer es importante por que sin la lectura no podría viajar ---- para mí, leer es aprender ++++ Leer es importante por que se aprenden cosas nuevas J127 Respuestas cerradas: leo bastante, leo muy fácilmente N314 Respuestas cerradas: leo bastante, leo muy fácilmente Respuestas abiertas: ABIERTO y CERRADO

38 Preguntas cerradas categóricas Q1 Q2 Q3 I 1 I k 1 Pregunta abierta 1 Aprender Aventura … Pregunta abierta 2 Aprender Importante Ind1 Ind i Ind n 001100001001 … 2 0 0 0 ……2 … En el ejemplo: tabla múltiple mixta Minería de textos y Estadística textual

39 Primer plano factorial: Individuos Factor 1 Factor 2 J127 N314 Axis  1 =1.4; 2% Axis  2 =1.2; 1.7% Minería de textos y Estadística textual

40 123 -1.50 -0.75 0 0.75 1.50 eje 1 eje 2 Ieo poco Leo bastante Leo mucho Leo con dificultades Leo muy fácilmente aburrido aburrimiento aprender aprendes aprendo aventura aventuras diversion divertida divertido divertirme divierto enseña entrar entretenido entretenimiento fantasia imaginacion importante interesante mundo rollo saber aprende aventuras diviertes imaginación importante importantes sino NOTA GLOBAL: SUSPENSO NOTA GLOBAL: EXCELENTE PADRE.: SIN ESTUDIOS CLASE SOCIAL ELEVADA PADRE EST. SUP leo fácilmente ( 1 =1.4, 2%) ( 2 =1.2, 1.7%) Minería de textos y Estadística textual

41 Análisis Cluster de los individuos a partir de sus coordenadas sobre los 7 primeros ejes Método jerárquico, con el criterio de Ward 7 clases (una residual cluster con 11 niños) Minería de textos y Estadística textual

42 GRUPO220 NIÑOS CERRADASLeo mucho (50% ; 28%) Leo muy fácilmente (81%; 58%) …. PARA MI, LEER ES MEDIA EN LA MUESTRA 6.8 PALABRAS PALABRAS SOBRE-REPRESENTADAS pasar (pasar un buen rato), diversión, aventura, rato tiempo, divertirme, mundo, libro entrar, fantasia, forma MEDIA: 8.8 PALABRAS RESPUESTAS MODALES - Entrar en el libro que estoy leyendo y pasar las aventuras que hay en el libro - Entrar en el libro, ser el protagonista y pasar aventuras leyendo CREO QUE LEER ES IMPORTANTE PORQUE… MEDIA EN LA MUESTRA 7.4 PALABRAS PALABRAS SOBRE-REPRESENTADAS imaginación, hace, aprende, vocabulario, divertido, ayuda, aventura MEDIA: 8.7 PALABRAS RESPUESTAS MODALES -Te enseña palabras nuevas. Viajas a paises con la imaginación -Aprendo ortografía, se me abre la imaginación Minería de textos y Estadística textual

43 PreguntaCoef. de Cramer En casa tenemos (cantidad de libros) Leer los libros escolares Leo (cantidad de lectura) Para mí, leer es (abierta) Leo (facilidad de lectura) Leer es importante porque (abierta) Los libros dados por el maestro Prefiero leer (forma de leer) Leo cuando (contexto de la lectura) En la escuela leemos (cantidad de lectura escolar) 0.52 0.44 0.41 0.38 0.35 0.27 0.26 0.20 0.14 Minería de textos y Estadística textual

44 Si sólo se tiene en cuenta las preguntas cerradas, tomando las palabras y respuestas como ilustrativas Se obtiene… Minería de textos y Estadística textual

45 GRUPO 168 NIÑOS CERRADAS CATEGORIAS SOBREREPRESENTADAS LEO MUCHO (82%; 28%) LEO MUY FÁCILMENTE (93%; 58%) … PARA MI, LEER ES MEDIA EN LA MUESTRA 6.8 PALABRAS PALABRAS SOBRE-REPRESENTADAS NINGUNA MEDIA, 7.6 PALABRAS CREO QUE LEER ES IMPORTANTE PORQUE… MEDIA EN LA MUESTRA 7.4 PALABRAS PALABRAS SOBRE-REPRESENTADAS Aprende, cosas MEDIA 7.8 PALABRAS RESPUESTAS MODALES -Se aprende Minería de textos y Estadística textual

46 PreguntaCoeficiente de Cramer Leo (cantidad de lectura) Leo con (facilidad de lectura) Leo cuando (contexto de lectura) Los libros dados por el maestro Leer los libros escolares En la escuela, leemos (cantidad) I prefer reading (manera de leer) At home, we have (cantidad de libros) For me, to read means (open-ended) Reading is important because (open- ended) 0,62 0.50 0.45 0.43 0.39 0.32 0.30 0.17 0.15 Minería de textos y Estadística textual

47 Conclusión: textos e información paratextual Olvidaros Es práctico Todo es automático Minería de textos y Estadística textual

48 Bibliografía Lebart, Salem, Bécue, 2000, Análisis estadístico de textos Editorial MILENIO, Lleida Minería de textos y Estadística textual Presentación detallada de la metodología en: Bécue-Bertaut, M. & Pagès J. “Analysis of a mixture of quantitative, categorical and frequency data through an extension of multiple factor analysis. Application to survey data.” aceptado para publicación por Computational Statistics and Data Analysis Sobre el estudio de los vinos: Bécue-Bertaut M., Pagès J., Alvarez-Esteban R., Vásquez Burguete J.L. Détermination d’une note globale, synthèse d’une évalautaion numérique et d’appréciations libres. Application aux études de marché. Actes des JADT2006. http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2006/tocJADT2006.htm


Descargar ppt "Minería de textos y datos para-textuales Universitat Autónoma de Barcelona SEA 2 de febrero 2007 Mónica Bécue Bertaut Universitat Politècnica de Catalunya."

Presentaciones similares


Anuncios Google