Minería de texto Análisis Documental
Información La producción y crecimiento del volumen de información digital, en los últimos años ha sido de forma exponencial, de tal suerte que en la actualidad es necesario contar con equipos de cómputo de alto rendimiento con capacidad de almacenamiento, desde varios gigabytes hasta varios terabytes.
Problema El crecimiento en la producción de la información digital y los diferentes formatos que se utilizan para su almacenamiento, hacen difícil el acceso a la información, dado que los contenidos no se encuentran indizados y organizados.
Análisis documental
Indización La indización consiste en dos puntos, el primero es identificar los términos dentro de un documento y segundo en determinar la importancia del término dentro del documento a través de su frecuencia de ocurrencia.
Minería de texto Es el área más reciente de investigación del procesamiento automático de la información. Su objetivo es descubrir tendencias, desviaciones y asociaciones, de la colección de textos en formato digital.
Minería de texto La minería de texto es el proceso encargado del descubrimiento de conocimientos que no existían explícitamente en ningún texto de la colección, pero que surgen de relacionar el contenido de varios de ellos. (Swanson, 1991, p. 280-289)
Minería de texto El descubrimiento de información significativa y esencial de los documentos en grandes corpus textuales electrónicos, estructurados y no estructurados.
Minería de texto Clasificar y organizar documentos según su contenido; es decir, preseleccionar automáticamente grupos de documentos con un tema específico.
Categorías
Categorías
Minería de texto
El procesamiento de texto Los textos son representados en estructuras que permitan su análisis automático 01 D end_punctuation :,=;/. 01 N compress '[]| 01 N to_blank !"()-{}<>;:.?/\@*%=^_`~ 01 N comma 01 N del_subfield_code 01 N char_conv FILING-KEY-10 01 N del_lead_space 01 N to_lower 01 N pack_spaces 01 F char_conv FILING-KEY-01 FILING-KEY-01 ##### # line_utf2line_utf unicode_to_filing_01 FILING-KEY-02 ##### # line_utf2line_utf unicode_to_filing_02 FILING-KEY-10 ##### # line_utf2line_utf naco_diacritics FILING-KEY-11 ##### # line_utf2line_utf unicode_to_filing_11
Extracción de palabras
Análisis Consiste en realizar una cuantificación de las características (es decir, de los términos) de los documentos.
Modelo vectorial Una de las técnicas utilizadas en la minería de texto es el Modelo de Espacio Vectorial, en donde cada documento es modelado como un vector de dimensión n y es representado de la siguiente manera: ,
Frecuencia de las palabras a) Se calcula la frecuencia de las palabras en el documento, donde K representa el término en el documento I
Frecuencia total b) Se calcula la frecuencia total del término K en todos los documentos
Frecuencia de palabras Análisis 2 1.5 0.176 0.352 documental 1 3 información 0.477 textual Lenguajes documentales herramienta libres controlados proceso indización procesamiento automático texto orígenes padre
indización
Ley de Zipf F=K/R FxR=K “Ley del mínimo esfuerzo” Texto en lenguaje natural. Se cuentan las palabras y se ordenan de mayor a menor frecuencia de aparición, F El número de orden de cada palabra es su rango, R Análisis de la frecuencia de las palabras F=K/R FxR=K La frecuencia , F, de aparición de una palabra en un texto es inversamente proporcional a su rango, R. Frecuencia por el rango igual a constante (k) “Ley del mínimo esfuerzo”
Frecuencias de Stopword Posición Frecuencia Palabras 1 18205668 de 2 10821113 la 3 7190346 y 4 6946343 en 5 6769416 el 6 6459010 que 7 5030018 a 8 4505566 los 9 3675272 se 10 3225267 del
Ley de Zipf
Frecuencias de Stopword
Ley de Zipf
Semejanza de documentos
Matriz de documentos a) Si se realiza el cálculo de similitud entre renglones se pude determinar la semejanza entre documentos.
Matriz de documentos b) Si se realiza el cálculo de similitud entre columnas se pueden obtener las relaciones entre términos.
Archivos digitales en texto Total de títulos procesados 1868 (Año 2005) Total de archivos 22721 Tiempo de proceso 60 minutos Total de palabras 162723663 Stopwords 117323884 (72.90%) Palabras útiles 45399779 (27.90%)
Palabras/Diccionario
Questions?