La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Minería de texto Análisis Documental.

Presentaciones similares


Presentación del tema: "Minería de texto Análisis Documental."— Transcripción de la presentación:

1 Minería de texto Análisis Documental

2 Información La producción y crecimiento del volumen de información digital, en los últimos años ha sido de forma exponencial, de tal suerte que en la actualidad es necesario contar con equipos de cómputo de alto rendimiento con capacidad de almacenamiento, desde varios gigabytes hasta varios terabytes.

3 Problema El crecimiento en la producción de la información digital y los diferentes formatos que se utilizan para su almacenamiento, hacen difícil el acceso a la información, dado que los contenidos no se encuentran indizados y organizados.

4 Análisis documental

5 Indización La indización consiste en dos puntos, el primero es identificar los términos dentro de un documento y segundo en determinar la importancia del término dentro del documento a través de su frecuencia de ocurrencia.

6 Minería de texto Es el área más reciente de investigación del procesamiento automático de la información. Su objetivo es descubrir tendencias, desviaciones y asociaciones, de la colección de textos en formato digital.

7 Minería de texto La minería de texto es el proceso encargado del descubrimiento de conocimientos que no existían explícitamente en ningún texto de la colección, pero que surgen de relacionar el contenido de varios de ellos. (Swanson, 1991, p )

8 Minería de texto El descubrimiento de información significativa y esencial de los documentos en grandes corpus textuales electrónicos, estructurados y no estructurados.

9 Minería de texto Clasificar y organizar documentos según su contenido; es decir, preseleccionar automáticamente grupos de documentos con un tema específico.

10 Categorías

11 Categorías

12 Minería de texto

13 El procesamiento de texto
Los textos son representados en estructuras que permitan su análisis automático 01 D end_punctuation :,=;/. 01 N compress '[]| 01 N to_blank 01 N comma 01 N del_subfield_code 01 N char_conv FILING-KEY-10 01 N del_lead_space 01 N to_lower 01 N pack_spaces 01 F char_conv FILING-KEY-01 FILING-KEY ##### # line_utf2line_utf unicode_to_filing_01 FILING-KEY ##### # line_utf2line_utf unicode_to_filing_02 FILING-KEY ##### # line_utf2line_utf naco_diacritics FILING-KEY ##### # line_utf2line_utf unicode_to_filing_11

14 Extracción de palabras

15 Análisis Consiste en realizar una cuantificación de las características (es decir, de los términos) de los documentos.

16 Modelo vectorial  Una de las técnicas utilizadas en la minería de texto es el Modelo de Espacio Vectorial, en donde cada documento es modelado como un vector de dimensión n y es representado de la siguiente manera: ,

17 Frecuencia de las palabras
a) Se calcula la frecuencia de las palabras en el documento, donde K representa el término en el documento I

18 Frecuencia total b) Se calcula la frecuencia total del término K en todos los documentos

19 Frecuencia de palabras
Análisis 2 1.5 0.176 0.352 documental 1 3 información 0.477 textual Lenguajes documentales herramienta libres controlados proceso indización procesamiento automático texto orígenes padre

20 indización

21 Ley de Zipf F=K/R FxR=K “Ley del mínimo esfuerzo”
Texto en lenguaje natural. Se cuentan las palabras y se ordenan de mayor a menor frecuencia de aparición, F El número de orden de cada palabra es su rango, R Análisis de la frecuencia de las palabras F=K/R FxR=K La frecuencia , F, de aparición de una palabra en un texto es inversamente proporcional a su rango, R Frecuencia por el rango igual a constante (k) “Ley del mínimo esfuerzo”

22 Frecuencias de Stopword
Posición Frecuencia Palabras 1 de 2 la 3 y 4 en 5 el 6 que 7 a 8 los 9 se 10 del

23 Ley de Zipf

24 Frecuencias de Stopword

25 Ley de Zipf

26 Semejanza de documentos

27 Matriz de documentos a) Si se realiza el cálculo de similitud entre renglones se pude determinar la semejanza entre documentos.

28 Matriz de documentos b) Si se realiza el cálculo de similitud entre columnas se pueden obtener las relaciones entre términos.

29 Archivos digitales en texto
Total de títulos procesados 1868 (Año 2005) Total de archivos Tiempo de proceso 60 minutos Total de palabras Stopwords (72.90%) Palabras útiles (27.90%)

30 Palabras/Diccionario

31 Questions?


Descargar ppt "Minería de texto Análisis Documental."

Presentaciones similares


Anuncios Google