Minería de texto Análisis Documental.

Slides:



Advertisements
Presentaciones similares
2.1.1 Definición. Un arreglo puede definirse como un grupo o una colección finita, homogénea y ordenada de elementos. Los arreglos pueden ser de los siguientes.
Advertisements

Publicaciones científicas apoyadas con tecnologías de información Jorge Walters Gastelu Marzo de 2004 Santiago, Chile.
María Simarro Vázquez 4. LA DOCUMENTACIÓN ESPECIALIZADA.
Maestría en Explotación de Datos y Descubrimiento del Conocimiento
Herramientas para la Investigación
TEMA 1: Fundamentos Temario: Introducción a la informática
Contabilidad de Costos
HERRAMIENTAS DE INTERNET
La web semántica y su impacto en la recuperación de información
¿Cómo hacer para que una máquina comprenda el LN?
VEAMOS CUANTO SABEMOS MODULO 1 GRUPO 3 RIEB.
Punto de equilibrio.
Microsoft Office Excel
Buscar bibliografía en
FUENTES DE INFORMACIÓN
Tema: Funciones en Excel (I) Funciones de Búsqueda y Referencias
Elementos Esenciales de PowerPoint
INTERFAZ DE ACCES DISEÑO DE BASE DE DATOS
Análisis del Contenido
HERRAMIENTAS PARA EL CONTROL ESTADÍSTICO DE CALIDAD.
El análisis y recuperación de información
Material de la Prof. Jessie Lema
UNIDAD I Conceptos Básicos.
ANALISIS DEL CURSO. Las herramientas multimediales nos permiten tener acceso a una amplia gama de productos e información lo cual nos posibilita ponernos.
Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní César Ríos Gárate Carolina Balbín Ávalos.
Tecnologías 3.
Arquitectura de la Información Prof. Adelaide Bianchini – Dpto. de Computación y Tecnología de la Información, Universidad Simón Bolívar. Febrero 2006.
Especificación de Consultas M
Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones.
Coordinación de Bibliotecas UAEM
Diseño de algoritmos La computadora puede realizar procesos y darnos resultados, sin que tengamos la noción exacta de las operaciones que realiza. Con.
Es una herramienta que se utiliza para priorizar los problemas o las causas que los generan. El nombre de Pareto fue dado por el Dr. Juran en honor.
Análisis de la Empresa. TEMAS Que dependencia es la encargada de la documentación? Describir la dependencia. Tiene elaborados procesos donde se mencionen.
Sistema de Gestión Documental 1. 2 Tecnotur 3000 S.L. ¿En qué consiste un sistema de Gestión Documental? Es un sistema de archivo de documentos en formato.
La Información en las Organizaciones. Datos Externos Datos Internos Datos Personales Data Mining Data Warehouse Data Marts Meta Data OLAP Queries DSS.
Conceptos de Gestión Documental Convención - 30 de enero de 2003.
Fundamentos de Programación
REPÚBLICA BOLIVARIANA DE VENEZUELA UNIVERSIDAD NACIONAL EXPERIMENTAL SIMÓN RODRÍGUEZ COORDINACIÓN DE DESARROLLO PROFESORAL NÚCLEO BOLÍVAR FACILITADOR:
Fecha: 15 de julio de 2013 Tema: Buscar información.
Microsoft Excel INTRODUCCIÓN
Clase #7 – Sistemas de Procesamiento de Datos
Considerada como la actividad en la cual se realiza una investigación de la literatura existente sobre un tema en particular, con el fin, de identificar.

Martin Barreto Ricardo Bedat Docentes: Juanjo Prada – Aiala Rósa.
TEMA 3 LA FUNCIÓN PRODUCTIVA.
Bases de datos en Access. Una base de datos es una colección de datos organizada de tal manera que se facilite el acceso y la consulta de la información.
Análisis forense en sistemas informáticos
Título Calibri 28 puntos 2015 Subtítulos: Calibri mínimo 18 ptos y máximo 23 ptos.
Introducción a las Bases de Datos Parte 1. Contenido 2 1.Definiciones de Bases de datos 2.Dato e Información 3.Sistemas de bases de datos 4.Sistema de.
TEMA: Introducción a la informática.
Clasificación de software
Inteligencia la inteligencia es la capacidad de relacionar conocimientos que poseemos para resolver una determinada situación. si indagamos un poco en.
El lenguaje y la Ciencia Documentos Actividad de los científicos Conceptos, ideas, conocimiento El análisis de la Ciencia y de la Técnica debe incluir.
Aplicación JAVA implementando Arboles de Decisión
M E N U I N I C I A L PARTES PC PERIFERICOS C P U SOFTWARE 1 johnbonilla.es.tl.
Gestión Electrónica Documental (GED)
Luis Enrique González Hilario
Blogs en Educación C. P. D. Quijote. Curso Mª Carmen Gómez Perucho.
LOGO Profa. Oly Mata. Concepto de Datos: Un dato puede considerarse como un elemento no tratado; como una señal emitida. 25% es un dato Son los elementos.
 ¿QUÉ ES UN RESUMEN?.  Un resumen es un proceso de abstracción que va de lo específico a lo general, eliminando todo aquello que no se considere esencial.
En Internet: Los datos se transforman en información cuando una persona los lee, los comprende y los usa con algún fin: para estudiar, para trabajar,
TEMA 2 : ALGEBRA DE MATRICES.

Conalep 150 Tehuacán inmi 309 soma
MBA. LIDA LOOR MACIAS 2 Introducción a los conceptos de Bases de datos Qué es un Sistema de Bases de Datos Introducción a los conceptos de Bases de datos.
Repositorio Institucional de Tesis
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ Facultad de Ingeniería de Sistemas Computacionales Programa de Lic. en Informática Educativa Computación.
“portafolio digital”.
Usos para el Portafolios Electrónico National University College - Online ITTE 1031 Desybet Villanueva.
Transcripción de la presentación:

Minería de texto Análisis Documental

Información La producción y crecimiento del volumen de información digital, en los últimos años ha sido de forma exponencial, de tal suerte que en la actualidad es necesario contar con equipos de cómputo de alto rendimiento con capacidad de almacenamiento, desde varios gigabytes hasta varios terabytes.

Problema El crecimiento en la producción de la información digital y los diferentes formatos que se utilizan para su almacenamiento, hacen difícil el acceso a la información, dado que los contenidos no se encuentran indizados y organizados.

Análisis documental

Indización La indización consiste en dos puntos, el primero es identificar los términos dentro de un documento y segundo en determinar la importancia del término dentro del documento a través de su frecuencia de ocurrencia.

Minería de texto Es el área más reciente de investigación del procesamiento automático de la información. Su objetivo es descubrir tendencias, desviaciones y asociaciones, de la colección de textos en formato digital.

Minería de texto La minería de texto es el proceso encargado del descubrimiento de conocimientos que no existían explícitamente en ningún texto de la colección, pero que surgen de relacionar el contenido de varios de ellos. (Swanson, 1991, p. 280-289)

Minería de texto El descubrimiento de información significativa y esencial de los documentos en grandes corpus textuales electrónicos, estructurados y no estructurados.

Minería de texto Clasificar y organizar documentos según su contenido; es decir, preseleccionar automáticamente grupos de documentos con un tema específico.

Categorías

Categorías

Minería de texto

El procesamiento de texto Los textos son representados en estructuras que permitan su análisis automático 01 D end_punctuation :,=;/. 01 N compress '[]| 01 N to_blank !"()-{}<>;:.?/\@*%=^_`~ 01 N comma 01 N del_subfield_code 01 N char_conv FILING-KEY-10 01 N del_lead_space 01 N to_lower 01 N pack_spaces 01 F char_conv FILING-KEY-01 FILING-KEY-01 ##### # line_utf2line_utf unicode_to_filing_01 FILING-KEY-02 ##### # line_utf2line_utf unicode_to_filing_02 FILING-KEY-10 ##### # line_utf2line_utf naco_diacritics FILING-KEY-11 ##### # line_utf2line_utf unicode_to_filing_11

Extracción de palabras

Análisis Consiste en realizar una cuantificación de las características (es decir, de los términos) de los documentos.

Modelo vectorial  Una de las técnicas utilizadas en la minería de texto es el Modelo de Espacio Vectorial, en donde cada documento es modelado como un vector de dimensión n y es representado de la siguiente manera: ,

Frecuencia de las palabras a) Se calcula la frecuencia de las palabras en el documento, donde K representa el término en el documento I

Frecuencia total b) Se calcula la frecuencia total del término K en todos los documentos

Frecuencia de palabras Análisis 2 1.5 0.176 0.352   documental 1 3 información 0.477 textual Lenguajes documentales herramienta libres controlados proceso indización procesamiento automático texto orígenes padre

indización

Ley de Zipf F=K/R FxR=K “Ley del mínimo esfuerzo” Texto en lenguaje natural. Se cuentan las palabras y se ordenan de mayor a menor frecuencia de aparición, F El número de orden de cada palabra es su rango, R Análisis de la frecuencia de las palabras F=K/R FxR=K La frecuencia , F, de aparición de una palabra en un texto es inversamente proporcional a su rango, R. Frecuencia por el rango igual a constante (k) “Ley del mínimo esfuerzo”

Frecuencias de Stopword Posición Frecuencia Palabras 1 18205668 de 2 10821113 la 3 7190346 y 4 6946343 en 5 6769416 el 6 6459010 que 7 5030018 a 8 4505566 los 9 3675272 se 10 3225267 del

Ley de Zipf

Frecuencias de Stopword

Ley de Zipf

Semejanza de documentos

Matriz de documentos a) Si se realiza el cálculo de similitud entre renglones se pude determinar la semejanza entre documentos.

Matriz de documentos b) Si se realiza el cálculo de similitud entre columnas se pueden obtener las relaciones entre términos.

Archivos digitales en texto Total de títulos procesados 1868 (Año 2005) Total de archivos 22721 Tiempo de proceso 60 minutos Total de palabras 162723663 Stopwords 117323884 (72.90%) Palabras útiles 45399779 (27.90%)

Palabras/Diccionario

Questions?