Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones.

Slides:



Advertisements
Presentaciones similares
Recuperación de Textos (RTT)‏
Advertisements

Probability and Statistics. Probabilidad Probabilidad: Probabilidad: Es la posibilidad de que un evento ocurra o suceda. Ejemplos: La probabilidad de.
María Simarro Vázquez 4. LA DOCUMENTACIÓN ESPECIALIZADA.
Maestría en Explotación de Datos y Descubrimiento del Conocimiento
Cluster.
Master en Recursos Humanos
La web semántica y su impacto en la recuperación de información
Tema 3 Revisión de diversos métodos robustos aplicados en algunos problemas fotogramétricos.
UNIVERSIDAD LATINA (UNILA) IV. IMPLANTACION DE ALGORITMOS.
Teoría de lenguajes y compiladores
Seminario de Análisis Documental
MATEMÁTICAS TEMAS: 6-7.
COMPRENSION LECTORA Prof. Viviana Cabrera L..
MAPAS CONCEPTUALES Es una representación de conceptos unidos por enlaces que forman proposiciones, permitiendo un aprendizaje significativo (Novak y.
El análisis y recuperación de información
DPTO. MATEMÁTICAS - I.E.S. PABLO SERRANO
Capítulo III Análisis de varianza.
Clases 4 Pruebas de Hipótesis
Población y Muestra.
Especificación de Consultas M
ANÁLISIS DE CONGLOMERADOS
Dirección Provincial de Información y Planeamiento Educativo
Representando para Aprender
Métodos de Búsqueda Informada. Búsqueda de la mejor Ruta En esta sección no sólo nos interesa encontrar una posible ruta, sino obtener aquella ruta que.
GRUPO DE INVESTIGACION EN CONTROL INDUSTRIAL
DESCRIPTORES EN CIENCIAS DE LA SALUD
Todo traductor esta basado en una gramática para el lenguaje fuente. Todo traductor esta basado en una gramática para el lenguaje fuente. Una gramática.
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)
Organización del Computador 1 Sistemas de Representación.
Est 15 Desviación estandar
Medidas de Variabilidad
I NSTITUTO TECNOLÓGICO SUPERIOR DE TLAXCO. Hugo Rogelio Arvizu Alvarado. Uriel Vázquez Lira. Hugo Agustín Trujillo Tavera. Víctor Manuel Paredes Vázquez.
Antecedentes. Universidad de Costa Rica Programa de Lexicografía- INIL Escuela de Formación.
Lógica de enunciado La lógica de enunciados o de proposiciones es el nivel más básico de análisis lógico y descansa exclusivamente en las conectivas.
Procesamiento Digital de Imágenes
Capacidad de Proceso.
Tratamiento de datos y azar
Estadísticas Datos y Azar
Sumario Significados de las operaciones aritméticas.
1 Biblioteca Virtual de Salud Biblioteca Virtual de Salud Como buscar por CUMED Tomado del documento PPT como buscar por CUMED de la Lic. Bárbara Lazo.
Tipos de Datos abstractos
Procesamiento Digital de Imágenes
Técnicas de Indización y Resumen Félix del Valle Gastaminza 5º A Licenciatura en Documentación Curso

PRESENTACION V ETAPA 2: IDENTIFICACION REGIONES HOMOGENEAS Curso Formación Fortalecimiento Institucional Análisis Regional de Frecuencias basado en L-momentos.

Tecnologías para el Aprendizaje
EL ANALISIS DE CONTENIDO
Heap Fibonacci heap de Fibonacci es una estructura de datos similar a un heap binomial pero con mejor coste amortizado. se utiliza para mejorar el tiempo.
JAVIER VILLACÍS M. LENGUAJE II.  Tesauro es el nombre dado a algunos diccionarios, catálogos, Antologías, etc. El término proviene del latín thesaurus.
FRECUENCIA RELATIVA..
Herramientas de Mejora de la Calidad
Probabilidad y Estadística
Estadística Reporte Ejecutivo
El lenguaje y la Ciencia Documentos Actividad de los científicos Conceptos, ideas, conocimiento El análisis de la Ciencia y de la Técnica debe incluir.
Análisis de Fourier.
Estrategias eficientes para buscar y encontrar
Universidad Mexicana en Línea Carrera: Administración Pública Asignatura: Estadística Tutor: Leonardo Olmedo Alumno: Alfredo Camacho Cordero Matrícula:
Minería de texto Análisis Documental.
PROGRAMA DE LENGUAJE Y COMUNICACIÓN
UNIDAD I 1.1 Conceptos y Aplicaciones de la hoja de cálculo
Objetivo: Recordar elementos presentes en el estudio de la estadística
Profesor: Jorge Pérez Cabrera
DATOS ESTADÍSTICOS.
Tipos de Datos abstractos
Para cada uno de los atributos, indicaremos su campo de descripción. Cuando un campo no dispone de este (como el.
 Excel es un programa de aplicaciones que modifica tus habilidades para grabar datos y luego extraer resultados de la misma.  Con Excel puede ingresar.
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
TAMAÑO DE LA MUESTRA Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia.
LE, EI, Profesor Ramón Castro Liceaga UNIVERSIDAD LATINA (UNILA) IV. IMPLANTACION DE ALGORITMOS.
Transcripción de la presentación:

Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones en el Análisis Documental

George Kingsley Zipf ( ) Fue un lingüista y filólogo estadounidense que aplicó el análisis estadístico al estudio de diferentes lenguas.

LEY DE ZIPF En 1935, George Kingsley Zipf, después de estudiar la ocurrencia de palabras en varios textos, formuló lo que se conoce como ley de Zipf. Dice: si tomamos cualquier longitud de palabras de un texto, y se analiza la ocurrencia de las mismas, en orden decreciente de frecuencia y se multiplica por su frecuencia, esto es igual a la constante.

LEY DE ZIPF RangoPalabrasFrecuenciaPorcentajeConstante Orden Ocurrencias del Total (FxR=C) 1the of to and in is for The that said

La frecuencia por el rango es igual a la constante FxR=C C F= R LEY DE ZIPF La frecuencia de aparición (F) de una palabra en un texto es inversamente proporcional a su rango (R)

La ley de Zipf también da la dependencia de la frecuencia de ocurrencia de una palabra con respecto al número de palabras que se usen, o sea, a la amplitud del vocabulario utilizado. Mientras menor sea el vocabulario, mayor será la frecuencia de las palabras en los primeros rangos. LEY DE ZIPF Ley del mínimo esfuerzo

LEY DE ZIPF Y EL AD Indización automática. Recuperación de información

LEY DE ZIPF Y EL AD Indización automática y la generación de Tesauros 1.Identificación y adquisición de componentes representativos de un dominio Análisis léxico Tratamiento de palabras vacías Tratamiento de términos flexionados Tratamiento de palabras compuestas Filtrado de términos 2.Obtención de relaciones entre componentes

LEY DE ZIPF Y EL AD Indización automática y la generación de Tesauros Análisis léxico Adquisición de componentes (términos que representan un significado colectivo) Tratamiento de palabras vacías [artículos, preposiciones, conjunciones] Eliminación de palabras vacías (con listas construidas previamente o después del filtrado) Descriptores simples o Compuestos Tratamiento de términos flexionados [términos relacionados morfológicamente, variaciones de género, número o tiempo verbal] Reducción a términos canónicos (efectividad en la recuperación de información, reducir el tamaño de los resultados) Tratamiento de palabras compuestas Algoritmos (relaciones entre descriptores y relaciones jerárquicas)

Filtrado de términos Identificación de términos representativos IDF [Indización estadística de Términos por Frecuencia] LEY DE ZIPF Y EL AD Indización automática y la generación de Tesauros La zona media representa el documento En el caso de que un término tenga una frecuencia en un documento mayor que la media fijada en el resto de documentos se tomara como descriptor para todos. No es necesario que un término aparezca en todos los documentos a filtrar para que sea descriptor. Método N-grams

LEY DE ZIPF Y EL AD Indización automática y la generación de Tesauros 1.Obtención de relaciones entre componentes Obtención de relaciones jerárquicas Asociaciones temáticas (proceso de clusterización que agrupa en clases aquellos descriptores que responden a una serie de características comunes) 1.Encontrar la raíz Calculo del centroide Descriptor más general del cluster (mayor numero de apariciones en el total de docs del corpus) Descriptor más general del cluster (el que aparezca en un mayor número de documentos) Descriptor más general (combinando las dos ideas anteriores) 2.Agrupación de clases

Gracias por su atención