La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones.

Presentaciones similares


Presentación del tema: "Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones."— Transcripción de la presentación:

1 Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones en el Análisis Documental

2 George Kingsley Zipf (1902-1950) Fue un lingüista y filólogo estadounidense que aplicó el análisis estadístico al estudio de diferentes lenguas.

3 LEY DE ZIPF En 1935, George Kingsley Zipf, después de estudiar la ocurrencia de palabras en varios textos, formuló lo que se conoce como ley de Zipf. Dice: si tomamos cualquier longitud de palabras de un texto, y se analiza la ocurrencia de las mismas, en orden decreciente de frecuencia y se multiplica por su frecuencia, esto es igual a la constante.

4 LEY DE ZIPF RangoPalabrasFrecuenciaPorcentajeConstante Orden Ocurrencias del Total (FxR=C) 1the 7.398.9345.9 7.398.934 2of 3.893.7903.1 7.787.580 3to 3.364.6532.7 10.093.959 4and 3.320.6872.6 13.282.748 5in 2.311.7851.8 11.558.925 6is 1.559.1471.2 9.354.882 7for 1.313.5611 9.194.927 8The 1.144.8600.9 9.158.880 9that 1.066.5030.8 9.598.527 10said 1.027.7130.8 10.277.130

5 La frecuencia por el rango es igual a la constante FxR=C C F= R LEY DE ZIPF La frecuencia de aparición (F) de una palabra en un texto es inversamente proporcional a su rango (R)

6 La ley de Zipf también da la dependencia de la frecuencia de ocurrencia de una palabra con respecto al número de palabras que se usen, o sea, a la amplitud del vocabulario utilizado. Mientras menor sea el vocabulario, mayor será la frecuencia de las palabras en los primeros rangos. LEY DE ZIPF Ley del mínimo esfuerzo

7 LEY DE ZIPF Y EL AD Indización automática. Recuperación de información

8 LEY DE ZIPF Y EL AD Indización automática y la generación de Tesauros 1.Identificación y adquisición de componentes representativos de un dominio Análisis léxico Tratamiento de palabras vacías Tratamiento de términos flexionados Tratamiento de palabras compuestas Filtrado de términos 2.Obtención de relaciones entre componentes

9 LEY DE ZIPF Y EL AD Indización automática y la generación de Tesauros Análisis léxico Adquisición de componentes (términos que representan un significado colectivo) Tratamiento de palabras vacías [artículos, preposiciones, conjunciones] Eliminación de palabras vacías (con listas construidas previamente o después del filtrado) Descriptores simples o Compuestos Tratamiento de términos flexionados [términos relacionados morfológicamente, variaciones de género, número o tiempo verbal] Reducción a términos canónicos (efectividad en la recuperación de información, reducir el tamaño de los resultados) Tratamiento de palabras compuestas Algoritmos (relaciones entre descriptores y relaciones jerárquicas)

10 Filtrado de términos Identificación de términos representativos IDF [Indización estadística de Términos por Frecuencia] LEY DE ZIPF Y EL AD Indización automática y la generación de Tesauros La zona media representa el documento En el caso de que un término tenga una frecuencia en un documento mayor que la media fijada en el resto de documentos se tomara como descriptor para todos. No es necesario que un término aparezca en todos los documentos a filtrar para que sea descriptor. Método N-grams

11 LEY DE ZIPF Y EL AD Indización automática y la generación de Tesauros 1.Obtención de relaciones entre componentes Obtención de relaciones jerárquicas Asociaciones temáticas (proceso de clusterización que agrupa en clases aquellos descriptores que responden a una serie de características comunes) 1.Encontrar la raíz Calculo del centroide Descriptor más general del cluster (mayor numero de apariciones en el total de docs del corpus) Descriptor más general del cluster (el que aparezca en un mayor número de documentos) Descriptor más general (combinando las dos ideas anteriores) 2.Agrupación de clases

12 Gracias por su atención


Descargar ppt "Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones."

Presentaciones similares


Anuncios Google