La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica.

Presentaciones similares


Presentación del tema: "Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica."— Transcripción de la presentación:

1 Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica

2 Agenda Motivación Qué es clustering ? Modelo Conceptos importantes Ejemplo Algunos algoritmos utilizados El algoritmo de árbol de sufijos(STC) Resultados y evaluaciones de algoritmos de clustering Conclusiones

3 Motivaci ón Problema: La baja precisión del Web search engine hace dificil para el usuario la tarea de localizar rapidamente la información esperada Solución: Web Document Clustering

4 Qué es Clustering ? Es un método alternativo que permite organizar los resultados obtenidos a través de grupos de documentos(cluster base) tomando en cuenta algún tópico en especial. Según el artículo es una técnica para presentar los documentos despúes de haberlos recuperado en grupos pequeños que están relacionados por un tema en especial.

5 Modelo User Search Engine Clustering Engine query clusters

6 Requerimientos principales Relevance: método que produce clusters que agrupan los documentos relevantes separandolos de los irrelevantes. Browsable Summaries: Cuando el usuario necesita determinar si los contenidos de un cluster son de interés Overlap: Es importante por que se asigna un documento a más de un cluster. Snippets : Lista de documentos ordenadas por orden de relevancia, relativamente pequeños.

7 Ejemplo # 1 Compartir frases en un clustering es una forma de resumir su contenido.

8 Algunos algoritmos utilizados Single-Pass: es el m á s popular de los algoritmos incrementales, sin embargo tiene tendencia a producir clusters largos. K-means: permite aplicar overlapping y es una aproximaci ó n de GAHC. Buckshot y Fractionation : son m á s r á pido que los dos primeros STC: á rbol de sufijos, a diferencia de los anteriores tratan a los documentos como una secuencia ordenada de palabras.

9 Suffix Tree Clustering (STC) Es un algoritmo de cluster de tiempo lineal, que est á basado en el á rbol de sufijos y el cual con eficiencia identifica el conjunto de documentos que comparten frases comunes. El STC trata los documentos como un conjunto de strings y hace uso de informaci ó n pr ó xima entre palabras. Resume el contenido de los clusters para los usuarios Es bastante r á pido por que trabaja con un conjunto peque ñ o de documentos en forma incremental e independiente.

10 Procedimiento de operaci ó n Pasos: 1. Limpiar los documentos 2. Identificar los clusters base 3. Combinar los clusters base

11 Limpiar los documentos La cadena de texto que representa cada documentos es transformado haciendo uso de un algoritmo de stemming. Se eliminan los prefijos y sufijos. Se pasa de plural a singular. Se eliminan los tags as í como signos de puntuaci ó n.

12 Identificar los clusters base Est á compuesto de una ra í z que direcciona el á rbol Cada nodo interno tiene dos hijos. Cada l í nea entre nodos est á etiquetada con un sub-string del string(S). Ninguna de las aristas fuera del mismo nodo pueden tener las etiquetas que comiencen con la misma palabra. Puede verse como la creaci ó n de un í ndice invertido.

13 Identificar los clusters base(cont) clusters base

14 Combinar los clusters base Los documentos pueden compartir m á s de una frase. Los documentos de distintas bases pueden aplicar overlap. Clustering de clustering bases

15 Diagrama del á rbol de sufijos Dadas las siguientes cadenas Cadena1: cat ate cheese. Cadena2: mouse ate cheese too. Cadena3: cat ate mouse too. Objetivo: Agrupar documentos que compartan temas comunes

16 Experimento # 1 Uso de frases para identificar los clusters. Los clusters usan overlapping 72 % de los documentos fueron puestos en más de un cluster. Se trabajaron 10 colecciones de documentos de 200 documentos.

17 Experimento # 2 Las frases son claves para identificar los clusters así como también el overlap.

18 Experimento # 3 El uso de frases son claves en STC y el de palabras en el de GAHC. La diferencia de K-Means entre el uso de frases y no uso de las mismas es más pequeño en relación con el de STC.

19 Experimento # 4 El impacto de K-Means y Buckshot en relación a overlap es considerablemente pequeño.

20 Experimento # 4 (cont) Si los documentos aparecen en múltiples clusters: 1-) Es ventajoso si el doc es relevante. 2-) Es desventajoso si el documento es irrelevante.

21 Propuesta de artículo de investigación Implementar un algoritmo de los descritos y hacer un análisis de resultados en términos de tiempo, precisión, agrupamiento de documentos etc.

22 Conclusiones El clustering es un método de recuparar la información a través del agrupamiento de documentos en base a temas específicos. Una secuencia ordenada de palabras es mucho más significativas que simples palabras claves. El uso del custering facilitaría al usuario localizar rapidamente la información esperada. El STC es mucho más rápido que el uso tradicional de clustering.

23 Gracias!!!


Descargar ppt "Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004 Universidad de Costa Rica."

Presentaciones similares


Anuncios Google