Exposición: Clustering

Slides:



Advertisements
Presentaciones similares
SISTEMAS DE INFORMACIÓN I
Advertisements

Clasificación de los compiladores
Comparación de Modelos de DI
Pruebas de Diseño Diplomado en Calidad en el Software NOTAS
PROCESO Y MODELOS EN LA INGENIERIA DE SOFTWARE
Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne :
Suffix Tree Clustering (STC)
UCR – ECCI CI-2414 Recuperación de Información
Tecnología Instruccional
La web semántica y su impacto en la recuperación de información
Razonamiento Explícito y Experimentación en la Algoritmia
Blog y wiki.
Búsquedas avanzadas en la Wikipedia
CÓMO REALIZAR UN PROYECTO
Sistema de Agrupamiento y Búsqueda de Contenidos de la Blogosfera de la ESPOL, Utilizando Hadoop como Plataforma de Procesamiento Masivo y Escalable de.
Concepto de programa. Directorio Concepto de programa. Analisis del problema. Resolucion del problema. Desarroollo de un programa. Partes constitutivas.
Danilo Yáñez Alarcón. Avance II
UNIVERSIDAD LATINA (UNILA) IV. IMPLANTACION DE ALGORITMOS.
Profesor: Miguel Angel Vidal
El análisis y recuperación de información
GRAFICOS ESTADISTICOS
INTRODUCCIÓN A LA COMPUTACIÓN 12va Semana – 19va Sesión Miércoles 18 de Mayo del 2005 Juan José Montero Román
Modelos de Texto Estructurado M
Arquitectura de la Información Prof. Adelaide Bianchini – Dpto. de Computación y Tecnología de la Información, Universidad Simón Bolívar. Febrero 2006.
Especificación de Consultas M
Diagrama de Flujo La presentación gráfica de sistemas es una forma ampliamente utilizada como herramienta de análisis,  ya que permite identificar aspectos.
Curso-Taller Capacitación para Coaches de Conservación
Sistemas de Información IS95872
Isabel Edo del Moral Susana Fernández LLoria Patricia Moraga Barrero
Tema 10.3: Asignación de Espacio No Contiguo. Tema 10.3: 2 Silberschatz, Galvin and Gagne ©2005 Fundamentos de los Computadores (ITT, Sist. Electr.),
(Organización y Manejo de Archivos)
Resumen de Artículo Científico
Asignación de Espacio No Contiguo
ORGANIZACIÓN DE LOS DATOS PARA PROCESARLOS EN COMPUTADORA Las computadoras trabajan con datos. Aceptan y procesan datos, y comunican resultados. No pueden.
Cynthia Fresno 1 QUESTION ANSWERING. Cynthia Fresno2 Índice: 1) ¿Qué es el question answering?. 2) Sistema de question answering. 3) TREC vs. CBC. 4)
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)
Seguridad y encriptación
El Análisis de Datos y los Informes Finales
EXAMEN DE DISEÑO INSTRUCCIONAL PRIMER PARCIAL.
Recuperación de Información M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
ESTRATEGIAS PARA EL APRENDIZAJE DE LA SEMÁNTICA ESPAÑOLA
TALLER DE ESTUDIO INDEPENDIENTE (ILCE)
Indexación M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Tecnologías para el Aprendizaje
Martin Barreto Ricardo Bedat Docentes: Juanjo Prada – Aiala Rósa.
Guía para la Búsqueda de Información
Introducción a las Ingenierías de la Información
Unidad 2 – Gestión de Procesos
Toma de Decisiones.
Estimación por casos de uso.  Un caso de uso representa una unidad de interacción entre uno y el sistema. Un Caso de Uso es una unidad simple de trabajo.
Jairo Pinto Ing. sistemas
Diagramas De Flujo Juan Guillermo Cohen Kelly Nahanni Martinez
Informes de Laboratorio
Anexo accesibilidad | SENADIS y Centro de Sistemas Públicos Observaciones Generales Este es un documento de evaluación de la accesibilidad del Sitio Web.
Actividades en el Proceso de desarrollo de Software
Anexo accesibilidad | SENADIS y Centro de Sistemas Públicos Observaciones Generales Este es un documento de evaluación de la accesibilidad del Sitio Web.
M.C. Meliza Contreras González
Proyecto diseño multimedia
Estrategias efectivas para buscar y encontrar información Dr. Valentino Morales López Investigador INFOTEC Centro de Investigación.
¿QUÉ ES EL MODELO ENTIDAD-RELACIÓN?  Como ya he comentado este modelo es solo y exclusivamente un método del que disponemos para diseñar estos esquemas.
La planificación Docente
Que son las Wikis Un wiki o una wiki (del hawaiano wiki, 'rápido') [1] es un sitio web cuyas páginas pueden ser editadas por múltiples voluntarios a través.
Liliana Sastoque Puerto Yamile Sandoval Muñoz Fecha
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.

Taller de investigación 1
DHTIC Juan Esteban Hernández Pérez Estrategias de Búsqueda.
Entorno de Recomendación para el Desarrollo de Objetos de Aprendizaje Manuel E. Prieto Universidad de Castilla-La Mancha, España Victor H. Menéndez Universidad.
Antonio de Jesús González Arce Matricula DHTIC.
LE, EI, Profesor Ramón Castro Liceaga UNIVERSIDAD LATINA (UNILA) IV. IMPLANTACION DE ALGORITMOS.
Transcripción de la presentación:

Exposición: Clustering Universidad de Costa Rica Exposición: Clustering Juan de Dios Murillo Morera A37520 Miércoles 9 de Junio, 2004

Agenda Motivación Qué es clustering ? Modelo Conceptos importantes Ejemplo Algunos algoritmos utilizados El algoritmo de árbol de sufijos(STC) Resultados y evaluaciones de algoritmos de clustering Conclusiones

Motivación Problema: La baja precisión del Web search engine hace dificil para el usuario la tarea de localizar rapidamente la información esperada Solución: Web Document Clustering

Qué es Clustering ? Es un método alternativo que permite organizar los resultados obtenidos a través de grupos de documentos(cluster base) tomando en cuenta algún tópico en especial. Según el artículo es una técnica para presentar los documentos despúes de haberlos recuperado en grupos pequeños que están relacionados por un tema en especial.

Modelo Clustering Engine Search Engine clusters User query

Requerimientos principales Relevance: método que produce clusters que agrupan los documentos relevantes separandolos de los irrelevantes. Browsable Summaries: Cuando el usuario necesita determinar si los contenidos de un cluster son de interés Overlap: Es importante por que se asigna un documento a más de un cluster. Snippets : Lista de documentos ordenadas por orden de relevancia, relativamente pequeños.

Ejemplo # 1 Compartir frases en un clustering es una forma de resumir su contenido.

Algunos algoritmos utilizados Single-Pass: es el más popular de los algoritmos incrementales, sin embargo tiene tendencia a producir clusters largos. K-means: permite aplicar overlapping y es una aproximación de GAHC. Buckshot y Fractionation : son más rápido que los dos primeros STC: árbol de sufijos, a diferencia de los anteriores tratan a los documentos como una secuencia ordenada de palabras.

Suffix Tree Clustering (STC) Es un algoritmo de cluster de tiempo lineal, que está basado en el árbol de sufijos y el cual con eficiencia identifica el conjunto de documentos que comparten frases comunes. El STC trata los documentos como un conjunto de strings y hace uso de información próxima entre palabras. Resume el contenido de los clusters para los usuarios Es bastante rápido por que trabaja con un conjunto pequeño de documentos en forma incremental e independiente.

Procedimiento de operación Pasos: “Limpiar” los documentos Identificar los clusters base Combinar los clusters base

“Limpiar” los documentos La cadena de texto que representa cada documentos es transformado haciendo uso de un algoritmo de stemming. Se eliminan los prefijos y sufijos. Se pasa de plural a singular. Se eliminan los tags así como signos de puntuación.

Identificar los clusters base Está compuesto de una raíz que direcciona el árbol Cada nodo interno tiene dos hijos. Cada línea entre nodos está etiquetada con un sub-string del string(S). Ninguna de las aristas fuera del mismo nodo pueden tener las etiquetas que comiencen con la misma palabra. Puede verse como la creación de un índice invertido.

Identificar los clusters base(cont)

Combinar los clusters base Los documentos pueden compartir más de una frase. Los documentos de distintas bases pueden aplicar overlap. Clustering de clustering bases

Diagrama del árbol de sufijos Dadas las siguientes cadenas Cadena1: “cat ate cheese”. Cadena2: “mouse ate cheese too”. Cadena3: “cat ate mouse too”. Objetivo: Agrupar documentos que compartan temas comunes

Experimento # 1 Uso de frases para identificar los clusters. Los clusters usan overlapping 72 % de los documentos fueron puestos en más de un cluster. Se trabajaron 10 colecciones de documentos de 200 documentos.

Experimento # 2 Las frases son claves para identificar los clusters así como también el overlap.

Experimento # 3 El uso de frases son claves en STC y el de palabras en el de GAHC. La diferencia de K-Means entre el uso de frases y no uso de las mismas es más pequeño en relación con el de STC.

Experimento # 4 El impacto de K-Means y Buckshot en relación a overlap es considerablemente pequeño.

Experimento # 4 (cont) Si los documentos aparecen en múltiples clusters: 1-) Es ventajoso si el doc es relevante. 2-) Es desventajoso si el documento es irrelevante.

Propuesta de artículo de investigación Implementar un algoritmo de los descritos y hacer un análisis de resultados en términos de tiempo, precisión, agrupamiento de documentos etc.

Conclusiones El clustering es un método de recuparar la información a través del agrupamiento de documentos en base a temas específicos. Una secuencia ordenada de palabras es mucho más significativas que simples palabras claves. El uso del custering facilitaría al usuario localizar rapidamente la información esperada. El STC es mucho más rápido que el uso tradicional de clustering.

Gracias!!!