Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349.

Slides:



Advertisements
Presentaciones similares
Support.ebsco.com Business Source Corporate Plus Búsqueda Avanzada Tutorial.
Advertisements

IBD Plan 90 y 2003 Clase 11.
Visualización de la Información
Support.ebsco.com EBSCOhost Busqueda Avanzada para Usuarios Corporativos Tutorial.
Support.ebsco.com Interface de Negocios: Búsquedas Tutorial.
Complejidad Computacional
Complejidad Computacional
Herramientas informáticas
Tema 6. Evaluación de SRIs
Suffix Tree Clustering (STC)
Exposición: Clustering
Informática accesible para todo mundo.
Estructura de Datos Hugo Araya Carrasco Hugo Araya Carrasco.
Medición de la usabilidad en aplicaciones de escritorio.
Tema 5: Excel Base de Datos (II). Función DESREF y Otras
Guía de navegación por el Repositorio de la UASB Para encontrar con facilidad la información en el Repositorio Institucional de la Universidad Andina Simón.
Sistema de Agrupamiento y Búsqueda de Contenidos de la Blogosfera de la ESPOL, Utilizando Hadoop como Plataforma de Procesamiento Masivo y Escalable de.
Microsoft Word? Microsoft Word es un software destinado al procesamiento de textos. Fue creado por la empresa Microsoft Originalmente fue desarrollado.
Clase # 8: Análisis Conformacional (II)
Inteligencia Artificial Adquisición automática del conocimiento
Evaluación de Productos
PROCESO ANALITICO JERARQUICO (AHP)
El portal de recursos electrónicos de la UAM
Estrategias de Búsqueda
Rodríguez Beltrán Max Jonathan Gerardo Rivera Luis Guillermo Ramos Cuevas Cesar Olivas Martínez Luis Alberto.
Optimización de sistemas de trading
Clustering (Agrupamiento)
El Curso Interactivo de Física en Internet
Base de Datos ProQuest.
Condiciones de publicación
Requerimientos para producir
Contexto: Aplicación gráfica.  Siempre que se piensa en separar la funcionalidad de una aplicación de su interacción con el usuario, bien sea una aplicación.
Búsqueda de Aproximaciones: Algoritmos
INTELIGENCIA DE NEGOCIOS
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
Modelos de Texto Estructurado M
Proceso de la investigación de mercado
Especificación de Consultas M
Guía Para Utilizar la Base de Datos EBSCO
Ing. Fabián Ruano.  Definición  Diferencias con BD Centralizadas.
ANÁLISIS DE CONGLOMERADOS
MÉTODO CIENTÍFICO Seminario de Técnicas de Investigación II Morelia, Mich. 29 de Sept de 2006.
Isabel Edo del Moral Susana Fernández LLoria Patricia Moraga Barrero
Consulta Típica en OLAP
Un sistema de información nuevo implica: - Nuevo hardware y software - Cambios de puestos - Habilidades, administración y organización Un nuevo sistema.
Interfaces y Visualización M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Taller de Base de Datos Minería de Datos en la Web Descubrimiento de patrones y modelos en la Web Minería de Contenido –Contenido de páginas y fuentes.
Capítulo 8 Análisis de Usabilidad y Inspección
Ingeniería en Sistemas de Información Diseño de Sistemas (3K1)
Metodología para solución de problemas
Herramientas de uso libre para el manejo de los datos
ORGANIZACIÓN Y PRESENTACIÓN
REPÚBLICA BOLIVARIANA DE VENEZUELA UNIVERSIDAD NACIONAL EXPERIMENTAL SIMÓN RODRÍGUEZ COORDINACIÓN DE DESARROLLO PROFESORAL NÚCLEO BOLÍVAR FACILITADOR:
Recuperación de Información M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Parte I. Estructuras de Datos.

Yusley Contreras COD: Lizeth Fuente Rico COD:
Tecnologías para el Aprendizaje
PROYECTO TECNOLÓGICO Mateo Guerra Alzate Cristian Herrera 9-D I
MONOGRAFÍAS RECURSOS BIBLIOGRÁFICOS. CONSEJOS Lista de palabras clave del tema. Lista de temas estrechamente relacionados. Siempre tome nota del autor.
Fundamentos de Programación
Jairo Pinto Ing. sistemas
PROYECTO DE INVESTIGACIÓN
Proceso de Diseño de Interfaces
Ejemplos y claridad para avanzar la propuesta de investigación en el Trabajo colaborativo Sandra Melo Zipacon.
Elaboración de artículos científicos
MULTIMEDIA Colección de tecnologías centradas en el computador, que brindan al usuario la capacidad de acceder y manipular SONIDO, TEXTO, IMÁGENES Y VIDEO.
Tema: tipos de software. Fecha: 14 /10 /2014 Identificar los tipos de programas para cada necesidades u objetivo.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Interfaces de usuario usando clustering
Transcripción de la presentación:

Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne :

Introducción

Motivación Los mecanismos convencionales de una búsqueda están plagados de baja precisión. Un problema común con esto es que los usuarios deben navegar a través de muchos documentos irrelevantes antes de encontrar el tipo de documento que le interesa.

Motivación Aún algoritmos avanzados de ranking, no puede saber de antemano que tipo de documentos el usuario prefiere. Por ejemplo: Query = Computer Documentos retornados tratan de: hardware o software Interfases Gráficas basadas en Clustering pueden ayudar al usuario a encontrar más fácilmente lo que busca.

Objetivo Presentar una herramienta de búsqueda de texto con nuevas formas de visualizar los resultados, que permitan una mejor navegación de los documentos retornados.

Objectivos especificos Contribuir a la visualización y Browsing de un conjunto de documentos retornados. Utilización Keywords representativos que permitan el agrupamiento de documentos.

Criterios de selección para Keywords Potencialmente de interés general. Específicos para el conjunto de documentos retornados. Poder discriminativo en este conjunto.

Espectativas de los Keywords Los keywords deben ayudar para usuario en varias formas: Informando acerca de temas relacionados con el query. Mejorar el query con keywords sugeridos.

Metodología Los métodos están basados en identificar Keywords que permitan relacionar el contenido de un documento con el de otro. Estos Keywords son usados para obtener una representación de cada documento y calcular los cluster usando una variante del algoritmo de BuckShot

Metodología Los clusters se usan para agrupar los documentos retornados en un query y presentarlos visualmente. Diferentes formas de visualizar los resultados son presentados de acuerdo a las necesidades del usuario.

Marco Teórico

Calculo de Keywords En lugar de utilizar el idf para calcular el peso de los Keywords, se sugiere utilizar la siguiente formula: wj = hj / dj * hj * log( |H| /hj ) Donde: |H| es el número total de documentos retornados hj es el número de documentos en H que contienen la palabra j dj es el número de documentos en toda la colección D que contienen la palabra j

Representación del documento Para cada documento i retornado de un query se crea un vector Vi de k dimensiones, cuyo componente Vij es una función del numero de ocurrencias (tij) del keyword j rankeado en el documento i: Vij = log 2 (1 + tij ) * log( | D | / dj ) Cada vector vi se normaliza produciendo un vector ui que representa al documento i.

Representación del documento Para calcular la similaridad entre dos documentos a y b se calcula el producto escalar de los vectores u a * u b. U puede ser vista como una representación matricial de los documentos, donde las filas del vector ui son una representación k-dimensional del documento i, y uij es la importancia de la palabra j documento en el documento i. En particular uij es = 0, si y solo si la palabra j no esta contenida en el documento i.

Agrupamiento de documentos Se aplica una variante del algoritmo de Buckshot [2] a la matriz u ij. Se obtiene una representación de jerárquica de clusters. Cada cluster tiene cierto numero de vectores de documentos. Jerarquía coherente con el ranking de los documentos retornados.

Pasos para aplicar el Algoritmo: Cree una matriz de similaridad doc-doc Cada documento empieza en un cluster de tamaños 1 Do Until solo halla un cluster: Combine los dos cluster con similaridad más grande. Actualize la matriz de doc-doc

Ejemplo Considere A, B, C, D, E como documentos con las siguientes similaridades: A B C D E A B C D E Par con similaridad mayor: E-B = 14

Se agrupan E y B Obteniendo la siguiente estructura: BE A C D E B

Update de la matriz DOC-DOC A BE C D A BE C D Calculo de BE SC (A, B) = 2 y SC (A, E) = 4 SC(A,BE) = 4 single link (take max) SC(A,BE) = 2 complete linkage (take min) SC(A,BE) = 3 group average (take average)

Se agrupa BE y C Obteniendo la siguiente estructura: BCE BE C A D E B

Update de la matriz DOC-DOC A BCE D A BCE D Cálculo de SC(A, BCE): SC (A, BE) = 2 y SC (A, C) = 7 SC(A,BCE) = 2 Cálculo de SC(D,BCE) SC(D, BE) = 2 y SC(D, C) = 4 SC(D, BCE) = 2

Se agrupa A y D. ABCDE BCE AD BE C A D E B

Tiempo de procesamiento Algoritmo consume una cantidad de tiempo lineal entre el número de documentos retornados y el número de cluster generados. En promedio 1000 documentos pueden ser procesados en menos de un segundo con un PC estándar de 500 MHz.

Desarrollo

Nuevos paradigmas en visualización de información Sammon Cluster View Tree-Map Visualization Radial Interactive Visualization

Sammon Cluster View Utiliza Sammon map, para generar una localización en dos dimensiones de los clusters. Este mapa se calcula usando un búsqueda de gradiante iterativo (Ver [3]).

Tree-Map Visualization Representación jerárquica de los cluster. Los cluster se visualizan mediante rectángulos. Clusters similares se agrupan en Súper Clusters (Ver 4).

A B C D EF Tree-Map Construction NodeWeight A10 B1 C4 D5 E2 F3

B: 1 A: 10 C: 4 D: 5 E: 2F: 3 Tree-Map Construction A B C D EF

A B C D EF A

A B C D EF BCD

A B C D EF BCD

Radial Interactive Visualization Nodos con Keywords son colocados alrededor de un círculo. Documentos representados por puntos en el interior del círculo. Entre mas relacionado un documento con un Keyword más cercano estará de este (Ver 5, 6 y 7).

Ejemplo de Algoritmo Radial Sea P1 la posición del Keyword A en el círculo. Sea P2 la posición del Keyword B en el círculo. Se utiliza la matriz de pesos de Keyword para cada documento. ( P1 * wij, P2 * wij)

Experimentos de clustering Se realizaron experimentos de agrupamiento con 548,948 documentos principalmente de US. Estos documentos se tomaron de los CDs vol 4 y 5 de TREC (ver Las Fuentes de estos artículos pertenecen a Los Angeles Times, the Financial Times, the Federal Register, Congress Records, etc.

Calidad de clusters Basado en el análisis brindado por expertos, acerca de documentos relevantes y no relevantes. 100 queries enfocados en encontrar concentraciones altas y bajas de documentos relevantes en los clusters.

Resultados Los resultados compilan evidencia que valida la Hipótesis de Clustering en bajas dimensiones para la representación de documentos [8]

Resultados Generales Una palabra candidata aparece por lo menos en 3 documentos. Una palabra candidata no aparece en más del 33% de todos los documentos. Vocabulario resultante 222,872 Keywords. Un promedio de 200 Keywords por documento.

Encuesta Las personas llenaban un cuestionario antes de usar la aplicación. Después utilizaban la aplicación para realizar una serie de queries en una colección de documentos.

Encuesta Los queries se diseñaron para que aunque la información estubiera en la colleccion, no fuese obvia su localización. Finalmente un cuestionario post uso, con preguntas acerca de la aplicación y otras áreas más abiertas.

Carácteriscas Comparativas Visualizaciones basadas en clusters dan un panorama más amplio del conjunto de resultados. Visualización Radial permite enfocarse en formar subconjuntos de Keywords

Carácteriscas Comparativas Sammon Map se enfoca más en la relación que existe en un cluster y otro. TreeMap es más explicito en cuanto al tamaño de los cluster y su estructura jerárquica.

Facilidades de cada interfaz Sammon Map guía en el análisis, permite reagrupar subconjuntos, y gradualmente acercar al tipo de documentos de interés. TreeMap permite enfocarse en Keywords que de ciertos documentos que de interés, para formular una búsqueda más productiva. Radial apropiado si el usuario esta familiarizado con los Keywords del area de su interes.

Conclusiones Contribuye a la visualización y Browsing de un conjunto de documentos retornados mediante: Identificación de features relevantes en un conjunto de documentos (Keywords) Desechar rápidamente clusters irrelevantes. Operaciones de Drill Down en cluster relevantes. Construcción de grupos personalizado usando Radial.

Posibles Mejoras Uso de Tesauros para realizar el agrupamiento de Keywords.