Interfaces de usuario usando clustering

Slides:



Advertisements
Presentaciones similares
Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne :
Advertisements

Suffix Tree Clustering (STC)
Especificación de Consultas M
AGENDA Mañana :00– 8:30 amRegistro 8:30 – 9:00 am¿Qué.
Formato para los autores. Presentación de póster Apellido y Nombre 1, Apellido y Nombre 2, Apellido y Nombre 3, etc
Compensaciones y Beneficios Sonia Boiarov. RESULTADO PRINCIPIOS EQUIDAD INTERNA COMPETITIVIDAD EXTERNA INDIVIDUALIDAD HERRAMIENTAS ANALISIS, DESCRIPCION;
Alumna : Silvia Salcedo Fernández. Un buscador es una página de internet que permite realizar búsquedas en la red. Su forma de utilización es muy sencilla,
ECAPMA CURSO: Biometría y Diseño Experimental Director: Arturo Samuel Gómez Insuasti, Zootecnista. Ph.D. San Juan de Pasto, 14 de junio de 2016.
Anexo accesibilidad | SENADIS y Centro de Sistemas Públicos Observaciones Generales Este es un documento de evaluación de la accesibilidad del Sitio Web.
Curso elemental de Microsoft Excel. Contenido Metodología  Convertir texto en columnasConvertir texto en columnas  Aplicar Estilos rápidos a tablasAplicar.
REFERENCIAS BIBLIOGRAFICAS
UNIVERSIDAD DE BURGOS Escuela Politécnica Superior
COMPONENTES DE INTERNET
Un Enfoque de Clustering basado en PSO Asistido
Análisis y catalogación de las fuentes que definen las competencias demandadas en el campo de la Interacción Persona-Ordenador Raquel Lacuesta Jesús Gallardo.
6 de febrero 2017 Prof. Lourdes Cádiz
U.T. 11: Introducción A Las Bases De Datos
Jornadas Temas Actuales en Bibliotecología
Estructura de Base de Datos
Acerca del uso de métricas de calidad de Wikipedia
TRABAJO DE TITULACIÓN “MANEJO BASICO DE INDICADORES DE PARTICIPACION CIUDADANA UTILIZANDO ALGORITMOS Y TECNICAS DE MINERIA DE DATOS COMO APOYO EN LA GESTION.
UNIDAD II INTERNET.
INTRODUCCIÒN AL SISTEMA GESTOR DE BASE DE DATOS
Formación SICdrive Componentes de SICdrive El Backend El Frontend.
Búsqueda de información sobre temas de gestión de oficinas en bases de datos especializadas Snejanka Penkova, Ph.D. Biblioteca de administración de empresas.
Tema 6. Conceptos básicos de programación (Clase 2)
EXPERIMENTO FACTORIAL 23
DIAGRAMA DE CLASES 2016 Ramos, Pablo.
Título de la Investigación
Determinación de una Situación problema
Características de las encuestas – basadas en cuestionarios
Elementos de análisis espacial…2
Representaciones Geográficas
TECNOLOGIA.
Motores de busqueda.
Conceptos Relacionados Unidad I. Parte A.
Conocimiento de la nueva moneda virtual Bitcoin entre los estudiantes de Ciencias Administrativas de la Universidad Interamericana de Panamá. Integrantes:
Universidad Nacional Agraria
Universidad Nacional Agraria
APLICACIÓN DE NUEVAS TECNOLOGÍAS EN LA CONSERVACIÓN Y ANÁLISIS DEL PATRIMONIO CULTURAL Herramientas para la Investigación.
Diagrama de Flujo La presentación gráfica de sistemas es una forma ampliamente utilizada como herramienta de análisis, ya que permite identificar aspectos.
Método Delphi Materia: Gestión y Desarrollo de Colecciones
Aggregation framework con PyMongo
Técnicas De Recolección De Datos
Auditoria de Tecnologías de Información PLANIFICACION Ing. Eder Gutiérrez Quispe.
12 de diciembre de 2006 Proyecto de Activación del Centro de Desarrollo Empresarial Reunión de Arranque con Empresas Piloto.
Desarrollo Técnico  EL PROCESO DE CREACIÓN Y DESARROLLO DE UNA TIPOGRAFÍA CUALQUIERA ES, EN LÍNEA GENERAL MUY SIMILAR. AQUÍ NO SE DESCRIBIRÁ EN DETALLE.
 La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de la estadística y las.
¿QUÉ ES UNA ENCUESTA?.
Manual del Usuario Todos los derechos reservados ©.
DPP MASTER EJECUTIVO EN POLITICAS Y PRACTICAS DE DESARROLLO
CURSO NIVEL MEDIO ArcGis.
AGENDA Mañana :00– 8:30 am Registro 8:30 – 9:00 am.
Generaciones de Bases de Datos
Presentación de datos e interpretación de resultados.
Bienvenidos!.
UN DISEÑO ES EL RESULTADO FINAL DE UN PROCESO, CUYO OBJETIVO ES BUSCAR UNA SOLUCIÓN IDÓNEA A CIERTA PROBLEMÁTICA PARTICULAR, PERO TRATANDO EN LO POSIBLE.
MAPAS CONCEPTUALES. ORIGEN Y DESARROLLO DE LOS MAPAS CONCEPTUALES  Los mapas conceptuales iniciaron su desarrollo en el Departamento de Educación de.
aplicados a la Recuperación de Información
Estrategias de búsqueda de información en bases datos especializadas
AGENDA Mañana :00– 8:30 amRegistro 8:30 – 9:00 am¿Qué.
Gráficos en Word Es una herramienta con la que puedes exponer datos o cifras de manera gráfica.
1 ACTIVIDAD 1 María Isabel Sangrador flores Protocolo de Investigación.
Estrategias de Búsquedas y Uso de Bases de Datos
Ing. Patricia Acosta, MSc. Blog: EXCEL.
Presentación de datos e interpretación de resultados.
PRUEBAS DE CAJA NEGRA. -Internationa Software Testing Qualification Board (ISTQB) Internationa Software Testing Qualification Board (ISTQB) Técnica de.
AGENDA Mañana :00– 8:30 amRegistro 8:30 – 9:00 am¿Qué.
Tutorial Plataforma OVID IMSS-CONRICYT.
La Metodología Kimball, es una metodología empleada para la construcción de un almacén de datos (data warehouse, DW) que no es más que, una colección de.
Transcripción de la presentación:

Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Introducción

Motivación Los mecanismos convencionales de una búsqueda están plagados de baja precisión. Un problema común con esto es que los usuarios deben navegar a través de muchos documentos irrelevantes antes de encontrar el tipo de documento que le interesa.

Motivación Aún algoritmos avanzados de ranking, no puede saber de antemano que tipo de documentos el usuario prefiere. Por ejemplo: Query = Computer Documentos retornados tratan de: “hardware” o “software” Interfases Gráficas basadas en Clustering pueden ayudar al usuario a encontrar más fácilmente lo que busca.

Objetivo Presentar una herramienta de búsqueda de texto con nuevas formas de visualizar los resultados, que permitan una mejor navegación de los documentos retornados.

Objectivos especificos Contribuir a la visualización y “Browsing” de un conjunto de documentos retornados. Utilización “Keywords” representativos que permitan el agrupamiento de documentos.

Criterios de selección para “Keywords” Potencialmente de interés general. Específicos para el conjunto de documentos retornados. Poder discriminativo en este conjunto.

Espectativas de los “Keywords” Los “keywords” deben ayudar para usuario en varias formas: Informando acerca de temas relacionados con el “query”. Mejorar el “query” con “keywords” sugeridos.

Metodología Los métodos están basados en identificar “Keywords” que permitan relacionar el contenido de un documento con el de otro. Estos “Keywords” son usados para obtener una representación de cada documento y calcular los cluster usando una variante del algoritmo de “BuckShot”

Metodología Los clusters se usan para agrupar los documentos retornados en un “query” y presentarlos visualmente. Diferentes formas de visualizar los resultados son presentados de acuerdo a las necesidades del usuario.

Marco Teórico

Calculo de Keywords En lugar de utilizar el “idf” para calcular el peso de los “Keywords”, se sugiere utilizar la siguiente formula: wj = hj / dj * hj * log( |H| /hj ) Donde: |H| es el número total de documentos retornados hj es el número de documentos en H que contienen la palabra j dj es el número de documentos en toda la colección D que contienen la palabra j

Representación del documento Para cada documento i retornado de un “query” se crea un vector Vi de k dimensiones, cuyo componente Vij es una función del numero de ocurrencias (tij) del “keyword” j rankeado en el documento i: Vij = log 2 (1 + tij ) * log( | D | / dj ) Cada vector vi se normaliza produciendo un vector ui que representa al documento i.

Representación del documento Para calcular la similaridad entre dos documentos a y b se calcula el producto escalar de los vectores ua * ub. U puede ser vista como una representación matricial de los documentos, donde las filas del vector ui son una representación k-dimensional del documento i, y uij es la importancia de la palabra j documento en el documento i. En particular uij es = 0, si y solo si la palabra j no esta contenida en el documento i.

Agrupamiento de documentos Se aplica una variante del algoritmo de “Buckshot” [2] a la matriz uij. Se obtiene una representación de jerárquica de clusters. Cada cluster tiene cierto numero de vectores de documentos. Jerarquía coherente con el ranking de los documentos retornados.

Pasos para aplicar el Algoritmo: Cree una matriz de similaridad doc-doc Cada documento empieza en un cluster de tamaños 1 “Do Until” solo halla un cluster: Combine los dos cluster con similaridad más grande. Actualize la matriz de doc-doc

Ejemplo Considere A, B, C, D, E como documentos con las siguientes similaridades: A B C D E A - 2 7 9 4 B 2 - 9 11 14 C 7 9 - 4 8 D 9 11 4 - 2 E 4 14 8 2 - Par con similaridad mayor: E-B = 14

Se agrupan E y B Obteniendo la siguiente estructura: BE A C D E B

Update de la matriz DOC-DOC A BE C D A - 2 7 9 BE 2 - 8 2 C 7 8 - 4 D 9 2 4 - Calculo de BE  SC (A, B) = 2 y SC (A, E) = 4 SC(A,BE) = 4 single link (take max) SC(A,BE) = 2 complete linkage (take min) SC(A,BE) = 3 group average (take average)

Se agrupa BE y C Obteniendo la siguiente estructura: BCE BE C A D E B

Update de la matriz DOC-DOC A BCE D A - 2 9 BCE 2 - 2 D 9 2 - Cálculo de SC(A, BCE): SC (A, BE) = 2 y SC (A, C) = 7  SC(A,BCE) = 2 Cálculo de SC(D,BCE) SC(D, BE) = 2 y SC(D, C) = 4  SC(D, BCE) = 2

Se agrupa A y D. ABCDE BCE AD BE C A D E B

Tiempo de procesamiento Algoritmo consume una cantidad de tiempo lineal entre el número de documentos retornados y el número de cluster generados. En promedio 1000 documentos pueden ser procesados en menos de un segundo con un PC estándar de 500 MHz.

Desarrollo

Nuevos paradigmas en visualización de información Sammon Cluster View Tree-Map Visualization Radial Interactive Visualization

Sammon Cluster View Utiliza “Sammon map”, para generar una localización en dos dimensiones de los clusters. Este mapa se calcula usando un búsqueda de gradiante iterativo (Ver [3]).

Tree-Map Visualization Representación jerárquica de los cluster. Los cluster se visualizan mediante rectángulos. Clusters similares se agrupan en Súper Clusters (Ver 4).

Tree-Map Construction Node Weight A 10 B 1 C 4 D 5 A B C D E F E 2 F 3

Tree-Map Construction B C D E F A: 10 D: 5 B: 1 C: 4 E: 2 F: 3

Tree-Map Construction D A B C E F

Tree-Map Construction D B C B C D E F

Tree-Map Construction D B C B C D E F

Radial Interactive Visualization Nodos con “Keywords” son colocados alrededor de un círculo. Documentos representados por puntos en el interior del círculo. Entre mas relacionado un documento con un Keyword más cercano estará de este (Ver 5, 6 y 7).

Ejemplo de Algoritmo Radial Sea P1 la posición del Keyword A en el círculo. Sea P2 la posición del Keyword B en el círculo. Se utiliza la matriz de pesos de Keyword para cada documento. ( P1 * wij , P2 * wij)

Experimentos de clustering Se realizaron experimentos de agrupamiento con 548,948 documentos principalmente de US. Estos documentos se tomaron de los CDs vol 4 y 5 de TREC (ver http://trec.nist.gov) Las Fuentes de estos artículos pertenecen a Los Angeles Times, the Financial Times, the Federal Register, Congress Records, etc.

Calidad de clusters Basado en el análisis brindado por expertos, acerca de documentos relevantes y no relevantes. 100 “queries” enfocados en encontrar concentraciones altas y bajas de documentos relevantes en los clusters.

Resultados Los resultados compilan evidencia que valida la Hipótesis de Clustering en bajas dimensiones para la representación de documentos [8]

Resultados Generales Una palabra candidata aparece por lo menos en 3 documentos. Una palabra candidata no aparece en más del 33% de todos los documentos. Vocabulario resultante 222,872 “Keywords”. Un promedio de 200 “Keywords” por documento.

Encuesta Las personas llenaban un cuestionario antes de usar la aplicación. Después utilizaban la aplicación para realizar una serie de “queries” en una colección de documentos.

Encuesta Los “queries” se diseñaron para que aunque la información estubiera en la colleccion, no fuese obvia su localización. Finalmente un cuestionario post uso, con preguntas acerca de la aplicación y otras áreas más abiertas.

Carácteriscas Comparativas Visualizaciones basadas en clusters dan un panorama más amplio del conjunto de resultados. Visualización Radial permite enfocarse en formar subconjuntos de “Keywords”

Carácteriscas Comparativas Sammon Map se enfoca más en la relación que existe en un cluster y otro. TreeMap es más explicito en cuanto al tamaño de los cluster y su estructura jerárquica.

Facilidades de cada interfaz Sammon Map guía en el análisis, permite reagrupar subconjuntos, y gradualmente acercar al tipo de documentos de interés. TreeMap permite enfocarse en “Keywords” que de ciertos documentos que de interés, para formular una búsqueda más productiva. Radial apropiado si el usuario esta familiarizado con los “Keywords” del area de su interes.

Conclusiones Contribuye a la visualización y “Browsing” de un conjunto de documentos retornados mediante: Identificación de “features” relevantes en un conjunto de documentos (Keywords) Desechar rápidamente clusters irrelevantes. Operaciones de “Drill Down” en cluster relevantes. Construcción de grupos personalizado usando Radial.

Posibles Mejoras Uso de Tesauros para realizar el agrupamiento de Keywords.