Phrase Query Evaluator

Slides:



Advertisements
Presentaciones similares
Posicionamiento Web Segunda Parte: Buscadores Lluís Codina UPF IDEC 2010.
Advertisements

Inteligencia Artificial
Lenguaje Unificado de Modelado
LICENCIATURA EN SISTEMAS COMPUTACIONALES EN ADMINISTRACION
Tema Algoritmos Universidad Politécnica de Nicaragua UPOLI.
Trucos Ofimática II Trucos ofimáticas. ¿Cómo nos pueden ayudar?
Programación Básica con NQC Pedro F. Toledo – Patricio Castillo 18/08/2006.
X Reunión de Usuarios Aleph 2 -3 de mayo, Guadalajara, Jalisco, México Estrategias de búsqueda en el OPAC Guadalupe Vega y Víctor Cid Biblioteca Daniel.
INDICADORES DE GESTIÓN Y MEJORAMIENTO CONTINUO
¿Cómo hacer para que una máquina comprenda el LN?
Conjunto de información almacenado en memoria auxiliar Permiten acceso directo a programas que las manipulan Es un sistema de archivos electrónicos.
Asig. Interfaces de Usuario 1 Arquitecturas de Interfaces de Usuario Tema Elementos de un Interfaz de Usuario Elementos de Entrada Dispositivos.
MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS
Concepto de programa. Directorio Concepto de programa. Analisis del problema. Resolucion del problema. Desarroollo de un programa. Partes constitutivas.
Editor de Visual de Templates Open EHR-Gen
Danilo Yáñez Alarcón. Avance II
PROGRAMACION DE ESTRUCTURAS DE DATOS
Teoría de lenguajes y compiladores
DIAGRAMAS ENTIDAD RELACIÓN
PROGRAMACIÓN ORIENTADA A OBJETOS
Como usar el Catálogo Bello Guía práctica Acceso al catálogo  Se puede acceder al catálogo desde cualquier parte del mundo por Internet.  Es posible.
Modelos de Texto Estructurado M
PROGRAMACION II.  Es un conjunto de datos no necesariamente del mismo tipo, los cuales se podrán manipular o realizar cualquier operación sobre cada.
Temas importantes para el desarrollo de la segunda parte del TPE
Curso Programación en Java
Nivel 7.° PROGRAMA NACIONAL DE INFORMÁTICA EDUCATIVA MEP-FOD NUCLEO PEDAGÓGICO 2010 PROGRAMA NACIONAL DE INFORMÁTICA EDUCATIVA MEP-FOD NUCLEO PEDAGÓGICO.
ACIDE A C onfigurable I ntegrated D evelopment E nvironment (Un entorno integrado de desarrollo configurable)
Clase 10: Estructuras de datos y arreglos.
Sistemas de Información IS95872
Tecnología de la información Unidad: 3 El software Profesor: Fernando J. Martini.
Isabel Edo del Moral Susana Fernández LLoria Patricia Moraga Barrero
Tema 10.3: Asignación de Espacio No Contiguo. Tema 10.3: 2 Silberschatz, Galvin and Gagne ©2005 Fundamentos de los Computadores (ITT, Sist. Electr.),
Asignación de Espacio No Contiguo
Módulo 12 Herramienta de aseguramiento de la calidad del PSA 1.
Diseño de algoritmos La computadora puede realizar procesos y darnos resultados, sin que tengamos la noción exacta de las operaciones que realiza. Con.
ORGANIZACIÓN DE LOS DATOS PARA PROCESARLOS EN COMPUTADORA Las computadoras trabajan con datos. Aceptan y procesan datos, y comunican resultados. No pueden.
Es aquel que permite a los usuarios llevar a cabo una A esta categoría pertenecen todos los programas que denominamos Aplicaciones o varias tareas específicas.
Cynthia Fresno 1 QUESTION ANSWERING. Cynthia Fresno2 Índice: 1) ¿Qué es el question answering?. 2) Sistema de question answering. 3) TREC vs. CBC. 4)
Búsqueda de información en internet Computación 1.
CARACTERÍSTICAS DE UN BUEN SOFTWARE CONTABLE
Comunicación y Multimedia
Comas Regla 1- Use las comas para separar los elementos de una serie
Juego de Preguntas y Respuestas
DIAGRAMAS ENTIDAD RELACIÓN
Metodología para la construcción de programas
Jeanett Córdoba Montoya.  La conexión a Internet es el mecanismo de enlace con que una computadora o red de computadoras cuenta para conectarse a Internet,
Tecnologías de administración de contenidos Rodrigo Guaiquil
PORTAL WEB PARA CONTRIBUIR EN LA VENTA, COMERCIALIZACIÓN Y DISTRIBUCIÓN DE LA ZEOLITA NATURAL USANDO AJAX Integrantes: Martha Isabel Correa Barrera Patricia.
Teoría de Sistemas Operativos Administración de Archivos.
Indexación M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
DOCUMENTACIÓN DEL SISTEMA DE GESTIÓN DE LA CALIDAD
TEMA 2: DIAGRAMAS DE FLUJO
ASPEL COI 5.6 EXPOSICION.
Tecnologías para el Aprendizaje
Web Semántica La Web Semántica es la nueva generación de la Web, que intenta realizar un filtrado automático preciso de la información. Para ello, es necesario.
WEB SEMÁNTICA.
Criterios de Evaluación
Sistemas de Archivos Sistemas Operativos.  Se debe proporcionar un almacenamiento secundario que respalda a la memoria principal  El Sistema de archivos.
ESCUELA NORMAL PARA EDUCADORA ‘’PROFR. SERAFIN CONTRERAZ MANZO’’
Yuan Rodriguez HEMEROTECA Y TESAURO. HEMEROTECA Edificio, sala, o pagina web donde se guardan, ordenan, conservan y clasifican diarios, revistas y otras.
Laboratorio Informática I Clase 2 Software Sistemas Operativos.
Introducción a los TADs
Proceso de Diseño de Interfaces
IV. GRAMÁTICAS DISTRIBUIDAS Y TABLAS DE SÍMBOLOS
MIA - Grupo 5 Unidad 2.
Programación II Concepto de Archivos.
1. Sistema Integral de Comunicación, Control y Seguimiento de la Vigilancia Epidemiológica Fitosanitaria.
 Panorama General Fundamentos de Programación M.I. Jaime Alfonso Reyes Cortés.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Es un sitio web cuyas páginas web pueden ser editadas por múltiples voluntarios a través del navegador web. Los usuarios pueden crear, modificar o borrar.
Transcripción de la presentación:

Phrase Query Evaluator Sergio Cormio Federico De Seta Febrero 2010

Objetivos • Comparar la performance entre un Indice Invertido(II) y un Indice por frases comunes(CPI), teniendo en cuenta: • Tiempo de armado • Espacio ocupado en memoria • Tiempo de resolución de consultas

Detalles de Implementación Aplicación local de escritorio Lenguaje utilizado: Java SE Interfaz gráfica realizada en Swing Todas las estructuras se mantienen en memoria Lenguaje del set de datos: Inglés

Set de Datos ● Colección “Confusion Track” de TREC. Se trata de la edición de 1994 del Registro Federal de los Estados Unidos. ● Idioma: Inglés ● Proceso de depuración en Shell Script para poder utilizar el set.

Vocabulario Frase Común: secuencia de dos o más palabras contiguas que comienza con una palabra común y termina en una palabra terminal. Palabra Terminal: cualquier palabra cuya función es un adjetivo, verbo, sustantivo, faltas de ortografía y nombres propios. Palabra Común: término de mayor frecuencia dentro del registro de consultas (el resto se denominan palabras raras)

Estructuras de los Indices Indice Invertido:

Estructuras de los Indices Indice por frases comunes:

Proceso de armado Indice invertido: Por cada archivo del set de datos lee los términos secuencialmente Toma el término, el offset asociado dentro del documento con su identificador (nombre del archivo) Genera un nodo de la estructura o actualiza en caso de existencia

Proceso de armado Indice por frases comunes: Por cada archivo del set de datos, lee secuencialmente las oraciones De cada oración extrae las “frases comunes” y los “términos raros” Toma la frase y el identificador del documento Genera un nodo de la estructura o actualiza en caso de existencia

Resolución de Consultas Indice Invertido: Evalúa la existencia de cada término de la consulta en la estructura Si todos se encuentran en el indice, interseca la lista de documentos asociados a cada uno. Evalúa las posiciones de los términos dentro de un mismo documento

Resolución de Consultas Indice por frases comunes: Extrae las frases comunes y términos raros de la consulta Si todos se encuentran en el índice, interseca la lista de documentos asociados a cada uno

Conclusiones: ● El Indice Invertido insume más tiempo en resolver consultas con "muchas palabras comunes", por la cantidad de intersecciones que debe realizar. ● Cuando se realizan consultas por una sola palabra los dos índices tienen comportamientos similares.

Conclusiones ● Los resultados del Indice Invertido siempre son exactos. ● El Indice por Frases Comunes da "Falsos Positivos“. Es mejor desde el punto de vista que esta pensado para hacer búsquedas a través de la WEB.

Conclusiones ● El CPI es más complejo y requiere añadir periódicamente información estadística para ser más eficiente en las búsquedas de tipo web. ● El CPI tiene un costo de tiempo de armado y de espacio mayor con respecto al Indice invertido.

Conclusiones ● Se logra aumentar la eficiencia del CPI limitando la cantidad de palabras comunes (por ejemplo 255), lo que hace que filtre menos frases comunes e insuma menos tiempo la construcción del índice.

Conclusiones ● El CPI esta ligado a un idioma específico (por la lista de “nonTerminalWords”), para que pueda soportar varios idiomas necesitaría hacer reformas en la implementación. Ya que una palabra puede ser terminal word en un idioma y en otro no serla.

Gracias!