La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Phrase Query Evaluator

Presentaciones similares


Presentación del tema: "Phrase Query Evaluator"— Transcripción de la presentación:

1 Phrase Query Evaluator
Sergio Cormio Federico De Seta Febrero 2010

2 Objetivos • Comparar la performance entre un Indice Invertido(II) y un Indice por frases comunes(CPI), teniendo en cuenta: • Tiempo de armado • Espacio ocupado en memoria • Tiempo de resolución de consultas

3 Detalles de Implementación
Aplicación local de escritorio Lenguaje utilizado: Java SE Interfaz gráfica realizada en Swing Todas las estructuras se mantienen en memoria Lenguaje del set de datos: Inglés

4 Set de Datos ● Colección “Confusion Track” de TREC. Se trata de la edición de 1994 del Registro Federal de los Estados Unidos. ● Idioma: Inglés ● Proceso de depuración en Shell Script para poder utilizar el set.

5 Vocabulario Frase Común: secuencia de dos o más palabras contiguas que comienza con una palabra común y termina en una palabra terminal. Palabra Terminal: cualquier palabra cuya función es un adjetivo, verbo, sustantivo, faltas de ortografía y nombres propios. Palabra Común: término de mayor frecuencia dentro del registro de consultas (el resto se denominan palabras raras)

6 Estructuras de los Indices
Indice Invertido:

7 Estructuras de los Indices
Indice por frases comunes:

8 Proceso de armado Indice invertido:
Por cada archivo del set de datos lee los términos secuencialmente Toma el término, el offset asociado dentro del documento con su identificador (nombre del archivo) Genera un nodo de la estructura o actualiza en caso de existencia

9 Proceso de armado Indice por frases comunes:
Por cada archivo del set de datos, lee secuencialmente las oraciones De cada oración extrae las “frases comunes” y los “términos raros” Toma la frase y el identificador del documento Genera un nodo de la estructura o actualiza en caso de existencia

10 Resolución de Consultas
Indice Invertido: Evalúa la existencia de cada término de la consulta en la estructura Si todos se encuentran en el indice, interseca la lista de documentos asociados a cada uno. Evalúa las posiciones de los términos dentro de un mismo documento

11 Resolución de Consultas
Indice por frases comunes: Extrae las frases comunes y términos raros de la consulta Si todos se encuentran en el índice, interseca la lista de documentos asociados a cada uno

12 Conclusiones: ● El Indice Invertido insume más tiempo en resolver consultas con "muchas palabras comunes", por la cantidad de intersecciones que debe realizar. ● Cuando se realizan consultas por una sola palabra los dos índices tienen comportamientos similares.

13 Conclusiones ● Los resultados del Indice Invertido siempre son exactos. ● El Indice por Frases Comunes da "Falsos Positivos“. Es mejor desde el punto de vista que esta pensado para hacer búsquedas a través de la WEB.

14 Conclusiones ● El CPI es más complejo y requiere añadir periódicamente información estadística para ser más eficiente en las búsquedas de tipo web. ● El CPI tiene un costo de tiempo de armado y de espacio mayor con respecto al Indice invertido.

15 Conclusiones ● Se logra aumentar la eficiencia del CPI limitando la cantidad de palabras comunes (por ejemplo 255), lo que hace que filtre menos frases comunes e insuma menos tiempo la construcción del índice.

16 Conclusiones ● El CPI esta ligado a un idioma específico (por la lista de “nonTerminalWords”), para que pueda soportar varios idiomas necesitaría hacer reformas en la implementación. Ya que una palabra puede ser terminal word en un idioma y en otro no serla.

17 Gracias!


Descargar ppt "Phrase Query Evaluator"

Presentaciones similares


Anuncios Google