La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Phrase Query Evaluator Sergio Cormio Federico De Seta Febrero 2010.

Presentaciones similares


Presentación del tema: "Phrase Query Evaluator Sergio Cormio Federico De Seta Febrero 2010."— Transcripción de la presentación:

1 Phrase Query Evaluator Sergio Cormio Federico De Seta Febrero 2010

2 Objetivos Comparar la performance entre Comparar la performance entre un Indice Invertido(II) y un Indice por frases comunes(CPI), teniendo en cuenta: Tiempo de armado Tiempo de armado Espacio ocupado en memoria Espacio ocupado en memoria Tiempo de resolución de consultas Tiempo de resolución de consultas

3 Detalles de Implementación Aplicación local de escritorio Aplicación local de escritorio Lenguaje utilizado: Java SE Lenguaje utilizado: Java SE Interfaz gráfica realizada en Swing Interfaz gráfica realizada en Swing Todas las estructuras se mantienen en memoria Todas las estructuras se mantienen en memoria Lenguaje del set de datos: Inglés Lenguaje del set de datos: Inglés

4 Set de Datos Colección Confusion Track de TREC. Se trata de la edición de 1994 del Registro Federal de los Estados Unidos. Colección Confusion Track de TREC. Se trata de la edición de 1994 del Registro Federal de los Estados Unidos. Idioma: Inglés Idioma: Inglés Proceso de depuración en Shell Script para poder utilizar el set. Proceso de depuración en Shell Script para poder utilizar el set.

5 Vocabulario Frase Común: secuencia de dos o más palabras contiguas que comienza con una palabra común y termina en una palabra terminal. Frase Común: secuencia de dos o más palabras contiguas que comienza con una palabra común y termina en una palabra terminal. Palabra Terminal: cualquier palabra cuya función es un adjetivo, verbo, sustantivo, faltas de ortografía y nombres propios. Palabra Terminal: cualquier palabra cuya función es un adjetivo, verbo, sustantivo, faltas de ortografía y nombres propios. Palabra Común: término de mayor frecuencia dentro del registro de consultas (el resto se denominan palabras raras) Palabra Común: término de mayor frecuencia dentro del registro de consultas (el resto se denominan palabras raras)

6 Estructuras de los Indices Indice Invertido:

7 Estructuras de los Indices Indice por frases comunes:

8 Proceso de armado Indice invertido: Por cada archivo del set de datos lee los términos secuencialmente Por cada archivo del set de datos lee los términos secuencialmente Toma el término, el offset asociado dentro del documento con su identificador (nombre del archivo) Toma el término, el offset asociado dentro del documento con su identificador (nombre del archivo) Genera un nodo de la estructura o actualiza en caso de existencia Genera un nodo de la estructura o actualiza en caso de existencia

9 Proceso de armado Indice por frases comunes: Por cada archivo del set de datos, lee secuencialmente las oraciones Por cada archivo del set de datos, lee secuencialmente las oraciones De cada oración extrae las frases comunes y los términos raros De cada oración extrae las frases comunes y los términos raros Toma la frase y el identificador del documento Toma la frase y el identificador del documento Genera un nodo de la estructura o actualiza en caso de existencia Genera un nodo de la estructura o actualiza en caso de existencia

10 Resolución de Consultas Indice Invertido: Evalúa la existencia de cada término de la consulta en la estructura Evalúa la existencia de cada término de la consulta en la estructura Si todos se encuentran en el indice, interseca la lista de documentos asociados a cada uno. Si todos se encuentran en el indice, interseca la lista de documentos asociados a cada uno. Evalúa las posiciones de los términos dentro de un mismo documento Evalúa las posiciones de los términos dentro de un mismo documento

11 Resolución de Consultas Indice por frases comunes: Extrae las frases comunes y términos raros de la consulta Extrae las frases comunes y términos raros de la consulta Si todos se encuentran en el índice, interseca la lista de documentos asociados a cada uno Si todos se encuentran en el índice, interseca la lista de documentos asociados a cada uno

12 Conclusiones: El Indice Invertido insume más tiempo en resolver consultas con "muchas palabras comunes", por la cantidad de intersecciones que debe realizar. El Indice Invertido insume más tiempo en resolver consultas con "muchas palabras comunes", por la cantidad de intersecciones que debe realizar. Cuando se realizan consultas por una sola palabra los dos índices tienen comportamientos similares. Cuando se realizan consultas por una sola palabra los dos índices tienen comportamientos similares.

13 Conclusiones Los resultados del Indice Invertido siempre son exactos. Los resultados del Indice Invertido siempre son exactos. El Indice por Frases Comunes da "Falsos Positivos. Es mejor desde el punto de vista que esta pensado para hacer búsquedas a través de la WEB. El Indice por Frases Comunes da "Falsos Positivos. Es mejor desde el punto de vista que esta pensado para hacer búsquedas a través de la WEB.

14 Conclusiones El CPI es más complejo y requiere añadir periódicamente información estadística para ser más eficiente en las búsquedas de tipo web. El CPI es más complejo y requiere añadir periódicamente información estadística para ser más eficiente en las búsquedas de tipo web. El CPI tiene un costo de tiempo de armado y de espacio mayor con respecto al Indice invertido. El CPI tiene un costo de tiempo de armado y de espacio mayor con respecto al Indice invertido.

15 Conclusiones Se logra aumentar la eficiencia del CPI limitando la cantidad de palabras comunes (por ejemplo 255), lo que hace que filtre menos frases comunes e insuma menos tiempo la construcción del índice. Se logra aumentar la eficiencia del CPI limitando la cantidad de palabras comunes (por ejemplo 255), lo que hace que filtre menos frases comunes e insuma menos tiempo la construcción del índice.

16 Conclusiones El CPI esta ligado a un idioma específico (por la lista de nonTerminalWords), para que pueda soportar varios idiomas necesitaría hacer reformas en la implementación. Ya que una palabra puede ser terminal word en un idioma y en otro no serla. El CPI esta ligado a un idioma específico (por la lista de nonTerminalWords), para que pueda soportar varios idiomas necesitaría hacer reformas en la implementación. Ya que una palabra puede ser terminal word en un idioma y en otro no serla.

17 Gracias!


Descargar ppt "Phrase Query Evaluator Sergio Cormio Federico De Seta Febrero 2010."

Presentaciones similares


Anuncios Google