La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Danilo Yáñez Alarcón. Avance II

Presentaciones similares


Presentación del tema: "Danilo Yáñez Alarcón. Avance II"— Transcripción de la presentación:

1 Danilo Yáñez Alarcón. Avance II
Memoria: Recuperación eficiente de información para el refinamiento de traducción automática basada en la Web. Danilo Yáñez Alarcón. Avance II

2 Agenda Introducción Problemática Objetivos Específicos Metodologías
Metodología de desarrollo de SW Metodología de trabajo Conclusión

3 Introducción Procedimiento general a seguir para cumplir con objetivos especificados. Investigación a prueba de prototipo. Surgen nuevos requerimientos (discusiones , algunos resultados, comparaciones). Algunas características de metodología ágil. Fases principales metodología de trabajo.

4 Problemática Ante la frecuencia de consulta sobre el índice, se es necesario contar con una estructura sofistica la cual permita recuperar de manera eficiente la información consultada (sub-frases, frases). Costo de recuperación en disco es mayor que memoria principal. Limitación de memoria principal. Compresión índice, índices auxiliares, índices distribuidos(evaluación futura)

5 Objetivos General Específicos
Diseñar y construir un índice invertido sofisticado de términos, como apoyo al proceso de refinamiento de traducciones automáticas, en términos de la recuperación eficiente. Específicos Construir un índice invertido utilizando tabla de Hash. Implementar interfaz administradora de índice (indexación, búsqueda) Implementar interfaz consulta( lenguaje) sobre índice

6 Metodología desarrollo de SW
Utilizar algunas características de metodología ágil FDD, como metodología de referencia. Enfoque principal; Diseño y Construcción por funcionalidad. Por ser una propuesta investigativa a base de prototipo no nos aferramos fuertemente a una metodología (alcance) Evaluación de resultados Nuevos requerimientos, cambios

7 Metodología de Trabajo
Investigación, diseño, construcción y evaluación. Una vez finalizado el proceso de recopilación de la web, contando con un repositorio de información(sub-frases, frases). Funcionalidades(tareas) serán evaluadas(tiempo respuesta, calidad, estabilidad, flexibilidad). Liberación de un prototipo que refleje la investigación realizada.

8 Metodología de Trabajo: Fases
Fase I : indexamiento Creación y/o actualización índice invertido Recuperación de información base de datos. Construcción del índice (parsing, lista de destinos, almacenamiento en tabla hash). Almacenamiento en disco. Recuperación índice En principio( primeras pruebas): Indexación en memoria. Recuperación de partes del índice general(índice auxiliares) Recuperación y Almacenamiento stopwords: Almacenamiento en Tabla Hash. Apoyo a módulo de similitud

9 Metodología de Trabajo: Fases
Fase II : Interfaz de consulta Diseño e implementación de diversas consultas(búsqueda sub-frases, frases) Algunas búsquedas relevantes: Búsqueda de frases exactas a la original Búsqueda de un subconjunto(combinación) de terminos claves(palabras) de una frase dada. Búsqueda booleanas, que contengan determinadas sub-frases, por ejemplo: palabra1 AND palabra2, palabra1 OR palabra2, ( palabra1 and palabra2) NOT palabra3 , etc. Apoyo a módulo búsqueda por similitud.

10 Metodología de Trabajo: Fases
Fase III : Compresión índice Eliminación de stopwords: No relevantes para búsqueda de sus-frases por su alta frecuencia, por ej: preposiciones, adverbios(algunos), artículos, i interjecciones etc. Técnicas de Steamming Índices auxiliares Ante la limitación de memoria principal. Particionamiento índice general. Índices distribuidos

11 Conclusión Desligarse de consultas concurrentes a memoria secundaria(BD), solo cuando sea necesario(carga de información). Apoyo(interfaz) para módulo, “Estrategias de búsqueda por similitud”. Indagar en eficiencia de IR, algoritmos, estructuras. Lograr mejorar las traducciones a nivel de frases*.


Descargar ppt "Danilo Yáñez Alarcón. Avance II"

Presentaciones similares


Anuncios Google