Danilo Yáñez Alarcón. Avance II

Danilo Yáñez Alarcón. Avance II
Memoria: Recuperación eficiente de información para el refinamiento de traducción automática basada en la Web. Danilo Yáñez Alarcón. Avance II

Agenda Introducción Problemática Objetivos Específicos Metodologías
Metodología de desarrollo de SW Metodología de trabajo Conclusión

Introducción Procedimiento general a seguir para cumplir con objetivos especificados. Investigación a prueba de prototipo. Surgen nuevos requerimientos (discusiones , algunos resultados, comparaciones). Algunas características de metodología ágil. Fases principales metodología de trabajo.

Problemática Ante la frecuencia de consulta sobre el índice, se es necesario contar con una estructura sofistica la cual permita recuperar de manera eficiente la información consultada (sub-frases, frases). Costo de recuperación en disco es mayor que memoria principal. Limitación de memoria principal. Compresión índice, índices auxiliares, índices distribuidos(evaluación futura)

Objetivos General Específicos
Diseñar y construir un índice invertido sofisticado de términos, como apoyo al proceso de refinamiento de traducciones automáticas, en términos de la recuperación eficiente. Específicos Construir un índice invertido utilizando tabla de Hash. Implementar interfaz administradora de índice (indexación, búsqueda) Implementar interfaz consulta( lenguaje) sobre índice

Metodología desarrollo de SW
Utilizar algunas características de metodología ágil FDD, como metodología de referencia. Enfoque principal; Diseño y Construcción por funcionalidad. Por ser una propuesta investigativa a base de prototipo no nos aferramos fuertemente a una metodología (alcance) Evaluación de resultados Nuevos requerimientos, cambios

Metodología de Trabajo
Investigación, diseño, construcción y evaluación. Una vez finalizado el proceso de recopilación de la web, contando con un repositorio de información(sub-frases, frases). Funcionalidades(tareas) serán evaluadas(tiempo respuesta, calidad, estabilidad, flexibilidad). Liberación de un prototipo que refleje la investigación realizada.

Metodología de Trabajo: Fases
Fase I : indexamiento Creación y/o actualización índice invertido Recuperación de información base de datos. Construcción del índice (parsing, lista de destinos, almacenamiento en tabla hash). Almacenamiento en disco. Recuperación índice En principio( primeras pruebas): Indexación en memoria. Recuperación de partes del índice general(índice auxiliares) Recuperación y Almacenamiento stopwords: Almacenamiento en Tabla Hash. Apoyo a módulo de similitud

Fase II : Interfaz de consulta Diseño e implementación de diversas consultas(búsqueda sub-frases, frases) Algunas búsquedas relevantes: Búsqueda de frases exactas a la original Búsqueda de un subconjunto(combinación) de terminos claves(palabras) de una frase dada. Búsqueda booleanas, que contengan determinadas sub-frases, por ejemplo: palabra1 AND palabra2, palabra1 OR palabra2, ( palabra1 and palabra2) NOT palabra3 , etc. Apoyo a módulo búsqueda por similitud.

Fase III : Compresión índice Eliminación de stopwords: No relevantes para búsqueda de sus-frases por su alta frecuencia, por ej: preposiciones, adverbios(algunos), artículos, i interjecciones etc. Técnicas de Steamming Índices auxiliares Ante la limitación de memoria principal. Particionamiento índice general. Índices distribuidos

Conclusión Desligarse de consultas concurrentes a memoria secundaria(BD), solo cuando sea necesario(carga de información). Apoyo(interfaz) para módulo, “Estrategias de búsqueda por similitud”. Indagar en eficiencia de IR, algoritmos, estructuras. Lograr mejorar las traducciones a nivel de frases*.

Danilo Yáñez Alarcón. Avance II

Presentaciones similares

Presentación del tema: "Danilo Yáñez Alarcón. Avance II"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Danilo Yáñez Alarcón. Avance II

Presentaciones similares

Presentación del tema: "Danilo Yáñez Alarcón. Avance II"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback