La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Martin Barreto Ricardo Bedat Docentes: Juanjo Prada – Aiala Rósa.

Presentaciones similares


Presentación del tema: "Martin Barreto Ricardo Bedat Docentes: Juanjo Prada – Aiala Rósa."— Transcripción de la presentación:

1 Martin Barreto Ricardo Bedat Docentes: Juanjo Prada – Aiala Rósa

2 Desarrollar un sistema de extracción de información que permita extraer de un documento información relacionada con una frase. Se pretende que el sistema sea capas de identificar secciones de texto, que contengan la información deseada, aunque esta no sea explicita. Por ejemplo: Dada la frase “Aumento en los precios del combustible” sea capas de devolver porciones del documento que contengan: “Suba del combustible” “Subió el valor del combustible” “Aumentó el barril de petróleo” Etc.

3  Consulta: “Información” DOCUMENTO: El vertiginoso aumento en la cantidad de información y la facilidad creciente de acceso a esta hace necesario el desarrollo de herramientas que faciliten extraer la información buscada, de forma rápida y efectiva. La lengua española es un lenguaje inmensamente rico que permite expresar una idea de múltiples formas. Esta gran riqueza es considerada también como un gran obstáculo para el desarrollo de sistemas de extracción de información, debido a la dificultad de que un software pueda automáticamente inferir el significado de los textos. En este sentido la extracción de información para el idioma español corre en desventaja frente a otros idiomas como el ingles, dado que la mayoría de los trabajos realizados están desarrollados y enfocados para este ultimo (esto es razonable dado el hecho que la gran mayora de los documentos en Internet están en idioma ingles, esto sin considerar razones económicas ni políticas). Por esta razón es de gran importancia la investigación y desarrollo de técnicas de extracción de información para el idioma español.

4  Consulta: La cantidad de información ha sufrido un gran aumento Problemas al crear un programa Recuperación de información. DOCUMENTO: El vertiginoso aumento en la cantidad de información y la facilidad creciente de acceso a esta hace necesario el desarrollo de herramientas que faciliten extraer la información buscada, de forma rápida y efectiva. La lengua española es un lenguaje inmensamente rico que permite expresar una idea de múltiples formas. Esta gran riqueza es considerada también como un gran obstáculo para el desarrollo de sistemas de extracción de información, debido a la dificultad de que un software pueda automáticamente inferir el significado de los textos. En este sentido la extracción de información para el idioma español corre en desventaja frente a otros idiomas como el ingles, dado que la mayoría de los trabajos realizados están desarrollados y enfocados para este ultimo (esto es razonable dado el hecho que la gran mayora de los documentos en Internet están en idioma ingles, esto sin considerar razones económicas ni políticas). Por esta razón es de gran importancia la investigación y desarrollo de técnicas de extracción de información para el idioma español.

5  Objetivo: ◦ Investigación del estado del arte de los sistemas de recuperación y extracción de información. ◦ Desarrollo de un sistema de extracción de información temática. ◦ Integrar el sistema desarrollado al sistema Lavinia. ◦ Analizar los resultados obtenidos.

6  Se analizaron trabajos relacionados, para el Inglés.  Se analizaron herramientas de utilidad para el desarrollo del proyecto.  Se obtuvo una versión de WordNet para el Español.  Se hicieron prototipos de uso de las herramientas.  Se inició con el Diseño del software.  Actualmente se está comenzando la implementación.

7  Escaso material relacionado.  Pocas herramientas de software libre.  No se encontró ningún sistema que solucione el problema planteado.

8 En el fondo se busca encontrar un algoritmo.

9 Divide y vencerás Dividimos el sistema en sub componentes encargados de resolver una función especifica.

10 Los componentes resuelven una función, pero existen varias formas de cumplir esta función, cada una con ventajas y desventajas

11 Integrar a Lavinia

12 Contenedor UIMA para permitir la integración con LAVINIA

13 Cada componente individual puede ser integrado a LAVINA

14 1. El uso de un dominio restringido o un dominio global. 2. Expansión de consultas. 3. El uso de diccionarios. 4. Algoritmos de aprendizaje automático o basados en reglas parametrizables. 5. Definición de la estructura de datos para la comunicación entre los diferentes componentes

15  Implementación de la plataforma principal.  Desarrollo de los componentes  Desarrollo de los algoritmos específicos  Desarrollo de la solución.  Testear y evaluar los resultados.  Documentar hasta que el verdirrojo sea campeón de la liga.


Descargar ppt "Martin Barreto Ricardo Bedat Docentes: Juanjo Prada – Aiala Rósa."

Presentaciones similares


Anuncios Google