La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.

Presentaciones similares


Presentación del tema: "Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico."— Transcripción de la presentación:

1 Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

2 Introducción Internet es el recurso más valioso para el desarrollo de investigaciones Gran cantidad de información actualizada disponible Su tamaño dificulta la tarea de obtener información relevante No existe administración centralizada Solución actual: motores de búsqueda Basan su funcionamiento en palabras clave Desempeño disminuye en búsquedas específicas

3 Introducción Nuevos enfoques gracias a la inteligencia artificial (IA) Análisis estadísticos y matemáticos sobre el contenido de los documentos Tomar en cuenta las áreas de interés del usuario Este trabajo busca la integración de herramientas de IA dentro de un marco único 3 tareas específicas: exploración, clasificación e indexación de documentos Facilitando desarrollar aplicaciones posteriores

4 Objetivos Analizar los diferentes enfoques de solución para las tareas clasificación, indexación y recopilación automática de documentos digitales en línea Experimentar y luego escoger qué tipo de técnicas basadas en IA pueden ser utilizadas en dichas tareas Diseñar e implementar un marco de trabajo (framework), cumpliendo los requerimientos definidos en el análisis Se emplearán herramientas de código abierto

5 Objetivos Diseñar e implementar una aplicación que utilice las capacidades del marco de trabajo Comprobar el grado de efectividad del marco de trabajo

6 Exploración Agente explorador Diseñado para explorar el Internet en una forma metódica y organizada Aprovecha la estructura del Internet para moverse de una página a otra Varias estrategias para escoger el siguiente vínculo a analizar Primer vínculo encontrado Evaluar vínculos de acuerdo a algún criterio y tomar el mejor

7 Clasificación Es asignar o ubicar documentos en categorías previamente definidas, basándose en el contenido del mismo Facilita el manejo de grandes cantidades de información Una máquina no puede entender documentos en lenguaje natural Se requiere un procesamiento para obtener una representación estructurada del documento

8 Clasificación Una vez obtenida una representación, se puede proceder a clasificar el documento Generalmente se requiere un entrenamiento del clasificador Algoritmos basados en estadística y matemáticas

9 Indexación Un índice es cualquier estructura de datos que mejora el proceso de búsqueda de un documento Puede ser generado a partir de: Texto completo del documento Campos descriptivos del documento Autor, fecha, palabras clave Una combinación de ambos

10 Diseño General del Marco de Trabajo

11 Exploración Automática de Páginas Web

12

13 Clasificación de Documentos

14

15 Indexación de Documentos

16

17 Implementación Plataforma Java Portabilidad Gran popularidad dentro de la comunidad de código abierto Numerosas librerías disponibles Se desarrollaron: Componentes del marco de trabajo Aplicación de ejemplo Prueba las capacidades del marco No pensada para un usuario final

18 Pruebas Se evaluó la capacidad del marco de trabajo para obtener resultados relevantes Dos mecanismos de evaluación: Usuarios reales Automática, basada en métricas Pruebas realizadas en el idioma inglés

19 Usuarios reales Se escogieron tres tópicos relacionados con el área de computación Gráficos por computadora Aprendizaje automatizado Computación distribuida Se pidió a usuarios con conocimiento en la materia evaluar los 10 primeros resultados (vínculos) de cada proceso

20 Usuarios reales

21 Evaluación automática Dos métricas de evaluación Precisión: R ∩ S / S Retentiva: R ∩ S / R Dado que en Internet no se puede conocer el total de R, se usará T como una aproximación

22 Evaluación automática Se evaluará la capacidad del marco de trabajo para encontrar estos documentos objetivo, partiendo de un conjunto al azar de sus ancestros

23 Evaluación automática Dos algoritmos de exploración Best First (El mejor vínculo) Breadth First (Primer vínculo encontrado) Aplicando las fórmulas anteriores, obtenemos un gráfico Métrica vs. Tiempo (medido en número de páginas exploradas)

24 Evaluación automática

25

26

27 Conclusiones Trabajos previos en las áreas de la inteligencia artificial relacionadas, facilitaron el análisis de las soluciones El poder añadir nuevas funcionalidades al marco de trabajo, permitió modificar y desarrollar diferentes enfoques de solución

28 Conclusiones Se obtienen mejores resultados al aplicar esta herramienta dentro de un campo específico Para la búsqueda de documentos digitales en línea, se decidió escoger la estrategia de “primero el mejor” Enfoque más general

29 Conclusiones Para la tarea de clasificación de documentos digitales, se escogió el algoritmo “Naive Bayes” Tiempo requerido para su utilización es menor comparado con otras opciones existentes Soporta el aprendizaje activo Se decidió incorporar la técnica de índices invertidos como solución a la indexación de documentos Desempeño adecuado en un gran número de situaciones

30 Conclusiones La calidad de los documentos de ejemplo utilizados para entrenar al clasificador bayesiano, afecta directamente al proceso de exploración Los parámetros de la exploración pueden afectar el rendimiento del algoritmo a utilizar

31 Recomendaciones Estar atento a nuevos enfoques y proyectos en el área, a fin de implementar nuevas características dentro del marco Considerar a futuro la búsqueda de otro mecanismo independiente del URL para tener un identificador único Evitar resultados repetidos.

32 Recomendaciones Las herramientas que brinda el marco de trabajo pueden ser integradas en sistemas de manejo de contenidos Soporte para otros idiomas dentro del marco de trabajo

33 Recomendaciones Promover entre la comunidad científica de ESPOL el uso de herramientas alternativas para la búsqueda de documentos digitales en Internet

34 Gracias por su atención


Descargar ppt "Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico."

Presentaciones similares


Anuncios Google