Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico
Introducción Internet es el recurso más valioso para el desarrollo de investigaciones Gran cantidad de información actualizada disponible Su tamaño dificulta la tarea de obtener información relevante No existe administración centralizada Solución actual: motores de búsqueda Basan su funcionamiento en palabras clave Desempeño disminuye en búsquedas específicas
Introducción Nuevos enfoques gracias a la inteligencia artificial (IA) Análisis estadísticos y matemáticos sobre el contenido de los documentos Tomar en cuenta las áreas de interés del usuario Este trabajo busca la integración de herramientas de IA dentro de un marco único 3 tareas específicas: exploración, clasificación e indexación de documentos Facilitando desarrollar aplicaciones posteriores
Objetivos Analizar los diferentes enfoques de solución para las tareas clasificación, indexación y recopilación automática de documentos digitales en línea Experimentar y luego escoger qué tipo de técnicas basadas en IA pueden ser utilizadas en dichas tareas Diseñar e implementar un marco de trabajo (framework), cumpliendo los requerimientos definidos en el análisis Se emplearán herramientas de código abierto
Objetivos Diseñar e implementar una aplicación que utilice las capacidades del marco de trabajo Comprobar el grado de efectividad del marco de trabajo
Exploración Agente explorador Diseñado para explorar el Internet en una forma metódica y organizada Aprovecha la estructura del Internet para moverse de una página a otra Varias estrategias para escoger el siguiente vínculo a analizar Primer vínculo encontrado Evaluar vínculos de acuerdo a algún criterio y tomar el mejor
Clasificación Es asignar o ubicar documentos en categorías previamente definidas, basándose en el contenido del mismo Facilita el manejo de grandes cantidades de información Una máquina no puede entender documentos en lenguaje natural Se requiere un procesamiento para obtener una representación estructurada del documento
Clasificación Una vez obtenida una representación, se puede proceder a clasificar el documento Generalmente se requiere un entrenamiento del clasificador Algoritmos basados en estadística y matemáticas
Indexación Un índice es cualquier estructura de datos que mejora el proceso de búsqueda de un documento Puede ser generado a partir de: Texto completo del documento Campos descriptivos del documento Autor, fecha, palabras clave Una combinación de ambos
Diseño General del Marco de Trabajo
Exploración Automática de Páginas Web
Clasificación de Documentos
Indexación de Documentos
Implementación Plataforma Java Portabilidad Gran popularidad dentro de la comunidad de código abierto Numerosas librerías disponibles Se desarrollaron: Componentes del marco de trabajo Aplicación de ejemplo Prueba las capacidades del marco No pensada para un usuario final
Pruebas Se evaluó la capacidad del marco de trabajo para obtener resultados relevantes Dos mecanismos de evaluación: Usuarios reales Automática, basada en métricas Pruebas realizadas en el idioma inglés
Usuarios reales Se escogieron tres tópicos relacionados con el área de computación Gráficos por computadora Aprendizaje automatizado Computación distribuida Se pidió a usuarios con conocimiento en la materia evaluar los 10 primeros resultados (vínculos) de cada proceso
Usuarios reales
Evaluación automática Dos métricas de evaluación Precisión: R ∩ S / S Retentiva: R ∩ S / R Dado que en Internet no se puede conocer el total de R, se usará T como una aproximación
Evaluación automática Se evaluará la capacidad del marco de trabajo para encontrar estos documentos objetivo, partiendo de un conjunto al azar de sus ancestros
Evaluación automática Dos algoritmos de exploración Best First (El mejor vínculo) Breadth First (Primer vínculo encontrado) Aplicando las fórmulas anteriores, obtenemos un gráfico Métrica vs. Tiempo (medido en número de páginas exploradas)
Evaluación automática
Conclusiones Trabajos previos en las áreas de la inteligencia artificial relacionadas, facilitaron el análisis de las soluciones El poder añadir nuevas funcionalidades al marco de trabajo, permitió modificar y desarrollar diferentes enfoques de solución
Conclusiones Se obtienen mejores resultados al aplicar esta herramienta dentro de un campo específico Para la búsqueda de documentos digitales en línea, se decidió escoger la estrategia de “primero el mejor” Enfoque más general
Conclusiones Para la tarea de clasificación de documentos digitales, se escogió el algoritmo “Naive Bayes” Tiempo requerido para su utilización es menor comparado con otras opciones existentes Soporta el aprendizaje activo Se decidió incorporar la técnica de índices invertidos como solución a la indexación de documentos Desempeño adecuado en un gran número de situaciones
Conclusiones La calidad de los documentos de ejemplo utilizados para entrenar al clasificador bayesiano, afecta directamente al proceso de exploración Los parámetros de la exploración pueden afectar el rendimiento del algoritmo a utilizar
Recomendaciones Estar atento a nuevos enfoques y proyectos en el área, a fin de implementar nuevas características dentro del marco Considerar a futuro la búsqueda de otro mecanismo independiente del URL para tener un identificador único Evitar resultados repetidos.
Recomendaciones Las herramientas que brinda el marco de trabajo pueden ser integradas en sistemas de manejo de contenidos Soporte para otros idiomas dentro del marco de trabajo
Recomendaciones Promover entre la comunidad científica de ESPOL el uso de herramientas alternativas para la búsqueda de documentos digitales en Internet
Gracias por su atención