Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.

Slides:

Advertisements

Presentaciones similares

Inteligencia artificial y sus aplicaciones

Advertisements

ingeniería de software

DISEÑO DE EXPERIMENTOS

LICENCIATURA EN SISTEMAS COMPUTACIONALES EN ADMINISTRACION

COMPETENCIA: Manejo de información

Estructura de Datos Hugo Araya Carrasco Hugo Araya Carrasco.

MÉTODOS Y ELEMENTOS DE PROGRAMACIÓN

Colegio Bilingüe de Palmares Bachillerato Internacional TISG Los Sistemas Expertos en la Educación Mónica Rojas Sylvia Vásquez.

MODELADO DE ANALISIS Y DISEÑO

SILVIA BEATRIZ GAVILANES NARANJO KELLY VERÓNICA CARVAJAL CUJI

CÓMO REALIZAR UN PROYECTO

Sistema de Agrupamiento y Búsqueda de Contenidos de la Blogosfera de la ESPOL, Utilizando Hadoop como Plataforma de Procesamiento Masivo y Escalable de.

COMPONENTIZACIÓN DE ALGORITMOS GENETICOS Y SU IMPLEMENTACIÓN EN UNA PLATAFORMA ABIERTA PARA APRENDIZAJE COMPUTACIONAL.

UNIVERSIDAD LATINA (UNILA) IV. IMPLANTACION DE ALGORITMOS.

Programación 1 Introducción

Software La buena programación no se aprende de generalidades, sino viendo cómo los programas significativos pueden hacerse claros, “fáciles” de leer,

Evaluación de Productos

Estrategias de Búsqueda

Ciclo de formulación del proyecto.

Funcionalidad de una plataforma formativa Manuel Santiago Fernández Prieto Universidad Autónoma de Madrid.

HERRAMIENTAS CASE.

MUESTRA Implica DEFINIR la unidad de análisis (personas, situaciones, individuos, eventos, fenómeno, ensayo)

 El termino OO, significa que el software es organizado como una colección de objetos. Un objeto es un paquete de software que contiene datos y procedimientos.

INTELIGENCIA DE NEGOCIOS

PROCESO DE DESARROLLO. Introducción Mediante esta presentación se pretende describir el proceso de desarrollo del TALLER I.

 El primer navegador Web incluía un lenguaje de estilo interno que utilizaba dicho navegador para mostrar las páginas HTML.  Sin embargo estos primeros.

Diseño de métodos de trabajo

DATA WAREHOUSE Equipo 9.

Ailyn Lopez pitty Leda Sequeira picado Kevin barquero irola

Planeación con Planning Tool y DotProject Grupo de Construcción de Software Facultad de Ingeniería Universidad de los Andes Rubby Casallas, Andrés Yie.

Aguinaga mantilla David Adrián Vaca Montenegro Erick paúl

Ailyn Lopez pitty Leda Sequeira picado Kevin barquero irola

Tecnologías móviles aplicadas al diagnóstico audiométrico de pacientes, elaborado para la Clínica Audinsa, Heredia. Proyecto de Graduación Ing. Roberto.

EL EXPERIMENTO CIENTÍFICO

Construcción de Software

INTRODUCCIÓN A LA INTELIGENCIA ARTIFICIAL Y LOS SISTEMAS EXPERTOS

Importancia en la efectividad del:

Unidad ll Equipo 2 Juan Carlos Martínez Ramos

Tecnologías para el Aprendizaje

IMPORTANCIA DE LOS FACTORES DE LA EDUACION VIRTUAL Elaborado por: Grupo Beta - Junio de 2012.

Web Semántica La Web Semántica es la nueva generación de la Web, que intenta realizar un filtrado automático preciso de la información. Para ello, es necesario.

¿Cómo puedo buscar información en Internet?

Búsqueda de información

1 Clase 3 Registro de resultados Tecnología de la Comunicación I.

El rol de SQA en PIS.

SENA REGIONAL HUILA REGIONAL HUILA CENTRO DE LA INDUSTRIA LA EMPRESA Y LOS SERVICIOS Huila Elementos de sistemas de información.

 Sara Isabel Osorio Alcaraz Ana Isabel Vallejo Grisales 10 Informática 1.

MOTORES DE BUSQUEDA.

DISEÑO CURRICULAR Presentado por: Cesar Augusto Sáenz María Alejandra Hernández 1.contenidos curriculares de competencia.

Internet y Navegadores Unidad 5. Fecha: 1 de agosto de 2011 Periodo# : 2 Objetivo: identificar el contenido de una dirección web Tema: Elementos de una.

Introducción al proceso de verificación y validación.

LA MEJORA DE LOS PROCESOS

Estimación de proyectos de software

Diseño de Adiestramientos

Unidad TemáticaI. Conceptos Básicos Horas Prácticas10 Horas Teóricas8 Horas Totales18 Objetivo El alumno determinará las entradas, procesos y salidas.

Por: Víctor Manuel Muñoz Arango Y Jesús David Mejía Meneses 11°A.

Elaboración de artículos científicos

Proceso de desarrollo de Software

INTRODUCCIÓN A LA INGENIERIA DE SOFTWARE ALUMNO MILLER ANDRES GALINDO DUCUARA (412088)

INTEGRANTE: FLORES GODOY JUAN E. Grupo:308. Una tabla es una colección de datos sobre un tema específico, como productos o proveedores. Al usar una tabla.

BUSINESS T&G Think & Grow Uniclass Gestión Documental Solución Web para Mejorar la Captura y Gestión.

Un Método Cuantitativo podría definirse como aquellos modelos matemáticos puesto al servicio de los procesos de resolución de problemas de un modo racional.

TUTOR VIRTUAL Nuevos entornos formativos Roles y funciones.

Entorno de Recomendación para el Desarrollo de Objetos de Aprendizaje Manuel E. Prieto Universidad de Castilla-La Mancha, España Victor H. Menéndez Universidad.

Internet Infranet Protocolo World Wide Web Hipertexto Página web Sitio web Protocolo http Código HTML Editores HTML Portal Url Navegadores: A. Internet.

Taller de Informática Administrativa Encuadre. Objetivo de la Materia El estudiante identificará la relación de la administración con la informática,

Universidad Tecnológica de México

LE, EI, Profesor Ramón Castro Liceaga UNIVERSIDAD LATINA (UNILA) IV. IMPLANTACION DE ALGORITMOS.

TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.

Transcripción de la presentación:

Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico

Introducción Internet es el recurso más valioso para el desarrollo de investigaciones Gran cantidad de información actualizada disponible Su tamaño dificulta la tarea de obtener información relevante No existe administración centralizada Solución actual: motores de búsqueda Basan su funcionamiento en palabras clave Desempeño disminuye en búsquedas específicas

Introducción Nuevos enfoques gracias a la inteligencia artificial (IA) Análisis estadísticos y matemáticos sobre el contenido de los documentos Tomar en cuenta las áreas de interés del usuario Este trabajo busca la integración de herramientas de IA dentro de un marco único 3 tareas específicas: exploración, clasificación e indexación de documentos Facilitando desarrollar aplicaciones posteriores

Objetivos Analizar los diferentes enfoques de solución para las tareas clasificación, indexación y recopilación automática de documentos digitales en línea Experimentar y luego escoger qué tipo de técnicas basadas en IA pueden ser utilizadas en dichas tareas Diseñar e implementar un marco de trabajo (framework), cumpliendo los requerimientos definidos en el análisis Se emplearán herramientas de código abierto

Objetivos Diseñar e implementar una aplicación que utilice las capacidades del marco de trabajo Comprobar el grado de efectividad del marco de trabajo

Exploración Agente explorador Diseñado para explorar el Internet en una forma metódica y organizada Aprovecha la estructura del Internet para moverse de una página a otra Varias estrategias para escoger el siguiente vínculo a analizar Primer vínculo encontrado Evaluar vínculos de acuerdo a algún criterio y tomar el mejor

Clasificación Es asignar o ubicar documentos en categorías previamente definidas, basándose en el contenido del mismo Facilita el manejo de grandes cantidades de información Una máquina no puede entender documentos en lenguaje natural Se requiere un procesamiento para obtener una representación estructurada del documento

Clasificación Una vez obtenida una representación, se puede proceder a clasificar el documento Generalmente se requiere un entrenamiento del clasificador Algoritmos basados en estadística y matemáticas

Indexación Un índice es cualquier estructura de datos que mejora el proceso de búsqueda de un documento Puede ser generado a partir de: Texto completo del documento Campos descriptivos del documento Autor, fecha, palabras clave Una combinación de ambos

Diseño General del Marco de Trabajo

Exploración Automática de Páginas Web

Clasificación de Documentos

Indexación de Documentos

Implementación Plataforma Java Portabilidad Gran popularidad dentro de la comunidad de código abierto Numerosas librerías disponibles Se desarrollaron: Componentes del marco de trabajo Aplicación de ejemplo Prueba las capacidades del marco No pensada para un usuario final

Pruebas Se evaluó la capacidad del marco de trabajo para obtener resultados relevantes Dos mecanismos de evaluación: Usuarios reales Automática, basada en métricas Pruebas realizadas en el idioma inglés

Usuarios reales Se escogieron tres tópicos relacionados con el área de computación Gráficos por computadora Aprendizaje automatizado Computación distribuida Se pidió a usuarios con conocimiento en la materia evaluar los 10 primeros resultados (vínculos) de cada proceso

Usuarios reales

Evaluación automática Dos métricas de evaluación Precisión: R ∩ S / S Retentiva: R ∩ S / R Dado que en Internet no se puede conocer el total de R, se usará T como una aproximación

Evaluación automática Se evaluará la capacidad del marco de trabajo para encontrar estos documentos objetivo, partiendo de un conjunto al azar de sus ancestros

Evaluación automática Dos algoritmos de exploración Best First (El mejor vínculo) Breadth First (Primer vínculo encontrado) Aplicando las fórmulas anteriores, obtenemos un gráfico Métrica vs. Tiempo (medido en número de páginas exploradas)

Evaluación automática

Conclusiones Trabajos previos en las áreas de la inteligencia artificial relacionadas, facilitaron el análisis de las soluciones El poder añadir nuevas funcionalidades al marco de trabajo, permitió modificar y desarrollar diferentes enfoques de solución

Conclusiones Se obtienen mejores resultados al aplicar esta herramienta dentro de un campo específico Para la búsqueda de documentos digitales en línea, se decidió escoger la estrategia de “primero el mejor” Enfoque más general

Conclusiones Para la tarea de clasificación de documentos digitales, se escogió el algoritmo “Naive Bayes” Tiempo requerido para su utilización es menor comparado con otras opciones existentes Soporta el aprendizaje activo Se decidió incorporar la técnica de índices invertidos como solución a la indexación de documentos Desempeño adecuado en un gran número de situaciones

Conclusiones La calidad de los documentos de ejemplo utilizados para entrenar al clasificador bayesiano, afecta directamente al proceso de exploración Los parámetros de la exploración pueden afectar el rendimiento del algoritmo a utilizar

Recomendaciones Estar atento a nuevos enfoques y proyectos en el área, a fin de implementar nuevas características dentro del marco Considerar a futuro la búsqueda de otro mecanismo independiente del URL para tener un identificador único Evitar resultados repetidos.

Recomendaciones Las herramientas que brinda el marco de trabajo pueden ser integradas en sistemas de manejo de contenidos Soporte para otros idiomas dentro del marco de trabajo

Recomendaciones Promover entre la comunidad científica de ESPOL el uso de herramientas alternativas para la búsqueda de documentos digitales en Internet

Gracias por su atención