aplicados a la Recuperación de Información

Slides:



Advertisements
Presentaciones similares
UNIVERSIDAD REGIONAL AUTÓNOMA DE LOS ANDES UNIANDES IBARRA TEMA: METODOLOGÍA DE LA AUDITORÍA DE GESTIÓN DOCENTE: ING. WILMER ARIAS 1.
Advertisements

LA INVESTIGACIÓN CIENTÍFICA MARIO BUNGE. Cap.1. EL ENFOQUE CIENTÍFICO La ciencia es un estilo de pensamiento y de acción. En la ciencia tenemos que distinguir.
1 Primer Semana del Posgrado del ITLP Efectos de los Parámetros Migratorios en Algoritmos Genéticos Distribuidos Marco Antonio Castro Liera
Papi 2010 Sobre la Construcción del Concepto de Inducción Alejandro Chmiel Educación Media Tecnológica Orientación Informática UTU Sylvia da Rosa Instituto.
Personalización en Entornos Virtuales de Aprendizaje un enfoque competencial PERSONAL(ONTO) TIN C02.
Conclusiones: Los resultados obtenidos hasta ahora mediante simulación, demuestran que con esta técnica se mejora la eficiencia y se disminuye el consumo.
LAS TICS ROSARIO IRIARTE SORIANO I.E. A.A.CACERES DOREGARAY 2011.
Por Jorge Everardo Aguilar Morales Asociación Oaxaqueña de Psicología A. C
Evolución de los MOOC en el ámbito investigador mediante técnicas de análisis de contenido D. G. Reina, S. L. Toral, M. R. Martínez-Torres, F. Barrero.
El informe de los resultados Tomado de Martinez Arias, Rosario U. C. M. - España- EL INFORME ORAL: RESUMENES DE OBJETIVOS, METODOS Y RESULTADOS ( AYUDA.
ALUMNO: Angel Minga TEMAS: ESTÁNDARES Y PROCEDIMIENTOS PLANES Y SIMULACROS PARA LA RECUPERACIÓN EN CASO DE DESASTRE Instituto Superior Tecnológico “Daniel.
ARKDIA – CAPACITACIÓN powered by
Conceptos generales de base de datos
Prof. James McPhee Depto. Ingeniería Civil
Internet como herramienta de búsqueda
Beyond the Images… La mejor solución para el tratamiento de imágenes.
EJERCICIOS Listas, Pilas y Colas
Informática Especial de la Matemática
Programación Avanzada
EXPOSITOR L.C. EDUARDO M. ENRÍQUEZ G.
Bases de Datos Bibliográfica Computer Data Base
Riesgos y Control Informático
Auditoria Informática Unidad VI
7ª Jornada sobre la Biblioteca Digital Universitaria JBDU2009 "La  biblioteca universitaria en la web" 5 y 6 de noviembre de 2009 Biblioteca Central de.
Búsqueda rápida en .Q Búsqueda rápida en .Q COMENZAR.
BASES DE DATOS.
SISTEMAS DE INFORMACIÓN GERENCIAL
Acerca del uso de métricas de calidad de Wikipedia
Inteligencia Computacional
LA PLANEACION Y EVALUACION EN LOS PROCESOS PRODECTIVOS.
Elementos de análisis espacial…2
Colegio Académico de Jiménez
Gómez Ruiz Karem Marlem Mora Olivares Abril Ikram
Algoritmo Capitulo Cinco.
APRENDIZAJE INVERTIDO
Conceptos Relacionados Unidad I. Parte A.
Documentos a utilizarse para la adquisición de hardware y/o software
EVALUACIÓN Y FUNDAMENTACIÓN TEÓRICA Diplomado: Diseño Curricular por Competencias GLOSARIO.
TIPOS DE INVESTIGACIÓN De: Bolívar V Jorge A CI:
Universidad Nacional Agraria
Programación lógica y funcional Unidad I Conceptos fundamentales.
Agentes que planifican. 1. Introduccion En la actualidad todas la mayoría de actividades en un empresa o compañía, como en el hogar o el medio ambiente.
METODOLOGIAS AGILES VS TRADICIONALES SCRUM - RUP FABIO ARNOBY BEJARANO Q. UNIREMINGTON BUGA (V) INGENIERIA DE SOFTWARE II SEPTIEMBRE 2018.
Problema de la ruta mínima
DIPLOMADO INTEGRAL DE LA CONTADURIA
1 El trabajo científico: la materia viva y su estudio ESQUEMA
Taller: Fundamentos de R
UNIVERSIDAD DE LAS FUERZAS ARMADAS-ESPE
Estructura de Datos M.C. J. Andrés V. F. FCC/BUAP
APRENDIZAJE COLABORATIVO EN BASIC SUPPORT FOR COOPERATIVE WORK
Para Coll, Pozo y Valls (1992): «Los contenidos procedimentales designan conjuntos de acciones, de formas de actuar y de llegar a resolver tareas. Se.
La estadística podría definirse como la ciencia que se encarga de recopilar, organizar, procesar, analizar e interpretar datos con el fin de deducir las.
PROYECTO DE GRADUACIÓN
Lingüística computacional
Aidan Hogan Gestión de Datos (Masivos) Diplomado de Datos 2017 Clase 6: Recuperación de Información (II) Aidan Hogan
Investigación documental y de campo
cencia/mmcc/docs/temageneticos.p df /algoritmo-genetico
INTRODUCCIÓN A LA INFORMÁTICA
Taller de grado I INFORMACIÓN GENERAL
PROYECTO DE GRADUACIÓN
Fundamentos Algorítmicos 1
Fundamentos Algorítmicos 1
ALGORITMO FFT Ing. José Arturo Marín Thames 2018.
BENCH ARING NACIONAL EXPERIMENTAL SUR DEL LAGO “JESUS MARÍA SEMPRÚM” PROGRAMA ADMINISTRACIÓN DE EMPRESAS AGROPECUARIAS UNIDAD CURRICULAR: CAMBIO ORGANIACIONAL.
PROYECTO DE GRADUACIÓN
Base de datos años  En la década de los años 80’, se desarrolló el SQL, un lenguaje de consultas que permite consultar, valga la redundancia,
Septiembre 2019 Realizado por: Edgar Contreras Ing. En sistemas #47.
EXCEL INTERMEDIO FILTROS AVANZADOS – TABLA DINAMICA – AUDITORIA DE FORMULAS JORGE LUIS AGUILAR ALCALDE.
Mariam nazareth palomino obregón matricula: recursos digitales
Tecnologías de la Información y Comunicación Unidad 1. Teoría axiológica de conjuntos Contenido 1.1. Introducción 1.2. Conjuntos, elementos y subconjuntos.
Transcripción de la presentación:

aplicados a la Recuperación de Información Algoritmos Genéticos aplicados a la Recuperación de Información Manuel Aguilar Saborío, carné 950067 http://citeseer.nj.nec.com/cache/papers/cs/26610/http:zSzzSzwww.cs.wits.ac.zazSz~nirzSzresearchzSzmain.pdf/improving-the-effectiveness-of.pdf

Objetivos Encontrar algoritmos GP (Genetic Programming) que mejoran la entrega de documentos relevantes a usuarios de motores de búsqueda, en comparación con tf.idf y modelo vectorial. Determinar la posibilidad de realizar prácticas GP para descubrir nuevos algoritmos de indexación. Determinar la efectividad de algoritmos creados usando estas prácticas al responder consultas hechas en colecciones generales.

Programación Genética Evolucionar programas de evaluación Evaluación de las nuevas generaciones obtenidas Evolución de estas nuevas generaciones “…. hasta colmar la paciencia, o encontrar programas que resuelvan el problema eficientemente.” Nir Oren.

Experimentación realizada Colección de datos: documentos de Fibrosis Quística. 1239 documentos 200 consultas 4 expertos que evalúan la relevancia de los documentos en cada consulta realizada.

Preprocesamiento de documentos Mejora la velocidad del sistema, y reduce la cantidad de datos a ser almacenados y procesados. Extraer únicamente el campo de contenido principal del texto, descartando el resto. Eliminación de “stop words”. (319 según Van Rijsbergen)

Preprocesamiento (cont.) Aislar palabras en inglés, removiendo palabras con caracteres que no fueran del alfabeto. Al resto de palabras se les aplica el algoritmo de Stemming, de acuerdo a Porter. Si una palabra no ha sido encontrada previamente, se añade a la lista de palabras.

Preprocesamiento (cont.) En otro caso, la colección y la relación entre documento/consulta y el conteo de palabras para esa palabra se incrementa apropiadamente.

Preparación del ambiente para GP Parámetros: Métrica: que mide la adaptación de los nuevos clasificadores. Nodos terminales: calculan ciertos valores de la colección y sus documentos. Operadores: que pueden ser manipulados. La manera en que las operaciones de “cría” se llevarán a cabo.

Parámetros considerados Métrica: Precision Recall Terminales y operadores: tf: term frequency Idf: inter-document frequency Operaciones de cruce: 10% de los más adaptados se utilizan para el nuevo cruce.

Experimentos realizados Entrenamiento en un subconjunto de consultas, con todos los documentos presentes. Posteriormente se evalúa el resto de las consultas. Entrenamiento de un subconjunto de consultas y documentos, evaluando el resto de las consultas en todos los documentos. Entrenamiento con todos los documentos y todas las consultas, y evaluación de los programas genéticos en otra colección.

Experimento 1

Experimento 1 (cont.)

Experimento 1 (cont.)

Experimento 3

Entrenamiento de la red

Evaluación de “adaptación”

Evaluación de palabras en el texto

Conclusiones En pocas aplicaciones, se pueden obtener mejores medidas de recall y precision que el estándar tf.idf mediante GP. Pareciera que con conjuntos de documentos suficientemente grandes, la aproximación GP podría generalizarse lo suficiente como para operar en dominios bastante amplios, sin embargo con poco entrenamiento, el método falla.

Conclusiones (cont.) A pesar de que una consulta se puede realizar en un tiempo comparable a las técnicas estándar, el entrenamiento de un sistema GP es muy (talvez prohibitivo) caro computacionalmente. Sin embargo, esto se necesita hacer una única vez.

Recuperación de Información usando algoritmos genéticos Manuel Aguilar Saborío Escuela de Ciencias de la Computación e Informática Curso de Recuperación de Información Profesor: Edgar Casasola Año: 2003