aplicados a la Recuperación de Información Algoritmos Genéticos aplicados a la Recuperación de Información Manuel Aguilar Saborío, carné 950067 http://citeseer.nj.nec.com/cache/papers/cs/26610/http:zSzzSzwww.cs.wits.ac.zazSz~nirzSzresearchzSzmain.pdf/improving-the-effectiveness-of.pdf
Objetivos Encontrar algoritmos GP (Genetic Programming) que mejoran la entrega de documentos relevantes a usuarios de motores de búsqueda, en comparación con tf.idf y modelo vectorial. Determinar la posibilidad de realizar prácticas GP para descubrir nuevos algoritmos de indexación. Determinar la efectividad de algoritmos creados usando estas prácticas al responder consultas hechas en colecciones generales.
Programación Genética Evolucionar programas de evaluación Evaluación de las nuevas generaciones obtenidas Evolución de estas nuevas generaciones “…. hasta colmar la paciencia, o encontrar programas que resuelvan el problema eficientemente.” Nir Oren.
Experimentación realizada Colección de datos: documentos de Fibrosis Quística. 1239 documentos 200 consultas 4 expertos que evalúan la relevancia de los documentos en cada consulta realizada.
Preprocesamiento de documentos Mejora la velocidad del sistema, y reduce la cantidad de datos a ser almacenados y procesados. Extraer únicamente el campo de contenido principal del texto, descartando el resto. Eliminación de “stop words”. (319 según Van Rijsbergen)
Preprocesamiento (cont.) Aislar palabras en inglés, removiendo palabras con caracteres que no fueran del alfabeto. Al resto de palabras se les aplica el algoritmo de Stemming, de acuerdo a Porter. Si una palabra no ha sido encontrada previamente, se añade a la lista de palabras.
Preprocesamiento (cont.) En otro caso, la colección y la relación entre documento/consulta y el conteo de palabras para esa palabra se incrementa apropiadamente.
Preparación del ambiente para GP Parámetros: Métrica: que mide la adaptación de los nuevos clasificadores. Nodos terminales: calculan ciertos valores de la colección y sus documentos. Operadores: que pueden ser manipulados. La manera en que las operaciones de “cría” se llevarán a cabo.
Parámetros considerados Métrica: Precision Recall Terminales y operadores: tf: term frequency Idf: inter-document frequency Operaciones de cruce: 10% de los más adaptados se utilizan para el nuevo cruce.
Experimentos realizados Entrenamiento en un subconjunto de consultas, con todos los documentos presentes. Posteriormente se evalúa el resto de las consultas. Entrenamiento de un subconjunto de consultas y documentos, evaluando el resto de las consultas en todos los documentos. Entrenamiento con todos los documentos y todas las consultas, y evaluación de los programas genéticos en otra colección.
Experimento 1
Experimento 1 (cont.)
Experimento 1 (cont.)
Experimento 3
Entrenamiento de la red
Evaluación de “adaptación”
Evaluación de palabras en el texto
Conclusiones En pocas aplicaciones, se pueden obtener mejores medidas de recall y precision que el estándar tf.idf mediante GP. Pareciera que con conjuntos de documentos suficientemente grandes, la aproximación GP podría generalizarse lo suficiente como para operar en dominios bastante amplios, sin embargo con poco entrenamiento, el método falla.
Conclusiones (cont.) A pesar de que una consulta se puede realizar en un tiempo comparable a las técnicas estándar, el entrenamiento de un sistema GP es muy (talvez prohibitivo) caro computacionalmente. Sin embargo, esto se necesita hacer una única vez.
Recuperación de Información usando algoritmos genéticos Manuel Aguilar Saborío Escuela de Ciencias de la Computación e Informática Curso de Recuperación de Información Profesor: Edgar Casasola Año: 2003