La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

aplicados a la Recuperación de Información

Presentaciones similares


Presentación del tema: "aplicados a la Recuperación de Información"— Transcripción de la presentación:

1 aplicados a la Recuperación de Información
Algoritmos Genéticos aplicados a la Recuperación de Información Manuel Aguilar Saborío, carné

2 Objetivos Encontrar algoritmos GP (Genetic Programming) que mejoran la entrega de documentos relevantes a usuarios de motores de búsqueda, en comparación con tf.idf y modelo vectorial. Determinar la posibilidad de realizar prácticas GP para descubrir nuevos algoritmos de indexación. Determinar la efectividad de algoritmos creados usando estas prácticas al responder consultas hechas en colecciones generales.

3 Programación Genética
Evolucionar programas de evaluación Evaluación de las nuevas generaciones obtenidas Evolución de estas nuevas generaciones “…. hasta colmar la paciencia, o encontrar programas que resuelvan el problema eficientemente.” Nir Oren.

4 Experimentación realizada
Colección de datos: documentos de Fibrosis Quística. 1239 documentos 200 consultas 4 expertos que evalúan la relevancia de los documentos en cada consulta realizada.

5 Preprocesamiento de documentos
Mejora la velocidad del sistema, y reduce la cantidad de datos a ser almacenados y procesados. Extraer únicamente el campo de contenido principal del texto, descartando el resto. Eliminación de “stop words”. (319 según Van Rijsbergen)

6 Preprocesamiento (cont.)
Aislar palabras en inglés, removiendo palabras con caracteres que no fueran del alfabeto. Al resto de palabras se les aplica el algoritmo de Stemming, de acuerdo a Porter. Si una palabra no ha sido encontrada previamente, se añade a la lista de palabras.

7 Preprocesamiento (cont.)
En otro caso, la colección y la relación entre documento/consulta y el conteo de palabras para esa palabra se incrementa apropiadamente.

8 Preparación del ambiente para GP
Parámetros: Métrica: que mide la adaptación de los nuevos clasificadores. Nodos terminales: calculan ciertos valores de la colección y sus documentos. Operadores: que pueden ser manipulados. La manera en que las operaciones de “cría” se llevarán a cabo.

9 Parámetros considerados
Métrica: Precision Recall Terminales y operadores: tf: term frequency Idf: inter-document frequency Operaciones de cruce: 10% de los más adaptados se utilizan para el nuevo cruce.

10 Experimentos realizados
Entrenamiento en un subconjunto de consultas, con todos los documentos presentes. Posteriormente se evalúa el resto de las consultas. Entrenamiento de un subconjunto de consultas y documentos, evaluando el resto de las consultas en todos los documentos. Entrenamiento con todos los documentos y todas las consultas, y evaluación de los programas genéticos en otra colección.

11 Experimento 1

12 Experimento 1 (cont.)

13 Experimento 1 (cont.)

14 Experimento 3

15 Entrenamiento de la red

16 Evaluación de “adaptación”

17 Evaluación de palabras en el texto

18 Conclusiones En pocas aplicaciones, se pueden obtener mejores medidas de recall y precision que el estándar tf.idf mediante GP. Pareciera que con conjuntos de documentos suficientemente grandes, la aproximación GP podría generalizarse lo suficiente como para operar en dominios bastante amplios, sin embargo con poco entrenamiento, el método falla.

19 Conclusiones (cont.) A pesar de que una consulta se puede realizar en un tiempo comparable a las técnicas estándar, el entrenamiento de un sistema GP es muy (talvez prohibitivo) caro computacionalmente. Sin embargo, esto se necesita hacer una única vez.

20 Recuperación de Información usando algoritmos genéticos
Manuel Aguilar Saborío Escuela de Ciencias de la Computación e Informática Curso de Recuperación de Información Profesor: Edgar Casasola Año: 2003


Descargar ppt "aplicados a la Recuperación de Información"

Presentaciones similares


Anuncios Google