Incremental Methods for Context-Based Web Retrieval Carlos M. Lorenzetti – Fernando M. Sagui Ana G. Maguitman – Guillermo R. Simari Carlos I. Chesñevar
Problemas: ambigüedad Windows styles? CACIC 2006 – Potrero de los Funes – San Luis
Una solución: CONTEXTO Proponemos: identificar términos específicos encontrar fuentes relevantes generar automáticamente consultas CACIC 2006 – Potrero de los Funes – San Luis
Una solución: CONTEXTO Artículos Diario Otros Lista de palabras CACIC 2006 – Potrero de los Funes – San Luis
Una solución: CONTEXTO Artículos Diario Otros Lista de palabras T1 p1 T2 p2 T3 p3 T4 p4 Tn pn CACIC 2006 – Potrero de los Funes – San Luis
Importancia de los términos Método tradicional: TF-IDF emplea la forma más simple CACIC 2006 – Potrero de los Funes – San Luis
Importancia de los términos Método tradicional: TF-IDF emplea la forma más simple Cuenta las apariciones de un término en el documento Penaliza a aquella palabras que son muy comunes CACIC 2006 – Potrero de los Funes – San Luis
Importancia de los términos Método Propuesto: Incremental Descriptores Términos que aparecen muchas veces en documentos de un mismo tópico: ¿Sobre qué trata este tema? Discriminadores Términos que sólo aparecen en documentos de un mismo tópico: ¿Qué palabras utilizo para encontrar información similar? CACIC 2006 – Potrero de los Funes – San Luis
Descriptores y Discriminadores Máquina Java Lenguaje Virtual Programación Ruby Applets NetBeans Computadoras JVM Código JDK Tópico: Máquina Virtual de Java CACIC 2006 – Potrero de los Funes – San Luis
Descriptores y Discriminadores Buenos descriptores Máquina Java Lenguaje Virtual Programación Ruby Applets NetBeans Computadoras JVM Código JDK Tópico: Máquina Virtual de Java CACIC 2006 – Potrero de los Funes – San Luis
Descriptores y Discriminadores Máquina Java Lenguaje Virtual Programación Ruby Applets NetBeans Computadoras JVM Código JDK Buenos discriminadores Tópico: Máquina Virtual de Java CACIC 2006 – Potrero de los Funes – San Luis
Cálculo de Descriptores y Discriminadores CACIC 2006 – Potrero de los Funes – San Luis
Descriptores y Discriminadores en Documentos H Contexto Inicial (1) (2) (3) (4) Tópico: Máquina Virtual de Java java 4 máquina 2 virtual 1 lenguaje programación 3 café isla provincia jvm jdk 2 5 6 3 1 4 espressotec.com netbeans.org sun.com wikitravel.org Cantidad de ocurrencias del término k en el documento i CACIC 2006 – Potrero de los Funes – San Luis
Descriptores de Documentos Contexto Inicial Tópico: Máquina Virtual de Java java 4 máquina 2 virtual 1 lenguaje programación 3 café isla provincia jvm jdk 0,718 0,359 0,180 0,539 0,000 Poder descriptivo de un término de un documento CACIC 2006 – Potrero de los Funes – San Luis
Discriminadores de Documentos Contexto Inicial Tópico: Máquina Virtual de Java java 4 máquina 2 virtual 1 lenguaje programación 3 café isla provincia jvm jdk 0,447 0,500 0,577 0,000 Poder discriminante de un término de un documento CACIC 2006 – Potrero de los Funes – San Luis
Similaridad por coseno K1 d2 Similaridad por coseno d1 a K2 K3 Similaridad entre documentos CACIC 2006 – Potrero de los Funes – San Luis
Descriptores de Tópicos Contexto Inicial Tópico: Máquina Virtual de Java java 4 máquina 2 jdk café isla programación 3 lenguaje 1 provincia jvm virtual 0,385 0,158 0,124 0,089 0,064 0,055 0,040 0,032 0,014 Poder descriptivo de un término en el tópico de un documento CACIC 2006 – Potrero de los Funes – San Luis
Discriminadores de Tópicos Contexto Inicial Tópico: Máquina Virtual de Java jvm jdk virtual 1 programación 3 máquina 2 lenguaje java 4 café isla provincia 0,848 0,566 0,524 0,517 0,493 0,385 Poder discriminante de un término en el tópico de un documento CACIC 2006 – Potrero de los Funes – San Luis
Implementación CACIC 2006 – Potrero de los Funes – San Luis
Framework CACIC 2006 – Potrero de los Funes – San Luis
Se encarga de la comunicación con la Web Framework Se encarga de la comunicación con la Web CACIC 2006 – Potrero de los Funes – San Luis
Estima la importancia del contenido que recibe Framework Estima la importancia del contenido que recibe CACIC 2006 – Potrero de los Funes – San Luis
Refina la representación que tiene del contexto del usuario Framework Refina la representación que tiene del contexto del usuario CACIC 2006 – Potrero de los Funes – San Luis
Framework CACIC 2006 – Potrero de los Funes – San Luis
Evaluación CACIC 2006 – Potrero de los Funes – San Luis
Evaluación Método Base Generar la Q(0) usando los términos con TFs más altos i 0 Enviar la Q(i) al motor de búsqueda Obtener las respuestas y convertirlas a repres. vectorial Generar una lista ordenada términos LTF por frecuencia i i + 1 Q(i) n términos de LTF ir al paso 3 CACIC 2006 – Potrero de los Funes – San Luis
Evaluación Query–Based Generar la Q(0) usando los términos con TFs más altos i 0 Enviar la Q(i) al motor de búsqueda Obtener las respuestas y convertirlas a repres. vectorial Generar una lista ordenada de descriptores, L Generar una lista ordenada de discriminadores, L i i + 1 Q(i) una combinación de L y L ir al paso 3 CACIC 2006 – Potrero de los Funes – San Luis
Evaluación Contexto Inicial Consulta Resultados analizados 5 páginas en inglés del DMOZ Tópico: Recreación Consulta 3 términos L + 2 términos L Resultados analizados Similaridades promedio por iteración CACIC 2006 – Potrero de los Funes – San Luis
Campamentos en Costa Rica Evaluación Campamentos en Costa Rica Consultas generadas Método base world costa rica experience programs costa rica abroad program programs study abroad programs costa rica Método incremental costa rica couples families individuals costa rica adventures austin cater adventure costa hike kick lodge costa rica below click damas CACIC 2006 – Potrero de los Funes – San Luis
Publicidad acerca de campamentos Evaluación Publicidad acerca de campamentos Consultas generadas Método base koa rv camping soda america camping soda koa rv campgrounds camping koa soda rv campgrounds Método incremental soda camping containers copy disposing containers disposing america campgrounds chance camping america campground campgrounds directory camping directory cabins usa koa CACIC 2006 – Potrero de los Funes – San Luis
Evaluación CACIC 2006 – Potrero de los Funes – San Luis
Trabajo a Futuro Adaptación Métodos cualitativos Evaluaciones intensivas CACIC 2006 – Potrero de los Funes – San Luis
Incremental Methods for Context-Based Web Retrieval Carlos M. Lorenzetti – Fernando M. Sagui Ana G. Maguitman – Guillermo R. Simari Carlos I. Chesñevar