Recuperación de Información (IR)

Slides:



Advertisements
Presentaciones similares
WEBMARKETING Promoción en Buscadores Ing. Paul Kuijper
Advertisements

IBD Plan 90 y 2003 Clase 10.
Posicionamiento Web Segunda Parte: Buscadores Lluís Codina UPF IDEC 2010.
Tema 1. Modelos de RI avanzados
Tema 6. Evaluación de SRIs
SQL Y BASES DE DATOS A TRAVÉS DE LA WEB
FACULTAD DE CIENCIAS MÉDICAS CARRERA DE MEDICO Y CIRUJANO
Etapas en Estrategia SEO Por Facundo Oliva – SEO/SMO Manager Grupo BGL.
COLEGIO DE BACHILLERES PLANTEL 13 XOCHIMILCO-TEPEPAN MATERIA:TIC EQUIPO:23 PRESENTACION: BASE DE DATOS ALUMNAS: Velazquez Corona Elsa Ponciano Antonio.
OPERADORES LÓGICOS Diplomado II
Organización de Computadoras UNLA
La web semántica y su impacto en la recuperación de información
INTELIGENCIA ARTIFICIAL
Cómo consultar una base de datos o un catálogo en 5 minutos
Representación en espacio de estado
TECNOLOGÍA DE LA COMUNICACIÓN I LICS. EN COMUNICACIÓN SOCIAL Y PERIODISMO CLASE 1- AÑO 2013 ELABORADO POR PROF. VIVIANA M. PONCE
UNIDAD II Modelo de Datos.
Estrategias de Búsqueda
Sistemas de Recuperación de Información
Modulo Instruccional sobre Metabuscadores Leonor Hernandez Rosado S Dra. Neida Solivan Leonor Hernandez Rosado S Dra. Neida Solivan.
PROGRAMACIÓN LÓGICA.
INTELIGENCIA DE NEGOCIOS
Trabajo fin de carrera UOC José María González Vázquez Enero 2011.
Buscador Es un sistema informático que busca archivos almacenados en servidores web HERRAMIENTAS DE COMPUTACION I.
Tema 2: Métodos de ajuste
Representación del Conocimiento
Modelos de Texto Estructurado M
Sesión 2: Métodos Probabilísticos Básicos
Población y Muestra.
Lo bucadores son sistemas que permite al usuario buscar información,estos la consiguen de la web, pero otroa tanto la obtienen del news,gopher,ftp,etc.
Especificación de Consultas M
1 5. La Búsqueda (I) Los ordenadores almacenan gran cantidad de información…  Hay que clasificarla y ordenarla para encontrarla con facilidad. ¿Y si no.
Viviana Poblete López Módulo: Modelo de Datos
Arquitectura de la Información Prof. Adelaide Bianchini – Dpto. de Computación y Tecnología de la Información, Universidad Simón Bolívar. Febrero 2006.
Isabel Edo del Moral Susana Fernández LLoria Patricia Moraga Barrero
Marcos para la clasificación pedagógica de objetos para el aprendizaje: un caso de estudio Miguel A. Sicilia, Elena García y Salvador Sánchez Universidad.
GRUPO DE INVESTIGACION EN CONTROL INDUSTRIAL
Sesión 6: Campos de Markov
Elaborado por: Aldo López Garrido Aránzazu Andrade Lara David González Quiroz.
Interfaces y Visualización M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Taller de Base de Datos Minería de Datos en la Web Descubrimiento de patrones y modelos en la Web Minería de Contenido –Contenido de páginas y fuentes.
Introducción a las Bases de Datos Relacionales Juan Alberto Sigüenza Escuela Técnica Superior de Informática Universidad Autónoma de Madrid.
Aprendizaje en Árboles de Decisión
Recuperación de Información M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Repaso de clase anterior
Moodle es un entorno de aprendizaje que está basado en los principios pedagógicos constructivistas, con un diseño modular que hace fácil agregar contenidos.

Yusley Contreras COD: Lizeth Fuente Rico COD:
Evaluación de la Indización
Tecnologías para el Aprendizaje
Colegio Nueva España Antonio De León.  La Red cibernética nos rodea cada día con un sinfín de información, que en muchas ocasiones nos aturde, frustra.
COLEGIO DE BACHILLERES PLANTEL 13 XOCHIMILCO-TEPEPAN MATERIA:TIC EQUIPO:21 PRESENTACION: BASE DE DATOS ALUMNAS: Adán Millán Sánchez.
¿Cómo puedo buscar información en Internet?
1 Clase 3 Registro de resultados Tecnología de la Comunicación I.
“Técnicas de Investigacion por Internet”
Búsqueda de Información en Internet
Estimación de proyectos de software
Tema: Motores de Búsqueda
Este diccionario contiene todo tipo de definiciones de interés relacionadas con el mundo de la informática e Internet.
UNSa Sede Regional Oran TEU - TUP. Un espacio vectorial (o espacio lineal) es el objeto básico de estudio del álgebra lineal.álgebra lineal A los elementos.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
En Internet: Los datos se transforman en información cuando una persona los lee, los comprende y los usa con algún fin: para estudiar, para trabajar,
Hernández Camacho Víctor Jesus Islas Sánchez Karla Vanessa
Diccionario/Directorio de Datos
Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.
1.ª Parte: Dónde y cómo buscar información.  Cuando se busca información sobre un tema, es necesario emplear una «estrategia de búsqueda» para optimizar.
DHTIC Juan Esteban Hernández Pérez Estrategias de Búsqueda.
Entorno de Recomendación para el Desarrollo de Objetos de Aprendizaje Manuel E. Prieto Universidad de Castilla-La Mancha, España Victor H. Menéndez Universidad.
Búsqueda Básica Procesos de Recuperación Motores de Búsqueda 5 de Mayo de 2016 Universidad Nacional de Tucumán Facultad de Medicina A cargo de la Cátedra.
Antonio de Jesús González Arce Matricula DHTIC.
Transcripción de la presentación:

Recuperación de Información (IR) Parte I: Introducción a IR en la Web Parte II: Modelos clásicos de IR Parte III: Evaluación de la recuperación

Introducción a IR en la web Parte I Broder, A. and Henzinger, M. 2002. Algorithmic aspects of information retrieval on the web. Handbook of Massive Data Sets, J. Abello, P. M. Pardalos, and M. G. Resende, Eds. Kluwer Academic Publishers, Norwell, MA, 3-23. Almacenamiento y recuperación de información en la Web

Almacenamiento y recuperación de información en la Web IR: Contexto Problema Un usuario trata de satisfacer una determinada necesidad de información en un conjunto de documentos Método El usuario efectúa una consulta a través de un sistema de IR sobre el conjunto de documentos Objetivo El sistema de IR trata de recuperar aquellos documentos relevantes para satisfacer las necesidades de información del usuario Almacenamiento y recuperación de información en la Web

Almacenamiento y recuperación de información en la Web IR: tareas Sistema Procesar la información para construir una estructura de datos interna que permita un acceso a los docs Procesar las búsquedas, buscar en el conjunto de documentos Ordenar los resultados Per-sé Combinados (sistemas de recomendación), etc. Usuario Recuperación de documentos Ad hoc: Qs sobre docs estáticos Filtrado: Qs estables sobre docs dinámicos Perfiles de usurario Clasificación de docs Navegado Almacenamiento y recuperación de información en la Web

Almacenamiento y recuperación de información en la Web IR en la Web Variante moderna de la IR clásica búsqueda en repositorios de información Dos grandes diferencias: El conjunto de documentos accesibles: todas las páginas web públicas El objetivo: proporcionar una selección de páginas (documentos) de calidad para el usuario Estas diferencias se pueden analizar desde dos puntos de vista: Diferencias en los documentos Diferencias en los usuarios Almacenamiento y recuperación de información en la Web

Web IR: diferencias respecto de los documentos, I Hipertexto Los documentos web contienen enlaces ( 10/doc) Contienen estructuras HTML Ambas características pueden ayudar a mejorar los algoritmos de clasificación Heterogeneidad Tipos de documentos: texto, multimedia, generación dinámica, etc. Calidad: dificulta la búsqueda Idioma: Hay más de 100 idiomas diferentes en la Web, Dificultad aplicación de técnicas (enraizado, etc.) Número de documentos indexados:  1 billón de docs, crecimiento 10% mensual (2004) Teoría de los 4 bytes  4K millones tope Almacenamiento y recuperación de información en la Web

Web IR: diferencias respecto de los documentos, II Estabilidad: La Web se modifica constantemente (crecimiento y modificación de contenidos) Datos: 20% de páginas se modifican a diario (Cho 1999) Duplicación: Aproximadamente el 20% de los docs en la web son duplicados de otros (Broder 1997) Basta con recuperar una de las páginas duplicadas Discontinuidad del texto: En IR clásica, el texto se asume continuo En web IR, los docs contienen enlaces, imágenes, gráficos, y carecen con frecuencia de texto continuo. Estadísticas: Las estadísticas sobre la popularidad de una página o una consulta pueden servir para mejorar los algoritmos de clasificación Almacenamiento y recuperación de información en la Web

Vista lógica de los documentos Los documentos se representan como un continuo. Su vista lógica puede variar. Accents spacing Noun groups Manual indexing Docs stopwords stemming Text + structure Text structure structure Full text Index terms

Web IR: diferencias respecto de los usuarios, I En IR clásica: Usuario: perfil de bibliotecario/investigador experto/conocedor de la materia sobre la que busca información efectúa consultas complejas reformula consultas dependiendo de los resultados Almacenamiento y recuperación de información en la Web

Web IR: diferencias respecto de los usuarios, II En web IR: Usuarios muy heterogéneos en educación y conocimientos de la web Búsquedas cortas e imprecisas El 80% no usa operadores El 85% sólo analiza los 10 primeros resultados (de miles) El 78% no reformula las búsquedas (fuente: log de seis semanas en AltaVista. Silverstein 1998) Simplificaciones de los problemas de web IR Variedad de herramientas: múltiples buscadores, diccionarios, tesauros, etc. La publicación en la web sucede mucho más rápido que en los métodos clásicos. Información en tiempo real. Navegación: El usuario puede obtener la información buscada a través de una página obtenida con su búsqueda Almacenamiento y recuperación de información en la Web

Herramientas para Web IR Buscadores de propósito general Google, Yahoo, Altavista, AllTheWeb, Excite, … Motores de búsqueda indirecta (meta-search engines) MetaCrawler, DogPile, … Directorios jerárquicos Yahoo, dmoz Niveles jerárquicos con categorías Buscadores especializados PubMed (publicaciones en medicina), robots comerciales (búsqueda de productos, ofertas, etc. Válidos para contenidos dinámicos) Otros paradigmas de búsqueda Search-by-example, filtros colaborativos, etc. Almacenamiento y recuperación de información en la Web

El proceso de recuperación Tomada de http://people.ischool.berkeley.edu/~hearst/irbook/ User Interface Text Operations Query Operations Indexing Searching Ranking Index Text query user need user feedback ranked docs retrieved docs logical view inverted file DB Manager Module 4, 10 6, 7 5 8 2 Database

Modelos clásicos de IR

IR: taxonomía de modelos (independiente del contexto) Almacenamiento y recuperación de información en la Web

Modelos IR

Caracterización formal de los modelos de IR, I Un modelo de IR es una cuádrupla D: Conjunto de vistas lógicas (representaciones) de los docs de la colección Q: Conjunto de vistas lógicas de las necesidades del usuario: queries Necesito información sobre el Ironman de Lanzarote European Ironman Competitions F: Marco para modelizar docs, queries y sus relaciones Modelo vectorial: espacios vectoriales y álgebra Modelo probabilístico: teoría de la probabilidad, modelos bayesianos, etc. Función de clasificación. Define un orden entre los docs con respecto a las queries Almacenamiento y recuperación de información en la Web

Caracterización formal de los modelos de IR, II Términos: palabras clave que describen semánticamente el tema principal del doc suelen ser nombres verbos, adverbios, adjetivos, complementos, etc. Son menos útiles aunque se usan en IR en la web Llevan asociados pesos que representan la relevancia del mismo en la colección Ej. Colección con 100 docs si pertenece a 100 --> peso nulo si pertenece a 5 --> peso alto Almacenamiento y recuperación de información en la Web

Caracterización formal de los modelos de IR, III Se asume independencia entre los pesos simplifica la obtención de clasificaciones de docs existen técnicas modernas de IR basadas en correlación de términos Almacenamiento y recuperación de información en la Web

Almacenamiento y recuperación de información en la Web Modelo Booleano I Booleano (Lógico) Basado en la Tª de Conjuntos y en álgebra de Boole Semántica precisa: devuelve los documentos que contienen al menos un término de la búsqueda Formalismo bien definido Permite el uso de los operadores lógicos and, or y not Ejemplo Query q: forma normal disyuntiva de q: componente conjunctiva de q: Desventajas Recuperación muy restrictiva basada en un criterio de selección binario (presente/ausente) Cardinalidad del conjunto recuperado Muy pequeña o muy grande Almacenamiento y recuperación de información en la Web

Modelo Booleano, II Similaridades (1,1,1) (1,0,0) (1,1,0) Ka Kb Kc

Almacenamiento y recuperación de información en la Web Modelo Vectorial Considera un espacio vectorial n-dimensional con una dimensión por cada término de la búsqueda Cada doc o query se representa como un vector del espacio Un término presente en un doc representa una componente > 0 Se admiten coincidencias parciales (pesos no binarios) ausente en un doc representa una componente = 0 El peso de la componente se incrementa con la frecuencia del término se decrementa con el número de docs en que aparece Los pesos proporcionan un índice de similaridad La clasificación final es decreciente por similaridad Desventaja: hipótesis de independencia entre términos Almacenamiento y recuperación de información en la Web

Vectorial, II Similaridad doc - q Almacenamiento y recuperación de información en la Web

Vectorial, III Determinación de pesos Obtención de pesos de documentos y queries C = Conjunto de documentos A = Clase de docs descritos por la query Cuestiones a resolver en un problema de clasificación: Determinación de las características que mejor describen los objetos en A similaridad intra-cluster Determinación de las características que mejor diferencian los objetos en A de los que permanecen en C disimilaridad inter-cluster Los métodos algorítmicos más comunes tratan de llegar a un balance entre ambas Esquema tf - idf c A Almacenamiento y recuperación de información en la Web

Vectorial, IV Clasificación similaridades Factor tf (term frequency) Similaridad intra-cluster Se cuantifica midiendo la frecuencia de un término en un documento Representa una medida de la bondad de representación de un doc por un término Factor idf (inverse doc frequency) Disimilaridad inter-cluster Se cuantifica midiendo el inverso de la frecuencia de un término entre los docs de la colección Los términos que aparecen en múltiples docs no suelen ser útiles para distinguir docs relevantes de los no relevantes Almacenamiento y recuperación de información en la Web

Vectorial, V Ejemplo esquema tf-idf Query q “gold silver truck” D1 “Shipment of gold damaged in a fire” D2 ”Delivery of silver arrived in a silver truck” D3 ”Shipment of gold arrived in a truck” Almacenamiento y recuperación de información en la Web

Vectorial, VII Esquema Salton-Buckley (1988) Pesos de los términos en las búsquedas Salton G, Buckley C. Term-weighting approaches in automatic retrieval. Information Processing & Management, 24(5): 513-523, 1988. Almacenamiento y recuperación de información en la Web

Vectorial, VIII Otras medidas de Similaridad doc-term Coeficiente de Similaridad Estándar Coeficiente de Similaridad de Dice Coeficiente de Similaridad de Jaccard Almacenamiento y recuperación de información en la Web

Almacenamiento y recuperación de información en la Web Introducción, I [Robertson-Sparck Jones] Relevance Weighting of Search Terms. Jrnl. of the American Society for Information Science. (Mayo 1976) Fundamentos Trata de recuperar el conjunto ideal R de docs relevantes para una consulta q, el cual se asume que existe como subconjunto del total La consulta del usuario, q, se interpreta como una especificación de las propiedades de este conjunto ideal de respuesta R se obtiene mediante una estimación inicial, mejorando a posteriori mediante refinamientos del usuario El usuario inspecciona los docs buscando los relevantes (en la práctica sólo se inspeccionan los top 10-20) Se espera que el conjunto respuesta ideal vaya mejorando en sucesivos refinamientos Almacenamiento y recuperación de información en la Web

El Principio Probabilidad de Ranking [Robertson, 1977] Proposición: La recuperación óptima se alcanza cuando, para una consulta dada, los documentos se ordenan de forma decreciente de acuerdo a una probabilidad de relevancia. El modelo asume que existe un subconjunto ideal (R) de todos los docs preferidos por el usuario para una q. El modelo trata de encontrar dicha probabilidad de relevancia para una q y cada doc de la colección, la cual debe ser la máxima posible. La probabilidad de relevancia se obtiene a partir de las probabilidades de los términos de una q que aparecen en un documento. Si el término A está presente en q y en el doc D, existe una probabilidad de que el doc sea relevante para dicha q Esta hipótesis, extendida al resto de términos y suponiendo independencia entre ellos, proporciona la probabilidad de relevancia como el producto de los pesos de cada término Robertson, SE. The probability Ranking Principle in IR. Jrnl. Of Documentation 33. 1977. Almacenamiento y recuperación de información en la Web

Modelos clásicos: clasificación En función de los parámetros de aprendizaje Aprendizaje basado en la query Modelo probabilístico de Spark-Jones Binary Independence Retrieval Model (BIR). Aprendizaje basado en el documento Juicios de relevancia para cada documento a partir de un conjunto de queries. Binary Independence Indexing Model (BII) Aprendizaje basado en la descripción Introduce el concepto de descripcion de relevancia. Contiene valores de ciertas características de los objetos a considerar (docs, términos, queries) Darmstadt Indexing Approach. En función de la naturaleza de las hipótesis realizadas Aproximaciones orientadas al modelo Hipótesis de independencia sobre los elementos representados (BIR) Aproximaciones orientadas a la descripción: entrenamiento de funciones de clasificación a partir de representaciones consulta-doc y sus juicios de relevancia. Retrieval with probabilistic indexing model (RPI) En función de la representación de doc y queries Optimización de la calidad de recuperación fijada la representación (BIR) Modelos con representaciones más precisas de queries y docs Almacenamiento y recuperación de información en la Web

Binary Independence Retrieval Model (BIR) Robertson-Spark Jones 1976 Trata de estimar la probabilidad de que dm sea calificado relevante respecto a qk: Hipótesis de clases: Los términos se distribuyen de manera diferente en los docs relevantes y no relevantes [Rijsbergen y Jones 1976] Hipótesis de términos de la consulta: Toda consulta se compone únicamente de un conjunto de términos del total. Almacenamiento y recuperación de información en la Web

Binary Independence Retrieval Model Robertson-Spark Jones 1976 Hipótesis Independencia I1: La distribución de términos en docs relevantes es independiente y la distribución en todos los docs también I2: La distribución de términos en docs relevantes es independiente y la distribución en los docs no relevantes también Hipótesis de orden O1: La probabilidad de relevancia se fundamenta sólo en la presencia de términos de búsqueda en los documentos O2: La probabilidad de relevancia se fundamenta tanto en la presencia de términos de búsqueda en los documentos como en su ausencia Almacenamiento y recuperación de información en la Web

BIR Model Clasificación, I Almacenamiento y recuperación de información en la Web

BIR Model Clasificación, II Bayes A priori Almacenamiento y recuperación de información en la Web

BIR Model Calculo de pesos de los términos, I Estimación inicial (sin docs recuperados. I1+O1) Estimaciones basadas en simplificaciones Mejora. Definimos: V : conjunto de documentos relevantes inicialmente Vi : subconjunto de docs relevantes que contienen ki Re-evaluar estimaciones Repetir recursivamente, mejorando en cada iteración las estimaciones Almacenamiento y recuperación de información en la Web

BIR Model Calculo de pesos de los términos, II Dificultad: Si V y Vi son pequeños (ej. V=1, Vi=0), [3] y [4] dan problemas. Se definen entonces: Otra alternativa, más satisfactoria, consiste en añadir la fracción Almacenamiento y recuperación de información en la Web

Almacenamiento y recuperación de información en la Web BIR Model Ejemplo, I Relevantes Documentos recuperados k1 k2 k1,k2 D1 D2 D3 Query q “gold silver truck” D1 “Shipment of gold damaged in a fire” D2 ”Delivery of silver arrived in a silver truck” D3 ”Shipment of gold arrived in a truck” Los pesos son estimaciones basadas en datos de entrenamiento - Se supone que cuando el usuario formula una q el modelo está entrenado Almacenamiento y recuperación de información en la Web

Almacenamiento y recuperación de información en la Web BIR Model Ejemplo, II Matriz de frecuencias términos-documentos pesos docs a arrived damaged delivery fire gold in of shipment silver truck wi1 D1 1 wi2 D2 wi3 D3 Frecuencia 3 2 wq q Almacenamiento y recuperación de información en la Web

Almacenamiento y recuperación de información en la Web BIR Model Desventajas Desventajas de modelo Necesidad de separar inicialmente docs relevantes y no relevantes. Pesos binarios. No se considera la frecuencia de los términos en los docs. Hipótesis de independencia entre términos. No está claro que sea una mala opción. Almacenamiento y recuperación de información en la Web