Recuperación de Textos (RTT)‏

Slides:



Advertisements
Presentaciones similares
Organizaciones Directas
Advertisements

Búsqueda de una frase exacta
Bases de conocimiento colaborativas
Evaluación mediante Medidas de Recuperación
Organización de Datos - Curso Servetto
Organizaciones Indexadas
Organización Secuencial
FIUBAODD - Curso Servetto1 Organizaciones Directas Costos de Recuperación Unidades de Organización Funciones de Dispersión Organizaciones Estáticas – Primitivas.
FIUBAODD - Curso Servetto1 Resolución de Consultas Consultas en el Modelo Booleano Consultas en el Modelo Vectorial Consultas Especiales.
Lunes 18 de Febrero 2008 Material para la clase: Elprofe3.wordpress.com.
Organización Secuencial
UCR – ECCI CI-2414 Recuperación de Información
Biblioteca. Universidad Pablo de Olavide Biblioteca. Universidad Pablo de Olavide.
Tutorial de Catálogo en Línea (OPAC) 2013
LATINDEX.
COLEGIO DE BACHILLERES PLANTEL 13 XOCHIMILCO-TEPEPAN MATERIA:TIC EQUIPO:23 PRESENTACION: BASE DE DATOS ALUMNAS: Velazquez Corona Elsa Ponciano Antonio.
OPERADORES LÓGICOS Diplomado II
Biblioteca.unizar.es Produce Base de datos Econlit Administra.
Buscar bibliografía en
Guía de uso Resultados de las búsquedas Lógica booleana Consejos para la búsqueda Búsqueda avanzada Búsqueda simple.
Organización de Datos - Curso Servetto
Facultad de Odontología Biblioteca Catálogos de la BUC: Cisne, Dioscórides, Compludoc, Complured.
Cómo consultar una base de datos o un catálogo en 5 minutos
BÚSQUEDA Y RECUPERACIÓN DE LA INFORMACIÓN
Bases de Datos por: Zulma Santiago Irizarry 2011
Estrategias de Búsqueda
Regional Business News Tutorial. Selecciona entre diferentes campos: autor, título, tema, palabra clave. Puedes elegir entre diferentes opciones de búsqueda.
Como usar el Catálogo Bello Guía práctica Acceso al catálogo  Se puede acceder al catálogo desde cualquier parte del mundo por Internet.  Es posible.
OXFORD JOURNALS 2014 Capacitaciones para la membresía de CONRICYT.
El presente Manual se ha elaborado con el objetivo de dar respuesta a las sugerencias expresadas por algunos Docentes en las evaluaciones del Taller “Uso.
Para Referencias, Citas E Índices
ESTRATEGIAS DE BÚSQUEDA
Un wiki o una wiki (del hawaiano wiki, 'rápido') es un sitio web cuyas páginas pueden ser editadas por múltiples voluntarios a través del navegador web.
Buscador Es un sistema informático que busca archivos almacenados en servidores web HERRAMIENTAS DE COMPUTACION I.
CURSO DE FORMACIÓN EN HABILIDADES INFORMACIONALES BIBLIOTECA DE ESTUDIOS EMPRESARIALES, MAYO 2008 INVESTIGACIÓN Y COMERCIALIZACIÓN.
Especificación de Consultas M
Guía Para Utilizar la Base de Datos EBSCO
Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones.
Introducción a los Recursos y Sistemas de Recuperación de Información (SRI) de Biblioteca Por Biblioteca [Vínculo Académico e Investigación/Referencia.
1 IIAP – Unidad de Documentación e Información Guía de uso Pantalla principal 2 Módulos 3 Búsqueda simple 4 Búsqueda Avanzada 6 Búsqueda Diccionario10.
(Organización y Manejo de Archivos)
COLEGIO DE BACHILLERATO "RAFAEL RODRÍGUEZ PALACIOS"
INSTITUTO DE ESTUDIOS SUPERIORES DE CHIHUAHUA COMPUTACION Ciclo: segundo cuatrimestre Lic. Roberto Servando Roque Corona.
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)
¿QUE ES LA INTERNET? Podemos definir a Internet como una "red de redes", es decir, una red que no sólo interconecta computadoras, sino que interconecta.
Tecnología de la Comunicación I
Los catálogos.

Indexación M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
GOOGLE Consejos para buscar en internet (Anexo: Módulo 2)
Tecnologías para el Aprendizaje
COLEGIO DE BACHILLERES PLANTEL 13 XOCHIMILCO-TEPEPAN MATERIA:TIC EQUIPO:21 PRESENTACION: BASE DE DATOS ALUMNAS: Adán Millán Sánchez.
¿Qué ES INTERNET? Internet es un conjunto global de computadoras conectadas entre si lo cual forma una gran red creada por ellas mismas, nadie controla,
BASES DE DATOS BIBLIOGRAFICAS Es el conjunto de datos o registros bibliográficos organizados en contenido y formatos normalizados, que se almacena en.
Laura Karpintero Idurre Betelu Ohiane Hernández Aintzane Arrieta.
Las Páginas WIKI. ¿Que son? Es un sitio web colaborativo que puede ser editado por varios usuarios. Los usuarios de una wiki pueden así crear, editar,
Bases de Datos: Ebsco American University of Puerto Rico
Bases de datos American University of Puerto Rico
ACCESS  Para los campos Texto, esta propiedad determina el número máximo de caracteres que se pueden introducir en el campo. Siendo por defecto.
Terminaciones de los dominios de internet ¿Cómo se hacen las búsquedas avanzadas y qué signo insertas? + para que la palabra clave o frase aparezca.
Aplicaciones para la Administración de Negocios
MIA - Grupo 5 Unidad 2.
La estrategia de búsqueda
Catálogo de Bibliotecas Públicas de Castilla y León
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
COMO BUSCAR INFORMACIÓN EN LA RED. La realidad de la red DNo todo lo que está en la red, es de calidad DNo todo es gratuito DHay que respetar derechos.
WEB: Nueva plataforma. Gobierno de Chile | Ministerio de Desarrollo Social Cambio de plataforma de administración: Joomla! Software libre: El usuario.
Integrantes Rodrigo Muñoz Patricia Suárez. UNIDAD 2 ELABORACION DE UNA BASE DE DATOS INTRODUCCION Access 2013 TEA 2104 ORGANIZACIÓN DE LA INFORMACION.
1.ª Parte: Dónde y cómo buscar información.  Cuando se busca información sobre un tema, es necesario emplear una «estrategia de búsqueda» para optimizar.
Guía del Catálogo de la UGR Búsqueda avanzada Actualización septiembre 2014.
Transcripción de la presentación:

Recuperación de Textos (RTT)‏ Casos Modelo Booleano de RTT Modelo Vectorial de RTT Métricas de Evaluación Consultas Especiales Índices Invertidos Implementación de Índices FIUBA ODD - Curso Servetto

Casos Biblioteca → de cada libro se registra características como ISBN, título, clasificación, año de edición, autores, editorial, ... pero también su “tesauro” (tesoro) o títulos clave en formato de texto → se requiere poder buscar libros por términos clave o títulos que se encuentren en tesauros. Documentos en formato digital - páginas Web → se requiere poder buscar documentos o páginas que contengan términos o frases clave Enciclopedia digital en CD-ROM → se requiere poder buscar artículos que se refieran a uno o más términos o frases clave FIUBA ODD - Curso Servetto

Modelo Booleano de RTT Búsqueda con conjunción de términos clave (and/+) → los documentos (unidades de recuperación resultado de la búsqueda) deben contener todos los términos (unidades de búsqueda) especificados Búsqueda con disyunción de términos clave (or) → los documentos deben contener alguno de los términos especificados Búsqueda con exclusión de términos clave (not/-) → los documentos no deben contener los términos especificados Ejemplo → dueño propietario particular -agencia - concesionario vende vendo +Peugeot +206 1.9 Diesel usado FIUBA ODD - Curso Servetto

Modelo Booleano de RTT Los documentos de un resultado tienen todos la misma importancia, sin importar el “grado de cumplimiento” de la consulta (cuántos términos de disyunción o no obligatorios aparecen)‏ No contempla cumplimientos parciales (cuando aparecen “casi” todos los términos de una conjunción)‏ No contempla la cantidad de veces que aparece una palabra buscada El usuario promedio no entiende correctamente las reglas lógicas Fue el modelo utilizado por los primeros sistemas de RTT y es el más conocido Es simple de formalizar Las implementaciones resultan muy eficientes Es la opción favorita para manejar texto en sistemas de administración de bases de datos relacionales (RDBMS)‏ Con buenas interfaces puede resultar muy útil Los usuarios expertos le pueden sacar mucho provecho FIUBA ODD - Curso Servetto

Modelo Vectorial de RTT Dados el conjunto de documentos D = { d1, d2, ... dN } y el de todos los términos relevantes en documentos de D, T = { t1, t2, ... tH }, cada documento dj se modela como un vector ( p(t1, dj), p(t2, dj), ... p(tH, dj) ) donde p(ti, dj) es el peso del término i en el documento j Hay varias fórmulas aceptables para calcular pesos; una de las más comunes es p(ti, dj) = ( ai,j * log( N / ni ) ) / norma( dj ) donde ai,j es la cantidad de apariciones del término i en el documento j, ni es el número de documentos en los que aparece el término i, y norma( dj ) = ( p(t1, dj)2 + p(t2, dj)2 + ... + p(tH, dj)2 )1/2 FIUBA ODD - Curso Servetto

Modelo Vectorial de RTT El peso de un término en un documento representa la importancia del término para distinguir al documento del resto: Si un término i aparece muchas veces en un documento j, su peso en el documento j es grande (por ai,j )‏ Si un término aparece en muchos documentos, su peso en cualquier documento es chico (por log( N / ni ) que es su peso global) → Ley de Zipf: un pequeño número de palabras son utilizadas con mucha frecuencia, mientras que frecuentemente ocurre que un gran número de palabras son poco empleadas Los vectores se normalizan para neutralizar la incidencia del tamaño de los documentos en el peso de los términos FIUBA ODD - Curso Servetto

Modelo Vectorial de RTT Dueño Sim( d1, d2 )‏ d1 = “Dueño vende VW Gol ...” Vende d2 = “Agencia Peugeot vende ...” Peugeot Sim( dj, dk ) = p(t1, dj) * p(t1, dk) + p(t2, dj) * p(t2, dk) + ... + p(tH, dj) * p(tH, dk)‏ FIUBA ODD - Curso Servetto

Modelo Vectorial de RTT La similaridad entre dos documentos es un valor entre 0 y 1 Dos documentos iguales tienen similaridad 1 Dos documentos que no compartan ningún término tienen similaridad 0 Las consultas se modelan como documentos La relevancia de un documento dj para una consulta c se calcula Sim( dj, c ) = p(t1, dj) * p(t1, c) + p(t2, dj) * p(t2, c) + ... + p(tH, dj) * p(tH, c) ≈ Sumatεc( p(t, dj) * log( N / nt ) ) Permite ordenar documentos por su relevancia Permite agrupar documentos similares → retroalimentación por igual relevancia (“más documentos como éste”)‏ FIUBA ODD - Curso Servetto

Métricas de Evaluación Precisión: cuántos documentos recuperados son relevantes. Recuperación (recall): cuántos documentos relevantes se recuperaron. Precisión: Recuperación: FIUBA ODD - Curso Servetto

Consultas Especiales Frases Textuales → títulos de obras, procesos o eventos históricos (p.e. “Segunda Guerra Mundial”, “servicio militar obligatorio”), nombres compuestos (p.e. “San Fernando del Valle de Catamarca”) → no basta con saber si los términos están en un documento sino que hay que saber además sus posiciones Términos Próximos → sirven para buscar frases equivalentes, como “Algoritmos y Estructuras de Datos” - “Estructuras de Datos y Algoritmos” o que los términos estén vinculados en una misma oración → se puede pedir que los términos estén a no más de cierta distancia; también hay que conocer la posición de los términos en los documentos Con Patrones → comodines (* y ?), clases de caracteres, caracteres repetibles u opcionales (p.e. “doc[0-9]+.html?”), expresiones regulares (p.e. “(Dr.|Ing.|PhD.|Prof.) Carlos Rosito”)‏ Términos aproximados → cuando no se está seguro de cómo se escribe un término o se sospecha que puede encontrarse mal escrito (apellidos, errores ortográficos, OCR, p.e. ~“Zipf”)‏ FIUBA ODD - Curso Servetto

Índices Invertidos Son índices de clasificación de documentos por término → en la versión básica, por cada término se tiene la lista de números de documento en los que aparece (con el número se accede a la dirección física del documento)‏ El conjunto de términos de un índice se llama “vocabulario” Las listas de cada término se llaman “invertidas” Para el modelo booleano las listas invertidas se organizan en orden creciente de número de documento (para optimizar operaciones de conjuntos)‏ FIUBA ODD - Curso Servetto

Índices Invertidos Para el modelo vectorial Cada elemento de la lista invertida de un término ti debe ser (j, ai,j) para cada documento j en el que aparezca, y se organiza en orden decreciente de número de apariciones del término Con cada término del vocabulario se tiene su peso global y el máximo número de apariciones en un documento Para búsqueda de frases y términos próximos Por cada término y documento se debe tener la lista de posiciones donde aparece en término en el documento Para reducir espacio las posiciones pueden ser de bloques de texto dentro del documento FIUBA ODD - Curso Servetto

Implementación de Índices Ley de Heaps → el vocabulario de un texto de largo n crece como k = C * nβ donde C y 0 < β < 1 dependen del tipo de texto. En la práctica, 5 < C < 50 y 0;4 ≤ β ≤ 0;6, y k es menos del 1% de n Ley de Zipf → si se ordenan los términos de un texto de más a menos frecuente, entonces an ~ 1/nx con an número de apariciones (frecuencia) del término en la posición n, y x casi 0 Unas pocas palabras (las stopwords o palabras irrelevantes) aparecen muchas veces y muchas aparecen pocas veces. En particular, las stopwords se llevan el 40 %-50% de las ocurrencias y aproximadamente la mitad de las palabras aparecen sólo una vez NO se indexan las palabras irrelevantes (stopwords)‏ También se aplican otras técnicas para reducir la cantidad de términos del índice → representación en minúsculas (case folding) y agrupación de términos con igual raíz (steming)‏ FIUBA ODD - Curso Servetto

Implementación de Índices Las Cosas de la Vida La Vida es Bella Las Cosas del Querer La Vida después de la Vida MODELO BOOLEANO Vocabulario Listas Invertidas bella cosas querer vida 2 1, 3 3 1, 2, 4 MODELO VECTORIAL FRASES Y TÉRMINOS PRÓXIMOS Vocabulario Listas Invertidas Vocabulario Listas Invertidas bella|0,6|1 cosas|0,3|1 querer|0,6|1 vida|0,125|2 (2, 1)‏ (1, 1), (3, 1)‏ (3, 1)‏ (4, 2), (1,1), (2, 1)‏ bella cosas querer vida 2 (2)‏ 1 (1), 3 (1)‏ 3 (2)‏ 1 (2), 2 (1), 4 (1, 2)‏ FIUBA ODD - Curso Servetto