Construcción de Indices Invertidos

Slides:



Advertisements
Presentaciones similares
SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR
Advertisements

Recuperación de Textos (RTT)‏
Convertidores de Código
Revisión Nº:Descripción:Fecha: 00Elaboración de la documentación30/06/11 Copia Controlada :Nº: F /REV. 00 ACCESO A LA WEB DEL CPR DE TARAZONA Cód.:
Protocolos de Inter-red
Metrica de Estimación COCOMO
Organizaciones Directas
Universidad San Martín de Porres
TEMA 2 MÚLTIPLOS Y DIVISORES
INTERFERENCIAS y DIFRACCIÓN
01- OFERTA FORMATIVA v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
Respuestas Buscando a Nemo.
Organizaciones Indexadas
Organización Secuencial
FIUBAODD - Curso Servetto1 Organizaciones Directas Costos de Recuperación Unidades de Organización Funciones de Dispersión Organizaciones Estáticas – Primitivas.
Construcción de Indices
FIUBAODD - Curso Servetto1 Resolución de Consultas Consultas en el Modelo Booleano Consultas en el Modelo Vectorial Consultas Especiales.
MOVIMIENTO ARMÓNICO SIMPLE MOVIMIENTO ARMÓNICO SIMPLE
Trabajo Presentación PowerPoint de
Representación de la Información dentro del Computador
SISTEMAS DE NUMERACIÓN
IBD Clase 7.
LICENCIATURA EN SISTEMAS COMPUTACIONALES EN ADMINISTRACION
La Física y sus mediciones
BLOQUE 1 EQUIPOS INFORMÁTICOS
Organización Secuencial
Ejemplo A continuación aparecen las tasas de retorno de dos fondos de inversión durante los últimos 10 años. 1. ¿Cuál es más riesgoso? 2. ¿En cuál invertiría.
CLASE 3 SOFTWARE DEL MICROPROCESADOR
Unidad de competencia II Estadística descriptiva:
MÍNIMOS CUADRADOS.
Funciones Excel. Parte 1. Introducción 2 Una función Excel es una fórmula o un procedimiento que se realiza en el ambiente de Visual Basic, fuera de.
Representación De La Información. Solo para principiantes.
Unidad 4 Transmisión Digital.
POTENCIAS, RAICES, FRACCIONES Y DECIMALES
Profr. Ricardo A. Castro Rico
DATOS E INFORMACIÓN.
RAZONAMIENTO MATEMATICO Mg. CORNELIO GONZALES TORRES
¡Primero mira fijo a la bruja!
Sistema de Detección de Plagio Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní César Ríos Gárate Carolina Balbín Ávalos
INTRODUCCIÓN A LA PROGRAMACIÓN
Medidas de Tendencia Central
REGLAS DE LOS SIGNOS.
Learning Zone Matemáticas 101

“Definiciones, Operaciones algebraicas, MCM, MCD”
Multimedia para páginas Web.
1 Antonio Pérez Carrasco - 16 / Mayo / Mejorando SRec mediante el análisis de su utilización Mejorando SRec mediante el análisis de su utilización.
1 8 de febrero del Chapter 5 Encoding 3 Figure 5-1 Different Conversion Schemes.
Funciones De agregación y agrupamiento  Funciones matemáticas de agregación algunas de estas funciones sirven para recuperar la media o el sueldo total.
ESTRUCTURA DE DATOS ESD-243
Elaborado por: Guillermo Baquerizo I Término
SISTEMA DECIMAL El sistema de numeración decimal, también llamado sistema decimal, es un sistema de numeración posicional en el que las cantidades se representan.
Sistema de archivos Sistemas operativos.
Sistemas de numeración
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)
INTRODUCCIÓN A LA INFORMÁTICA
Teoría de Sistemas Operativos Administración de Archivos.
Organización del Computador I Verano 2007
Representación de reales y caracteres Mariano M. Moscato Organización del computador I verano 2008.
Indexación M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Sistema Numérico Binario Prof. Carlos Rodríguez Sánchez.
GRAFICACIÓN BMP Y BMP COMPRIMIDO POR: MADRID BETANCOURT ILIANA
COMPUTO I - UASF SISTEMA BINARIOS.
Sistemas de Archivos Sistemas Operativos.  Se debe proporcionar un almacenamiento secundario que respalda a la memoria principal  El Sistema de archivos.
SISTEMAS NUMÉRICOS Oscar Ignacio Botero H..
Algoritmos y Desarrollo de Programas I
Matemática de Redes Doc. Anna Dugarte.
CODIFICACION DE HUFFMAN
Algoritmos voraces Códigos de Huffman. Descripción del problema Tenemos un archivo de entrada. Asumiremos que el archivo está compuesto de bytes (enteros.
Sistema Numérico Binario Prof. Carlos Ortiz Muñoz.
Transcripción de la presentación:

Construcción de Indices Invertidos Organización Compresión de Términos Construcción de Listas Invertidas Compresión de Listas Invertidas ODD - Curso Servetto Recuperación de Textos

Recuperación de Textos Organización Vocabulario en RAM y listas invertidas en archivo de bloques Términos ordenados en un arreglo (búsqueda binaria), con referencias a listas en archivo Actualización por fusión Vocabulario en arbol B# y listas invertidas en archivo de bloques Términos en un archivo con organización B#, con referencias a listas en archivo Actualización directa ODD - Curso Servetto Recuperación de Textos

Compresión de Términos 1 codazo, codearse, codera, codicia, codiciar, codiciosa, codicioso, codificar, codigo Compresión Frontal (front coding)‏ 6codazo#35earse#42ra#34icia#71r#63osa#81o#4 5ficar#42go# Prefijo de longitud Cantidad de caracteres coincidentes con el término previo Después de cada término se agrega un número de bloque donde encontrar la lista (2 bytes)‏ ODD - Curso Servetto Recuperación de Textos

Compresión de Términos 2 6codazo#35earse#42ra#34icia#71r#63osa# 81o#45ficar#42go# Optimización de búsquedas 6codazo#35earse#42ra#7codicia#71r#63os a#9codicioso#45ficar#42go# 0 24 46 3 Cantidad de secciones de compresión Posición relativa de términos sin comprimir: al final de nodos (B#) o en arreglo independiente (RAM)‏ ODD - Curso Servetto Recuperación de Textos

Construcción de Listas Invertidas 1 Documentos Las Cosas de la Vida La Vida es Bella Las Cosas del Querer La Vida Después de la Vida Modelo Booleano cosas, vida, bella, querer (1, 1), (2, 1), (2, 2), (3, 2), (1, 3), (4, 3), (2, 4), (2, 4) (1, 1), (1, 3), (2, 1), (2, 2), (2, 4), (2, 4), (3, 2), (4, 3)‏ 1, 2(1, 3) 2, 3(1, 2, 4) 3, 1(2) 4, 1(3)‏ bella, 3, 1(2) cosas, 1, 2(1, 3) querer, 4, 1(3) vida, 2, 3(1, 2, 4)‏ ODD - Curso Servetto Recuperación de Textos

Construcción de Listas Invertidas 2 Documentos Las Cosas de la Vida La Vida es Bella Las Cosas del Querer La Vida Después de la Vida Modelo Vectorial cosas, vida, bella, querer (1, 1), (2, 1), (2, 2), (3, 2), (1, 3), (4, 3), (2, 4), (2, 4) (1, 1), (1, 3), (2, 1), (2, 2), (2, 4), (2, 4), (3, 2), (4, 3)‏ 1, 2((1, 1), (3, 1)) 2, 3((4, 2), (1, 1), (2, 1)) 3, 1(2, 1) 4, 1(3, 1)‏ bella, 3, 1(2, 1) cosas, 1, 2((1, 1), (3, 1)) querer, 4, 1(3, 1) vida, 2, 3((4, 2), (1, 1), (2, 1))‏ ODD - Curso Servetto Recuperación de Textos

Construcción de Listas Invertidas 3 Documentos Las Cosas de la Vida La Vida es Bella Las Cosas del Querer La Vida Después de la Vida Consultas de Frases o Términos Próximos cosas, vida, bella, querer (1, 1, 1), (2, 1, 2), (2, 2, 1), (3, 2, 2), (1, 3, 1), (4, 3, 2), (2, 4, 1), (2, 4, 2) (1, 1, 1), (1, 3, 1), (2, 1, 2), (2, 2, 1), (2, 4, 1), (2, 4, 2), (3, 2, 2), (4, 3, 2)‏ 1, 2((1, 1(1)), (3, 1(1))) 2, 3((1, 1(2)), (2, 1(1)), (4, 2(1, 2))) 3, 1(2, 1(2)) 4, 1(3, 1(2))‏ bella, 3, 1(2, 1(2)) cosas, 1, 2((1, 1(1)), (3, 1(1))) querer, 4, 1(3, 1(2)) vida, 2, 3( (1, 1(2)), (2, 1(1)), (4, 2(1, 2)))‏ ODD - Curso Servetto Recuperación de Textos

Compresión de Listas Invertidas 1 Reducción de cantidad de bits para representar números de documento Reducción de magnitud → Se ordenan los números de documento de menor a mayor y se representan como distancias al número previo Puede haber números grandes Hay pocos números grandes y muchos chicos Codificar con cantidades de bits proporcionales a la magnitud Los números chicos se representan con pocos bits Los números grandes se representan con muchos bits ODD - Curso Servetto Recuperación de Textos

Compresión de Listas Invertidas 2 Codificación Alineada a Bytes Representa números naturales con la mínima cantidades de bytes, usando los dos bits más significativos del código para indicar la cantidad de bytes empleados 0 ..26 -1 → 00xxxxxx 26 ..214-1 → 01xxxxxx xxxxxxxx 214..222-1 → 10xxxxxx xxxxxxxx xxxxxxxx 222..230-1 → 11xxxxxx xxxxxxxx xxxxxxxx xxxxxxxx ODD - Curso Servetto Recuperación de Textos

Compresión de Listas Invertidas 3 Códigos de Elias Fragmentan la representación de un número n en 2 partes, la primera de las cuales debe constituir un prefijo (debe distinguirse de la segunda)‏ Exponente de la máxima potencia de 2 que no exceda a n → └log2(n)┘ n - 2└log2(n)┘ El número se reconstruye sumando 2└ log2(n)┘a la segunda parte. Ejemplo 723 → └log2(723)┘| 723 - 2└log2(723)┘→ 9|723 – 29 → 9|211 9|211 → 29 + 211 = 512 + 211 = 723 ODD - Curso Servetto Recuperación de Textos

Compresión de Listas Invertidas 3 Códigos de Elias Gamma └log2(n)┘ unos seguidos de un cero (o viceversa)‏ n - 2└log2(n)┘ en └ log2(n) ┘ bits 723 → 1111111110011010011 Delta └log2(n)┘ en código Gamma n - 2└log2(n)┘ en └log2(n)┘ bits 723 → 1110001011010011 ODD - Curso Servetto Recuperación de Textos

Compresión de Listas Invertidas 4 Codificación de Golomb Fragmenta la representación de un número n en 2 partes, la primera de las cuales debe constituir un prefijo, en función de un parámetro ajustable g q = └n/g┘ con q unos seguidos de un 0 (o viceversa)‏ r = n – mod g en log2(g) bits (si g es potencia de 2)‏ Ejemplo 723 con g = 512 → └723/512┘723 mod 512 → 10011010011 ← log2(512)=9 ODD - Curso Servetto Recuperación de Textos