Construcción de Indices

Slides:



Advertisements
Presentaciones similares
SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR
Advertisements

Recuperación de Textos (RTT)‏
Convertidores de Código
Revisión Nº:Descripción:Fecha: 00Elaboración de la documentación30/06/11 Copia Controlada :Nº: F /REV. 00 ACCESO A LA WEB DEL CPR DE TARAZONA Cód.:
Organizaciones Directas
Los números del 0 al cero uno dos tres cuatro cinco 6 7 8
Universidad San Martín de Porres
1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO de Junio de 2005.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS ( Resumen PYMES ) Noviembre de 2004.
AYUDA A LA FUNCIÓN DOCENTE Internet
TEMA 2 MÚLTIPLOS Y DIVISORES
INTERFERENCIAS y DIFRACCIÓN
02- Plan Organización Docente v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
02- PLAN DOCENTE Febrero 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
01- OFERTA FORMATIVA v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
Aladdín-respuestas 1.Vivía 2.Era 3.Amaba 4.Quería 5.Gustaban 6.Se sentía 7.Salía 8.Tenía 9.Decidió 10.escapó 11. Se vistió 12. Conoció 13. Vio 14. Pensó
Respuestas Buscando a Nemo.
ABECEDARIO FIGURAS GEOMÉTRICAS NÚMERO
Organización Secuencial
FIUBAODD - Curso Servetto1 Resolución de Consultas Consultas en el Modelo Booleano Consultas en el Modelo Vectorial Consultas Especiales.
MOVIMIENTO ARMÓNICO SIMPLE MOVIMIENTO ARMÓNICO SIMPLE
Operaciones con Números Reales
Representación de la Información dentro del Computador
SISTEMAS DE NUMERACIÓN
IBD Clase 7.
BLOQUE 1 EQUIPOS INFORMÁTICOS
Teoría de Números Dra. Noemí L. Ruiz Limardo
Operaciones con Números Reales
Construcción de Indices Invertidos
CLASE 3 SOFTWARE DEL MICROPROCESADOR
Estadística Administrativa I
Funciones Excel. Parte 1. Introducción 2 Una función Excel es una fórmula o un procedimiento que se realiza en el ambiente de Visual Basic, fuera de.
-17 Expectativas sobre la situación económica (Europa) Septiembre 2013 Indicador > +20 Indicador 0 a +20 Indicador 0 a -20 Indicador < -20 Total Unión.
Phone2Wave-Server Manual de Operación.
Indicador de proximidad a escuelas oficiales de nivel primario Población a menos de 100 metros: Población a menos de 250 metros: Población a menos de.
Vocabulario querer comerlo -paja por supuesto - madera
FUNCIONES DE UNA VARIABLE REAL
REPRESENTACIÓN DECIMAL DE UN NÚMERO RACIONAL
Punto 3 – Protocolo IP Juan Luis Cano. Internet Protocol (en español Protocolo de Internet) o IP es un protocolo no orientado a conexión usado tanto por.
EL OSO APRENDIZ Y SUS AMIGOS
Representación De La Información. Solo para principiantes.
Unidad 4 Transmisión Digital.
1 PROYECTO DE PRESUPUESTO DE EGRESOS DE LA FEDERACION 2002 COORDINACIÓN DE POLITICA ECONOMICA GP-PRD.
UNIDAD 3 Progresiones.
Profr. Ricardo A. Castro Rico
Ecuaciones Cuadráticas
RAZONAMIENTO MATEMATICO Mg. CORNELIO GONZALES TORRES
¡Primero mira fijo a la bruja!
ESTRUCTURAS DE DATOS AVANZADAS
Otra forma es representando lo que hay de cada lado
Medidas de Tendencia Central
REGLAS DE LOS SIGNOS.
CURSO MULTIHAZ HYPACK ®
Learning Zone Matemáticas 101

1 8 de febrero del Chapter 5 Encoding 3 Figure 5-1 Different Conversion Schemes.
Herramienta FRAX Expositor: Boris Inturias.
CHAPTER 4 VOCABULARY: PART II
ESTRUCTURA DE DATOS ESD-243
Elaborado por: Guillermo Baquerizo I Término
Sistemas de numeración
Organización del Computador I Verano 2007
Representación de reales y caracteres Mariano M. Moscato Organización del computador I verano 2008.
COMPUTO I - UASF SISTEMA BINARIOS.
SISTEMAS NUMÉRICOS Oscar Ignacio Botero H..
Algoritmos y Desarrollo de Programas I
Matemática de Redes Doc. Anna Dugarte.
CODIFICACION DE HUFFMAN
Algoritmos voraces Códigos de Huffman. Descripción del problema Tenemos un archivo de entrada. Asumiremos que el archivo está compuesto de bytes (enteros.
Sistema Numérico Binario Prof. Carlos Ortiz Muñoz.
Transcripción de la presentación:

Construcción de Indices Organización Compresión de Términos Construcción de Listas Invertidas Compresión de Listas Invertidas ODD - Curso Servetto Recuperación de Textos

Recuperación de Textos Organización Vocabulario en RAM y listas invertidas en archivo de bloques Términos ordenados en un arreglo (búsqueda binaria), con referencias a listas en archivo Actualización por fusión Vocabulario en arbol B# y listas invertidas en archivo de bloques Términos en un archivo con organización B#, con referencias a listas en archivo Actualización directa ODD - Curso Servetto Recuperación de Textos

Compresión de Términos 1 codazo, codearse, codera, codicia, codiciar, codiciosa, codicioso, codificar, codigo Compresión Frontal (front coding) 6codazo#35earse#42ra#34icia#71r#63osa#81o#4 5ficar#42go# Prefijo de longitud Cantidad de caracteres coincidentes con el término previo Después de cada término se agrega un número de bloque donde encontrar la lista (2 bytes) ODD - Curso Servetto Recuperación de Textos

Compresión de Términos 2 6codazo#35earse#42ra#34icia#71r#63osa# 81o#45ficar#42go# Optimización de búsquedas 6codazo#35earse#42ra#7codicia#71r#63os a#9codicioso#45ficar#42go# 0 24 46 3 Cantidad de secciones de compresión Posición relativa de términos sin comprimir: al final de nodos (B#) o en arreglo independiente (RAM) ODD - Curso Servetto Recuperación de Textos

Construcción de Listas Invertidas 1 Documentos Las Cosas de la Vida La Vida es Bella Las Cosas del Querer La Vida Después de la Vida Modelo Booleano cosas, vida, bella, querer (1, 1), (2, 1), (2, 2), (3, 2), (1, 3), (4, 3), (2, 4), (2, 4) (1, 1), (1, 3), (2, 1), (2, 2), (2, 4), (2, 4), (3, 2), (4, 3) 1, 2(1, 3) 2, 3(1, 2, 4) 3, 1(2) 4, 1(3) cosas, 1, 2(1, 3) vida, 2, 3(1, 2, 4) bella, 3, 1(2) querer, 4, 1(3) ODD - Curso Servetto Recuperación de Textos

Construcción de Listas Invertidas 2 Documentos Las Cosas de la Vida La Vida es Bella Las Cosas del Querer La Vida Después de la Vida Modelo Vectorial cosas, vida, bella, querer (1, 1), (2, 1), (2, 2), (3, 2), (1, 3), (4, 3), (2, 4), (2, 4) (1, 1, 1), (2, 1, 1), (2, 2, 1), (3, 2, 1), (1, 3, 1), (4, 3, 1), (2, 4, 2) (1, 1) (2, 1) (3, 1)(4, 2) (1, 1, 1), (1, 3, 1), (2, 1, 1), (2, 2, 1), (2, 4, 2), (3, 2, 1), (4, 3, 1) 1, 2((1, 1), (3, 1)) 2, 3((4, 2), (1, 1), (2, 1)) 3, 1(2, 1) 4, 1(3, 1) cosas, 1, 2((1, 1), (3, 1)) vida, 2, 3((4, 2), (1, 1), (2, 1)) bella, 3, 1(2, 1) querer, 4, 1(3, 1) ODD - Curso Servetto Recuperación de Textos

Construcción de Listas Invertidas 3 Documentos Las Cosas de la Vida La Vida es Bella Las Cosas del Querer La Vida Después de la Vida Consultas de Frases o Términos Próximos cosas, vida, bella, querer (1, 1, 1), (2, 1, 2), (2, 2, 1), (3, 2, 2), (1, 3, 1), (4, 3, 2), (2, 4, 1), (2, 4, 2) (1, 1, 1), (1, 3, 1), (2, 1, 2), (2, 2, 1), (2, 4, 1), (2, 4, 2), (3, 2, 2), (4, 3, 2) 1, 2((1, 1(1)), (3, 1(1))) 2, 3((1, 1(2)), (2, 1(1)), (4, 2(1, 2))) 3, 1(2, 1(2)) 4, 1(3, 1(2)) cosas, 1, 2((1, 1(1)), (3, 1(1))) vida, 2, 3( (1, 1(2)), (2, 1(1)), (4, 2(1, 2))) bella, 3, 1(2, 1(2)) querer, 4, 1(3, 1(2)) ODD - Curso Servetto Recuperación de Textos

Compresión de Listas Invertidas 1 Reducción de cantidad de bits para representar números de documento Reducción de magnitud → Se ordenan los números de documento de menor a mayor y se representan como distancias al número previo Puede haber números grandes Hay pocos números grandes y muchos chicos Codificar con cantidades de bits proporcionales a la magnitud Los números chicos se representan con pocos bits Los números grandes se representan con muchos bits ODD - Curso Servetto Recuperación de Textos

Compresión de Listas Invertidas 2 Codificación Alineada a Bytes Representa números naturales con la mínima cantidades de bytes, usando los dos bits más significativos del código para indicar la cantidad de bytes empleados 0 ..26 -1 → 00xxxxxx 26 ..214-1 → 01xxxxxx xxxxxxxx 214..222-1 → 10xxxxxx xxxxxxxx xxxxxxxx 222..230-1 → 11xxxxxx xxxxxxxx xxxxxxxx xxxxxxxx ODD - Curso Servetto Recuperación de Textos

Compresión de Listas Invertidas 3 Códigos de Elias Fragmentan la representación de un número n en 2 partes, la primera de las cuales debe constituir un prefijo (debe distinguirse de la segunda) Exponente de la máxima potencia de 2 que no exceda a n → └log2(n)┘ n - 2└log2(n)┘ El número se reconstruye sumando 2└ log2(n)┘a la segunda parte. Ejemplo 723 → └log2(723)┘| 723 - 2└log2(723)┘→ 9|723 – 29 → 9|211 9|211 → 29 + 211 = 512 + 211 = 723 ODD - Curso Servetto Recuperación de Textos

Compresión de Listas Invertidas 3 Códigos de Elias Gamma └log2(n)┘ unos seguidos de un cero (o viceversa) n - 2└log2(n)┘ en └ log2(n) ┘ bits 723 → 1111111110011010011 Delta └log2(n)┘+1 en código Gamma n - 2└log2(n)┘ en └log2(n)┘ bits 723 → 1110010011010011 ODD - Curso Servetto Recuperación de Textos

Compresión de Listas Invertidas 4 Codificación de Golomb Fragmenta la representación de un número n en 2 partes, la primera de las cuales debe constituir un prefijo, en función de un parámetro ajustable g q = └n/g┘ con q unos seguidos de un 0 (o viceversa) r = n mod g en log2(g) bits (para g potencia de 2) Ejemplo 723 con g = 512 → └723/512┘723 mod 512 → 10011010011 ← log2(512)=9 ODD - Curso Servetto Recuperación de Textos

Compresión de Listas Invertidas 5 Codificación de Golomb con g Óptimo Se puede demostrar que la compresión es óptima cuando g se relaciona con la probabilidad p de que un término se encuentre en un documento de la siguiente manera: (1-p)^g+(1-p)^(g+1) ≤ 1 < (1-p)^(g-1)+(1-p)^g g se obtiene redondeando al entero más próximo el valor: log2(2-p)/(-log2(1-p)), P = nt/N (N cant. de documentos, nt documentos en los que aparece un término t) b = ┌log2(g)┐ Si r < 2^b-g se representa r en b-1 bits Si r ≥ 2^b-g se representa 2^b-g+r en b bits ODD - Curso Servetto Recuperación de Textos

Recuperación de Textos Ejemplo Golomb p = 8/500 = 0.016 g = Round(log2(2-0.016) / (-log2(1-0.016))) = = Round(log2(1.984) / (-log2(0.984))) = = Round(42.47) = 42 b = Techo(log2(42)) = Techo(5.39) = 6 2^b-g = 2^6-42 = 22 42 → 10 00000 1 → 0 00001 ... 21 → 0 10101 ... 22 → 0 101100 23 → 0 101101 ... 41 → 0 111111 ODD - Curso Servetto Recuperación de Textos