La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

ODD - Curso ServettoRecuperación de Textos1 Construcción de Indices Invertidos Organización Compresión de Términos Construcción de Listas Invertidas Compresión.

Presentaciones similares


Presentación del tema: "ODD - Curso ServettoRecuperación de Textos1 Construcción de Indices Invertidos Organización Compresión de Términos Construcción de Listas Invertidas Compresión."— Transcripción de la presentación:

1 ODD - Curso ServettoRecuperación de Textos1 Construcción de Indices Invertidos Organización Compresión de Términos Construcción de Listas Invertidas Compresión de Listas Invertidas

2 ODD - Curso ServettoRecuperación de Textos2 Organización Vocabulario en RAM y listas invertidas en archivo de bloques –Términos ordenados en un arreglo (búsqueda binaria), con referencias a listas en archivo –Actualización por fusión Vocabulario en arbol B# y listas invertidas en archivo de bloques –Términos en un archivo con organización B#, con referencias a listas en archivo –Actualización directa

3 ODD - Curso ServettoRecuperación de Textos3 Compresión de Términos 1 codazo, codearse, codera, codicia, codiciar, codiciosa, codicioso, codificar, codigo Compresión Frontal (front coding) 6codazo#35earse#42ra#34icia#71r#63osa#81o#4 5ficar#42go# Prefijo de longitud Cantidad de caracteres coincidentes con el término previo Después de cada término se agrega un número de bloque donde encontrar la lista (2 bytes)

4 ODD - Curso ServettoRecuperación de Textos4 Compresión de Términos 2 6codazo#35earse#42ra#34icia#71r#63osa# 81o#45ficar#42go# Optimización de búsquedas 6codazo#35earse#42ra#7codicia#71r#63os a#9codicioso#45ficar#42go# Cantidad de secciones de compresión Posición relativa de términos sin comprimir: al final de nodos (B#) o en arreglo independiente (RAM)

5 ODD - Curso ServettoRecuperación de Textos5 Construcción de Listas Invertidas 1 Documentos Las Cosas de la Vida La Vida es Bella Las Cosas del Querer La Vida Después de la Vida Modelo Booleano cosas, vida, bella, querer (1, 1), (2, 1), (2, 2), (3, 2), (1, 3), (4, 3), (2, 4), (2, 4) (1, 1), (1, 3), (2, 1), (2, 2), (2, 4), (2, 4), (3, 2), (4, 3) 1, 2(1, 3) 2, 3(1, 2, 4) 3, 1(2) 4, 1(3) bella, 3, 1(2) cosas, 1, 2(1, 3) querer, 4, 1(3) vida, 2, 3(1, 2, 4)

6 ODD - Curso ServettoRecuperación de Textos6 Construcción de Listas Invertidas 2 Documentos Las Cosas de la Vida La Vida es Bella Las Cosas del Querer La Vida Después de la Vida Modelo Vectorial cosas, vida, bella, querer (1, 1), (2, 1), (2, 2), (3, 2), (1, 3), (4, 3), (2, 4), (2, 4) (1, 1), (1, 3), (2, 1), (2, 2), (2, 4), (2, 4), (3, 2), (4, 3) 1, 2((1, 1), (3, 1)) 2, 3((4, 2), (1, 1), (2, 1)) 3, 1(2, 1) 4, 1(3, 1) bella, 3, 1(2, 1) cosas, 1, 2((1, 1), (3, 1)) querer, 4, 1(3, 1) vida, 2, 3((4, 2), (1, 1), (2, 1))

7 ODD - Curso ServettoRecuperación de Textos7 Construcción de Listas Invertidas 3 Documentos Las Cosas de la Vida La Vida es Bella Las Cosas del Querer La Vida Después de la Vida Consultas de Frases o Términos Próximos cosas, vida, bella, querer (1, 1, 1), (2, 1, 2), (2, 2, 1), (3, 2, 2), (1, 3, 1), (4, 3, 2), (2, 4, 1), (2, 4, 2) (1, 1, 1), (1, 3, 1), (2, 1, 2), (2, 2, 1), (2, 4, 1), (2, 4, 2), (3, 2, 2), (4, 3, 2) 1, 2((1, 1(1)), (3, 1(1))) 2, 3((1, 1(2)), (2, 1(1)), (4, 2(1, 2))) 3, 1(2, 1(2)) 4, 1(3, 1(2)) bella, 3, 1(2, 1(2)) cosas, 1, 2((1, 1(1)), (3, 1(1))) querer, 4, 1(3, 1(2)) vida, 2, 3( (1, 1(2)), (2, 1(1)), (4, 2(1, 2)))

8 ODD - Curso ServettoRecuperación de Textos8 Compresión de Listas Invertidas 1 Reducción de cantidad de bits para representar números de documento –Reducción de magnitud Se ordenan los números de documento de menor a mayor y se representan como distancias al número previo –Puede haber números grandes –Hay pocos números grandes y muchos chicos 1.Codificar con cantidades de bits proporcionales a la magnitud –Los números chicos se representan con pocos bits –Los números grandes se representan con muchos bits

9 ODD - Curso ServettoRecuperación de Textos9 Compresión de Listas Invertidas 2 Codificación Alineada a Bytes Representa números naturales con la mínima cantidades de bytes, usando los dos bits más significativos del código para indicar la cantidad de bytes empleados xxxxxx xxxxxx xxxxxxxx xxxxxx xxxxxxxx xxxxxxxx xxxxxx xxxxxxxx xxxxxxxx xxxxxxxx

10 ODD - Curso ServettoRecuperación de Textos10 Compresión de Listas Invertidas 3 Códigos de Elias Fragmentan la representación de un número n en 2 partes, la primera de las cuales debe constituir un prefijo (debe distinguirse de la segunda) –Exponente de la máxima potencia de 2 que no exceda a n log2(n) –n - 2 log2(n) El número se reconstruye sumando 2 log2(n) a la segunda parte. Ejemplo 723 log2(723) | log2(723) 9|723 – 2 9 9|211 9| = = 723

11 ODD - Curso ServettoRecuperación de Textos11 Compresión de Listas Invertidas 3 Códigos de Elias –Gamma log2(n) unos seguidos de un cero (o viceversa) n - 2 log2(n) en log2(n) bits –Delta log2(n) en código Gamma n - 2 log2(n) en log2(n) bits

12 ODD - Curso ServettoRecuperación de Textos12 Compresión de Listas Invertidas 4 Codificación de Golomb Fragmenta la representación de un número n en 2 partes, la primera de las cuales debe constituir un prefijo, en función de un parámetro ajustable g –q = n/g con q unos seguidos de un 0 (o viceversa) –r = n – mod g en log2(g) bits (si g es potencia de 2) Ejemplo 723 con g = / mod log2(512)=9


Descargar ppt "ODD - Curso ServettoRecuperación de Textos1 Construcción de Indices Invertidos Organización Compresión de Términos Construcción de Listas Invertidas Compresión."

Presentaciones similares


Anuncios Google