La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Modelos de Texto Estructurado M

Presentaciones similares


Presentación del tema: "Modelos de Texto Estructurado M"— Transcripción de la presentación:

1 Modelos de Texto Estructurado M
Modelos de Texto Estructurado M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción

2 Modelos s e Adhoc r Filtering T a k Browsing Extended Boolean vector
Set Theoretic Fuzzy Extended Boolean Classic Models boolean vector probabilistic Algebraic Generalized Vector Lat. Semantic Index Neural Networks U s e r T a k Retrieval: Adhoc Filtering Non-Overlapping Lists Proximal Nodes Structured Models Probabilistic Inference Network Belief Network Browsing Browsing Flat Structure Guided Hypertext

3 Introducción Respuesta a consultas basadas en palabras claves considera que los documentos son planos, i.e., una palabra en el título tiene el mismo peso que una palabra en el cuerpo del documento. La estructura de los documentos es una pieza adicional de información de la cual se puede obtener ventaja. Por ejemplo, palabras en el título y subtítulo pueden tener un peso mayor.

4 Introducción Considere la siguiente necesidad de información:
Retrieve all documents which contain a page in which the string “atomic holocaust” appears in italic in the text surrounding a Figure whose label contains the word earth La consulta correspondiente puede ser: same-page( near(“atomic holocaust”, Figure( label( “earth” ))))

5 Definición Básica Match point: la posición en el texto de una secuencia de palabras que iguala la consulta: Consulta: “atomic holocaust in Hiroshima” Doc dj: contiene 3 líneas con este string Entonces, doc dj contiene 3 match points Region: una porción contigua del texto Node: un componente estructural del texto tal como un capítulo, sección, etc..

6 Listas No sobrepuestas
Basado en Burkowski, 1992. Idea: divide el texto en regiones no superpuestas las cuales son coleccionadas en una lista Existen muchas formas de dividir el texto en partes no superpuestas que producen múltiples listas: una lista de capítulos una lista de secciones una lista de subsecciones Regiones de texto desde listas pueden superponerse

7 Listas No sobrepuestas
Capítulo L1 Sección L2 Subsección L3

8 Listas No sobrepuestas
Implementación: archivo invertido simple que combina texto y regiones de texto cada entrada de este archivo invertido está asociada a la lista de regiones de texto listas de regiones de texto pueden mezclarse con listas de palabras claves

9 Listas No sobrepuestas
Regiones no se sobreponen, lo cual limita las consultas que se pueden preguntar Tipos de consultas: seleccione una región que contenga una palabra dada seleccione una región A que no contenga una región B (regiones A y B pertenecen a distintas listas) seleccione una región que no esté contenida en ninguna otra región

10 Conclusiones El modelo de listas no superpuestas es simple y permite implementaciones eficientes Pero, permite un conjunto limitado de tipos de consultas El modelo no incluye ninguna herramienta para ranking de documentos por grado de similaridad a la consulta Qué significa similaridad estructural?

11 Nodos Proximales Basado en Navarro and Baeza-Yates, 1997
Idea: definir estructuras de indexación jerárquicas independientes sobre el mismo texto. Cada una de estas jerarquías está compuesta de capítulos, secciones, párrafos,etc.. Múltiples jerarquías pueden ser definidos Dos jerarquías pueden referirse a regiones que se sobreponen

12 Definiciones Cada estructura de indexación está compuesta de
capítulos secciones subsecciones párrafos líneas Cada uno de estos componentes es llamado nodo Cada nodo está asociado a una región de texto

13 Nodos Proximales Capítulo Secciones Subsecciones Subsubsecciones
holocaust 10 256 48,324

14 Nodos Proximales Puntos claves:
En el índice jerárquico, un nodo puede estar contenido dentro de otro nodo Pero, dos nodos de una misma jerárquica no se sobreponen La lista invertida por palabras claves complementa el índice jerárquico La implementación es más compleja que la de lista no superpuestas

15 Nodos Proximales Consultas son expresiones regulares:
búsqueda por strings referencias a componentes estructurales combinación de esto El modelo es una compromiso entre expresividad y eficiencia Consultas son simples pero pueden ser procesadas eficientemente Es un model más expresivo que las lista no superpuestas

16 Nodos Proximales Consulta: encuentre las secciones, las subsecciones y las subsubsecciones que contengan la palabra “holocaust” [(*section) with (“holocaust”)] Procesamiento de consulta simple: Atraviese la lista invertida por “holocaust” y determine todos los puntos de igualdad (match points) Use los match points para buscar en el índice jerárquico por los componentes estructurales

17 Nodos Proximales Consulta: [(*section) with (“holocaust”)]
Procesamiento de consulta sofisticado: obtenga la primera entrada en la lista invertida por “holocaust” use este match point para buscar en el índice jerárquico por los componentes estructurales El componente de matching más interno: uno más pequeño Evaluar si el componente más interno incluye la segunda entrada en la lista invertida por “holocaust” Si es así, evaluar la tercera entrada y así sucesivamente Esto permite evaluar eficientemente los nodos cercanos (o proximales)

18 Conclusiones El modelo permite la formulación de consultas que son más sofisticadas de las permitidas por el modelo de listas no superpuestas Para acelerar el procesamiento de consulta, nodos cercanos son inspeccionados Tipos de consultas que son consultadas pueden estar limitadas (todos los nodos en la respuesta deben venir de la misma jerarquía de índice) El modelo refleja un compromiso entre expresividad y eficiencia

19 Modelo de Browsing Exploración de documentos Tipos de browsing:
flat: se explora un espacio plano (ej. espacio de documentos como puntos en un espacio n-dimensional) Guiado por estructura: directorios que agrupan jerárquicamente documentos. Hypertext: es una estructura de navegación interactiva de alto nivel. Consiste de nodos los cuales están correlacionados por enlaces dirigidos en una estructura de grafo.


Descargar ppt "Modelos de Texto Estructurado M"

Presentaciones similares


Anuncios Google