La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014.

Presentaciones similares


Presentación del tema: "Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014."— Transcripción de la presentación:

1 Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

2 Definición Lo que sea entre estructurado y no estructurado Variables pobremente tipadas (x=1 es válido y x=”hola” también es válido) Un registro no necesariamente tiene que tener todos sus atributos definidos. Mientras por ejemplo en una base de datos relacional un campo debe establecerse como NULL cuando no se tiene, en un ambiente de datos semiestructurados basta con omitir dicho atributo. FCC - BUAP Primavera 2014 MC Beatriz Beltrán Martíez 68

3 Definición Un atributo de un registro puede ser otro registro. No existe necesariamente una diferencia entre un identificador de un campo y el valor mismo de este. Ejemplos: documentos SGML y XML FCC - BUAP Primavera 2014 MC Beatriz Beltrán Martíez 69

4 Representación Árboles: FCC - BUAP Primavera 2014 MC Beatriz Beltrán Martíez 70 EmpleadosCarlosCumpleMesAgostoAño1980Sueldo5000JuanCumpleDía24MesFebreroAño1979

5 Representación Texto indentado: FCC - BUAP Primavera 2014 MC Beatriz Beltrán Martíez 71 Carlos Cumpleaños Agosto 1980 Sueldo 5000 Juan Cumpleaños 24 Febrero 1979

6 Representación Lenguaje de marcado: FCC - BUAP Primavera 2014 MC Beatriz Beltrán Martíez 72 Carlos Agosto 1980 5000 Juan 24 Febrero 1979

7 XML La reciente proliferación de documentos XML para almacenar y organizar información textual ha originado una creciente demanda de recuperación de información efectiva sobre este tipo de documentos y que además utilice tanto la estructura como la información contenida en dicha estructura para devolver documentos o partes de los mismos como respuesta a una consulta. FCC - BUAP Primavera 2014 MC Beatriz Beltrán Martíez 73

8 XML En cuanto a los resultados, tradicionalmente las búsquedas de texto devuelven una lista de documentos con cierta información acerca de ellos y ordenados según algún criterio de relevancia. En el contexto de la recuperación de información se pone el énfasis principalmente en las búsquedas de texto, la manipulación de conjuntos de resultados, las relaciones de inclusión, las distancias y la ordenación por relevancia de los documentos obtenidos. 74 MC Beatriz Beltrán Martínez FCC - BUAP Primavera 2014

9 XML La estructura de los documentos se utiliza para facilitar una focalización de las respuestas del sistema a unidades de documento más adecuadas. Esta mayor adecuación está relacionada con la noción de especificidad del componente de documento en la consulta. FCC - BUAP Primavera 2014 MC Beatriz Beltrán Martíez 75

10 XML Además el problema de las estrategias de indexación de información estructurada es crítico para el diseño de tales estrategias de recuperación. Sin embargo, si se basan en el uso explícito de la estructura lógica o en la recuperación de pasajes, los modelos de recuperación que manejan documentos estructurados siguen siendo experimentales y hay una falta de experimentación extensiva en colecciones grandes. FCC - BUAP Primavera 2014 MC Beatriz Beltrán Martíez 76

11 Procesamiento Hablar de recuperación en XML es para muchos asociar un documento con sus respectivos metadatos. De manera que únicamente se mantienen algunos de los datos representativos del documento (ejemplo: la ficha bibliográfica) en alguno de los tipos de bases de datos mencionados anteriormente y el documento es almacenado en algún tipo de dispositivo de almacenamiento. FCC - BUAP Primavera 2014 MC Beatriz Beltrán Martíez 77

12 FCC - BUAP Primavera 2014 MC Beatriz Beltrán Martíez 78 Procesamiento Base de Datos Sistema de Archivos consulta metadatos Id Documento Documento

13 Características Para atender las necesidades de esta comunidad, un lenguaje de consulta para XML debería poseer las cualidades comunes de los lenguajes de consulta de datos semiestructurados, tanto las puramente relacionales, como aquellas similares a las de los lenguajes de consulta de bases de datos orientados a objeto, tales como la navegación y el anidamiento. A continuación se explican con mayor detalle las principales particularidades deseables para la consulta de datos: 79 MC Beatriz Beltrán Martínez FCC - BUAP Primavera 2014

14 Operación de selección: elige un documento o elemento basándose en el contenido, estructura o atributos que satisfagan una condición específica. Estas consultas constan generalmente de 3 partes o cláusulas: Patrón: equipara elementos anidados en el documento de entrada y les asocia variables. Filtro: testea que las variables asociadas cumplan las condiciones establecidas. Constructor: especifica el resultado en términos de las variables asociadas, es decir qué formato ha de tener la respuesta. 80 MC Beatriz Beltrán Martínez FCC - BUAP Primavera 2014 Características

15 Operación de filtrado: extrae determinados elementos de los documentos conservando la jerarquía y secuencia. Operación de reducción: proyecta como salida la poda de los elementos especificados en la selección que satisfacen las condiciones, en vez de devolver un subárbol con todos los elementos y atributos. Acción de reestructuración: como por ejemplo la agrupación de datos relacionados y la ordenación. 81 MC Beatriz Beltrán Martínez FCC - BUAP Primavera 2014 Características

16 Operación de combinación de datos de diferentes porciones de documentos (correspondiente al “join” relacional) o combinación de diferentes partes del mismo documento (“semi-join”). Uso de funciones de agregación. Utilización de la cuantificación existencial y universal. Operaciones de inserción, borrado y modificación. 82 MC Beatriz Beltrán Martínez FCC - BUAP Primavera 2014 Características

17 Variables etiqueta o expresiones de camino para permitir peticiones sin conocimiento preciso de la estructura del documento y acceso a datos anidados de forma arbitraria. El lenguaje de consulta debe poder usarse aun cuando no se conozca un esquema (dtd o xml schema) a priori. Operadores de navegación que simplifiquen el manejo de datos con referencias [atributos id, idref(s)]. Manejo de tipos de datos, en particular los del XML schema 83 MC Beatriz Beltrán Martínez FCC - BUAP Primavera 2014 Características

18 Recuperación de pasajes La idea de recuperar partes de documentos no es nueva. La recuperación de partes de documentos, llamadas pasajes, es la propuesta más antigua y estudiada. El principio, es bastante simple: dentro de los documentos de texto, los pasajes son secuencias textuales de palabras consecutivas que presentan cierta homogeneidad en su temática y que, por lo tanto, pueden ser relevantes para el usuario. 84 MC Beatriz Beltrán Martínez FCC - BUAP Primavera 2014

19 Por “palabras consecutivas” entendemos una secuencia de palabras según el “orden de lectura” del documento. Debido a que a priori se ignora la estructura lógica oculta de los documentos, el problema principal es encontrar una “buena” segmentación de los documentos. Un método clásico para localizar pasajes consiste en analizar la distribución de las palabras dentro de una ventana de tamaño fijo que se va desplazando. 85 MC Beatriz Beltrán Martínez FCC - BUAP Primavera 2014 Recuperación de pasajes

20 Los límites de los pasajes se encuentran cuando se observa un cambio significativo en la distribución del vocabulario local al compararlo con distribución previa. También se han realizado propuestas basadas en pasajes más cercanas a la noción de estructura lógica, pero este tipo de propuestas no pueden aprovechar al máximo de la estructura lógica de los documentos. 86 MC Beatriz Beltrán Martínez FCC - BUAP Primavera 2014 Recuperación de pasajes

21 Modelo de listas no solapadas Esta propuesta de Burkowski se basa en la división de cada documento en regiones de texto disjuntas pero que recubren todo el documento (índices densos), produciendo una lista. El proceso se realiza para los distintos tipos de regiones que aparecen en el documento, produciéndose múltiples listas: lista de capítulos, lista de párrafos, etc., de manera que no existe solapamiento entre regiones de una misma lista y si se puede producir entre regiones de listas diferentes. 87 MC Beatriz Beltrán Martíez FCC - BUAP Primavera 2014

22 88 MC Beatriz Beltrán Martíez FCC - BUAP Primavera 2014 Modelo de listas no solapadas Capítulo Sección Subsección Subsubsección


Descargar ppt "Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014."

Presentaciones similares


Anuncios Google