Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014.

Slides:



Advertisements
Presentaciones similares
integridad referencial
Advertisements

BASE DE DATOS OBJETO RELACIONAL
COLEGIO DE BACHILLERES PLANTEL 13 XOCHIMILCO-TEPEPAN MATERIA:TIC EQUIPO:23 PRESENTACION: BASE DE DATOS ALUMNAS: Velazquez Corona Elsa Ponciano Antonio.
Tecnologías Cliente / Servidor Capitulo III Richard Jiménez V. clienteserver.wordpress.com.
Conjunto de información almacenado en memoria auxiliar Permiten acceso directo a programas que las manipulan Es un sistema de archivos electrónicos.
Aprendizaje de Microsoft® Access® 2010
DOM ( Document Object Model) Prof. Franklin Cedeño.
Introducción 1 Puntos Clave –La orientación a objetos representa un cambio radical en los métodos tradicionales de creación de software –Los métodos tradicionales.
UNIVERSIDAD LATINA (UNILA) IV. IMPLANTACION DE ALGORITMOS.
ALGORÍTMICA Dpto. Ingeniería de Sistemas y Automática
Tema II Unidad de memoria. 2 Unidad de memoria 2.1 Definiciones y conceptos básicos Localización Capacidad Unidad de transferencia
Teoría de lenguajes y compiladores
Johanna Lizeth Rodríguez Lorena Fda. Chávarro Ramos
1.1.2 Sistemas de información para la gestión y para la ayuda en la toma de decisiones. Los SI contribuyen activamente a la consecución de los objetivos.
INTEGRANTES ALEXIS MENDOZA ALDAIR ARRIETA CARLOS PASTOR LORENA RODRIGUEZ ANTHONY JIMENEZ.
Estrategias de comprensión lectora
El análisis y recuperación de información
Modelos de Texto Estructurado M
Ingeniero Anyelo Quintero


Definition Type Document (DTD)
 El primer navegador Web incluía un lenguaje de estilo interno que utilizaba dicho navegador para mostrar las páginas HTML.  Sin embargo estos primeros.
Ing. Fabián Ruano.  Definición  Diferencias con BD Centralizadas.
ESTRUCTURAS DE DATOS I Conocer, comprender y analizar algunos de los principales tipos de estructuras de datos.
Facultad de Ciencias de la Computación MC Beatriz Beltrán Martínez

Sistemas de Información IS95872
1.1 Concepto y terminología
Introducción a la Base de Datos
Introducción A Las Bases De Datos
DATA WAREHOUSE Equipo 9.
BASE DE DATOS BY: Julián Villar Vázquez.
BASES DE DATOS Con Access.
(Organización y Manejo de Archivos)
DATA WAREHOUSE PREPARADO POR : María Alejandra Franco Lina María Arias.
Colegio de Bachilleres Plantel 13 Xochimilco-Tepepan Integrantes: Karen Elizabeth González Monroy Elizabeth De Jesús Vergara Grupo:308.
INSTITUTO DE ESTUDIOS SUPERIORES DE CHIHUAHUA COMPUTACION Ciclo: segundo cuatrimestre Lic. Roberto Servando Roque Corona.
ORGANIZACIÓN DE LOS DATOS PARA PROCESARLOS EN COMPUTADORA Las computadoras trabajan con datos. Aceptan y procesan datos, y comunican resultados. No pueden.
Ing. JUAN CARLOS GARCIA DUARTE

ANALIS DE METODOS Y MEDIOS
GUTIÉRREZ GRANADOS HÉCTOR DANIEL
Protocolo de Investigación
Clase 3 complementaria Tecnología de la Comunicación I Estrategias de búsqueda.
DISEÑO DE UNA ESTRUCTURA DE INDEXACION DE DATOS TOPOLOGICAMENTE CONTENIDO.


Tecnologías para el Aprendizaje
Web Semántica La Web Semántica es la nueva generación de la Web, que intenta realizar un filtrado automático preciso de la información. Para ello, es necesario.
COLEGIO DE BACHILLERES PLANTEL 13 XOCHIMILCO-TEPEPAN MATERIA:TIC EQUIPO:21 PRESENTACION: BASE DE DATOS ALUMNAS: Adán Millán Sánchez.
1 Clase 3 Registro de resultados Tecnología de la Comunicación I.
WEB SEMÁNTICA.
Términos algoritmo diseñar algoritmo implementar algoritmo
¿Qué es una Base de datos?
Diseño de Sistemas.
DESARROLLO DE HABILIDADES
Elementos de información
Introducción al Data Warehouse
Colegio de Bachilleres Plantel 13 Xochimilco - Tepepan
INTERFAZ DE ACCESS  Access es un sistema gestor de bases de datos relacionales (SGBD). Una base de datos suele definirse como un conjunto de información.
MIA - Grupo 5 Unidad 2.

PROGRAMA DE LENGUAJE Y COMUNICACIÓN
Tipos de Datos abstractos

Almacén de Datos MC BEATRIZ BELTRÁN MARTÍNEZ. Primavera 2016 MC BEATRIZ BELTRÁN MARTÍNEZ 33 Definición Colección de datos orientada a un dominio, integrado,
DLM Transact SQL Sesión I Introducción al SQL Server Uso de las herramientas de consultas del Transact SQL.
1.ª Parte: Dónde y cómo buscar información.  Cuando se busca información sobre un tema, es necesario emplear una «estrategia de búsqueda» para optimizar.
LE, EI, Profesor Ramón Castro Liceaga UNIVERSIDAD LATINA (UNILA) IV. IMPLANTACION DE ALGORITMOS.
Transcripción de la presentación:

Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014

Definición Lo que sea entre estructurado y no estructurado Variables pobremente tipadas (x=1 es válido y x=”hola” también es válido) Un registro no necesariamente tiene que tener todos sus atributos definidos. Mientras por ejemplo en una base de datos relacional un campo debe establecerse como NULL cuando no se tiene, en un ambiente de datos semiestructurados basta con omitir dicho atributo. FCC - BUAP Primavera 2014 MC Beatriz Beltrán Martíez 68

Definición Un atributo de un registro puede ser otro registro. No existe necesariamente una diferencia entre un identificador de un campo y el valor mismo de este. Ejemplos: documentos SGML y XML FCC - BUAP Primavera 2014 MC Beatriz Beltrán Martíez 69

Representación Árboles: FCC - BUAP Primavera 2014 MC Beatriz Beltrán Martíez 70 EmpleadosCarlosCumpleMesAgostoAño1980Sueldo5000JuanCumpleDía24MesFebreroAño1979

Representación Texto indentado: FCC - BUAP Primavera 2014 MC Beatriz Beltrán Martíez 71 Carlos Cumpleaños Agosto 1980 Sueldo 5000 Juan Cumpleaños 24 Febrero 1979

Representación Lenguaje de marcado: FCC - BUAP Primavera 2014 MC Beatriz Beltrán Martíez 72 Carlos Agosto Juan 24 Febrero 1979

XML La reciente proliferación de documentos XML para almacenar y organizar información textual ha originado una creciente demanda de recuperación de información efectiva sobre este tipo de documentos y que además utilice tanto la estructura como la información contenida en dicha estructura para devolver documentos o partes de los mismos como respuesta a una consulta. FCC - BUAP Primavera 2014 MC Beatriz Beltrán Martíez 73

XML En cuanto a los resultados, tradicionalmente las búsquedas de texto devuelven una lista de documentos con cierta información acerca de ellos y ordenados según algún criterio de relevancia. En el contexto de la recuperación de información se pone el énfasis principalmente en las búsquedas de texto, la manipulación de conjuntos de resultados, las relaciones de inclusión, las distancias y la ordenación por relevancia de los documentos obtenidos. 74 MC Beatriz Beltrán Martínez FCC - BUAP Primavera 2014

XML La estructura de los documentos se utiliza para facilitar una focalización de las respuestas del sistema a unidades de documento más adecuadas. Esta mayor adecuación está relacionada con la noción de especificidad del componente de documento en la consulta. FCC - BUAP Primavera 2014 MC Beatriz Beltrán Martíez 75

XML Además el problema de las estrategias de indexación de información estructurada es crítico para el diseño de tales estrategias de recuperación. Sin embargo, si se basan en el uso explícito de la estructura lógica o en la recuperación de pasajes, los modelos de recuperación que manejan documentos estructurados siguen siendo experimentales y hay una falta de experimentación extensiva en colecciones grandes. FCC - BUAP Primavera 2014 MC Beatriz Beltrán Martíez 76

Procesamiento Hablar de recuperación en XML es para muchos asociar un documento con sus respectivos metadatos. De manera que únicamente se mantienen algunos de los datos representativos del documento (ejemplo: la ficha bibliográfica) en alguno de los tipos de bases de datos mencionados anteriormente y el documento es almacenado en algún tipo de dispositivo de almacenamiento. FCC - BUAP Primavera 2014 MC Beatriz Beltrán Martíez 77

FCC - BUAP Primavera 2014 MC Beatriz Beltrán Martíez 78 Procesamiento Base de Datos Sistema de Archivos consulta metadatos Id Documento Documento

Características Para atender las necesidades de esta comunidad, un lenguaje de consulta para XML debería poseer las cualidades comunes de los lenguajes de consulta de datos semiestructurados, tanto las puramente relacionales, como aquellas similares a las de los lenguajes de consulta de bases de datos orientados a objeto, tales como la navegación y el anidamiento. A continuación se explican con mayor detalle las principales particularidades deseables para la consulta de datos: 79 MC Beatriz Beltrán Martínez FCC - BUAP Primavera 2014

Operación de selección: elige un documento o elemento basándose en el contenido, estructura o atributos que satisfagan una condición específica. Estas consultas constan generalmente de 3 partes o cláusulas: Patrón: equipara elementos anidados en el documento de entrada y les asocia variables. Filtro: testea que las variables asociadas cumplan las condiciones establecidas. Constructor: especifica el resultado en términos de las variables asociadas, es decir qué formato ha de tener la respuesta. 80 MC Beatriz Beltrán Martínez FCC - BUAP Primavera 2014 Características

Operación de filtrado: extrae determinados elementos de los documentos conservando la jerarquía y secuencia. Operación de reducción: proyecta como salida la poda de los elementos especificados en la selección que satisfacen las condiciones, en vez de devolver un subárbol con todos los elementos y atributos. Acción de reestructuración: como por ejemplo la agrupación de datos relacionados y la ordenación. 81 MC Beatriz Beltrán Martínez FCC - BUAP Primavera 2014 Características

Operación de combinación de datos de diferentes porciones de documentos (correspondiente al “join” relacional) o combinación de diferentes partes del mismo documento (“semi-join”). Uso de funciones de agregación. Utilización de la cuantificación existencial y universal. Operaciones de inserción, borrado y modificación. 82 MC Beatriz Beltrán Martínez FCC - BUAP Primavera 2014 Características

Variables etiqueta o expresiones de camino para permitir peticiones sin conocimiento preciso de la estructura del documento y acceso a datos anidados de forma arbitraria. El lenguaje de consulta debe poder usarse aun cuando no se conozca un esquema (dtd o xml schema) a priori. Operadores de navegación que simplifiquen el manejo de datos con referencias [atributos id, idref(s)]. Manejo de tipos de datos, en particular los del XML schema 83 MC Beatriz Beltrán Martínez FCC - BUAP Primavera 2014 Características

Recuperación de pasajes La idea de recuperar partes de documentos no es nueva. La recuperación de partes de documentos, llamadas pasajes, es la propuesta más antigua y estudiada. El principio, es bastante simple: dentro de los documentos de texto, los pasajes son secuencias textuales de palabras consecutivas que presentan cierta homogeneidad en su temática y que, por lo tanto, pueden ser relevantes para el usuario. 84 MC Beatriz Beltrán Martínez FCC - BUAP Primavera 2014

Por “palabras consecutivas” entendemos una secuencia de palabras según el “orden de lectura” del documento. Debido a que a priori se ignora la estructura lógica oculta de los documentos, el problema principal es encontrar una “buena” segmentación de los documentos. Un método clásico para localizar pasajes consiste en analizar la distribución de las palabras dentro de una ventana de tamaño fijo que se va desplazando. 85 MC Beatriz Beltrán Martínez FCC - BUAP Primavera 2014 Recuperación de pasajes

Los límites de los pasajes se encuentran cuando se observa un cambio significativo en la distribución del vocabulario local al compararlo con distribución previa. También se han realizado propuestas basadas en pasajes más cercanas a la noción de estructura lógica, pero este tipo de propuestas no pueden aprovechar al máximo de la estructura lógica de los documentos. 86 MC Beatriz Beltrán Martínez FCC - BUAP Primavera 2014 Recuperación de pasajes

Modelo de listas no solapadas Esta propuesta de Burkowski se basa en la división de cada documento en regiones de texto disjuntas pero que recubren todo el documento (índices densos), produciendo una lista. El proceso se realiza para los distintos tipos de regiones que aparecen en el documento, produciéndose múltiples listas: lista de capítulos, lista de párrafos, etc., de manera que no existe solapamiento entre regiones de una misma lista y si se puede producir entre regiones de listas diferentes. 87 MC Beatriz Beltrán Martíez FCC - BUAP Primavera 2014

88 MC Beatriz Beltrán Martíez FCC - BUAP Primavera 2014 Modelo de listas no solapadas Capítulo Sección Subsección Subsubsección