Modelos de Texto Estructurado M

Slides:



Advertisements
Presentaciones similares
Escribir aquí el título de la WQ
Advertisements

ESTRUCTURA DE DATOS Unidad 04 TDA no lineales - Árboles.
Tema 1. Modelos de RI avanzados
Ciclo de Actualización docente en nuevas tecnologías: “El desarrollo de propuestas de enseñanza utilizando Internet” Cacerías y Webquest. Marilina Lipsman.
Phrase Query Evaluator
Rocío Contreras Águila Primer Semestre 2010
Exposición: Clustering
Procesos básicos del pensamiento
COORDINACIÓN TRABAJOS DE TÍTULOS VIRTUAL
ELEMENTOS DEFINICIÓN HIPERTEXTO DIMENSIONES ESTRUCTURA.
OPERADORES LÓGICOS Diplomado II
MAPA CONCEPTUAL.
¿Cómo puede ayudarte Word 2007 crear y administrar documentos largos?
Neo4j – Una guía rápida de devniel.com Parte II - Por Daniel Flores
Concepto de programa. Directorio Concepto de programa. Analisis del problema. Resolucion del problema. Desarroollo de un programa. Partes constitutivas.
Cómo consultar una base de datos o un catálogo en 5 minutos
Teoría de lenguajes y compiladores
¿Qué es esto? Al hacerle clik el botón del Mouse se colocara un signo de ayuda en la cual después se le dará clik a cualquier cosa que se quiera saber.
DIAGRAMA DE COMPONENTES INTEGRANTES Córdova Vásquez Giovanny Escobar Alvares Calixto Gomez Quinteros Adelaida Pinto Flores Yarmila.
Sistemas de Recuperación de Información
METODOLOGIA DE LA PROGRAMACION
Página principal de la Red Botón de acceso a centros o grupos de trabajo promotores que desean adscribirse y registrar experiencias en la Red Botón de.
ALGORITMOS es un conjunto preescrito de instrucciones o reglas bien definidas, ordenadas y finitas que permite realizar una actividad mediante pasos.
Proceso de la investigación de mercado
Modelos Alternativos (2) M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Estructura de Documento Atributos 1. Atributos Básicos id, class, style, title 2. Atributos para Internacionalización lang, xml:lang, dir 3. Atributos.
Lo bucadores son sistemas que permite al usuario buscar información,estos la consiguen de la web, pero otroa tanto la obtienen del news,gopher,ftp,etc.
Recuperaci ó n Basada en Contenido M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Especificación de Consultas M
EVALUACION INTERNA NIVEL MEDIO
Arquitectura de la Información Prof. Adelaide Bianchini – Dpto. de Computación y Tecnología de la Información, Universidad Simón Bolívar. Febrero 2006.
Isabel Edo del Moral Susana Fernández LLoria Patricia Moraga Barrero
Bases de Datos Modelamiento.
Tema 10.3: Asignación de Espacio No Contiguo. Tema 10.3: 2 Silberschatz, Galvin and Gagne ©2005 Fundamentos de los Computadores (ITT, Sist. Electr.),
ELO3201 Contenedores Biblioteca Estándar de Templates Agustín J. González ELO320 Contenido Contenedores: Vector, List, Deque, Stack, Queue, Priority Queue,
Interfaces y Visualización M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Asignación de Espacio No Contiguo
World Wide Web M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)
Árboles Recomendado: 1. Nivelación Funciones
Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014.
Agustín J. González ELO320: Estructura de Datos y Algoritmos
Ingeniería en Sistemas de Información Diseño de Sistemas (3K1)
Manejo Eficiente de la información en el siglo XXI
Prof. Adelaide Bianchini. Dpto. de Computación y Tecnología de la Información. Universidad Simón Bolívar. Mayo Conceptos sobre hipertexto Prof. Adelaide.
Recuperación de Información M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
GUTIÉRREZ GRANADOS HÉCTOR DANIEL
Teoría de Sistemas Operativos Administración de Archivos.
Búsqueda P2P: Comunidades Semánticas
DISEÑO DE UNA ESTRUCTURA DE INDEXACION DE DATOS TOPOLOGICAMENTE CONTENIDO.

Indexación M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Agustín J. González ELO320: Estructura de Datos y Algoritmos
[ Sistemas Operativos ]
CARRERA DE OBSERVACIÓN JORGE YULIAN FLOREZ. ¿QUÉ ES LA INTERNET? INTERCONEXIÓN DE REDES INFORMÁTICAS QUE PERMITE A LOS ORDENADORES O COMPUTADORAS CONECTADAS.
DEFINICION  Las bases de datos son una colección organizada de información dividida en campos los cuales nos proporcionan datos detallados e individuales.
UML 2.0 Diagramas de Comportamiento
Sistemas de Archivos Sistemas Operativos.  Se debe proporcionar un almacenamiento secundario que respalda a la memoria principal  El Sistema de archivos.
Ingeniería de Requisitos
Tipos de Datos.
Quintero Portocarrero Rudy
M.C. Meliza Contreras González
Ejercicio de columnas periodísticas
Es una red de información en tiempo real que permite conectarse a asuntos de interés, nos permite a los usuarios enviar y recibir mensajes de texto de.
USB-Ingeniería de Sistemas Programación en Internet Agosto 2015 Introducción al Html.
 Una base de datos es una colección de información organizada de forma que un programa de ordenador pueda seleccionar rápidamente los fragmentos de datos.
DHTIC Juan Esteban Hernández Pérez Estrategias de Búsqueda.
UNIVERSIDAD TECNOLÓGICA DE PANAMÁ Facultad de Ingeniería de Sistemas Computacionales Programa de Lic. en Informática Educativa Computación.
Sistemas de archivos. Sistemas de archivos 2 Objetivo del SdA  Ocultar al usuario los detalles relativos al almacenamiento de información en dispositivos.
Transcripción de la presentación:

Modelos de Texto Estructurado M Modelos de Texto Estructurado M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción http://www.inf.udec.cl/~andrea

Modelos s e Adhoc r Filtering T a k Browsing Extended Boolean vector Set Theoretic Fuzzy Extended Boolean Classic Models boolean vector probabilistic Algebraic Generalized Vector Lat. Semantic Index Neural Networks U s e r T a k Retrieval: Adhoc Filtering Non-Overlapping Lists Proximal Nodes Structured Models Probabilistic Inference Network Belief Network Browsing Browsing Flat Structure Guided Hypertext

Introducción Respuesta a consultas basadas en palabras claves considera que los documentos son planos, i.e., una palabra en el título tiene el mismo peso que una palabra en el cuerpo del documento. La estructura de los documentos es una pieza adicional de información de la cual se puede obtener ventaja. Por ejemplo, palabras en el título y subtítulo pueden tener un peso mayor.

Introducción Considere la siguiente necesidad de información: Retrieve all documents which contain a page in which the string “atomic holocaust” appears in italic in the text surrounding a Figure whose label contains the word earth La consulta correspondiente puede ser: same-page( near(“atomic holocaust”, Figure( label( “earth” ))))

Definición Básica Match point: la posición en el texto de una secuencia de palabras que iguala la consulta: Consulta: “atomic holocaust in Hiroshima” Doc dj: contiene 3 líneas con este string Entonces, doc dj contiene 3 match points Region: una porción contigua del texto Node: un componente estructural del texto tal como un capítulo, sección, etc..

Listas No sobrepuestas Basado en Burkowski, 1992. Idea: divide el texto en regiones no superpuestas las cuales son coleccionadas en una lista Existen muchas formas de dividir el texto en partes no superpuestas que producen múltiples listas: una lista de capítulos una lista de secciones una lista de subsecciones Regiones de texto desde listas pueden superponerse

Listas No sobrepuestas Capítulo L1 Sección L2 Subsección L3

Listas No sobrepuestas Implementación: archivo invertido simple que combina texto y regiones de texto cada entrada de este archivo invertido está asociada a la lista de regiones de texto listas de regiones de texto pueden mezclarse con listas de palabras claves

Listas No sobrepuestas Regiones no se sobreponen, lo cual limita las consultas que se pueden preguntar Tipos de consultas: seleccione una región que contenga una palabra dada seleccione una región A que no contenga una región B (regiones A y B pertenecen a distintas listas) seleccione una región que no esté contenida en ninguna otra región

Conclusiones El modelo de listas no superpuestas es simple y permite implementaciones eficientes Pero, permite un conjunto limitado de tipos de consultas El modelo no incluye ninguna herramienta para ranking de documentos por grado de similaridad a la consulta Qué significa similaridad estructural?

Nodos Proximales Basado en Navarro and Baeza-Yates, 1997 Idea: definir estructuras de indexación jerárquicas independientes sobre el mismo texto. Cada una de estas jerarquías está compuesta de capítulos, secciones, párrafos,etc.. Múltiples jerarquías pueden ser definidos Dos jerarquías pueden referirse a regiones que se sobreponen

Definiciones Cada estructura de indexación está compuesta de capítulos secciones subsecciones párrafos líneas Cada uno de estos componentes es llamado nodo Cada nodo está asociado a una región de texto

Nodos Proximales Capítulo Secciones Subsecciones Subsubsecciones holocaust 10 256 48,324

Nodos Proximales Puntos claves: En el índice jerárquico, un nodo puede estar contenido dentro de otro nodo Pero, dos nodos de una misma jerárquica no se sobreponen La lista invertida por palabras claves complementa el índice jerárquico La implementación es más compleja que la de lista no superpuestas

Nodos Proximales Consultas son expresiones regulares: búsqueda por strings referencias a componentes estructurales combinación de esto El modelo es una compromiso entre expresividad y eficiencia Consultas son simples pero pueden ser procesadas eficientemente Es un model más expresivo que las lista no superpuestas

Nodos Proximales Consulta: encuentre las secciones, las subsecciones y las subsubsecciones que contengan la palabra “holocaust” [(*section) with (“holocaust”)] Procesamiento de consulta simple: Atraviese la lista invertida por “holocaust” y determine todos los puntos de igualdad (match points) Use los match points para buscar en el índice jerárquico por los componentes estructurales

Nodos Proximales Consulta: [(*section) with (“holocaust”)] Procesamiento de consulta sofisticado: obtenga la primera entrada en la lista invertida por “holocaust” use este match point para buscar en el índice jerárquico por los componentes estructurales El componente de matching más interno: uno más pequeño Evaluar si el componente más interno incluye la segunda entrada en la lista invertida por “holocaust” Si es así, evaluar la tercera entrada y así sucesivamente Esto permite evaluar eficientemente los nodos cercanos (o proximales)

Conclusiones El modelo permite la formulación de consultas que son más sofisticadas de las permitidas por el modelo de listas no superpuestas Para acelerar el procesamiento de consulta, nodos cercanos son inspeccionados Tipos de consultas que son consultadas pueden estar limitadas (todos los nodos en la respuesta deben venir de la misma jerarquía de índice) El modelo refleja un compromiso entre expresividad y eficiencia

Modelo de Browsing Exploración de documentos Tipos de browsing: flat: se explora un espacio plano (ej. espacio de documentos como puntos en un espacio n-dimensional) Guiado por estructura: directorios que agrupan jerárquicamente documentos. Hypertext: es una estructura de navegación interactiva de alto nivel. Consiste de nodos los cuales están correlacionados por enlaces dirigidos en una estructura de grafo.