UCR – ECCI CI-2414 Recuperación de Información

Slides:



Advertisements
Presentaciones similares
Recuperación de Textos (RTT)‏
Advertisements

Presentaciones Profesionales
Maestría en Explotación de Datos y Descubrimiento del Conocimiento
Matemática Discreta UCR – ECCI CI-1204 Matemática Discretas
Exposición: Clustering
COLEGIO DE BACHILLERES PLANTEL 13 XOCHIMILCO-TEPEPAN MATERIA:TIC EQUIPO:23 PRESENTACION: BASE DE DATOS ALUMNAS: Velazquez Corona Elsa Ponciano Antonio.
Discovery Service (EDS)
Calvin N. Mooers Information Retrieval La búsqueda de información en un stock de documentos, efectuada a partir de la especificación.
Buscar bibliografía en
Estrategias de búsqueda
Danilo Yáñez Alarcón. Avance II
USO EFECTIVO DE LAS BASES DE DATOS ACADÉMICAS EN UPB
Cómo consultar una base de datos o un catálogo en 5 minutos
Bases de Datos por: Zulma Santiago Irizarry 2011
Estrategias de Búsqueda
ESTRATEGIAS DE BÚSQUEDA
Buscador Es un sistema informático que busca archivos almacenados en servidores web HERRAMIENTAS DE COMPUTACION I.
El análisis y recuperación de información
SISTEMA DE INFORMACION Y BIBLIOTECAS
La biblioteca universitaria hacia el año El gran reto: que el usuario encuentre lo que necesita Federico Portas Lagar Coloquio.
Departamento de Referencia CPICM_C [Hoja Informativa No. 8; 2012]
Especificación de Consultas M
Guía Para Utilizar la Base de Datos EBSCO
Guía para la búsqueda en el catálogo en línea (OPAC)
Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones.
Teoría de lenguajes y compiladores
Biblioteca Virtual Ocenet Consulta ¡Bienvenidos!.
Representando para Aprender
DESCRIPTORES EN CIENCIAS DE LA SALUD
Las etapas de un proyecto
ESTRATEGIAS DE BÚSQUEDA
Guía para la búsqueda en el catálogo en línea (OPAC)
Eloísa Orozco Bueno Alvaro Padilla Vilema
UNIVERSIDAD DE ANTIOQUIA ESCUELA INTERAMERICANA DE BIBLIOTECOLOGÍA
NOMBRES:OLIVARES ALFARO JOSE L. BONETTI ARON GRUPO:308.
Universidad Andrés Bello
PROCESO Y ESTRATEGIA DE BUSQUEDA PROGRAMA FORMACIÓN DE USUARIOS
CATÁLOGO AUTOMATIZADO

Tesauros y descriptores en Ciencias de la Salud MeSH/DeCS
Indexación M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Escuela de Pedagogía en Religión y Filosofía
Tecnologías para el Aprendizaje
Martin Barreto Ricardo Bedat Docentes: Juanjo Prada – Aiala Rósa.
COLEGIO DE BACHILLERES PLANTEL 13 XOCHIMILCO-TEPEPAN MATERIA:TIC EQUIPO:21 PRESENTACION: BASE DE DATOS ALUMNAS: Adán Millán Sánchez.
Búsqueda de información
MEDIOS Son sistemas que usan para múltiples medios de expresión, físicos o químicos.
Consulta de diccionarios especializados y enciclopedias.
ESTRATEGIAS DE BÚSQUEDA
BASES DE DATOS BIBLIOGRAFICAS Es el conjunto de datos o registros bibliográficos organizados en contenido y formatos normalizados, que se almacena en.
Determinar claramente un objetivo. Traducir este objetivo a palabras claves o frases cortas que definan bien el tema.
Alexander Aristizabal Ángelo flores herrera
Sistemas de Archivos Sistemas Operativos.  Se debe proporcionar un almacenamiento secundario que respalda a la memoria principal  El Sistema de archivos.
JAVIER VILLACÍS M. LENGUAJE II.  Tesauro es el nombre dado a algunos diccionarios, catálogos, Antologías, etc. El término proviene del latín thesaurus.
Bases de Datos: Ebsco American University of Puerto Rico
DESARROLLO DE HABILIDADES
Bases de datos American University of Puerto Rico
¿Cómo reconocer y evaluar la confiabilidad y validez de la información encontrada? 1- Selección, análisis y evaluación de la información en la Web 2- La.
Plataformas de revistas electónicas. ScienceDirect (Elsevier)
Anexo accesibilidad | SENADIS y Centro de Sistemas Públicos Observaciones Generales Este es un documento de evaluación de la accesibilidad del Sitio Web.
MIA - Grupo 5 Unidad 2.
PROGRAMA DE LENGUAJE Y COMUNICACIÓN
La estrategia de búsqueda
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
COMO BUSCAR INFORMACIÓN EN LA RED. La realidad de la red DNo todo lo que está en la red, es de calidad DNo todo es gratuito DHay que respetar derechos.
1.ª Parte: Dónde y cómo buscar información.  Cuando se busca información sobre un tema, es necesario emplear una «estrategia de búsqueda» para optimizar.
Desarrollado por: Esp. Adolfo León Restrepo Barbetti. Tutor Virtual de Inglés. Herramientas Virtuales para la Construcción de Objetos Virtuales de Aprendizaje.
Búsqueda Básica Procesos de Recuperación Motores de Búsqueda 5 de Mayo de 2016 Universidad Nacional de Tucumán Facultad de Medicina A cargo de la Cátedra.
Antonio de Jesús González Arce Matricula DHTIC.
Búsqueda en la Web. Razones para introducir las TIC (OECD 2001) Las TIC son una competencia básica, tal como la lectura, escritura y matemática. Las TIC.
Transcripción de la presentación:

Bases de Datos Textuales, Una Herramienta en el Trabajo de la Recuperación de Información UCR – ECCI CI-2414 Recuperación de Información Prof. Bach. Kryscia Daviana Ramírez Benavides

Un Acercamiento a las Bases de Datos Textuales Múltiples aplicaciones: bibliotecas, ingeniería de software, automatización de oficinas, diccionarios automatizados. Diferentes disciplinas: medicina, biología, historia, geografía, derecho, bibliotecología, lingüística. Compuestas de dos partes: contenido y estructura. El objetivo, como un sistema de recuperación de información, es ayudar a los usuarios a encontrar lo que buscan.

Partes en que se Divide una Base de Datos Textual

Recuperar Datos en Contraste a Recuperar Información: SELECT title FROM titles WHERE price > 10000 AND type = ‘business’ versus Solicito información sobre especies de mamíferos en bosques tropicales.

Conocimiento Lingüístico Lenguaje Natural. Por ejemplo: un estudiante de Biología, que necesita información sobre “animales extintos” esperaría recuperar documentos con frases como: “animal extinto” “especie de animal extinta” “la extinción de los animales” En otro caso, si se busca sobre:  “guerra fría”  se quisiera recuperar un documento que hablara sobre:  “la crisis de los mísiles cubanos”

Conocimiento Lingüístico (cont.) El sistema no tiene idea de que ambas cosas están relacionadas y la intersección de vocabulario puede ser nula. La solución a este problema pasa por el análisis lingüístico: Lematizar Etiquetar Detectar frases comunes Otro elemento importante es el uso de tesauros y sinónimos.

Modelos Es la primera etapa para abordar el tema de la RI. Un buen modelo debe de “adivinar” lo que el usuario realmente quiso preguntar. Existen modelos más especializados para recuperar información: Modelo Booleano Modelo Vectorial Modelo Probabilístico

Modelo Booleano Utiliza los operadores lógicos. La relevancia en este modelo es binaria. Un ejemplo que ilustra los operadores: Maradona AND Mundial AND ((México’86 OR Italia’90) BUTNOT U.S.A.’94) Es el más primitivo y malo para recuperar información. Es bastante popular.

Modelo Vectorial Selecciona un conjunto de palabras útiles para discriminar (términos o keywords). Toda palabra del texto es un término, excepto posiblemente las palabras vacías o stopwords. Se puede enriquecer esto con procesos de lematización, etiquetando, e identificación de frases. Se tiene un conjunto de términos (t1, .., tk) y un conjunto de documentos (d1, .., dN). Un documento di se modela como un vector → di → di = (w(t1,di), …, w(tk,di)) Es el más popular hoy en día.

Modelo Probabilístico Reconoce que existe exactamente un subconjunto de documentos que son relevantes para una consulta dada. Para cada documento, se intenta evaluar la probabilidad de que el usuario lo considere relevante. La relevancia de un documento d se calcula como: P(d relevante para q) P(d no relevante para q) Recupera los documentos que con mayor probabilidad son relevantes. Es poco popular.

Indización Es la segunda etapa para abordar el tema de la RI. En un índice estándar cada palabra distinta se almacena con su referencia numérica, que especifica el lugar del documento donde ésta se encuentra: experimentar 34, 90 experimentación 50 animal 14 animales 15

Indización (cont.) El tamaño de dicho índice puede ser notablemente reducido por medio de técnicas basadas en conocimiento lingüístico. La reducción de este tipo de índices comprende desde una octava hasta una décima parte de su tamaño. Un índice estándar como el anterior, tomaría la siguiente forma:  experimentar 34, 50, 90 animal 14, 15

Índices Analíticos Se encuentra al final de una obra. Este índice reúne frases y palabras claves en orden alfabético junto a las páginas donde pueden ser encontradas. Ha sido adoptado en la documentación de software. La implementación de este tipo de índices es costosa. Puede ser elaborado eficaz y automáticamente, si se recurre a tecnología basada en conocimiento lingüístico.

Índices Invertidos En su versión más básica, consta de dos partes : Vocabulario: Conjunto de términos distintos del texto. Posteo: Para cada término, la lista de documentos donde aparece. La construcción de un índice invertido comienza: Recorre la colección de textos secuencialmente. Cada término leído es buscado en el vocabulario. Si no existe se agrega con una lista de posteo vacía. El documento que se está leyendo se agrega al final de la lista de posteo del término. Una vez completada, el índice es grabado al disco.

Truncamiento en la Gestión de Bases de Datos Los algoritmos de truncamiento gestionan automáticamente las distintas formas de una palabra. Extrae los sufijos, creando una raíz de la misma. Ejemplo:  Generalizaciones Generalizando Generalizar Generalizas Se extraría automáticamente la siguiente cadena: “GENER”.

Truncamiento en la Gestión de Bases de Datos (cont.) Las técnicas de truncamiento no brindan una aproximación óptima para la comprensión textual. M.F Porter es el creador de uno de los algoritmos de truncamiento más usado para el idioma inglés. Las reglas de construcción de palabras se complica (como en lenguas de origen latino).

Conclusiones El afán por la búsqueda de mejores y más óptimas soluciones. Se trata una visible diferencia, incluso dentro del mundo de las bases de datos, entre recuperar información de documentos y la recuperación de datos. La adopción del conocimiento lingüístico, ha sido adoptado para el desarrollo de algoritmos. No existe un modelo y un método de indización ideal para la implementación de estos sistemas.