La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Presentaciones similares


Presentación del tema: ""— Transcripción de la presentación:

89 Información no Estructurada
MC Beatriz Beltrán Martínez Primavera 2015

90 Clasificación de la Información
La vida actual requiere de mucha información y normalmente la información la podemos encontrar principalmente en: Bibliotecas (es posible consultar sus catálogos en Internet y la información en si misma). Organismos de gobierno y no gubernamentales. Expertos en el campo que estudiamos (muy útiles para aclarar la estructura y las relaciones del tema que investigamos). Sistemas comerciales de bases de datos como EBSCO o Dialog FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

91 Datos vs Información Los datos son componentes tangibles y cuantificables, por ejemplo de un artículo de congreso. Si se consideran los “datos” del artículo, se estarán considerando cosas como el título, el autor, las palabras clave, etc., que de alguna forma componen los “metadatos” del artículo. Por otro lado, la información consiste en el contenido del artículo, los temas que trata, las fórmulas que emplea, etc. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

92 Datos vs Información En el caso de los datos, se puede definir atributos de los documentos que parecen sobresalientes, al momento de realizar búsquedas; mientras que con la información se tendría primero que leer el material para determinar qué es relevante y qué no lo es. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

93 Definición La Recuperación de Información (o Information Retrieval) es la representación, almacenamiento, organización y acceso a ítems de información. El objetivo principal de la Recuperación de Información es satisfacer la necesidad de información planteada por un usuario en una consulta en lenguaje natural especificada a través de un conjunto de palabras claves. Un sistema de recuperación de información encuentra datos importantes que hagan la mejor coincidencia parcial con el patrón dado. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

94 Definición Dada una colección de documentos y una consulta del usuario, el objetivo de una estrategia de búsqueda es obtener todos y sólo los documentos relevantes a la consulta. El proceso hacia la recuperación de documentos relevantes a la consulta, no es un proceso simple debido a la complejidad semántica del vocabulario. Esto se debe a que generalmente trata con texto en lenguaje natural, el cual no está siempre bien estructurado y podría ser semánticamente ambiguo. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

95 Expansión de consultas
Encontrar otros términos equivalentes o más adecuados para expresar un concepto es realizar una expansión de consulta. Para esta expansión, que puede ser desarrollada manual, automática o interactivamente, se pueden utilizar recursos lingüísticos (diccionarios, tesauros y ontologías). FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

96 Expansión de consultas
Un recurso lingüístico puede incluir sinónimos, variantes de escritura, ampliación de siglas, variaciones de deletreo, términos equivalentes en otros idiomas, hiperónimos, hipónimos, merónimos, entre otros. La expansión de consultas es el proceso de suplementar la consulta original con términos adicionales, y es un método para mejorar el desempeño en la recuperación de información. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez Se denomina merónimo a la palabra cuyo significado constituye parte del significado total de otra palabra

97 Medición FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez Precisión (Precision): cuántos documentos recuperados son relevantes = Relevantes recuperados / Recuperados Cobertura (Recall): cuántos documentos relevantes se recuperaron = Relevantes recuperados / Relevantes

98 Problemática FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez De forma general – según Baeza-Yates – el problema de la RI puede ser estudiado desde dos puntos de vista: el computacional y el humano.

99 Problemática El primer caso tiene que ver con la construcción de estructuras de datos y algoritmos eficientes que mejoren la calidad de las respuestas. El segundo caso corresponde al estudio del comportamiento y de las necesidades de los usuarios. Si se analiza la problemática de la RI desde un alto nivel de abstracción se puede establecer: Existe una colección de documentos que contienen información de interés (sobre uno o varios temas). FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

100 Problemática Existen usuarios con necesidades de información, quienes las plantean al SRI en forma de una consulta (en inglés, query. En adelante, ambas palabras se utilizarán indistintamente). Como respuesta, el sistema retorna – de forma ideal – referencias a documentos “relevantes”, es decir aquellos que satisfacen la necesidad expresada, generalmente en forma de una lista rankeada. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

101 Problemática Para cumplir con sus objetivos, un SRI debe realizar algunas tareas básicas, las cuales se encuentran planteadas en términos computacionales: Representación lógica de los documentos y – opcionalmente – almacenamiento del original. Algunos sistemas solo almacenan porciones de los documentos y otros lo hacen de manera completa. Representación de la necesidad de información del usuario en forma de consulta. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

102 Problemática Evaluación de los documentos respecto de una consulta para establecer la relevancia de cada uno. Ranking de los documentos considerados relevantes para formar el “conjunto solución” o respuesta. Presentación de la respuesta al usuario. Retroalimentación o refinamiento de las consultas (para aumentar la calidad de la respuesta) FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

103 Problemática FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez


Descargar ppt ""

Presentaciones similares


Anuncios Google