Slides:



Advertisements
Presentaciones similares
¿qué son los conceptos?.
Advertisements

Unidad II: La expresión escrita
El Aporte de la Pragmática
La crítica constructiva
COMO COMUNICARME MEJOR CON MI HIJO ADOLESCENTE.
Introducción a la lingüística
Calvin N. Mooers Information Retrieval La búsqueda de información en un stock de documentos, efectuada a partir de la especificación.
La Tipología de los Textos
Modelo de Datos Unidad II.
Propiedades textuales
DESARROLLO DE HABILIDADES INFORMATIVAS DHI
Desarrollo del lenguaje normal
Ramas de la Lingüística
Competencia comunicativa
RAZONAMIENTO VERBAL.
Estrategias de Búsqueda
¿Qué es dominar el español? Las niñas y los niños SORDOS, logran comprender algunos elementos del español… especialmente sustantivos, adjetivos y verbos.
Las Operaciones Intelectuales
VICTORIA GUEVARA A. ADM. DE EMPRESAS 9º. Datos son los hechos que describen sucesos y entidades."Datos" es una palabra en plural que se refiere a más.

Especificación de Consultas M
Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones.
Actividad 6. Requisitos del software, referente a la estructura y base de datos. M.C. Juan Carlos Olivares Rojas Syllabus May,
Dirección Provincial de Información y Planeamiento Educativo

Facultad de Ciencias de la Computación MC Beatriz Beltrán Martínez
UNIDAD 5 LA COMUNICACIÓN ESPECIALIZADA.
Procesamiento Práctico del lenguaje Natural Capítulo XXIII.
MODALIDADES Y ESTRATEGIAS DE LECTURA
EL ENSAYO.
LA COMUNICACIÓN Iconos Símbolos Indicios LENGUA Y LITERATURA
Información Semiestructurada MC Beatriz Beltrán Martínez Primavera 2014.
Sesión 1 COE..
DIFERENCIAS ENTRE LA LENGUA ORAL Y LA LENGUA ESCRITA.
Lingüística General Fonoaudiología 2010
DIMENSIÓN SEMÁNTICA.
Tema 5: Recursos didácticos
TIPOS DE ESCUCHA.
Niveles de estudio de la lengua El nivel fónico El nivel morfológico

Tecnologías para el Aprendizaje
COMUNICACIÓN ORAL Y ESCRITA
Estrategias de Comprensión
Lógica.
Sobre el Lenguaje Rodrigo Jurado, MA*
 Tema de hoy: Lenguaje figurado ¿qué es lo que se observa?¿qué se quiere expresar? ¿por qué nos saca una sonrisa?
LINGÜÍSTICA UNIDAD 2. Unidad 2: “PROCESAMIENTO DE ORACIONES” INTENCIONALIDADES FORMATIVAS FASE RECONOCIMIENTO COMPETENCIAS COGNITIVACOMUNICATIVAVALORATIVACONTEXTUAL.
INTERDISCIPLINARIEDAD
POO U1: INTRODUCCIÓN AL PARADIGMA DE LA PROGRAMACIÓN ORIENTADA A OBJETOS.
Unidad 1. Clase 1 Comprensión de lectura Teórico - práctico
Son criterios claros y públicos que permiten conocer lo que deben aprender los niños, niñas y jóvenes, y establecen el punto de referencia de lo que están.
COMPETENCIAS PARA LA COMUNICACIÓN CIENTÍFICA
6. Narrativa audiovisual
LOS PROBLEMAS PRAGMÁTICOS EN EL TEL
Modalidades textuales
2° Unidad: REDACCIÓN académicA
Teoría de Comunicación
El sujeto morfológico.
La nada Investigar y resolver las preguntas expuestas: válido como nota de taller.
¿Qué es la sociolingüística?
Rasgos particulares de los lenguajes especializados de las disciplinas
Sandra Parada Mesa y Jesica Alejandra Alarcón
LA COMPRENSIÓN LECTORA
Introducción a la abstracción de datos MC Beatriz Beltrán Martínez Primavera 2015.
Unidad 1 Tema 1. Conocemos los mecanismos de creación de los textos.
Comunicación Oral y Escrita Kariany Borges Torres.
EL TEXTO EXPOSITIVO El texto expositivo es un texto en el cual se presenta información sobre un determinado tema. No se pretende transmitir una opinión.
Destrezas Básicas de la Comunicación Oral. Introducción  La comunicación oral es el lenguaje o la palabra que está hablado que venía de la boca. También.
NATIONAL UNIVERSITY COLLEGE SEMI La comunicación oral es el factor mas importante de las relaciones humanas. La comunicación oral es simplemente.
NIVEL SEMÁNTICO ELIPSIS TABÚ/EUFEMISMO METÁFORA Y METONIMIA
Transcripción de la presentación:

Corpus Se puede llamar corpus a cualquier colección que contenga más de un texto (corpus como cuerpo textual). Conjunto de datos, textos u otros materiales sobre determinada materia que pueden servir de base para una investigación o trabajo. Se tienen corpus: Escritos Orales Mixto FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

Variación y ambigüedad El lenguaje natural, que es la herramienta que utilizan las personas para expresarse, posee propiedades que merman la efectividad de los sistemas de recuperación de información: variación y la ambigüedad lingüística. La variación lingüística es la posibilidad de utilizar diferentes palabras o expresiones para comunicar una misma idea. La ambigüedad lingüística se produce cuando una palabra o frase permite más de una interpretación. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

Variación y ambigüedad La variación lingüística provoca el silencio documental: La omisión de documentos relevantes para cubrir la necesidad de información. La ambigüedad implica el ruido documental: La inclusión de documentos que no son significativos. A nivel morfológico una misma palabra puede adoptar diferentes roles morfo-sintácticos en función del contexto en el que aparece, ocasionando problemas de ambigüedad: FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

Variación y ambigüedad Deja la comida que sobre sobre la mesa de la cocina, dijo llevando el sobre en la mano. sobre puede ser un sustantivo masculino singular, una preposición, y verbo. A nivel sintáctico, se produce ambigüedad a consecuencia de la posibilidad de asociar a una frase más de una estructura sintáctica. María vio a un niño con un telescopio en la ventana. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

Variación y ambigüedad María vio a un niño que estaba en la ventana y que tenía un telescopio. María estaba en la ventana, desde donde vio a un niño que tenía un telescopio. María estaba en la ventana, desde donde miraba con un telescopio, y vio a un niño. La ambigüedad se produce porque una palabra puede tener uno o varios sentidos, es el caso conocido como polisemia. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

Variación y ambigüedad Luis dejó el periódico en el banco. banco puede tener dos significados entidad bancaria asiento La variación léxica con la posibilidad de utilizar términos distintos a la hora de representar un mismo significado, es decir el fenómeno conocido como sinonimia. Coche / Vehículo / Automóvil. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

Variación y ambigüedad El sentido de las palabras que forman una frase tiene que interpretarse a un nivel superior recurriendo al contexto en que es formulada. Se moría de risa. En esta frase no puede interpretarse literalmente el verbo, si no que debe entenderse en un sentido figurado. La ambigüedad provocada por la anáfora. Ella le dijo que los pusiera debajo. ¿quién habló?, ¿a quién?, ¿qué pusiera qué?, ¿debajo de dónde? FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

Representación Obtener una representación adecuada de un documento o consulta es una cuestión clave para lograr una buena recuperación. Los documentos han sido generalmente representados como conjuntos de términos. Estos son denominados términos índice o palabras clave y son generados manualmente por especialistas. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

Paradigma Bag-of-Terms Es una representación interna de los documentos. Se basa en una interpretación extrema del denominado principio de composicionalidad, según el cual la semántica de un documento reside únicamente en los términos que lo forman. En consecuencia, podemos presumir que, si una palabra determinada aparece en un documento, dicho documento trata dicho tema. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

Paradigma Bag-of-Terms Este tipo de representación resulta insuficiente para una representación completa y adecuada de la semántica del documento. No tiene en cuenta, por ejemplo, las relaciones entre dichos términos. No toma en cuenta la existencia de diferentes sentidos para una misma palabra. A pesar de esto, el paradigma ha venido dominando durante décadas. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

Peso Asociado a un Término A pesar de que la semántica de un documento se representa mediante un conjunto de términos índice, no todos los términos tiene la misma importancia. Esta importancia se representa asignándole a cada uno, un valor numérico, denominado peso (weight), A mayor peso, mayor es la importancia del término. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

Peso Asociado a un Término Existen dos factores críticos a la hora de calcular el peso de un término: Los términos que aparecen repetidamente en un documento pueden considerarse como representativos, por lo que se le asigna un peso mayor. A mayor número de documentos en los que aparece un término, menor su poder de discriminación, por lo que reciben un peso menor. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

Peso Asociado a un Término Sea N el número total de documentos de la colección, y ni el número de dichos documentos en los que el término ti aparece. El factor frecuencia del término i en el documento j (tfij) se define como el número de veces que aparece ti en el documento j. Por otra parte, el factor frecuencia inversa de documento del término i (idfi) se calcula como: FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez  

Peso Asociado a un Término Durante el cálculo de pesos es frecuente la introducción de un tercer factor que tenga en cuenta el tamaño del documento. Es frecuente también asumir que los términos índice están incorrelados; es decir, asumir la independencia mutua de los pesos de los términos. Esta afirmación no es tan cierta, pero estudios realizados no demuestran una mejora, pero si hacen más complejo el cálculo. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

Índice invertido Es un mecanismo orientado a palabras para indexación de documentos. Esta formado por 2 elementos: el vocabulario (conjunto de términos distintos del texto) y las listas de ocurrencias (para cada término, la lista de documentos donde esté). FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez