La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Presentaciones similares


Presentación del tema: ""— Transcripción de la presentación:

104 Corpus Se puede llamar corpus a cualquier colección que contenga más de un texto (corpus como cuerpo textual). Conjunto de datos, textos u otros materiales sobre determinada materia que pueden servir de base para una investigación o trabajo. Se tienen corpus: Escritos Orales Mixto FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

105 Variación y ambigüedad
El lenguaje natural, que es la herramienta que utilizan las personas para expresarse, posee propiedades que merman la efectividad de los sistemas de recuperación de información: variación y la ambigüedad lingüística. La variación lingüística es la posibilidad de utilizar diferentes palabras o expresiones para comunicar una misma idea. La ambigüedad lingüística se produce cuando una palabra o frase permite más de una interpretación. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

106 Variación y ambigüedad
La variación lingüística provoca el silencio documental: La omisión de documentos relevantes para cubrir la necesidad de información. La ambigüedad implica el ruido documental: La inclusión de documentos que no son significativos. A nivel morfológico una misma palabra puede adoptar diferentes roles morfo-sintácticos en función del contexto en el que aparece, ocasionando problemas de ambigüedad: FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

107 Variación y ambigüedad
Deja la comida que sobre sobre la mesa de la cocina, dijo llevando el sobre en la mano. sobre puede ser un sustantivo masculino singular, una preposición, y verbo. A nivel sintáctico, se produce ambigüedad a consecuencia de la posibilidad de asociar a una frase más de una estructura sintáctica. María vio a un niño con un telescopio en la ventana. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

108 Variación y ambigüedad
María vio a un niño que estaba en la ventana y que tenía un telescopio. María estaba en la ventana, desde donde vio a un niño que tenía un telescopio. María estaba en la ventana, desde donde miraba con un telescopio, y vio a un niño. La ambigüedad se produce porque una palabra puede tener uno o varios sentidos, es el caso conocido como polisemia. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

109 Variación y ambigüedad
Luis dejó el periódico en el banco. banco puede tener dos significados entidad bancaria asiento La variación léxica con la posibilidad de utilizar términos distintos a la hora de representar un mismo significado, es decir el fenómeno conocido como sinonimia. Coche / Vehículo / Automóvil. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

110 Variación y ambigüedad
El sentido de las palabras que forman una frase tiene que interpretarse a un nivel superior recurriendo al contexto en que es formulada. Se moría de risa. En esta frase no puede interpretarse literalmente el verbo, si no que debe entenderse en un sentido figurado. La ambigüedad provocada por la anáfora. Ella le dijo que los pusiera debajo. ¿quién habló?, ¿a quién?, ¿qué pusiera qué?, ¿debajo de dónde? FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

111 Representación Obtener una representación adecuada de un documento o consulta es una cuestión clave para lograr una buena recuperación. Los documentos han sido generalmente representados como conjuntos de términos. Estos son denominados términos índice o palabras clave y son generados manualmente por especialistas. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

112 Paradigma Bag-of-Terms
Es una representación interna de los documentos. Se basa en una interpretación extrema del denominado principio de composicionalidad, según el cual la semántica de un documento reside únicamente en los términos que lo forman. En consecuencia, podemos presumir que, si una palabra determinada aparece en un documento, dicho documento trata dicho tema. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

113 Paradigma Bag-of-Terms
Este tipo de representación resulta insuficiente para una representación completa y adecuada de la semántica del documento. No tiene en cuenta, por ejemplo, las relaciones entre dichos términos. No toma en cuenta la existencia de diferentes sentidos para una misma palabra. A pesar de esto, el paradigma ha venido dominando durante décadas. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

114 Peso Asociado a un Término
A pesar de que la semántica de un documento se representa mediante un conjunto de términos índice, no todos los términos tiene la misma importancia. Esta importancia se representa asignándole a cada uno, un valor numérico, denominado peso (weight), A mayor peso, mayor es la importancia del término. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

115 Peso Asociado a un Término
Existen dos factores críticos a la hora de calcular el peso de un término: Los términos que aparecen repetidamente en un documento pueden considerarse como representativos, por lo que se le asigna un peso mayor. A mayor número de documentos en los que aparece un término, menor su poder de discriminación, por lo que reciben un peso menor. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

116 Peso Asociado a un Término
Sea N el número total de documentos de la colección, y ni el número de dichos documentos en los que el término ti aparece. El factor frecuencia del término i en el documento j (tfij) se define como el número de veces que aparece ti en el documento j. Por otra parte, el factor frecuencia inversa de documento del término i (idfi) se calcula como: FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

117 Peso Asociado a un Término
Durante el cálculo de pesos es frecuente la introducción de un tercer factor que tenga en cuenta el tamaño del documento. Es frecuente también asumir que los términos índice están incorrelados; es decir, asumir la independencia mutua de los pesos de los términos. Esta afirmación no es tan cierta, pero estudios realizados no demuestran una mejora, pero si hacen más complejo el cálculo. FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez

118 Índice invertido Es un mecanismo orientado a palabras para indexación de documentos. Esta formado por 2 elementos: el vocabulario (conjunto de términos distintos del texto) y las listas de ocurrencias (para cada término, la lista de documentos donde esté). FCC - BUAP Primavera 2015 MC. Beatriz Beltrán MArtínez


Descargar ppt ""

Presentaciones similares


Anuncios Google