La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Evaluación de la Indización

Presentaciones similares


Presentación del tema: "Evaluación de la Indización"— Transcripción de la presentación:

1 Evaluación de la Indización
Unidad 6. Evaluación de la Indización

2 6.2 Relevancia y Pertinencia.
Según el Diccionario de la Lengua Española, relevancia significa “cualidad o condición de relevante, importancia, significación”, y relevante es definida como “importante o significativo”. Así, un documento será relevante cuando el contenido del mismo posea alguna significación o importancia en relación con la pregunta realizada por el usuario, es decir, con su necesidad de información.

3 Un mismo documento puede ser considerado relevante, o no relevante, por dos personas distintas en función de su necesidad de información o su grado de conocimiento de la materia. Llegados a un caso extremo, un mismo documento puede parecer relevante o no a la misma persona en momentos diferentes de tiempo. (Lancaster, 1993).

4 Lo mencionado anteriormente nos hace notar que el concepto de la relevancia contiene un alto grado de subjetividad. Es común recuperar documentos que, en alguno de sus apartados resulta relevante con una materia determinada pero que no en el resto de sus contenidos, por lo que algunos autores, hablan del concepto de “relevancia parcial”,

5 (Cooper, 1973). Introdujo la idea de: “utilidad de un documento” o Pertinencia, considerando que es mejor definir a la relevancia en términos de la percepción que un usuario posee sobre la utilidad de un documento recuperado, es decir, si el mismo le va a ser útil o no.

6 La ventaja de este punto de vista esta en que podemos asumir que un usuario tendrá problemas a la hora de definir qué es relevante y qué no lo es, pero tendrá pocos problemas a la hora de decidir si el documento le parece o no útil. Finalmente es el usuario quién va a analizar el documento y quien lo va a utilizar si le conviene, por lo que los juicios de relevancia van a ser realizados por él, y son esos juicios de relevancia los que van a propiciar que un sistema de recuperación de información, sea considerado bueno o malo.

7 Frants plantea otra acepción de relevancia muy similar a la anterior, en términos de eficiencia funcional. Así, relevancia queda asociada con el concepto de la relación existente entre los contenidos de un documento con una temática determinada (esto es definido por otros autores como Korfhage como relevancia objetiva) y pertinencia se restringe a la relación de utilidad existente entre un documento recuperado y una necesidad de información individual. (definido por Korfhage como relevancia subjetiva)

8 El Diccionario de la RAE define “pertinencia” como “calidad de pertinente”, entendiéndose “pertinente” como "todo lo que viene a propósito o resulta oportuno". Así, un documento pertinente es un documento que resulta oportuno, porque le proporciona al usuario final la información que a él le cumple algún propósito.

9 Gerard Salton en 1983 considera que el conjunto pertinente de documentos recuperados puede definirse como "el subconjunto de los documentos almacenados en el sistema que es apropiado para la necesidad de información del usuario”.

10 Para calcular la relevancia, lo más habitual es establecer valores binarios: si un documento es relevante, es decir, sirve como respuesta a nuestra pregunta, se le asigna un valor de 1. O si no sirve su valor será de 0. También se puede fijar una gradación, y establecer una escala ordinal para medir la relevancia de los documentos. El problema de determinar una escala es que no hay una guía clara para elaborarla. Por ejemplo Saracevic 1988, da tres valores a su escala: relevante, parcialmente relevante y no relevante.

11 Criterios de relevancia.
Los criterios de relevancia de un documento se basan en tres aspectos: necesidad de la información, petición y perfil de búsqueda. A menudo la petición no coincide con las verdaderas necesidades; otras veces no coincide la petición con el perfil de búsqueda. En consecuencia, para medir el grado de adecuación de la respuesta a la búsqueda, hay que introducir tres conceptos distintos: Relevancia formal: adecuación de los resultados al perfil de búsqueda. Relevancia semántica: adecuación a la petición de información, Pertinencia: adecuación a la necesidad de información.

12 El cálculo de la relevancia
Existen dos métodos para calcular la relevancia, uno manual y otro conocido como polling : Manual: consiste en la exploración de los documentos uno a uno para saber si se adecuan o no como respuesta a una pregunta. Muchas veces establecer la relevancia de un documento para una pregunta determinada resulta difícil y los especialistas no se ponen de acuerdo, por ello, es conveniente que los juicios los haga más de uno, y a ser posible un número impar de especialistas. El principal problema que presenta este método, es que en colecciones muy grandes, hay que invertir gran cantidad de tiempo, lo que supone mucho dinero para realizar esta operación.

13 Polling : cuando las bases de datos son muy grandes, y no es posible evaluar uno a uno los documentos, para determinar cuáles son los documentos relevantes, se recurre al "polling". Lo que se hace es analizar de manera manual un número determinado de documentos recuperados, con distintos sistemas, este número suele ser elevado (varios centenares) y se comparan con los primeros documentos recuperados con cada sistema. Este conjunto de documentos es el que de manera manual analizan los expertos, que son los encargados de decir en último término si son relevantes o no. Este sistema asume que la gran mayoría de los documentos relevantes son encontrados, si no por todos los sistemas, sí al menos por alguno de ellos, y los no recuperados pueden considerarse como no relevantes. De esta manera no es necesario evaluar toda la base de datos, pero aún así el sistema es fiable ya que el número de documentos que se suele examinar es elevado.

14 La medida de la pertinencia.
Puede hacerse una estimación cuantitativa de la pertinencia mediante la aplicación de las tasas de exhaustividad y precisión. Documentos recuperados relevantes: a Documentos recuperados no relevantes: b Total documentos recuperados: a+b

15 Documentos no recuperados relevantes: c Documentos no recuperados no relevantes: d Total documentos no recuperados: c+d Total documentos relevantes: a+c Total documentos no relevantes: b+d Total documentos: a+b+c+d Tasa de precisión: P= (a/a+b)x100 Tasa de exhaustividad: E= (a/a+c)x100 Los valores óptimos de precisión y exhaustividad dependen en gran medida del tipo de búsqueda y de los intereses que mueven a la misma. El factor coste es asimismo importante. Para mejorar la eficacia de una búsqueda, los mejores resultados se consiguen mediante el ajuste del perfil en aproximaciones sucesivas, con la colaboración del peticionario

16 6.3 Exhaustividad y Precisión en la recuperación de información.
Exhaustividad: En Recuperación de la Información, es una aptitud que tiene un sistema de información para recuperar la totalidad de los documentos relevantes que posee una colección, conforme a los requerimientos establecidos en la estrategia de búsqueda. La exhaustividad sólo puede medirse cualitativamente, tomando en consideración el grado de satisfacción de los usuarios.

17 La exhaustividad consiste en recuperar en una búsqueda toda la información que a uno le interesa. Por ejemplo, si se buscara el término “Tchaikovsky” en un catálogo bibliográfico, el índice de exhaustividad sería bajo si el catálogo incluyera además de “Tchaikovsky”, otras variantes como “Chaikovsky” y no utilizara referencias cruzadas entre las distintas formas de escribir el nombre.

18 Precisión: Aptitud de un sistema de almacenamiento y recuperación de la información para representar los diferentes conceptos de un documento con un grado adecuado de profundidad.

19 Es decir, que la Precisión, consiste en que los resultados de la búsqueda estén relacionados. Por ejemplo, si se buscara “Cyril Smith”, el índice de pertinencia sería bajo si incluyera una gran cantidad de resultados sobre el político cuando en realidad nos interesaba el pianista.

20 La precisión mide el porcentaje de documentos recuperados que resultan relevantes con el tema de la pregunta y su cálculo es simple: se divide el total de documentos relevantes recuperados entre el total de documentos recuperados.

21 Así, la recuperación perfecta es en la que únicamente se recuperan los documentos relevantes

22 La exhaustividad conlleva algunos problemas más en su cálculo
La exhaustividad conlleva algunos problemas más en su cálculo. Si bien su definición es clara, (número de documentos relevantes recuperados dividido entre el número de documentos totales relevantes de la colección), Si el resultado de este cálculo tiene como valor 1, tendremos la exhaustividad máxima, ya que hemos encontrado todo lo relevante que había en la base de datos, por lo tanto no tendremos ni ruido ni silencio informativo: la recuperación será perfecta.

23 no está claro cuál es el valor de ese denominador, si el usuario conociera de antemano el número de documentos relevantes de la colección, ¿por qué no los recupera todos en esa búsqueda? La respuesta es simple: porque no los puede conocer de antemano, como máximo puede inferir ese valor. Estas dos medidas tienden a relacionarse de forma inversa, ya que cuanto mayor es el valor de la precisión, menor va a ser el valor de la exhaustividad. Si un usuario lleva a cabo una operación de recuperación de información en la cual inserta condiciones muy específicas, obtendrá un conjunto de resultados muy preciso pero, de igual modo, habrá dejado de recuperar algunos documentos a causa de ese alto nivel de especificación.

24 De hecho, una amplia mayoría de usuarios consideran mucho más importante la precisión, relegando generalmente a la exhaustividad a un cometido secundario, mientras la búsqueda proporcione información relevante, el usuario no suele detenerse a pensar en la cantidad de documentos relevantes que no recupera.

25 Necesitamos comprobar que la precisión y la exhaustividad están compensadas, ya que un sistema con una exhaustividad muy alta pero con baja precisión y viceversa no será adecuado.


Descargar ppt "Evaluación de la Indización"

Presentaciones similares


Anuncios Google