La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Diseño y Desarrollo de Thesaurus Universidad Complutense de Madrid, Facultad de Ciencias de la Información Félix del Valle Gastaminza.

Presentaciones similares


Presentación del tema: "Diseño y Desarrollo de Thesaurus Universidad Complutense de Madrid, Facultad de Ciencias de la Información Félix del Valle Gastaminza."— Transcripción de la presentación:

1 Diseño y Desarrollo de Thesaurus Universidad Complutense de Madrid, Facultad de Ciencias de la Información Félix del Valle Gastaminza

2 Lenguajes de indización Un índice es una guía sistemática realizada para indicar temas o características de documentos para facilitar su recuperación.

3 Lenguajes de indización Un índice es una guía sistemática realizada para indicar temas o características de documentos para facilitar su recuperación. Un Lenguaje de indización es el conjunto de términos utilizado en un índice para representar temas o características de los documentos, y las reglas para utilizar y combinar esos términos.

4 Thesauri Un Thesaurus es una colección de vocabulario seleccionado (términos preferidos o descriptores) con enlaces hacia Términos Sinónimos, Equivalentes, Genéricos, Específicos o Relacionados.

5 Thesauri (cont.) Ejemplos: –El ERIC Thesaurus of Descriptors –El Art and Architecture Thesaurus. Getty Found. –El Medical Subject Headings (MESH) de la National Library of Medicine –Tesauro de Patrimonio Histórico Andaluz

6 Utilidad del thesaurus Ofrecer una estructura conceptual o ámbito para un conjunto de información –Facilita la descripción adecuada del contenido de los documentos a un nivel adecuado de generalidad o especificidad –Mejora la estrategia de búsqueda y su efectividad (Se recupera más información relevante sin ruido).

7 Utilidad del thesaurus Facilitar el control terminológico. –Cuando hay varios términos diferentes para designar un concepto simple, el thesaurus dirige al indizador o al usuario hacia el concepto apropiado.

8 ¿Qué hay en un tesauro? Términos Permitidos: Descriptores Obviamente, el tesauro tiene que indicar qué términos se permite utilizar. Estos términos se llaman descriptores. Términos No permitidos: No descriptores El tesauro también necesita indicar algunos términos que los indizadores y los usuarios no pueden utilizar. Estos términos se llaman no descriptores. A partir de un no descriptor debe ser posible ver qué término se debe utilizar en lugar del otro. Un tesauro también suele permitir observar los no permitidos a partir de un descriptor. Esto da una idea mejor de lo que se supone que el término puede significar.

9 Relaciones Semánticas Así como relaciona términos válidos con términos no válidos, un tesauro también muestra conexiones entre diversos descriptores. Estas conexiones se establecen generalmente mediante relaciones semánticas. Las conexiones semánticas puede ayudar a dirigir al término adecuado y a tener el significado del término más claro.

10 Directrices de aplicación Un buen tesauro debe dejar muy claro qué significado cubre un término. Lo hace mediante los términos no válidos y las relaciones semánticas. Otras maneras de dirigir el uso del tesauro son las notas introductorias y las notas de alcance. Una nota de alcance toma a menudo la forma de una definición del término. Asegurar que los términos están utilizados constantemente con el mismo significado es otro aspecto importante del control del vocabulario.

11 Reglas para la síntesis Generalmente, un tesauro enumera todos sus descriptores explícitamente. Tales tesauros son enumerativos. Algunos tesauros indican algunos descriptores indirectamente: en vez de enumerarlos todos, dan las reglas para crearlos a partir de ciertos componentes. Tales tesauros son por lo menos en parte sinteticos.

12 DirectricesEjemplos Plural para las cosas que pueden ser " contadas" "TUBOS" Singular para los sustantivos no contables " MADERA " Singular para procesos, características, y condiciones " REFRIGERACIÓN " " PESO ", POBREZA " No invertir los términos ANTENAS de RADAR (y no " RADAR, ANTENAS") Evitar el abuso de preposiciones "PROGRAMAS INFANTILES"(y no "PROGRAMAS PARA NIÑOS) Excluir signos de puntuación, diacríticos, caracteres especiales ni abreviaturas INVESTIGACION Y DESARROLLO en lugar de I+D

13 Consideraciones Preliminares ¿Qué se ha utilizado hasta ahora? –¿Continuar utilizando un thesaurus existente? –¿Realizar modificaciones ad hoc del mismo? –¿Desarrollar uno nuevo? ¿Cuál es el alcance y complejidad del campo temático? ¿Qué tipo de información o documentos vamos a manejar? ¿Con qué nivel de exhaustividad o especificidad queremos trabajar?

14 Consideraciones Preliminares El alcance y complejidad del campo nos darán una idea del alcance y complejidad del thesaurus. –Es mejor planificar un sistema más amplio que se anticipe al crecimiento del sistema. Desarrollar un thesaurus requiere un gran esfuerzo intelectual y también implica tareas mecánicas como entrada de datos y ordenación de listas.

15 Desarrollo de un Thesaurus Selección de Términos. Desarrollo y relación de clases conceptuales. Definición de los campos y subcampos genéricos. Desarrollo de la macroestructura Clasificatoria Establecimiento de relaciones asociativas. Edición, prueba, aplicación, revisión.

16 1. Selección de Términos Seleccionar fuentes para la colección de términos. –Fuentes preestablecidas –Fuentes no elaboradas Asignar códigos a cada fuente. Selección de términos –De unas y otras fuentes Introducir términos en una BD con toda su información.

17 1.1 Tipos de fuentes Fuentes preestablecidas –Listados de descriptores, esquemas de clasificación, Thesauri. Incluidos esquemas universales como DDC, LCSH o CDU. –Nomenclaturas –Tratados sobre la terminología del campo –Enciclopedias, léxicos, diccionarios y glosarios. –Tablas de contenido de libros de texto y manuales –Índices de revistas o colecciones de resúmenes –Índices de revistas especializadas en el campo

18 1.1 Tipos de fuentes Fuentes no elaboradas –Listas de estrategias de búsqueda y perfiles de interés –Descripción de proyectos o actividades que serán atendidos por el sistema. –Discusión con especialistas del campo –Muestra de documentos del campo Preguntar a los usuarios porqué y cómo éstos se relacionan con el campo Documentos indizados por expertos en el campo –Listas de títulos de documentos –Abstracts y recensiones de documentos –El propio conocimiento del creador del tesauro

19 Selección de fuentes Las primeras requieren menos esfuerzo en la recopilación del material, y ayudan a indicar algunas relaciones entre términos y conceptos y relaciones entre términos. Las segundas reflejan la terminología y mejoran la cobertura. Comprobar la actualidad, validez y autoridad de las fuentes.

20 Selección de fuentes Cada fuente seleccionada debería tener asignada una clave para controlar su seguimiento. –Útil para tomar decisiones respecto a qué término elegir –Útil para saber la procedencia de los términos (¿de dónde hemos sacado esto?)

21 Selección de Términos Los términos pueden ser transferidos directamente a fichas o a una BD –Decidir qué términos y referencias se deben incluir, o tomar la fuente completa

22 Selección de términos En las fuentes no elaboradas hay que leer para extraer términos (palabras y frases) que puedan ser útiles en la recuperación o referencias a otros términos. De forma alternativa, se puede utilizar software de análisis y extracción automática de vocabulario para crear listas de términos y seleccionar a partir de ellas. Transferir lo seleccionado a fichas o a una BD.

23 Introducción de Nuevos Términos Además de los términos extraídos de las varias fuentes utilizadas, se pueden introducir nuevos términos. Por ejemplo, 1.Términos que expresen conceptos generales.. 2.Términos estructurales 3.Términos nuevos

24 Términos que expresan conceptos generales Los términos que representan conceptos amplios pueden ser introducidos porque son útiles en búsquedas amplias. Por ejemplo, " TERMINALES DE TRANSPORTE" porque puede ser utilizado para substituir una búsqueda para los " AEROPUERTOS", "ESTACIONES DE AUTOBÚSES", "ESTACIONES DE TREN", "HELIPUERTOS"....

25 Términos Estructurales Los términos pueden también ser introducidos porque contribuyen a la claridad de la estructura de relaciones semánticas. Por ejemplo, " EMPLEO EN GRUPOS ESPECÍFICOS " para clarificar el lazo entre el " EMPLEO " y " EMPLEO JUVENIL ".

26 2. Fusión y desarrollo de las clases conceptuales Ordenar alfabéticamente los Términos de la BD. Primera etapa: Agrupar la información de los términos idénticos. Segunda etapa: Agrupar sinónimos o términos pertenecientes a la misma clase conceptual.

27 Términos Equivalentes Después de recoger los términos para el tesauro, hay que decidir cuáles son términos equivalentes. Para los propósitos de la indización y de la búsqueda, un conjunto de términos equivalentes será tratado como si significaron la misma cosa y representado por un solo término preferido o descriptor.

28 Sinónimos A veces, los términos equivalentes realmente significan la misma cosa. Así pues, tiene obviamente sentido utilizar un solo descriptor para representar su significado 1.Un término puede admitir más de una forma de escritura. 2.Dos palabras pueden tener esencialmente el mismo significado; por ejemplo, " AUTOMATIZACIÓN " y " MECANIZACIÓN

29 Cuasi-sinónimos. Tipos de cuasi-sinónimos Los términos con significados que se solapan se tratan a veces como equivalentes. Por ejemplo, " GENIOS " y " PRODIGIOS " se pueden tratar como equivalente, aunque los dos términos significan diversas cosas. Un término cuyo alcance se incluye en el de otro término se trata a veces como equivalente. Por ejemplo, el " ACERO " se pudo tratar como equivalente " METAL " si no es importante distinguir items sobre el acero de items sobre otros metales. Los contrarios se tratan a veces como equivalente, porque los items sobre uno son probablemente relevantes en una interrogación sobre el otro. Por ejemplo, " "TRANSPARENCIA " se puede tratar como equivalente de " OPACIDAD ".

30 Relación USE/UP Un término no descriptor se conecta normalmente al descriptor correspondiente mediante la referencia USE. La referencia correspondiente en la dirección opuesta es UP (" utilizado por "). REVISTAS USE PUBLICACIONES PERIODICAS PUBLICACIONES PERIODICAS UF REVISTAS

31 DirectricesEjemplos Uso común CENTROS COMERCIALES UP COMPLEJOS COMERCIALES (Es el término más comunmente usado.) Amplitud PLASTICO UP POLIETILENO (los " plásticos " significan claramente todos los plásticos, de los cuales el polietileno es solamente uno.) Ambigüedad TEJADOS UP CUBIERTAS (Es un término menos ambiguo.)

32 Colocación PERIODISTAS UP REPORTEROS (en una secuencia alfabética, " PERIODISTAS " aparecerían cerca de " PERIODISMO " y otros términos relacionados) Concisión SKIN-HEADS UP MOVIMIENTO SKIN-HEAD (una palabra más bien que dos.) Coherencia interna Si se ha decidido preferir los nombres latinos para las plantas, debe hacerse constantemente. Coherencia externa Se puede preferir determinado descriptor por que esa sea la denominación normal en el sistema para el que trabaja.

33 Descriptores sintagmáticos ¿Cuándo debe permitirse un descriptor formado por varias palabras? Un término que tenga más de una palabra debe ser descriptor. 1.Si no es posible combinar términos en la etapa de la indización o en la etapa de busqueda. 2.Si en caso contrario fueran necesarios demasiados términos para indizar un concepto o documento. 3.Si el número de términos válidos no es demasiado alto. 4.Si el término compuesto es más comprensible que su partición.

34 5.Si el término es es utilizado con frecuencia en la indización y la búsqueda. 6.Si los componentes del término aparecen con frecuencia en diversas relaciones sintácticas; por ejemplo, "CINE HISTORICO", "HISTORIA DEL CINE". 7.Si el término se necesita en la estructura de las relaciones semánticas; especialmente, si algunos conceptos más específicos son representados por descriptores. 8.Si hay dudas. Descriptores sintagmáticos

35 3. Predefinición de la macroestructura Definir los campos conceptuales y ordenar los términos en esos campos Definir subcampos y ordenar los términos en ellos. Revisar la estructura detallada –Seleccionar términos preferidos –Fusionar la información relativa a términos de la misma clase conceptual Repetir estos pasos –Para cada subcampo –Para cada campo genérico –Hasta que todos los términos hayan sido consolidados

36 4. Desarrollo de la macroestructura Producir una versión preliminar del índice clasificado y actualizar la BD de trabajo. Mejorar la macroestrucrura. Test: producir y distribuir una versión del índice clasificado. Distribuirlo entre usuarios y expertos.

37 Figura 8. Facetas y jerarquías del AAT

38

39 Thesaurus de Garnier. Macroestructura (1)

40 Thesaurus de Garnier. Macroestructura (2)

41 Thesaurus de Garnier. Macroestructura (3)

42 Thesaurus de Garnier. Macroestructura (4)

43 Thesaurus de Garnier. Macroestructura (5)

44 Thesaurus de Garnier. Macroestructura (6)

45 Thesaurus de Garnier. Macroestructura (7)

46 Thesaurus de Garnier. Macroestructura (8)

47 Thesaurus de Garnier. Macroestructura (9)

48 Propuesta de categorías para thesaurus de televisión: a) Fenómeno. Acción natural que escapa a la acción del hombre y acontecimientos no provocados por el ser humano. Interesante, porque puede sustituir a proceso y disminuir el nivel de ambigüedad con esta definición Ejemplo: digestión, retraso. b) Actividad. Acción provocada por el hombre. b1) Acontecimiento. Denominación genérica de sucesos provocados por el hombre de gran relevancia o resonacia que afectan directa o indirectamente a los seres humanos. b2) Funciones. Campo de la actividad profesional b3) Disciplina. Rama del conocimiento, arte, ciencia, tecnología. b4) Técnicas. b5) Actividad física.

49 c) Materiales. Sustancias naturales o producidas artificialmente.Incluye energía. d) Agente. Describe personas, seres vivos y grupos de ambos por su actividad, sus características físcas y culturales, rol o condiciones social. d1) Colectivo. Instituciones, organizaciones o colectivos humanos o con representación humana. En general, entidades complejas creadas por seres vivos. d2) Individual. Seres humanos, (con sus profesiones, roles y ocupaciones personales), microorganismos, vegetales y animales. e) Objeto. Cosas inanimadas, visibles o tangibles resultado de la actividad humana. e1) Objeto inmueble. Espacios y construcciones y sus clases, partes, componentes y dependencias. Ejemplos: valla, ciudad, jardín, edificio inteligente e2) Objeto mueble. Cosas materiales, instrumentos y artefactos. Agrupaciones de objetos y sistemas, componentes y géneros de objetos según su forma y función, formatos de comunicación y documentos. Ejemplos: sistema de comunicación, fragmento, antena parabólica. vehículo, mural, examen, catapulta.

50 f) Estructura. Conceptos teóricos, abstracciones, elementos intangibles estáticos y teorías que componen o describen los sistemas socioeconómicos, sociopolítico e ideológico. g) Atributos. Características perceptibles y mensurables de los objetos y artefactos, incluyendo aquellas que no son separables como los componentes diferenciados. Interesa el tamaño, forma, color, textura y dureza.

51 Relaciones Semánticas Indicar relaciones semánticas ayuda en varios aspectos de la gestión de información: 1.Controlando si un término debe ser utilizado en la indización de un item dado o en la formulación de una búsqueda especifica. 2.Eligiendo el correcto nivel de generalidad en la indización y busqueda. 3.Permitiendo la generalización o especificación de la búsqueda

52 Relaciones semánticas entre los términos Las relaciones semánticas principales indicadas entre los descriptores en un tesauro son las relaciones jerárquicas y relaciones no-jerárquicas. Conexiones TG y TE Las conexiones de TG Término Genérico y de TE Término Específico se utilizan para indicar relaciones jerárquicas. En una relación jerárquica un término está por encima de otro término porque es más amplio en alcance. Al desarrollar un tesauro, es a menudo util resolver las relaciones jerárquicas primero.

53 Cuándo hay una relación de término Genérico/Específico? Género/Especie A es un término genérico de B (y B es un término específico de A) si todas las cosas incluidas en la clase nombrada por el término B se incluyen en la clase nombrada por el término A. Por ejemplo, " ANIMALES " es un término más amplio que " GATOS " (y " GATOS " es un término más estrecho que "ANIMALES") porque todos los gatos son animales. Por otra parte, los " ANIMALES DOMÉSTICOS " no son un término más amplio que " GATOS " porque no todos los gatos son animales domésticos.

54 Jerarquía Parte-Todo A es un término genérico de B (y B es un término específico de A) si todo lo incluido en la clase nombrada por el término B es una parte de algo incluido en la clase nombrada por el término A. Por ejemplo, en un tesauro médico, " CABEZA " puede ser un término genérico de "NARIZ " porque la nariz es normalmente parte de la cabeza. Por otra parte, " BOSQUES " no sería un término genérico de " ÁRBOLES " porque no todos los árboles son parte de un bosque.

55 Referencias TG, TE Cuál es el lazo entre TG y el TE? Normalmente, TG y TE son conexiones biunívocas. Es decir si X es un término más amplio que Y, entonces Y es un término más concreto que X, y viceversa. Por ejemplo, si un tesauro contiene la entrada PLUMAS TG MATERIALES DE ESCRITURA también aparecerá MATERIALES DE ESCRITURA TE PLUMAS

56 ¿Cuántos TG puede tener un decriptor ? Un tesauro es generalmente " polijerárquico "; esto significa que un término puede tener más de un término inmediatamente más amplio y más de una referencia de TG. Por ejemplo, PSICOLOGÍA SOCIAL TG PSICOLOGÍA TG SOCIOLOGÍA La polijerarquía evita discusiones sobre el " mejor " término genérico. Algunos términos en un tesauro no tienen ningún término más amplio y por tanto ninguna referencia de TG. Tales términos son generalmente bastante amplios en el significado, por lo menos dentro del tema cubierto por el tesauro. Por ejemplo, en un tesauro de deportes, " DEPORTES " no puede tener ningún término más amplio.

57 Relaciones asociativas: Términos relacionados. Una referencia TR se utiliza para la relación semántica no-jerárquicas en un tesauro. Para decidir si debe haber una referencia del RT entre dos términos preferidos X y Y que no tengan una relación jerárquica, se puede utilizar la prueba siguiente: ¿Se debería recordar a un indizador o usuario que quiere utilizar el descriptor X, la existencia del descriptor Y?

58 CategoríasEjemplos Tiempo LITERATURA DE EVASION TR TIEMPO DE OCIO Lugar IDIOMAS EXTRANJEROS TR LABORATORIOS DE IDIOMAS Producto CAMARAS FOTOGRAFICAS TR FOTOGRAFÍAS CONSTRUCCIÓN NAVAL TR NAVES Causa VANDALISMO TR HOSTILIDAD Agente ENTRENAMIENTO TR ENTRENADOR Categorías semánticas para TR

59 CategoríasEjemplos Dispositivo PINTURA TR PINCELES Aplicación ORDENADORES TR TRATAMIENTO DE TEXTOS Parte VEHICULOS TR RUEDAS Complemento PADRES TR NIÑOS Categorías semánticas para TR

60 Notas de alcance Las notas de alcance pueden 1.dar definiciones 2.indicar qué conceptos son incluidos o excluidos 3.referirse a otros términos 4.proporcionar instrucciones adicionales

61

62 Descriptor: a)Campo conceptual (código): b)N. Aclaratoria o aplicación: c)Equivalencias (UP): d)Macrocategoría a la que pertenece: e)Observaciones: f)Relaciones asociativas: 1.Relación de jerarquía (incluye todo/parte y género/clase). 2.Relación actancial 3.Relación modal (acontecimientos, actividades, procesos y técnicas) 4.Relación de atributo 5.Relación estructural (plantea alguna duda en su aplicación, si bien deriva de las facetas planteadas) 6.Relación de materia/causal 7.Relación de objetos/productos 8.Relación locativa de espacio 9.Relación temporal (dudas sobre este vector)

63 5. Etapas Finales Análisis crítico Test de prueba Aplicación Revisión

64 Análisis y edición Discutir el índice clasificado con usuarios y expertos. Asignar símbolos notacionales Producir el Thesaurus y los Índices

65 Análisis y edición (cont.) Elaborar y Chequear las referencias cruzadas. Producir Versión de Test. Probar la indización. Modificar si es necesario. Producir versión definitiva.

66 Evaluación del Thesaurus Asignar descriptores a una muestra de nuevos documentos (en la medida suficiente para extraer conclusiones sólidas) Evaluar la recuperación utilizando muestras de cuestiones y viendo la eficacia del thesaurus

67 Construcción de Thesaurus Seleccionar fuentes Asignar códigos Seleccionar términos Registrar los términos Ordenar términos Fusionar término idénticos Definir macroestructura Fusionar términos en la misma clase conceptual Ordenar términos en la macroestructura Definir subcampos Elaborar estructura detallada Seleccionar términos preferidos ¿Todos los subcampos están completos? ¿Todos los genérico s están completos? Mejorar macroestructura Sí No Imprimir índice clasificado Discutir con expertos Y usuarios Seleccionar descriptores y Probar muestras Producir el thesaurus Elaborar referencias Asignar notación Revisión y prueba ¿Demasiadas modificaciones? Sí No Revisar si es necesario

68 Proceso de indización Identificación de conceptos Selección de términos (vía thesaurus) Asignación de descriptores

69 Proceso de indización ¿Vale El término? NO Seleccionar términos alternativos para expresar el concepto ¿Estarían los conceptos mejor representados? Hay otros conceptos? Considerar el término preferido Seleccionar términos preferidos Buscar término que denote el concepto Examinar el Documento e identificar conceptos significativos Considerar el primer Concepto Término preferido? Inicio NO SI Contiene el Thesaurus un término para el concepto Considerar otros términos (TG, TE, TR) Admitir el nuevo término en el thesaurus ¿Puede expresarse el concepto por una combinación de términos? ? Considerar cada término Asignar descriptores al documento Preferir término(s) alternativos Final ISO 5963, PNE 50021

70 Revisión y actualización del Thesaurus Siempre habrá nuevos conceptos, productos, o expresiones que será necesario añadir al thesaurus. –Establecer un calendario regular de revisión y actualización. –Coleccionar dudas, problemas, etc. para utilizarlos en la revisión del thesaurus


Descargar ppt "Diseño y Desarrollo de Thesaurus Universidad Complutense de Madrid, Facultad de Ciencias de la Información Félix del Valle Gastaminza."

Presentaciones similares


Anuncios Google