La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Diseño y Desarrollo de Thesaurus

Presentaciones similares


Presentación del tema: "Diseño y Desarrollo de Thesaurus"— Transcripción de la presentación:

1 Diseño y Desarrollo de Thesaurus
Universidad Complutense de Madrid, Facultad de Ciencias de la Información Félix del Valle Gastaminza

2 Lenguajes de indización
Un índice es una guía sistemática realizada para indicar temas o características de documentos para facilitar su recuperación.

3 Lenguajes de indización
Un índice es una guía sistemática realizada para indicar temas o características de documentos para facilitar su recuperación. Un Lenguaje de indización es el conjunto de términos utilizado en un índice para representar temas o características de los documentos, y las reglas para utilizar y combinar esos términos.

4 Thesauri Un Thesaurus es una colección de vocabulario seleccionado (términos preferidos o descriptores) con enlaces hacia Términos Sinónimos, Equivalentes, Genéricos, Específicos o Relacionados.

5 Thesauri (cont.) Ejemplos: El ERIC Thesaurus of Descriptors
El Art and Architecture Thesaurus. Getty Found. El Medical Subject Headings (MESH) de la National Library of Medicine Tesauro de Patrimonio Histórico Andaluz

6 Utilidad del thesaurus
Ofrecer una estructura conceptual o “ámbito” para un conjunto de información Facilita la descripción adecuada del contenido de los documentos a un nivel adecuado de generalidad o especificidad Mejora la estrategia de búsqueda y su efectividad (Se recupera más información relevante sin ruido).

7 Utilidad del thesaurus
Facilitar el control terminológico. Cuando hay varios términos diferentes para designar un concepto simple, el thesaurus dirige al indizador o al usuario hacia el concepto apropiado.

8 ¿Qué hay en un tesauro? Términos Permitidos: Descriptores Obviamente, el tesauro tiene que indicar qué términos se permite utilizar. Estos términos se llaman descriptores. Términos No permitidos: No descriptores El tesauro también necesita indicar algunos términos que los indizadores  y los usuarios no pueden utilizar. Estos términos se llaman no descriptores. A partir de un no descriptor debe ser posible ver qué  término se debe utilizar en lugar del otro. Un tesauro también suele permitir observar los no permitidos a partir de un descriptor.  Esto da una idea mejor de lo que se supone que el término puede significar.

9 Relaciones Semánticas
Así como relaciona términos válidos con términos no válidos, un tesauro también muestra conexiones entre diversos descriptores. Estas conexiones se establecen generalmente mediante relaciones semánticas. Las conexiones semánticas puede ayudar a dirigir  al término adecuado y a tener el significado del término más claro.

10 Directrices de aplicación
Un buen tesauro debe dejar muy claro qué significado cubre un  término. Lo hace mediante los términos no válidos y las relaciones semánticas. Otras maneras de dirigir el uso del tesauro son  las notas introductorias  y las notas de alcance. Una nota de alcance toma a menudo la forma de una definición del término. Asegurar que los términos están utilizados constantemente con el mismo significado es otro aspecto importante del control del vocabulario.

11 Reglas para la síntesis
Generalmente, un tesauro enumera todos sus descriptores explícitamente. Tales tesauros son enumerativos. Algunos tesauros indican algunos descriptores indirectamente: en vez de enumerarlos todos, dan las reglas para crearlos a partir  de ciertos componentes. Tales tesauros son por lo menos en parte sinteticos.

12 Directrices Ejemplos Plural para las cosas que pueden ser " contadas" "TUBOS" Singular para los sustantivos no contables " MADERA " Singular para procesos, características, y condiciones " REFRIGERACIÓN " " PESO ", “ POBREZA " No invertir los términos ANTENAS de RADAR (y no " RADAR, ANTENAS") Evitar el abuso de preposiciones "PROGRAMAS INFANTILES"(y no "PROGRAMAS PARA NIÑOS) Excluir signos de puntuación, diacríticos, caracteres especiales ni abreviaturas “INVESTIGACION Y DESARROLLO” en lugar de I+D

13 Consideraciones Preliminares
¿Qué se ha utilizado hasta ahora? ¿Continuar utilizando un thesaurus existente? ¿Realizar modificaciones ad hoc del mismo? ¿Desarrollar uno nuevo? ¿Cuál es el alcance y complejidad del campo temático? ¿Qué tipo de información o documentos vamos a manejar? ¿Con qué nivel de exhaustividad o especificidad queremos trabajar?

14 Consideraciones Preliminares
El alcance y complejidad del campo nos darán una idea del alcance y complejidad del thesaurus. Es mejor planificar un sistema más amplio que se anticipe al crecimiento del sistema. Desarrollar un thesaurus requiere un gran esfuerzo intelectual y también implica tareas mecánicas como entrada de datos y ordenación de listas.

15 Desarrollo de un Thesaurus
Selección de Términos. Desarrollo y relación de clases conceptuales. Definición de los campos y subcampos genéricos. Desarrollo de la macroestructura Clasificatoria Establecimiento de relaciones asociativas. Edición, prueba, aplicación, revisión.

16 1. Selección de Términos Seleccionar fuentes para la colección de términos. Fuentes preestablecidas Fuentes no elaboradas Asignar códigos a cada fuente. Selección de términos De unas y otras fuentes Introducir términos en una BD con toda su información.

17 1.1 Tipos de fuentes Fuentes preestablecidas
Listados de descriptores, esquemas de clasificación, Thesauri. Incluidos esquemas universales como DDC, LCSH o CDU. Nomenclaturas Tratados sobre la terminología del campo Enciclopedias, léxicos, diccionarios y glosarios. Tablas de contenido de libros de texto y manuales Índices de revistas o colecciones de resúmenes Índices de revistas especializadas en el campo

18 1.1 Tipos de fuentes Fuentes no elaboradas
Listas de estrategias de búsqueda y perfiles de interés Descripción de proyectos o actividades que serán atendidos por el sistema. Discusión con especialistas del campo Muestra de documentos del campo Preguntar a los usuarios porqué y cómo éstos se relacionan con el campo Documentos indizados por expertos en el campo Listas de títulos de documentos Abstracts y recensiones de documentos El propio conocimiento del creador del tesauro

19 Selección de fuentes Las primeras requieren menos esfuerzo en la recopilación del material, y ayudan a indicar algunas relaciones entre términos y conceptos y relaciones entre términos. Las segundas reflejan la terminología y mejoran la cobertura. Comprobar la actualidad, validez y autoridad de las fuentes.

20 Selección de fuentes Cada fuente seleccionada debería tener asignada una clave para controlar su seguimiento. Útil para tomar decisiones respecto a qué término elegir Útil para saber la procedencia de los términos (¿de dónde hemos sacado esto?)

21 Selección de Términos Los términos pueden ser transferidos directamente a fichas o a una BD Decidir qué términos y referencias se deben incluir, o tomar la fuente completa

22 Selección de términos En las fuentes no elaboradas hay que leer para extraer términos (palabras y frases) que puedan ser útiles en la recuperación o referencias a otros términos. De forma alternativa, se puede utilizar software de análisis y extracción automática de vocabulario para crear listas de términos y seleccionar a partir de ellas. Transferir lo seleccionado a fichas o a una BD.

23 Introducción de Nuevos Términos
Además de los términos extraídos de las varias fuentes utilizadas, se pueden introducir nuevos términos. Por ejemplo, Términos que expresen conceptos generales.. Términos estructurales Términos nuevos

24 Términos que expresan conceptos generales
Los términos que representan  conceptos amplios pueden ser introducidos porque son útiles en búsquedas amplias . Por ejemplo,  " TERMINALES DE TRANSPORTE"  porque puede ser utilizado para substituir una búsqueda para los " AEROPUERTOS", "ESTACIONES DE AUTOBÚSES", "ESTACIONES DE TREN" , "HELIPUERTOS" ....

25 Términos Estructurales
Los términos pueden también ser introducidos porque contribuyen a la claridad de la estructura de relaciones semánticas. Por ejemplo, " EMPLEO EN GRUPOS ESPECÍFICOS " para clarificar el lazo entre el " EMPLEO " y " EMPLEO JUVENIL ".

26 2. Fusión y desarrollo de las clases conceptuales
Ordenar alfabéticamente los Términos de la BD. Primera etapa: Agrupar la información de los términos idénticos. Segunda etapa: Agrupar sinónimos o términos pertenecientes a la misma clase conceptual.

27 Términos Equivalentes
Después de recoger los términos para el tesauro, hay que decidir cuáles son términos equivalentes. Para los propósitos de la indización  y de la búsqueda, un conjunto de términos equivalentes  será tratado como si significaron la misma cosa y representado por un solo término preferido o descriptor.

28 Sinónimos A veces, los términos equivalentes realmente significan la misma cosa. Así pues, tiene obviamente sentido  utilizar un solo descriptor para representar su significado Un término puede admitir más de una forma de escritura. Dos palabras pueden tener esencialmente el mismo significado; por ejemplo, " AUTOMATIZACIÓN " y " MECANIZACIÓN

29 Cuasi-sinónimos. Tipos de cuasi-sinónimos
Los términos con significados que se solapan se tratan a veces como equivalentes. Por ejemplo, " GENIOS " y " PRODIGIOS " se pueden tratar como equivalente, aunque los dos términos significan diversas cosas. Un término cuyo alcance se incluye en el de otro término se trata a veces como equivalente. Por ejemplo, el " ACERO " se pudo tratar como equivalente " METAL " si no es importante distinguir items sobre el acero de items sobre otros metales. Los contrarios se tratan a veces como equivalente, porque los items sobre uno son probablemente  relevantes en una interrogación sobre el otro. Por ejemplo, " "TRANSPARENCIA " se puede tratar como equivalente de " OPACIDAD ".

30 Relación USE/UP Un término no descriptor se conecta normalmente al descriptor correspondiente mediante la referencia  USE. La referencia correspondiente en la dirección opuesta es UP (" utilizado por "). REVISTAS USE PUBLICACIONES PERIODICAS PUBLICACIONES PERIODICAS UF REVISTAS

31 Directrices Ejemplos Uso común CENTROS COMERCIALES UP COMPLEJOS COMERCIALES (Es el término más comunmente usado.) Amplitud PLASTICO UP POLIETILENO (los " plásticos " significan claramente todos los plásticos, de los cuales el polietileno es solamente uno.) Ambigüedad TEJADOS UP CUBIERTAS (Es un término menos ambiguo.)

32 Colocación PERIODISTAS UP REPORTEROS (en una secuencia alfabética, " PERIODISTAS " aparecerían cerca de " PERIODISMO " y otros términos relacionados) Concisión SKIN-HEADS UP MOVIMIENTO SKIN-HEAD (una palabra más bien que dos.) Coherencia interna Si se ha decidido preferir los nombres latinos para las plantas, debe hacerse constantemente. Coherencia externa Se puede preferir determinado descriptor por que esa sea la denominación normal en el sistema para el que trabaja.

33 Descriptores sintagmáticos
¿Cuándo debe permitirse un descriptor formado por varias palabras? Un término que tenga más de una palabra debe ser descriptor. Si  no es posible combinar términos en la etapa de la indización o en la etapa de busqueda. Si en caso contrario fueran necesarios demasiados términos para indizar un concepto o documento. Si el número de términos válidos no es demasiado alto. Si  el término compuesto es más comprensible que su partición.

34 Descriptores sintagmáticos
Si el término es es utilizado con frecuencia en la indización y la búsqueda. Si los componentes del término aparecen con frecuencia en diversas relaciones sintácticas; por ejemplo,  "CINE HISTORICO" , "HISTORIA DEL CINE". Si el término se necesita en la estructura de las relaciones semánticas; especialmente, si algunos conceptos más específicos son representados por descriptores. Si hay dudas.

35 3. Predefinición de la macroestructura
Revisar la estructura detallada Seleccionar términos preferidos Fusionar la información relativa a términos de la misma clase conceptual Repetir estos pasos Para cada subcampo Para cada campo genérico Hasta que todos los términos hayan sido consolidados Definir los campos conceptuales y ordenar los términos en esos campos Definir subcampos y ordenar los términos en ellos.

36 4. Desarrollo de la macroestructura
Producir una versión preliminar del índice clasificado y actualizar la BD de trabajo. Mejorar la macroestrucrura. Test: producir y distribuir una versión del índice clasificado . Distribuirlo entre usuarios y expertos.

37 Figura 8. Facetas y jerarquías del AAT
Figura 8. Facetas y jerarquías del AAT

38

39 Thesaurus de Garnier. Macroestructura (1)

40 Thesaurus de Garnier. Macroestructura (2)

41 Thesaurus de Garnier. Macroestructura (3)

42 Thesaurus de Garnier. Macroestructura (4)

43 Thesaurus de Garnier. Macroestructura (5)

44 Thesaurus de Garnier. Macroestructura (6)

45 Thesaurus de Garnier. Macroestructura (7)

46 Thesaurus de Garnier. Macroestructura (8)

47 Thesaurus de Garnier. Macroestructura (9)

48 Propuesta de categorías para thesaurus de televisión:
a) Fenómeno. Acción natural que escapa a la acción del hombre y acontecimientos no provocados por el ser humano. Interesante, porque puede sustituir a proceso y disminuir el nivel de ambigüedad con esta definición Ejemplo: digestión, retraso. b) Actividad. Acción provocada por el hombre. b1) Acontecimiento. Denominación genérica de sucesos provocados por el hombre de gran relevancia o resonacia que afectan directa o indirectamente a los seres humanos. b2) Funciones. Campo de la actividad profesional b3) Disciplina. Rama del conocimiento, arte, ciencia, tecnología. b4) Técnicas. b5) Actividad física.

49 c) Materiales. Sustancias naturales o producidas artificialmente
c) Materiales. Sustancias naturales o producidas artificialmente.Incluye energía.  d) Agente. Describe personas, seres vivos y grupos de ambos por su actividad, sus características físcas y culturales, rol o condiciones social. d1) Colectivo. Instituciones, organizaciones o colectivos humanos o con representación humana. En general, entidades complejas creadas por seres vivos. d2) Individual. Seres humanos, (con sus profesiones, roles y ocupaciones personales), microorganismos, vegetales y animales.  e) Objeto. Cosas inanimadas, visibles o tangibles resultado de la actividad humana. e1) Objeto inmueble. Espacios y construcciones y sus clases, partes, componentes y dependencias. Ejemplos: valla, ciudad, jardín, edificio inteligente e2) Objeto mueble. Cosas materiales, instrumentos y artefactos. Agrupaciones de objetos y sistemas, componentes y géneros de objetos según su forma y función, formatos de comunicación y documentos. Ejemplos: sistema de comunicación, fragmento, antena parabólica. vehículo, mural, examen, catapulta.

50 f) Estructura. Conceptos teóricos, abstracciones, elementos intangibles estáticos y teorías que componen o describen los sistemas socioeconómicos, sociopolítico e ideológico. g) Atributos. Características perceptibles y mensurables de los objetos y artefactos, incluyendo aquellas que no son separables como los componentes diferenciados. Interesa el tamaño, forma, color, textura y dureza.

51 Relaciones Semánticas
Indicar relaciones semánticas ayuda en varios aspectos de la gestión de información: Controlando si un término debe ser utilizado en la indización de un item dado o en la formulación de una búsqueda  especifica. Eligiendo el  correcto nivel de generalidad en la indización y busqueda. Permitiendo la generalización o especificación de la búsqueda

52 Relaciones semánticas entre los términos
Las relaciones semánticas principales indicadas entre los descriptores en un tesauro son las relaciones jerárquicas y relaciones no-jerárquicas. Conexiones TG y TE Las conexiones de TG Término Genérico y de TE Término Específico se utilizan para indicar relaciones jerárquicas. En una relación jerárquica un término está por encima de otro término porque es más amplio en alcance. Al desarrollar un tesauro, es a menudo util resolver las relaciones jerárquicas primero.

53 Cuándo hay una relación de término Genérico/Específico?
Género/Especie A es un término genérico de B (y  B es un término específico de A) si todas las cosas incluidas en la clase nombrada por el término B se incluyen en la clase nombrada por el término A. Por ejemplo,  " ANIMALES " es un término más amplio que " GATOS " (y " GATOS " es un término más estrecho que "ANIMALES") porque todos los gatos son animales. Por otra parte, los " ANIMALES DOMÉSTICOS " no son un término más amplio que " GATOS " porque no todos los gatos son animales domésticos.

54 Jerarquía Parte-Todo A es un término genérico de B (y  B es un término específico de A) si todo lo incluido en la clase nombrada por el término B es una parte de algo incluido en la clase nombrada por el término A. Por ejemplo, en un tesauro médico,  " CABEZA " puede ser un término genérico de  "NARIZ " porque la nariz es normalmente parte de la cabeza. Por otra parte,  " BOSQUES " no sería un término genérico de   " ÁRBOLES " porque no todos los árboles son parte de un bosque.

55 Referencias TG, TE Cuál es el lazo entre TG y el TE?
Normalmente, TG y TE son conexiones biunívocas. Es decir si X es un término más amplio que Y, entonces Y es un término más concreto que X, y viceversa. Por ejemplo, si un tesauro contiene la entrada PLUMAS     TG MATERIALES DE  ESCRITURA también aparecerá MATERIALES DE ESCRITURA     TE PLUMAS

56 ¿Cuántos TG puede tener un decriptor ?
Un tesauro es generalmente " polijerárquico "; esto significa que un término puede tener más de un término inmediatamente más amplio y más de una referencia de TG. Por ejemplo, PSICOLOGÍA SOCIAL     TG PSICOLOGÍA     TG SOCIOLOGÍA     La polijerarquía evita discusiones sobre el " mejor " término genérico. Algunos términos en un tesauro no tienen ningún término más amplio y por tanto ninguna referencia de TG. Tales términos son generalmente bastante amplios en el significado, por lo menos dentro del tema cubierto por el tesauro. Por ejemplo, en un tesauro de  deportes, " DEPORTES " no puede tener ningún término más amplio.

57 Relaciones asociativas: Términos relacionados.
Una referencia TR se utiliza para la relación semántica no-jerárquicas en un tesauro. Para decidir si debe haber una referencia del RT entre dos términos preferidos X y Y que no tengan una relación jerárquica, se puede utilizar la prueba siguiente: ¿Se debería recordar a un indizador o usuario que  quiere utilizar el descriptor X,  la existencia del descriptor Y?

58 Categorías semánticas para TR
Ejemplos Tiempo LITERATURA DE EVASION       TR TIEMPO DE OCIO Lugar IDIOMAS EXTRANJEROS        TR LABORATORIOS DE IDIOMAS Producto CAMARAS FOTOGRAFICAS        TR FOTOGRAFÍAS CONSTRUCCIÓN NAVAL          TR NAVES Causa VANDALISMO TR HOSTILIDAD Agente ENTRENAMIENTO         TR ENTRENADOR

59 Categorías semánticas para TR
Ejemplos Dispositivo PINTURA          TR PINCELES Aplicación ORDENADORES            TR TRATAMIENTO DE TEXTOS   Parte VEHICULOS              TR RUEDAS  Complemento PADRES             TR NIÑOS

60 Notas de alcance Las notas de alcance pueden dar definiciones
indicar qué conceptos son incluidos o excluidos referirse a otros términos proporcionar instrucciones adicionales

61

62 Descriptor: Campo conceptual (código): N. Aclaratoria o aplicación:
Campo conceptual (código): N. Aclaratoria o aplicación: Equivalencias (UP): Macrocategoría a la que pertenece: Observaciones: Relaciones asociativas: Relación de jerarquía (incluye todo/parte y género/clase). Relación actancial Relación modal (acontecimientos, actividades, procesos y técnicas) Relación de atributo Relación estructural (plantea alguna duda en su aplicación, si bien deriva de las facetas planteadas) Relación de materia/causal Relación de objetos/productos Relación locativa de espacio Relación temporal (dudas sobre este vector)

63 5. Etapas Finales Análisis crítico Test de prueba Aplicación Revisión

64 Análisis y edición Discutir el índice clasificado con usuarios y expertos. Asignar símbolos notacionales Producir el Thesaurus y los Índices

65 Análisis y edición (cont.)
Elaborar y Chequear las referencias cruzadas. Producir Versión de Test. Probar la indización. Modificar si es necesario. Producir versión definitiva.

66 Evaluación del Thesaurus
Asignar descriptores a una muestra de nuevos documentos (en la medida suficiente para extraer conclusiones sólidas) Evaluar la recuperación utilizando muestras de cuestiones y viendo la eficacia del thesaurus

67 Construcción de Thesaurus
Seleccionar fuentes Asignar códigos Seleccionar términos Registrar los términos Ordenar términos Fusionar término idénticos Definir macroestructura Fusionar términos en la misma clase conceptual Ordenar términos en la macroestructura Definir subcampos Elaborar estructura detallada preferidos ¿Todos los subcampos están completos? ¿Todos los genérico s están completos? Mejorar macroestructura No Imprimir índice clasificado Discutir con expertos Y usuarios Seleccionar descriptores y Probar muestras Producir el thesaurus Elaborar referencias Asignar notación Revisión y prueba ¿Demasiadas modificaciones? Revisar si es necesario

68 Proceso de indización Identificación de conceptos
Selección de términos (vía thesaurus) Asignación de descriptores

69 Proceso de indización Seleccionar términos alternativos para
expresar el concepto NO ¿Estarían los conceptos mejor representados? Hay otros conceptos? Considerar el término preferido Seleccionar términos preferidos Buscar término que denote el concepto Examinar el Documento e identificar conceptos significativos el primer Concepto Término preferido? Inicio NO SI Contiene el Thesaurus un término para el concepto otros términos (TG, TE, TR) Admitir el nuevo término en el thesaurus ¿Puede expresarse el concepto por una combinación de términos? ? Considerar cada término Asignar descriptores al documento Preferir término(s) alternativos Final ¿Vale El término? ISO 5963, PNE 50021

70 Revisión y actualización del Thesaurus
Siempre habrá nuevos conceptos, productos, o expresiones que será necesario añadir al thesaurus. Establecer un calendario regular de revisión y actualización. Coleccionar dudas, problemas, etc. para utilizarlos en la revisión del thesaurus


Descargar ppt "Diseño y Desarrollo de Thesaurus"

Presentaciones similares


Anuncios Google