La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto.

Presentaciones similares


Presentación del tema: "Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto."— Transcripción de la presentación:

1 Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto Tardelli Operación de Fuentes de Información, Coordinador BIREME/OPS/OMS 3a Reunión de Coordinación Regional de la BVS, Puebla, México, 5-6/Mayo/2003

2 Motivación Métodos El paper Salton 1988 La iniciativa Indexing Initiative de la NLM La Interface CISIS Aplicaciones en la BVS Conclusiones Agenda

3 Motivación [$$.$$$.$$$] [búsqueda por modelo booleano x resultado ordenado por relevancia] Métodos El paper Salton 1988 [contexto de su afirmación; la idea, similaridad, pesos] La iniciativa Indexing Initiative [5 métodos; hemos usado 1,5] Utilitarios de la Interface CISIS [nueva funcionalidad wtrig para similaridad] Aplicaciones en la BVS [Indización, similaridad de documentos, links y mapeo] Conclusiones [mas rápido, económico, no requiere capacitación de IH, sistemático] [adecuación a la RI por modelo vetorial = precision + recall] [dominio de la tecnología] Resumen

4 Nosotros x usuario nosotros: busqueda booleana por términos del VC de la IH (precisión) ? (bibliotecarios or informáticos or periodistas científicos) and (Centro Latinoamericano y del Caribe de Información en Ciencias de la Salud or Centro especializado and gestión and información científico técnica and Organización Panamericana de la Salud or BIREME or BIblioteca REgional de MEdicina or modelo de cooperación técnica or BVS or Biblioteca Virtual en Salud) el usuario: descripción de la query (o sus palabras en un box muy pequeño!) “fatores humanos envolucrados en el proceso de incorporar metodologías y tecnologías a la organizaciones y personas que participan del proceso de informar y diseminar contenidos científico técnicos en salud en la América Latina y Caribe?”

5 “The problems of disease are more complicated and difficult than any others with which the trained mind has to grapple… Variability is the law of life. As no two faces are the same, so no two bodies are alike, and no two individuals react alike and behave under the abnormal conditions which we know as disease. This is the fundamental difficulty in the education of the physician, and one which he or she may never grasp… … Probability is the guide of life.” Willian Osler. Medical Education. In: Counsels and Ideals, 2nd ed. Houghton Mifflin, 1921 Variabilidad y probabilidad grapple: Dicionário Inglês-Português Collins Gem, p.116 ; grasp: p.116 el teste ergométrico (enfermedad arterial coronariana) N Engl J Med 1979; 300:1350-58 diabetes; mellitus hipertensión; coronariopatia; dieta; sal

6 El paper Salton 1988

7 D1=(humano,masculino) Q=(humano,feminino) D2=(humano) D3=(humano,feminino) El paper Salton 1988 / La idea

8 El paper Salton 1988 / Similaridad D2=(humano,1 ; masculino,0 ; feminino,0) Similaridad(Q,D2) = 1 + 0 + 0 = 1Similaridad(Q,D3) = 1 + 0 + 1 = 2 D3=(humano,1 ; masculino,0 ; feminino,1) Similaridad(Q,D1) = 1 + 0 + 0 = 1 D1=(humano,1 ; masculino,1 ; feminino,0) Q=(humano,1 ; masculino,0 ; feminino,1)

9 El paper Salton 1988 / Como calcular los pesos TF (term frequency) x IDF (inverse doc frequency) x Normalization

10 La iniciativa Indexing Initiative de la NLM http://ii.nlm.nih.gov

11 La iniciativa Indexing Initiative / Esquema general

12 La iniciativa Indexing Initiative / Demo

13

14 Utilitarios de la Interface CISIS C library para desarrollo de aplicaciones con bases de dados CDS/ISIS 1991: LILACS/CD-ROM 13a edición programa MX y otros utilitários, para mantenimiento de BD CISIS operación de LILACS, MEDLINE, …, SciELO programa WWWISIS, ISIS_DLL, WinISIS (i/o) programa WTRIG1 para generación de vectores de términos trigramas o palabras del resultado de formatación (o desde archivos XML) programa WTRIG2 para calcular la similaridad de “documentos” resultados son grabados en bases de dados (o XML) Aplicaciones..

15

16

17

18

19

20

21

22 Conclusiones Dominio de la tecnología, hoy día con la Interface CISIS Indización automática es: mas económica, mas ágil y no requiere la capacitación de los IH sistemática => reprodutibilidad, comparabilidad Búsqueda por el modelo vectorial mezcla precisión + recall como una expresión con and para los primeros documentos recuperados como una expresión con or por defecto Aplicaciones con similaridad por trigramas y MV son inúmeras buscar texto de documentos desde nombre+titulo de CVs mapeo de nombres de revistas de las citas en la base ISSN vinculación de fuentes de información de la BVS!


Descargar ppt "Indización automática y “vector mining”: herramientas para recuperación y vinculación de información en las fuentes de información de la BVS Adalberto."

Presentaciones similares


Anuncios Google