STANALYST ayuda para el análisis de la información Xavier Polanco CNRS-INIST, France
Santiago de ChileII Sem. Intern /01/20062 Contexto ICyT Personas –autores, investigadores, ingenieros, … Textos –publicaciones, p.ej. artículos y patentes Conocimientos –en los sujetos o personas –en los textos
Santiago de ChileII Sem. Intern /01/20063 Concepción del sistema Un sistema informático para facilitar el trabajo humano de análisis de la información en CyT Análisis automatizado: –estadística descriptiva –Indicadores estadísticos –procesamiento del lenguaje (PAL) & indización automática (textos) –Indicadores lingüísticos et de terminología –clasificación automática –Indicadores temáticos o centros de interés
Santiago de ChileII Sem. Intern /01/20064 Descripción del sistema Navigador – Interface usuario 2 BIBLIOMETRIA Estadísticas descriptivas 1 CORPUS Interrogación y Datos 3 INDIZACION Manual o Automática 4 INFOMETRIA Clasificación y Cartografía Bases de datosRecursos terminológicos Proyecto Acceso e identificación
Santiago de ChileII Sem. Intern /01/20065 Consorcio: BIREME (Brasil) CAICYT (Argentina) CNRS-INIST (Francia) CONICYT (Chile) RICYT (América) Con el apoyo del Ministère des Affaires Etrangères de France Proyecto en curso: Una nueva versión multibases capaz de explotar las bases SciELO, LILACS, MEDLINE, además de las bases FRANCIS y PASCAL
Santiago de ChileII Sem. Intern /01/20066 Ejemplo de la organización del sistema en módulos y de las interfaces de trabajo
Santiago de ChileII Sem. Intern /01/20067 Datos: Descripción estadística Primera etapa, el análisis de los datos Frecuencia y distribución sobre: –Datos bibliográficos: –Tipos de documentos –Fecha de publicación –Lenguas –País de publicación –Revistas (journals) (ley de Bradford) –Nombre de artículos por revista –País de publicación –Autores y afiliaciones institucionales (ley de Lotka) –Palabras claves (ley de Zipf)
Santiago de ChileII Sem. Intern /01/20068 PAL e Indización automática Reconocimiento de términos en los textos en función de recursos terminológicos Lematización y etiquetaje Analizador morfológico-sintáctico (FASTR) Variación morfológica-sintáctica (coordinación, inserción, permutación) Indización automática Control y validación
Santiago de ChileII Sem. Intern /01/20069 Clasificación o clustering Clasificación automática no supervisada a partir de D(n,p) Dos métodos: –NDOC clasificación no jerárquica (k-means axiales) –SDOC clasificación jerárquica ascendente (co-word analysis) Cartografía: Mapas (ACP, D/C)
Santiago de ChileII Sem. Intern /01/ ) D(n,p) 2) A(ij) 3) Ci, i =1…m 4) G(Cm,A(ij)) 5) M(C[d,c]) Y = Densidad X = Centralidad
Santiago de ChileII Sem. Intern /01/ Analizar ~ Clasificar ~ Ordenar "Le savant doit ordonner ; on fait la science avec des faits comme une maison avec de pierres ; mais une accumulation de faits n’est pas plus une science qu’un tas de pierres n’est pas une maison" Henri Poicaré ( ), La Science et l’hypothèse (1902)
Santiago de ChileII Sem. Intern /01/ Muchas gracias ¿preguntas?