PLAN DE IMPULSO DE LAS TECNOLOGÍAS DEL LENGUAJE

Slides:



Advertisements
Presentaciones similares
M Ó DULO DE BIBLIOTECA DIGITAL: - Repositorio - Manuscritos y Fondo Antiguo M ª del Puy Salvador Fern á ndez Noviembre 2010.
Advertisements

Alfredo Ferrer Marco Kampal Universidad de Zaragoza Ingeniero informático Santa Cruz, 2015 Análisis de las Redes Colaborativas en el ámbito.
PLAN ESTRATÉGICO Página 2 Elaborado contando con las opiniones de todos los Grupos de Interés: desempleados, empleadores, agentes sociales.
CVN - Currículum Vítae Normalizado Currículum Vítae Normalizado de I+D+i (CVN)septiembre Universidad de Oviedo - Septiembre 2009.
Web: Teléfono: EL OBSERVATORIO VASCO DE LA CULTURA PROYECTO ESTRATÉGICO Carmona,
MSc. María Josefa Peralta González, Departamento de Ciencias de la Información, Facultad de Ingeniería Industrial y Turismo; Dr. C.
Sistema de Información Científica Redalyc II WORKSHOP UNIVERCIENCIA – 2009 Novas possibilidades de indexação de periódicos científicos A Rede Redalyc aumentando.
Ficha de producto Beneficios  UNIVERSITAS XXI – INVESTIGACIÓN es un producto completo e integrado que optimiza los procesos de gestión de la investigación,
1. ACTIVIDAD 2 INTERCONEXIÓN I+D+i 2.1. DISEÑO, PRODUCCIÓN Y PATROCINIO DE EVENTOS  CONGRESO INTERNACIONAL DE INNOVACIÓN DEPORTIVA EN UN MARCO TRANSFRONTERIZO.
Centro Virtual de Recursos para el apoyo al proceso de formación en la Escuela Latinoamericana de Medicina Lic. Juan M. Gómez J´ Disciplina Informática.
Servicios Científicos y Tecnológicos Actividades que utilizan conocimientos científicos y tecnológicos existentes Se realizan mediante el empleo demostrado.
El IV Informe Sobre las Políticas Locales de Lucha Contra el Cambio Climático ha sido realizado por la Red Española de Ciudades por el Clima, gracias a.
Indicadores de investigación
Inventario de Fuentes de Datos Abiertos de México
Reunión Metodológica HOSPITALES , POLICLÍNICO Y OTRAS INSTITUCIONES
RED INTERNACIONAL PARA LAS PYMES
Seminario de Informática en Salud
Servicios de Google para una mejor recuperación de la información
JORNADA DE INTRODUCCION A LAS HUMANIDADES DIGITALES
INNOVACIÓN, PRODUCTIVIDAD Y COMETITIVIDAD PARA UNA NUEVA ECONOMIA
Balance Implementación BI Consejo Nacional de Operación
Criterios para la evaluación de la información
Consejería de Industria, Empresa e Innovación
El proceso de Investigación y búsqueda de Información.
Dr. Pedro Salcedo L. - Dr. Oscar Nail K. (c) Mg. Carla Arzola Z. Chile
ENFOQUES DE CONSERVACIÓN
TECNOLOGIA Y SU RELACION CON OTRAS AREAS DE CONOCIMIENTO
Lic. Claudia Román Fernández
Recursos generales del traductor
Características generales
Jaime Martel Congreso Conocimiento Abierto, 12/Nov/2015.
SAF PROYECTO IDE.
“NOMBRE DE LA BUENA PRÁCTICA EDUCATIVA”
RODRÍGUEZ CARRANZA SARAÍ ABI
Introducción a la Lingüística de corpus
Zaida Chinchilla-Rodríguez y Sandra Miguel
Módulo: Lenguaje y comunicación
LOS SISTEMAS DE INFORMACIÓN GEOGRÁFICA Y LA GEOVISUALIZACIÓN EN LA CARACTERIZACIÓN DEL CONTEXTO DE ALCOHOL EN LA CIUDAD DE MADRID AUTORA: Macarena García.
Parte I: Introducción a la Documentación Jurídica
SEGURIDAD PACIENTE – PROCEDIMIENTOS DE SEGURIDAD
Compra Pública Verde como Oportunidad para la Empresa
El espacio conceptual para la investigación de la Promoción y la Gestión Cultural CAPÍTULO 4 Las áreas temáticas son el centro de la propuesta de un posible.
POLITICAS PÚBLICAS EN ACCESIBILIDAD WEB AGENCIA DE DESARROLLO ECONÓMICO DE LA RIOJA Logroño, 20 de octubre de 2010.
Institute for Scientific Information
Nivel de Riesgos del Poder Ejecutivo
ScienceDirect Tutorial.
EUROsociAL I y las finanzas públicas
TECNOLOGIES DE L’ APRENENTATGE I EL CONEIXEMENT
Sesion Propuestas de Acuerdos
Institute for Scientific Information
Centro Internacional de Investigaciones para el Desarrollo (IDRC)
INDICADORES CIENCIA Y TECNOLOGIA
DESAFIOS TECNOLÓGICOS DE LA CARRETERA
¿Qué es el Sistema Estatal Anticorrupción de Jalisco y su Secretaría Ejecutiva? Septiembre 2018.
PLAN DE NEGOCIO Alkabani Rodríguez, Raquel
Biblioteca de Educación Recursos-e en educación
EL PLAN ESTRATÉGICO : PLANES DE GESTIÓN
WOK para investigadores: Researcher ID
Relevamiento de las Cajas de Previsión y Seguridad Social para Profesionales de la República Argentina Secretaria de Seguridad Social de la Nación Organización.
PROGRAMA DE POPULARIZACIÓN DE LA CIENCIA, INNOVACIÓN Y TECNOLOGÍA
FONDO SECTORIAL CONACYT - INEGI
La figura del tutor de e-learning
Segunda Sesión Ordinaria
El Sistema de Administración del Programa de Mejora de la Gestión (SAPMG) Subsecretaría de la Función Pública Noviembre, 2011.
Fondo Sectorial de Investigación para la Evaluación de la Educación CONACYT-INEE Este Fondo constituye para el INEE, un instrumento privilegiado para consolidar.
Generalidades Fondos de la Agencia Española de Cooperación Internacional, se opera a través del Ministerio de Trabajo de Nicaragua Objetivo general: aumentar.
RECERCA, FORMACIÓ i TECNOLOGIES DE L’ APRENENTATGE I EL CONEIXEMENT
IMPLANTACIÓN DEL II PLAN DE IGUALDAD DE LA USC: ANÁLISIS ANUAL BASADO EN LOS INDICADORES DE SEGUIMIENTO XII ENCUENTRO RED DE UNIDADES DE IGUALDAD DE GÉNERO.
Nadia Tonello Head of Data Management
CONACYT– Gobiernos de los Estados y Municipios
Transcripción de la presentación:

PLAN DE IMPULSO DE LAS TECNOLOGÍAS DEL LENGUAJE Corpus Viewer, una herramienta para el análisis de políticas públicas en I+D y la asistencia a la evaluación de la innovación https://www.plantl.gob.es/tecnologias-lenguaje/actividades/plataformas/Paginas/corpus-viewer.aspx David Pérez Fernández, Doaa Samy, Jerónimo Arenas-García, Inés Rodríguez Secretaría de Estado para el Avance Digital 29 de mayo de 2019

Herramientas y demostradores Índice ¿Qué es Corpus Viewer? Técnicas empleadas Herramientas y demostradores

1. ¿Qué es Corpus Viewer? Plan de Impulso de Tecnologías del Lenguaje Fomento de las TL: PLN, traducción automática y sistemas conversacionales Desarrollos horizontales y proyectos Faro Corpus Viewer: Plataforma en producción en la Secretaría de Estado para el Avance Digital (SEAD) Desarrollo desde 2016, ahora en uso por SEAD, FECYT, SEUIDI, AEI Incorpora desarrollos en colaboración con grupos de investigación universitarios Plataforma de propósito general. Actualmente contiene fundamentalmente corpus de datos relacionados con la I+D

Fuentes de Datos Corpus Docs en corpus Horizonte Temporal Proyectos del Plan Estatal de I+D+i 110 K 2004 -2016 Proyectos europeos de I+D (CORDIS) 78 K 1984 - 2018 Proyectos estadounidenses de I+D (NSF) 150 K 1985 - 2017 Proyectos estadounidenses de I+D en salud (NIH) 1,8 M 1983 - 2017 Solicitudes de patentes (PATSTAT) 90 M 1898 - 2017 Artículos científicos con contribuciones de autores afiliados a una institución española (SCOPUS) 680 K 2006 - 2018

Casos de Uso Los usuarios de la plataforma actual incluyen: Responsables de políticas de I+D Gestores y coordinadores de programas de I+D (implementación de políticas) Evaluadores de subvenciones y ayudas Investigadores, organismos públicos de investigación, empresas

Casos de Uso (II) Identificación automática de áreas en corpus de I+D+i Análisis, evolución, hibridación entre áreas Agregación de metadatos, visualización tipo BI con integración de tópicos Comparación geográfica de áreas de conocimiento y financiación de I+D+i Perfilado de agentes de I+D (organizaciones, investigadores y empresas) Ayuda en la evaluación del impacto de las políticas públicas

2. Técnicas empleadas Pipeline de PLN escalable y Traducción automática de grandes corpus Indexación optimizada en columnas y texto para búsquedas eficientes y consultas con filtrado de metadatos (SolR) Clasificación automática de documentos según taxonomías disponibles (deep learning). Modelado de tópicos / inferencia de tópicos

2. Técnicas empleadas (II) Modelado de tópicos Técnicas estadísticas convencionales (LDA, CTM) Técnicas de análisis y seguimiento temporal Detección de tópicos emergentes y medida del lead-lag Esquemas jerárquicos. Análisis de “grano fino”

3. Herramientas y demostradores Sistema de recuperación de información basado en similitud de documentos (semántica y BM25) Caracterización de documentos (publicaciones, ayudas) Porcentajes de texto de las secciones técnicas de la solicitud referidos a cada tópico: 62% al tópico “Big data” 17% al tópico “Certificaciones” 8% al tópico “Portales web” 6% al tópico “Investigación” 4% al tópico “Semántica” Más práctico con modelos pequeños (< 25 tópicos)

Detección de copias y fraude Permite encontrar pares de documentos dentro del corpus que tienen una similitud alta: Uno podría ser una copia de otro Uno podría ser una reescritura de otro Simplemente ambos documentos tratan temas similares Al seleccionar una pareja se muestran pareados los textos de ambos documentos para poder compararlos Resultados más precisos con modelos de tópicos grandes (> 50 tópicos)

Dashboards personalizados Perfilado automático y desambiguación de los actores clave del I+D+i según su producción. Tableros de instrumentos mejorados para analizar la distribución del I+D+i según metadatos, incluida el área geográfica. file:///Users/jarenas/github/demostradores/IA/IA_BI.html http://www.tsc.uc3m.es/~jarenas/IA/IA_BI.html

Contribución española en WSD y entidades nombradas Análisis a partir de publicaciones en abierto de Procesamiento de Lenguaje Natural El estudio completo se presentará en el congreso de la SEPLN Análisis de tópicos -> grafo semántico -> detección de comunidades Representamos la comunidad más numerosa (3800 + papers) Incremento notable de producción científica en semánticas latentes y embeddings Producción española resaltada en color azul

www.PlanTL.gob.es PlanTecnologiasLenguaje@mineco.es