PLAN DE IMPULSO DE LAS TECNOLOGÍAS DEL LENGUAJE

Slides:

Advertisements

Presentaciones similares

M Ó DULO DE BIBLIOTECA DIGITAL: - Repositorio - Manuscritos y Fondo Antiguo M ª del Puy Salvador Fern á ndez Noviembre 2010.

Advertisements

Alfredo Ferrer Marco Kampal Universidad de Zaragoza Ingeniero informático Santa Cruz, 2015 Análisis de las Redes Colaborativas en el ámbito.

PLAN ESTRATÉGICO Página 2 Elaborado contando con las opiniones de todos los Grupos de Interés: desempleados, empleadores, agentes sociales.

CVN - Currículum Vítae Normalizado Currículum Vítae Normalizado de I+D+i (CVN)septiembre Universidad de Oviedo - Septiembre 2009.

Web: Teléfono: EL OBSERVATORIO VASCO DE LA CULTURA PROYECTO ESTRATÉGICO Carmona,

MSc. María Josefa Peralta González, Departamento de Ciencias de la Información, Facultad de Ingeniería Industrial y Turismo; Dr. C.

Sistema de Información Científica Redalyc II WORKSHOP UNIVERCIENCIA – 2009 Novas possibilidades de indexação de periódicos científicos A Rede Redalyc aumentando.

Ficha de producto Beneficios  UNIVERSITAS XXI – INVESTIGACIÓN es un producto completo e integrado que optimiza los procesos de gestión de la investigación,

1. ACTIVIDAD 2 INTERCONEXIÓN I+D+i 2.1. DISEÑO, PRODUCCIÓN Y PATROCINIO DE EVENTOS  CONGRESO INTERNACIONAL DE INNOVACIÓN DEPORTIVA EN UN MARCO TRANSFRONTERIZO.

Centro Virtual de Recursos para el apoyo al proceso de formación en la Escuela Latinoamericana de Medicina Lic. Juan M. Gómez J´ Disciplina Informática.

Servicios Científicos y Tecnológicos Actividades que utilizan conocimientos científicos y tecnológicos existentes Se realizan mediante el empleo demostrado.

El IV Informe Sobre las Políticas Locales de Lucha Contra el Cambio Climático ha sido realizado por la Red Española de Ciudades por el Clima, gracias a.

Indicadores de investigación

Inventario de Fuentes de Datos Abiertos de México

Reunión Metodológica HOSPITALES , POLICLÍNICO Y OTRAS INSTITUCIONES

RED INTERNACIONAL PARA LAS PYMES

Seminario de Informática en Salud

Servicios de Google para una mejor recuperación de la información

JORNADA DE INTRODUCCION A LAS HUMANIDADES DIGITALES

INNOVACIÓN, PRODUCTIVIDAD Y COMETITIVIDAD PARA UNA NUEVA ECONOMIA

Balance Implementación BI Consejo Nacional de Operación

Criterios para la evaluación de la información

Consejería de Industria, Empresa e Innovación

El proceso de Investigación y búsqueda de Información.

Dr. Pedro Salcedo L. - Dr. Oscar Nail K. (c) Mg. Carla Arzola Z. Chile

ENFOQUES DE CONSERVACIÓN

TECNOLOGIA Y SU RELACION CON OTRAS AREAS DE CONOCIMIENTO

Lic. Claudia Román Fernández

Recursos generales del traductor

Características generales

Jaime Martel Congreso Conocimiento Abierto, 12/Nov/2015.

SAF PROYECTO IDE.

“NOMBRE DE LA BUENA PRÁCTICA EDUCATIVA”

RODRÍGUEZ CARRANZA SARAÍ ABI

Introducción a la Lingüística de corpus

Zaida Chinchilla-Rodríguez y Sandra Miguel

Módulo: Lenguaje y comunicación

LOS SISTEMAS DE INFORMACIÓN GEOGRÁFICA Y LA GEOVISUALIZACIÓN EN LA CARACTERIZACIÓN DEL CONTEXTO DE ALCOHOL EN LA CIUDAD DE MADRID AUTORA: Macarena García.

Parte I: Introducción a la Documentación Jurídica

SEGURIDAD PACIENTE – PROCEDIMIENTOS DE SEGURIDAD

Compra Pública Verde como Oportunidad para la Empresa

El espacio conceptual para la investigación de la Promoción y la Gestión Cultural CAPÍTULO 4 Las áreas temáticas son el centro de la propuesta de un posible.

POLITICAS PÚBLICAS EN ACCESIBILIDAD WEB AGENCIA DE DESARROLLO ECONÓMICO DE LA RIOJA Logroño, 20 de octubre de 2010.

Institute for Scientific Information

Nivel de Riesgos del Poder Ejecutivo

ScienceDirect Tutorial.

EUROsociAL I y las finanzas públicas

TECNOLOGIES DE L’ APRENENTATGE I EL CONEIXEMENT

Sesion Propuestas de Acuerdos

Institute for Scientific Information

Centro Internacional de Investigaciones para el Desarrollo (IDRC)

INDICADORES CIENCIA Y TECNOLOGIA

DESAFIOS TECNOLÓGICOS DE LA CARRETERA

¿Qué es el Sistema Estatal Anticorrupción de Jalisco y su Secretaría Ejecutiva? Septiembre 2018.

PLAN DE NEGOCIO Alkabani Rodríguez, Raquel

Biblioteca de Educación Recursos-e en educación

EL PLAN ESTRATÉGICO : PLANES DE GESTIÓN

WOK para investigadores: Researcher ID

Relevamiento de las Cajas de Previsión y Seguridad Social para Profesionales de la República Argentina Secretaria de Seguridad Social de la Nación Organización.

PROGRAMA DE POPULARIZACIÓN DE LA CIENCIA, INNOVACIÓN Y TECNOLOGÍA

FONDO SECTORIAL CONACYT - INEGI

La figura del tutor de e-learning

Segunda Sesión Ordinaria

El Sistema de Administración del Programa de Mejora de la Gestión (SAPMG) Subsecretaría de la Función Pública Noviembre, 2011.

Fondo Sectorial de Investigación para la Evaluación de la Educación CONACYT-INEE Este Fondo constituye para el INEE, un instrumento privilegiado para consolidar.

Generalidades Fondos de la Agencia Española de Cooperación Internacional, se opera a través del Ministerio de Trabajo de Nicaragua Objetivo general: aumentar.

RECERCA, FORMACIÓ i TECNOLOGIES DE L’ APRENENTATGE I EL CONEIXEMENT

IMPLANTACIÓN DEL II PLAN DE IGUALDAD DE LA USC: ANÁLISIS ANUAL BASADO EN LOS INDICADORES DE SEGUIMIENTO XII ENCUENTRO RED DE UNIDADES DE IGUALDAD DE GÉNERO.

Nadia Tonello Head of Data Management

CONACYT– Gobiernos de los Estados y Municipios

Transcripción de la presentación:

PLAN DE IMPULSO DE LAS TECNOLOGÍAS DEL LENGUAJE Corpus Viewer, una herramienta para el análisis de políticas públicas en I+D y la asistencia a la evaluación de la innovación https://www.plantl.gob.es/tecnologias-lenguaje/actividades/plataformas/Paginas/corpus-viewer.aspx David Pérez Fernández, Doaa Samy, Jerónimo Arenas-García, Inés Rodríguez Secretaría de Estado para el Avance Digital 29 de mayo de 2019

Herramientas y demostradores Índice ¿Qué es Corpus Viewer? Técnicas empleadas Herramientas y demostradores

1. ¿Qué es Corpus Viewer? Plan de Impulso de Tecnologías del Lenguaje Fomento de las TL: PLN, traducción automática y sistemas conversacionales Desarrollos horizontales y proyectos Faro Corpus Viewer: Plataforma en producción en la Secretaría de Estado para el Avance Digital (SEAD) Desarrollo desde 2016, ahora en uso por SEAD, FECYT, SEUIDI, AEI Incorpora desarrollos en colaboración con grupos de investigación universitarios Plataforma de propósito general. Actualmente contiene fundamentalmente corpus de datos relacionados con la I+D

Fuentes de Datos Corpus Docs en corpus Horizonte Temporal Proyectos del Plan Estatal de I+D+i 110 K 2004 -2016 Proyectos europeos de I+D (CORDIS) 78 K 1984 - 2018 Proyectos estadounidenses de I+D (NSF) 150 K 1985 - 2017 Proyectos estadounidenses de I+D en salud (NIH) 1,8 M 1983 - 2017 Solicitudes de patentes (PATSTAT) 90 M 1898 - 2017 Artículos científicos con contribuciones de autores afiliados a una institución española (SCOPUS) 680 K 2006 - 2018

Casos de Uso Los usuarios de la plataforma actual incluyen: Responsables de políticas de I+D Gestores y coordinadores de programas de I+D (implementación de políticas) Evaluadores de subvenciones y ayudas Investigadores, organismos públicos de investigación, empresas

Casos de Uso (II) Identificación automática de áreas en corpus de I+D+i Análisis, evolución, hibridación entre áreas Agregación de metadatos, visualización tipo BI con integración de tópicos Comparación geográfica de áreas de conocimiento y financiación de I+D+i Perfilado de agentes de I+D (organizaciones, investigadores y empresas) Ayuda en la evaluación del impacto de las políticas públicas

2. Técnicas empleadas Pipeline de PLN escalable y Traducción automática de grandes corpus Indexación optimizada en columnas y texto para búsquedas eficientes y consultas con filtrado de metadatos (SolR) Clasificación automática de documentos según taxonomías disponibles (deep learning). Modelado de tópicos / inferencia de tópicos

2. Técnicas empleadas (II) Modelado de tópicos Técnicas estadísticas convencionales (LDA, CTM) Técnicas de análisis y seguimiento temporal Detección de tópicos emergentes y medida del lead-lag Esquemas jerárquicos. Análisis de “grano fino”

3. Herramientas y demostradores Sistema de recuperación de información basado en similitud de documentos (semántica y BM25) Caracterización de documentos (publicaciones, ayudas) Porcentajes de texto de las secciones técnicas de la solicitud referidos a cada tópico: 62% al tópico “Big data” 17% al tópico “Certificaciones” 8% al tópico “Portales web” 6% al tópico “Investigación” 4% al tópico “Semántica” Más práctico con modelos pequeños (< 25 tópicos)

Detección de copias y fraude Permite encontrar pares de documentos dentro del corpus que tienen una similitud alta: Uno podría ser una copia de otro Uno podría ser una reescritura de otro Simplemente ambos documentos tratan temas similares Al seleccionar una pareja se muestran pareados los textos de ambos documentos para poder compararlos Resultados más precisos con modelos de tópicos grandes (> 50 tópicos)

Dashboards personalizados Perfilado automático y desambiguación de los actores clave del I+D+i según su producción. Tableros de instrumentos mejorados para analizar la distribución del I+D+i según metadatos, incluida el área geográfica. file:///Users/jarenas/github/demostradores/IA/IA_BI.html http://www.tsc.uc3m.es/~jarenas/IA/IA_BI.html

Contribución española en WSD y entidades nombradas Análisis a partir de publicaciones en abierto de Procesamiento de Lenguaje Natural El estudio completo se presentará en el congreso de la SEPLN Análisis de tópicos -> grafo semántico -> detección de comunidades Representamos la comunidad más numerosa (3800 + papers) Incremento notable de producción científica en semánticas latentes y embeddings Producción española resaltada en color azul

www.PlanTL.gob.es PlanTecnologiasLenguaje@mineco.es