INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur.

Slides:



Advertisements
Presentaciones similares
TUTORIAL PARA GESTIONAR EL ESPACIO PERSONALIZADO DE UNA ASOCIACIÓN ENERO 2012.
Advertisements

Sistema Organizacional en línea para Administradores y Gerentes de Proyecto Gerente Contratista ConsultorCliente EnVivo Punto central de Coordinación de.
Qué es una Comunidad? Comunidades… … compartir conocimientos, noticias y documentación entre agrupaciones de usuarios en torno a un tema determinado. Pestaña.
Sistema Único de Beneficiarios de Educación Superior.
© Hoplite Software Qué es INPRESS INPRESS es una herramienta de trabajo on-line que facilita la gestión integral de los diferentes procesos de comunicación,
Contenidos 1.Cómo ingresar 2.Cómo crear un nuevo sitio 3.Editar plantilla de página principal 4.Edición de páginas 5.Crear página nueva 6.Estructura del.
Solución para Control de Presencia Empleados
Gloria Guirado Departamento de Formación La comunidad de Visual Chart V.
Tutorial HeinOnline. Subscribed Libraries Enlaces directos a las colecciones. Colecciones de revistas académicas, más de 1,250, en Derecho con una amplia.
Discovery Service (EDS)
Facultad de Traducción y Documentación
Biblioteca.unizar.es Produce Base de datos Econlit Administra.
Buscar bibliografía en
Facultad de Odontología Biblioteca Catálogos de la BUC: Cisne, Dioscórides, Compludoc, Complured.
Aplicaciones en línea:aquellas aplicaciones que los usuarios pueden utilizar accediendo a un servidor web a través de Internet o de una intranet mediante.
Guía del Catálogo de la Biblioteca.
El portal de recursos electrónicos de la UAM
Curso Administrativo OTEC Unidad II : Configuración de Cursos Curso creado por : Libro de Clases Electrónico (LCE) ACTUALIZADO
Support.ebsco.com Tutorial de Mi EBSCOhost Tutorial.
DISEÑO DE SITIOS WEB FRONTPAGE 2003.
Actividad 3: Estructura de un CMS
Conocimiento Básico de la Web. 1(C) Inecor Informática
Manual de Ayuda para el usuario del ing Explorer.
Es un conjunto de productos que permite crear distintos tipos de documentos, trabajar en ellos con otros usuarios en tiempo real y almacenar.
En el menú de acceso, pon el nombre de usuario y la contraseña facilitados por el administrador.
POWERPOINT.
SITIO, BITÁCORA Y AULA VIRTUAL Trabajo sobre el espacio de Aula Virtual. Trabajo sobre aula virtual de prueba y elaboración de aula virtual de asignatura.
1 Módulo 4. Gestión de páginas Creación de Capacidad para una Participación Eficaz en el Centro de Intercambio de Información sobre Seguridad de la Biotecnología.
MENU 1.¿Que es una wiki? 2.¿Cual es el objetivo de una wiki? 3.¿Cuales son las ventajas y desventajas de crear una wiki? 4.¿Explica como crear una wiki.
Introducción al Lenguaje. ¿Qué es PHP? O Es un lenguaje de programación que es interpretado por un servidor web. O El lenguaje es genérico. PHP está orientado.
Crea tu propio Edublog Comunicación Educativa. Producto a diseñar Un Blog en Internet con entradas en video, documentos en línea, diapositivas, accesos.
Camilo millan Daniela zuluaga Natalia ramirez. wikis El origen de los wikis está en la comunidad de patrones de diseño, cuyos integrantes los utilizaron.
Ingresa a Ingresas el nombre de tu pagina, debe estar relacionado con el contenido. Ingresas tu correo electrónico, te llegara un mensaje.
Tecnologías para el Aprendizaje
Nombre: Josselyn Peña Curso: 1° “D”. Este manual de introducción a Wordpress ha sido elaborado con la intención de ofrecer la información necesaria para.
Maestría en Tecnologías para la Gestión y Práctica Docente
1 Clase 3 Registro de resultados Tecnología de la Comunicación I.
Microsoft Word 2007 Manejo de Bibliografía y Citas , Combinación de correspondencia, Proteger y compartir documentos. Ing. Johanna Navarro.
MANUAL DE USO DE WORDPRESS NOMBRE: GUIDO GONZALEZ FECHA: 28/03/2015. CURSO: 1RO BACHILLERATO “C”
PLAN DE MEJORA DE LA PÁGINA WEB
Colegio de bachilleres plantel n°14
MANUAL DE USUARIO DE WORDPRESS. 1. CREAR EL BLOG  En la página Wordpress.com elegimos comenzar un blog y vamos siguiendo los pasos de registro: Rellenamos.
Manual de Wordpress Nombre: Nombre: Andy Orellana Fecha: Fecha: 01/04/2015 Curso: Curso: 1º de Bach. ¨A¨
En la página Wordpress.com elegimos comenzar un blog y vamos siguiendo los pasos de registro: Rellenamos el formulario con el nombre de usuario (sólo.
Internet y Navegadores Unidad 5. Fecha: 1 de agosto de 2011 Periodo# : 2 Objetivo: identificar el contenido de una dirección web Tema: Elementos de una.
Support.ebsco.com Búsqueda avanzada guiada de EBSCOhost Tutorial.
Web 2.0 Herramientas aplicadas a la educación.
CONBINACION DE CORRESPONDENCIA
Nombre: Johanna Paladines Curso: 1 de bachillerato “C”
Manual de usuari0 de Wordpress. Administración de Entradas Las entradas son noticias que se mostrarán en orden cronológico inverso en la página de inicio.
GUIA para la adscripción de centros o grupos de trabajo promotores y registro de experiencias en la Red de Experiencias de Educación para la Salud en la.
Guía de uso de e-Libro.
Capacitación INIA Portal Web INIA Agosto Newsletter Creación de nuevas newsletter con interfaz de usuarios Edición de newsletter desde interfaz.
Manual de uso de wordpress.  1: Abrir una cuenta:  2: Crear perfil de usuario: Nombre de usuario Contraseña, confirmación de.
Temas: El Ordenador | Redes | ¿Qué es un wiki? | Diseño Web | Programación informática | Hojas de cálculo El OrdenadorRedes¿Qué.
Del menú desplegable Send To (enviar a) se pueden seleccionar las opciones de File (archivo), Collections (colecciones), Order (ordenar), Clipboard (portapapeles),
Catálogo de Bibliotecas Públicas de Castilla y León
PORTAL DE PRESUPUESTOS DE LA COMUNIDAD DE MADRID Área de Administración y Difusión Electrónica.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
INSTITUTO TÉCNICO NACIONAL DE COMERCIO BLOG Es un sitio web que recopila cronológicamente textos o artículos de uno o varios autores, apareciendo primero.
En Internet: Los datos se transforman en información cuando una persona los lee, los comprende y los usa con algún fin: para estudiar, para trabajar,
WordPress. Nombre del Sitio Web Enlaces permanente.
WORD PRESS NOMBRE: BANNY CUENCA. Crear el blog En la página Wordpress.com elegimos comenzar un blog y vamos siguiendo los pasos de registro: Rellenamos.
MANUAL DE USO WORDPRESS. 1. CREAR EL BLOG En la página Wordpress.com elegimos comenzar un blog y vamos siguiendo los pasos de registro: Rellenamos el.
Unidad educativa calasanz Nombre: Diego Cuenca Curso: primero ¨D¨
1.ª Parte: Dónde y cómo buscar información.  Cuando se busca información sobre un tema, es necesario emplear una «estrategia de búsqueda» para optimizar.
Módulo III.- Recursos en UPSA VIRTUAL Este módulo explica como configurar los distintos recursos que pueden encontrarse en un curso de MOODLE. Recurso:
Usuarios Registrados. Portada como usuario registrado: catalogador y docente.
Plataforma agregadora de Moocs para universidades.
Construir un sistema de información en Internet e-conecta + zahén.
Transcripción de la presentación:

INQUIRE: EXTRACCIÓN DE INFORMACIÓN EN ARTÍCULOS MÉDICOS Felipe José Sellés Tur

¿Y esto cómo se hace? Cada día se coge la prensa escrita.

Se lee cuidadosamente buscando noticias relacionadas con la salud. ¿Y esto cómo se hace?

Cada día se coge la prensa escrita. Se lee cuidadosamente buscando noticias relacionadas con la salud. Se apunta manualmente cada noticia encontrada en una BD. Periódico Fecha Titular Personas relevantes Clasificación de la noticia Fuentes ¿Y esto cómo se hace?

Cada día se coge la prensa escrita. Se lee cuidadosamente buscando noticias relacionadas con la salud. Se apunta manualmente cada noticia encontrada en una BD. Periódico Fecha Titular Personas relevantes Clasificación de la noticia Fuentes ¿Y esto cómo se hace? ¿Y el texto de la noticia? ¿Productividad?

Cada día se coge la prensa escrita. Se lee cuidadosamente buscando noticias relacionadas con la salud. Se apunta manualmente cada noticia encontrada en una BD. Periódico Fecha Titular Personas relevantes Clasificación de la noticia Fuentes ¿Y esto cómo se hace? ¿Y el texto de la noticia? ¿Productividad?

Inquire Proyecto para la extracción de información de artículos médicos sobre los periódicos: El País, El Mundo, ABC, La Vanguardia y El Periódico y sus suplementos. Ampliación con extracción de noticias publicadas en la red: Crawler especializado Aplicación web para mostrar y gestionar las noticias descargadas Repositorio de artículos y diarios en pdf

¿Cómo funciona? Crawler especializado Extracción de los artículos Clasificación de noticias Extracción de la información relevante

¿Cómo funciona? Crawler especializado Extracción de los artículos Clasificación de noticias Extracción de la información relevante

Crawler especializado Utiliza webUtils, una librería que facilita las tareas de navegación y descarga web. Implementada por Javier Fernández Descarga a diario los pdf de los periódicos Accede a la web privada con login y password Navega hasta la sección de descargas Obtención de noticias Recorre las secciones de los portales online obteniendo ÚNICAMENTE los enlaces a las noticias Descarga las noticias

¿Cómo funciona? Crawler especializado Extracción de los artículos Clasificación de noticias Extracción de la información relevante

Extracción de los artículos Obtención de las diferentes partes de una noticia (titular, subtitular, autor, texto…) Desde el pdf PDF2HTML herramienta que convierte el pdf a html Parseado del html para montar los artículos Desde la web Accediendo al DOM del documento descargado Filtrado del texto que buscamos con HTMLParser Titulares: …

Extracción de noticias con PDF2HTML

.. Vilagarcía combina erotismo, rock y gastronomía en el Salón del Atlántico.

Extracción de noticias con PDF2HTML.. Vilagarcía combina erotismo, rock y gastronomía en el Salón del Atlántico.

.. Vilagarcía combina erotismo, rock y gastronomía en el Salón del Atlántico. Extracción de noticias con PDF2HTML

¿ Cómo extraemos las diferentes noticias y sus partes ?.. Vilagarcía combina erotismo, rock y gastronomía en el Salón del Atlántico. Clasificación de las líneas de texto

¿ Cómo extraemos las diferentes noticias y sus partes ? Clasificamos el tipo de texto en función de su estilo... Vilagarcía combina erotismo, rock y gastronomía en el Salón del Atlántico. Clasificación de las líneas de texto

¿ Cómo extraemos las diferentes noticias y sus partes ? Clasificamos el tipo de texto en función de su estilo. Titulares: negrita, tamaño grande… Subtitulares: color menos oscuro, tamaño mediano… Texto: tamaño pequeño….. Vilagarcía combina erotismo, rock y gastronomía en el Salón del Atlántico. Clasificación de las líneas de texto

.. Vilagarcía combina erotismo, rock y gastronomía en el Salón del Atlántico. ¿ Cómo extraemos las diferentes noticias y sus partes ? Clasificamos el tipo de texto en función de su estilo. Titulares: negrita, tamaño grande… Subtitulares: color menos oscuro, tamaño mediano… Texto: tamaño pequeño… Clasificación de las líneas de texto

.. Vilagarcía combina erotismo, rock y gastronomía en el Salón del Atlántico. ¿ Cómo extraemos las diferentes noticias y sus partes ? Clasificamos el tipo de texto en función de su estilo. Titulares: negrita, tamaño grande… Subtitulares: color menos oscuro, tamaño mediano… Texto: tamaño pequeño… Clasificación de las líneas de texto

¿ Cómo extraemos las diferentes noticias y sus partes ? Clasificamos el tipo de texto en función de su estilo. Titulares: negrita, tamaño grande… Subtitulares: color menos oscuro, tamaño mediano… Texto: tamaño pequeño….. Vilagarcía combina erotismo, rock y gastronomía en el Salón del Atlántico. Clasificación de las líneas de texto

Montando el puzle ¿ Y ahora cómo se a que noticia pertenece cada línea de texto ?.. Vilagarcía combina erotismo, rock y gastronomía en el Salón del Atlántico.

Montando el puzle ¿ Y ahora cómo se a que noticia pertenece cada línea de texto ? Cada titular obtenido es un artículo al que falta agregar (si los tienen): Autor Subtitulo Entradilla Texto ….. Vilagarcía combina erotismo, rock y gastronomía en el Salón del Atlántico.

Montando el puzle.. Vilagarcía combina erotismo, rock y gastronomía en el Salón del Atlántico. ¿ Y ahora cómo se a que noticia pertenece cada línea de texto ? Cada titular obtenido es un artículo al que falta agregar (si los tienen): Autor Subtitulo Entradilla Texto … Obtengo la posición de la línea

Montando el puzle.. Vilagarcía combina erotismo, rock y gastronomía en el Salón del Atlántico. ¿ Y ahora cómo se a que noticia pertenece cada línea de texto ? Cada titular obtenido es un artículo al que falta agregar (si los tienen): Autor Subtitulo Entradilla Texto … Obtengo la posición de la línea Asigno a cada línea el titular al que pertenece Por proximidad Tipo de línea …

¿Cómo funciona? Crawler especializado Extracción de los artículos Clasificación de noticias Extracción de la información relevante

Clasificación de las noticias Se clasifica el texto utilizando Infomap Utiliza una variante de LSA Aprende los vectores que representan los significados de las palabras Indexa los documentos en un corpus y puede realizar recuperación de información Implementación de un wrapper en java Obtiene los artículos médicos y los clasifica Tipo: Artículo, Opinión… Especialidad: Enfermedades infecciosas, Oncología… Tópico: VIH, pediatría… Corpus construido por Sonia Vázquez A partir de los datos históricos que se introducían a mano Errores por la introducción del texto manual Falta del cuerpo de la noticia, lo que supone la mayoría de la información

¿Cómo funciona? Crawler especializado Extracción de los artículos Clasificación de noticias Extracción de la información relevante

Se trata de recuperar las personas, asociaciones, empresas, o medios de información que aparecen en las noticias Utiliza Freeling para obtener las diferentes entidades nombradas. Implementación de un Wrapper para lanzar Freeling en java Clasificación de las diferentes entidades Sociedad-Civil Científico-Sanitaria Industrial Uso de diccionarios para diferenciar las distintas entidades Expertos Empresas, Instituciones o asociaciones Revistas … Se guarda la información en una BD almacén.

La aplicación web La página de inicio muestra los periódicos sobre los que existen artículos médicos, obtenidos del PDF o de las hemerotecas on-line de los distintos periódicos. Se pueden consultar por fecha y periódico. Facilita enlaces a los pdfs descargados de cada periódico.

En la imagen siguiente se muestra uno de los pdfs que se obtienen automáticamente a diario, en concreto el del ABC. Además nos da la opción de descargarlo. Repositorio pdfs

Al seleccionar los artículos de un periódico, en este ejemplo El País, se muestra la extracción de la información (izquierda) junto a su fuente (derecha). En este caso se trata de un artículo pendiente de revisar extraído de la hemeroteca on-line de El País. Los datos del artículo se pueden modificar y editar, pudiendo guardar dichos cambios que quedarán almacenados en la base de datos. Información obtenida

A continuación se muestran más datos de los que se extraen de los artículos. En este caso se aprecia el titular, subtitular, el texto o el autor del artículo, entre otros datos. Como se ha comentado antes todos estos datos pueden ser modificados por el usuario. Información obtenida

En esta imagen se muestran los expertos extraídos del artículo. Estos pueden ser modificados, borrados o se pueden añadir nuevos; como mucho habrán 8 expertos. Información obtenida

Una vez revisado el artículo, guardamos los cambios, el artículo pasa de pendiente a revisado y se inserta una fila nueva en la BD. Finalidad: Base de datos

Ejemplo de cómo aprovechar la tecnología desarrollada para nuevos proyectos DOSSIER GPLSI

Dossier ¿Y si aprovechamos los módulos desarrollados para la obtención de noticias de cualquier género?

Dossier ¿Y si aprovechamos los módulos desarrollados para la obtención de noticias de cualquier género?

Dossier Dossier de prensa automatizado Información de los medios sobre tu empresa u organización Aprende de sus errores y mejora los resultados Procesa decenas de periódicos nacionales e internacionales

Dossier Dossier de prensa automatizado Información de los medios sobre tu empresa u organización Aprende de sus errores y mejora los resultados Procesa decenas de periódicos nacionales e internacionales Vigilancia competitiva Vigila cientos de fuentes cada día Extrae información de boletines oficiales Filtra información irrelevante Envía avisos programables Almacena la información ya procesada

Dossier Dossier de prensa automatizado Información de los medios sobre tu empresa u organización Aprende de sus errores y mejora los resultados Procesa decenas de periódicos nacionales e internacionales Vigilancia competitiva Vigila cientos de fuentes cada día Extrae información de boletines oficiales Filtra información irrelevante Envía avisos programables Almacena la información ya procesada Gestión Documental

Módulos principales Newsdowloader Es el núcleo de la aplicación, se compone principalmente de un crawler, un clasificador y un motor de búsqueda. Se encarga de descargar, clasificar las noticias y distribuirlas en los diferentes dossiers según esta clasificación. Dossier Se trata del portal del dossier. Es una aplicación web que permite administrar usuarios, gestionar las noticias que queremos publicar, generar el dossier en pdf o enviarlo por correo. Dossearch El buscador del dossier, permite realizar búsquedas en toda la hemeroteca con la posibilidad de filtrar entre fechas o periódicos en concreto.

¿Más de lo mismo? Sí… pero no Aprovechamiento de los módulos para descargar y obtener noticias Implementación de nuevos módulos para acelerar la incorporación de nuevos periódicos Dapper XPATH RSS Nuevas fuentes Boletines oficiales

¿Más de lo mismo? Sí… pero no Aprovechamiento de los módulos para descargar y obtener noticias Arranque y clasificación sin necesidad de un corpus. Uso de bolsa de palabras para clasificación inicial de noticias. La bolsa de palabras la define cada usuario según sus necesidades

¿Más de lo mismo? Sí… pero no Aprovechamiento de los módulos para descargar y obtener noticias Arranque y clasificación sin necesidad de un corpus. Creación de dossier en pdf Posibilidad de envío por correo Edición del mensaje Configuración de lista de destinatarios

¿Más de lo mismo? Sí… pero no Aprovechamiento de los módulos para descargar y obtener noticias Arranque y clasificación sin necesidad de un corpus. Creación de dossier en pdf Vigilancia y gestión documental Accede al portal y comparte la información obtenida rápidamente

¿Más de lo mismo? Sí… pero no Aprovechamiento de los módulos para descargar y obtener noticias Arranque y clasificación sin necesidad de un corpus. Creación de dossier en pdf Vigilancia y gestión documental Buscador de noticias Indexación de las noticias Aplicación web buscador Filtrado por fecha Clustering de periódicos

La aplicación dossier

Menú de gestión del Dossier

Gestión de las noticias

Opciones del menú

Dossearch: El buscador

Muchas gracias por la atención ¿Preguntas, sugerencias?