PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1
Introducción New Explorer Objetivos del proyecto Arquitectura del sistema Elección del tecnológica Desarrollo (CR-A-D-I-P) Gestión Conclusión Demostración 2
Este proyecto se enmarca en la Minería Web y el seguimiento de noticias. Extraer noticias del portal EMM, desarrollado por el Joint Research Centre de la Comisión Europea. 3
Recuperar y almacenar las noticias y las relaciones que sobre ellas realiza el EMM News Explorer. Con la autorización de Ralf Steinberger, máximo responsable del EMM y miembro del JRC. 4
Sistema informático de clasificación de noticias multilingües. Su motor central recopila una media de artículos al día de páginas web en 42 idiomas. Agrupa noticias similares en clústers y los relaciona con clústers en otros idiomas y a lo largo del tiempo. 5
6
Extraer periódicamente información de las noticias recogidas en el portal News Explorer. Almacenarla en disco para su posterior análisis. Guardar un registro con la fecha de ejecución del programa y los datos almacenados. 7
8
9
Acceder al RSS de News Explorer y obtener los enlaces a páginas de clúster. Acceder a dichas páginas y extraer información de las noticias. Necesitamos especificar al programa: ◦ Lenguajes de las noticias que queremos recoger. ◦ Umbral de semejanza para recopilar clústers relacionados. 10
De cada clúster de noticias queremos extraer: ◦ Enlace ◦ Idioma ◦ Título ◦ Descripción ◦ Fecha ◦ Historia ◦ Noticias ◦ Países ◦ Lugares ◦ Personas ◦ Entidades ◦ Keywords ◦ Clústers relacionados 11
12
Dividir el trabajo en subprogramas Realizar los contratos de las operaciones 13
Base de Datos ◦ Claves primarias SHA1(enlace) ◦ Relaciones entre tablas ◦ Frecuencias (Personas, Países, Otros nombres) Elección tecnológica ◦ Expresiones regulares Pseudocódigo de las operaciones 14
15
Ejemplos: ◦ Fecha del clúster m{ (.+?) } ◦ Otros nombres m{Other Names (.*?) }s m{ (.*?) \((\d+)\) }g ◦ Noticias m{a target="EMMARTICLE" href="(.+)" class=".+">(.+) }g m{.+? (.+?) }g 16
Módulos Perl ◦ LWP::Simple ◦ DBI ◦ URI ◦ HTML::Entities ◦ Digest::SHA1 Extracción de información ◦ Expresiones Regulares Estructuras de datos ◦ Listas 17
emm_launcher.pl ◦ Ejecuta diferentes configuraciones de emm.pl emm.pl ◦ Programa principal NewsMonitor.pm ◦ Definición de funciones y variables globales 18
Parámetros de entrada del programa ◦ Idioma Principal ◦ Idiomas Secundarios ◦ Umbral de Semejanza Unitarias ◦ Probar funcionamiento de subprogramas antes de añadirlos al programa principal. (Caja Negra) De Integración ◦ Probar programa principal al añadirle un subprograma. 19
De Sistema ◦ Comparación de los datos almacenados en la base de datos con los que se encuentran en las páginas extraídas. De Explotación ◦ Problema al cambiar de servidor. ◦ Personas con claves primarias iguales. De Rendimiento ◦ Expresiones regulares frente a parsers HTML. ◦ Tamaño de columnas en la base de datos. 20
ProcesosPlanificadoReal Tácticos5060 Operativos8085 Formativos Total Desviación18% 21
Incidencias principales ◦ Falta de documentación. ◦ Se estimó poco tiempo para desarrollar la memoria. ◦ Re-planificación de entregas. ◦ Pensábamos terminar el proyecto en junio. Otras asignaturas Cursos online Trabajo Inglés 22
Objetivos Cumplidos ◦ Extraer datos de News Explorer ◦ Almacenarlos en disco ◦ Guardar registro log El programa está en explotación Mejoras futuras ◦ Extraer información adicional ◦ Obtener clústers relacionados en el mismo idioma ◦ Guardar los datos en XML ◦ Recuperar todo el cuerpo de las noticias (PF Máster) ◦ Normalizar las fechas 23
Balance positivo del resultado ◦ Objetivos cumplidos. ◦ El programa lleva en funcionamiento desde febrero de 2012 y será de utilidad para otros proyectos, entre los cuales de encuentran: OpeNER NewsReader SKATer Semantic Textual Similarity Proyectos Europeos Proyecto Nacional (MEC)
Estado actual de la base de datos en el servidor. Prueba de ejecución en local. emm_launcher.pl ◦ emm.pl en es fr it de nl 0.5 ◦ emm.pl nl en es fr it de 0.5 ◦ emm.pl de nl en es fr it 0.5 ◦ emm.pl it de nl en es fr 0.5 ◦ emm.pl fr it de nl en es 0.5 ◦ emm.pl es fr it de nl en