Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porAlisa Collado Modificado hace 9 años
1
PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1
2
Introducción New Explorer Objetivos del proyecto Arquitectura del sistema Elección del tecnológica Desarrollo (CR-A-D-I-P) Gestión Conclusión Demostración 2
3
Este proyecto se enmarca en la Minería Web y el seguimiento de noticias. Extraer noticias del portal EMM, desarrollado por el Joint Research Centre de la Comisión Europea. 3
4
Recuperar y almacenar las noticias y las relaciones que sobre ellas realiza el EMM News Explorer. Con la autorización de Ralf Steinberger, máximo responsable del EMM y miembro del JRC. 4
5
Sistema informático de clasificación de noticias multilingües. Su motor central recopila una media de 50.000 artículos al día de 1.500 páginas web en 42 idiomas. Agrupa noticias similares en clústers y los relaciona con clústers en otros idiomas y a lo largo del tiempo. 5
6
6
7
Extraer periódicamente información de las noticias recogidas en el portal News Explorer. Almacenarla en disco para su posterior análisis. Guardar un registro con la fecha de ejecución del programa y los datos almacenados. 7
8
8
9
9
10
Acceder al RSS de News Explorer y obtener los enlaces a páginas de clúster. Acceder a dichas páginas y extraer información de las noticias. Necesitamos especificar al programa: ◦ Lenguajes de las noticias que queremos recoger. ◦ Umbral de semejanza para recopilar clústers relacionados. 10
11
De cada clúster de noticias queremos extraer: ◦ Enlace ◦ Idioma ◦ Título ◦ Descripción ◦ Fecha ◦ Historia ◦ Noticias ◦ Países ◦ Lugares ◦ Personas ◦ Entidades ◦ Keywords ◦ Clústers relacionados 11
12
12
13
Dividir el trabajo en subprogramas Realizar los contratos de las operaciones 13
14
Base de Datos ◦ Claves primarias SHA1(enlace) ◦ Relaciones entre tablas ◦ Frecuencias (Personas, Países, Otros nombres) Elección tecnológica ◦ Expresiones regulares Pseudocódigo de las operaciones 14
15
15
16
Ejemplos: ◦ Fecha del clúster m{ (.+?) } ◦ Otros nombres m{Other Names (.*?) }s m{ (.*?) \((\d+)\) }g ◦ Noticias m{a target="EMMARTICLE" href="(.+)" class=".+">(.+) }g m{.+? (.+?) }g 16
17
Módulos Perl ◦ LWP::Simple ◦ DBI ◦ URI ◦ HTML::Entities ◦ Digest::SHA1 Extracción de información ◦ Expresiones Regulares Estructuras de datos ◦ Listas 17
18
emm_launcher.pl ◦ Ejecuta diferentes configuraciones de emm.pl emm.pl ◦ Programa principal NewsMonitor.pm ◦ Definición de funciones y variables globales 18
19
Parámetros de entrada del programa ◦ Idioma Principal ◦ Idiomas Secundarios ◦ Umbral de Semejanza Unitarias ◦ Probar funcionamiento de subprogramas antes de añadirlos al programa principal. (Caja Negra) De Integración ◦ Probar programa principal al añadirle un subprograma. 19
20
De Sistema ◦ Comparación de los datos almacenados en la base de datos con los que se encuentran en las páginas extraídas. De Explotación ◦ Problema al cambiar de servidor. ◦ Personas con claves primarias iguales. De Rendimiento ◦ Expresiones regulares frente a parsers HTML. ◦ Tamaño de columnas en la base de datos. 20
21
ProcesosPlanificadoReal Tácticos5060 Operativos8085 Formativos115145 Total245290 Desviación18% 21
22
Incidencias principales ◦ Falta de documentación. ◦ Se estimó poco tiempo para desarrollar la memoria. ◦ Re-planificación de entregas. ◦ Pensábamos terminar el proyecto en junio. Otras asignaturas Cursos online Trabajo Inglés 22
23
Objetivos Cumplidos ◦ Extraer datos de News Explorer ◦ Almacenarlos en disco ◦ Guardar registro log El programa está en explotación Mejoras futuras ◦ Extraer información adicional ◦ Obtener clústers relacionados en el mismo idioma ◦ Guardar los datos en XML ◦ Recuperar todo el cuerpo de las noticias (PF Máster) ◦ Normalizar las fechas 23
24
Balance positivo del resultado ◦ Objetivos cumplidos. ◦ El programa lleva en funcionamiento desde febrero de 2012 y será de utilidad para otros proyectos, entre los cuales de encuentran: OpeNER NewsReader SKATer Semantic Textual Similarity 2013 24 Proyectos Europeos Proyecto Nacional (MEC)
25
Estado actual de la base de datos en el servidor. Prueba de ejecución en local. emm_launcher.pl ◦ emm.pl en es fr it de nl 0.5 ◦ emm.pl nl en es fr it de 0.5 ◦ emm.pl de nl en es fr it 0.5 ◦ emm.pl it de nl en es fr 0.5 ◦ emm.pl fr it de nl en es 0.5 ◦ emm.pl es fr it de nl en 0.5 25
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.