La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

Presentaciones similares


Presentación del tema: "PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1."— Transcripción de la presentación:

1 PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

2  Introducción  New Explorer  Objetivos del proyecto  Arquitectura del sistema  Elección del tecnológica  Desarrollo (CR-A-D-I-P)  Gestión  Conclusión  Demostración 2

3  Este proyecto se enmarca en la Minería Web y el seguimiento de noticias.  Extraer noticias del portal EMM, desarrollado por el Joint Research Centre de la Comisión Europea. 3

4  Recuperar y almacenar las noticias y las relaciones que sobre ellas realiza el EMM News Explorer.  Con la autorización de Ralf Steinberger, máximo responsable del EMM y miembro del JRC. 4

5  Sistema informático de clasificación de noticias multilingües.  Su motor central recopila una media de 50.000 artículos al día de 1.500 páginas web en 42 idiomas.  Agrupa noticias similares en clústers y los relaciona con clústers en otros idiomas y a lo largo del tiempo. 5

6 6

7  Extraer periódicamente información de las noticias recogidas en el portal News Explorer.  Almacenarla en disco para su posterior análisis.  Guardar un registro con la fecha de ejecución del programa y los datos almacenados. 7

8 8

9 9

10  Acceder al RSS de News Explorer y obtener los enlaces a páginas de clúster.  Acceder a dichas páginas y extraer información de las noticias.  Necesitamos especificar al programa: ◦ Lenguajes de las noticias que queremos recoger. ◦ Umbral de semejanza para recopilar clústers relacionados. 10

11  De cada clúster de noticias queremos extraer: ◦ Enlace ◦ Idioma ◦ Título ◦ Descripción ◦ Fecha ◦ Historia ◦ Noticias ◦ Países ◦ Lugares ◦ Personas ◦ Entidades ◦ Keywords ◦ Clústers relacionados 11

12 12

13  Dividir el trabajo en subprogramas  Realizar los contratos de las operaciones 13

14  Base de Datos ◦ Claves primarias  SHA1(enlace) ◦ Relaciones entre tablas ◦ Frecuencias (Personas, Países, Otros nombres)  Elección tecnológica ◦ Expresiones regulares  Pseudocódigo de las operaciones 14

15 15

16  Ejemplos: ◦ Fecha del clúster  m{ (.+?) } ◦ Otros nombres  m{Other Names (.*?) }s  m{ (.*?) \((\d+)\) }g ◦ Noticias  m{a target="EMMARTICLE" href="(.+)" class=".+">(.+) }g  m{.+? (.+?) }g 16

17  Módulos Perl ◦ LWP::Simple ◦ DBI ◦ URI ◦ HTML::Entities ◦ Digest::SHA1  Extracción de información ◦ Expresiones Regulares  Estructuras de datos ◦ Listas 17

18  emm_launcher.pl ◦ Ejecuta diferentes configuraciones de emm.pl  emm.pl ◦ Programa principal  NewsMonitor.pm ◦ Definición de funciones y variables globales 18

19  Parámetros de entrada del programa ◦ Idioma Principal ◦ Idiomas Secundarios ◦ Umbral de Semejanza  Unitarias ◦ Probar funcionamiento de subprogramas antes de añadirlos al programa principal. (Caja Negra)  De Integración ◦ Probar programa principal al añadirle un subprograma. 19

20  De Sistema ◦ Comparación de los datos almacenados en la base de datos con los que se encuentran en las páginas extraídas.  De Explotación ◦ Problema al cambiar de servidor. ◦ Personas con claves primarias iguales.  De Rendimiento ◦ Expresiones regulares frente a parsers HTML. ◦ Tamaño de columnas en la base de datos. 20

21 ProcesosPlanificadoReal Tácticos5060 Operativos8085 Formativos115145 Total245290 Desviación18% 21

22  Incidencias principales ◦ Falta de documentación. ◦ Se estimó poco tiempo para desarrollar la memoria. ◦ Re-planificación de entregas. ◦ Pensábamos terminar el proyecto en junio.  Otras asignaturas  Cursos online  Trabajo  Inglés 22

23  Objetivos Cumplidos ◦ Extraer datos de News Explorer ◦ Almacenarlos en disco ◦ Guardar registro log  El programa está en explotación  Mejoras futuras ◦ Extraer información adicional ◦ Obtener clústers relacionados en el mismo idioma ◦ Guardar los datos en XML ◦ Recuperar todo el cuerpo de las noticias (PF Máster) ◦ Normalizar las fechas 23

24  Balance positivo del resultado ◦ Objetivos cumplidos. ◦ El programa lleva en funcionamiento desde febrero de 2012 y será de utilidad para otros proyectos, entre los cuales de encuentran:  OpeNER  NewsReader  SKATer  Semantic Textual Similarity 2013 24 Proyectos Europeos Proyecto Nacional (MEC)

25  Estado actual de la base de datos en el servidor.  Prueba de ejecución en local.  emm_launcher.pl ◦ emm.pl en es fr it de nl 0.5 ◦ emm.pl nl en es fr it de 0.5 ◦ emm.pl de nl en es fr it 0.5 ◦ emm.pl it de nl en es fr 0.5 ◦ emm.pl fr it de nl en es 0.5 ◦ emm.pl es fr it de nl en 0.5 25


Descargar ppt "PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1."

Presentaciones similares


Anuncios Google