PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1.

Slides:



Advertisements
Presentaciones similares
Bases de conocimiento colaborativas
Advertisements

Internet y tecnologías web
EL APRENDIZAJE COLABORATIVO CON MOODLE: UNA REVISTA VIRTUAL.
Ingeniería de Software II
Configurar un curso (Función del profesor) Editar el nombre, el nombre corto y el informe (que se muestra en la portada) Escoger la formato del curso y.
Aplicación Web para Control de una Integración de S.I.
XII ENTA - 20 y 21 Junio 2008 Gestión de Costos y Planificación, como herramienta para la mejora de la competitividad EXPERIENCIA DE LA CONSTRUCCION.
Sevilla 9 de mayo 2013 Editores de revistas científicas: competencias profesionales y personales necesarias en el entorno digital Luis Rodríguez-Yunta.
COLEGIO DE BACHILLERES PLANTEL 13 XOCHIMILCO-TEPEPAN MATERIA:TIC EQUIPO:23 PRESENTACION: BASE DE DATOS ALUMNAS: Velazquez Corona Elsa Ponciano Antonio.
Fundamentos de la Gestión de Proyectos
Seminario de Extracción de Información DAPPER: The Data Mapper Rubén Izquierdo Beviá Departamento de Lenguajes y Sistemas Informáticos
AUDITORIA INTERNA.
Alumno: Xabier Aramendi Amenabar Director: German Rigau Claramunt
Base de Datos Relacional.
INTERFAZ DE ACCES DISEÑO DE BASE DE DATOS
Johanna Lizeth Rodríguez Lorena Fda. Chávarro Ramos
El portal de recursos electrónicos de la UAM
TECNOLOGÍA IDC Internet Database Connector Trinitario Gómez López.
Luis Barrio de Alarcón 2º Curso de ASI I.E.S Gonzalo Nazareno
Pierre Sergei Zuppa Azúa Administración de sistemas versus administración de servicios.
UNIDAD I Conceptos Básicos.
SEMANA Introducción.
Como empezar en Access 2000 Abrir Access 2000 Pulsamos INICIO
Academia de Informática
Programas computacionales para el manejo de datos, requisitos para su instalación y aplicación Jaime Escobar Melero Gerente de.
Línea: Observatorio Informétrico Nombre del proyecto: Desarrollo y Aplicación de Interfases Web para la obtención de indicadores bibliométricos en las.
Aplicación Web para Informes de Asignaturas de Trabajo en Grupo
1 ONLINE SHOP ‘09 Ainara Ortega Silvia Urdiain Carmen Moriones.
Mt. Martín Moreyra Navarrete.
Planeación con Planning Tool y DotProject Grupo de Construcción de Software Facultad de Ingeniería Universidad de los Andes Rubby Casallas, Andrés Yie.
Inicio Contenido Proporcionar a las dependencias y entidades de la Administración Pública Federal, los lineamientos para la implementación de acciones.
P.A.D.R.I.N.O. PAD Programa de Ayuda a la Docencia RINO Registro Informático de NOtas.
Gestor de Datos de Banco de Pruebas para Generadores Síncronos
Aula Virtual para alumnos
Ingeniería del Software
Tecnologías web. Es el método más común de intercambio de información en la world wide web, el método mediante el cual se transfieren las páginas web.
Introducción a la tecnología Realizado por: Miguel Ángel Arias.
Proyecto Fin de Carrera - ITIS
INGENIERÍA TÉCNICA EN INFORMÁTICA DE GESTIÓN PROYECTO FIN DE CARRERA
Presentación Final Proyecto Originación de Crédito Especialización en construcción de software Universidad de los Andes Bogotá Julián Morales.
Construcción de Software
CICLO DE VIDA Y NORMAALIZACION DE UN SISTEMA DE BASE DE DATOS
MATERIA: ADMINISTRACIÓN ELECTRONICA DE LOS NEGOCIOS. PROFESOR: ARMANDO NAVA. ALUMNA: ALINE MÓNICA LUNA RAMIREZ.
La evaluación en el GEF y Módulo de capacitación en
“condición que necesita el usuario para resolver un problema o conseguir un objetivo determinado”. Los requisitos de un sistema son los aspectos que el.
Diseño de bases de datos para proyectos de investigación
Sistema de gestión de amonestaciones y sanciones en centros educativos
COLEGIO DE BACHILLERES PLANTEL 13 XOCHIMILCO-TEPEPAN MATERIA:TIC EQUIPO:21 PRESENTACION: BASE DE DATOS ALUMNAS: Adán Millán Sánchez.
Proyecto de Fin de Carrera
COLEGIO DE BACHILLERES “XOCHIMILCO TEPEPAN” Nº13  Tecnologías de la Información y comunicación 3.  Profa. Gabriela Pichardo Lazardo EQUIPO 25  Emmanuel.
ALUMNO: CHIMAL MOSSO MARCO ANTONIO Marín González Luis Alberto MATERIA: T.I.C. III.
I NGENIERÍA DE S OFTWARE L ABORATORIO XI Testin – Planificación Pruebas unitarias Eduardo Saavedra A. 11/11/2009.
Roles de Open UP.
¡BIENVENIDOS! “Ponemos la mejor tecnología al alcance de TI”
Microsoft Office Project INTRODUCCIÓN A LA GESTIÓN DE PROYECTOS Microsoft Office Project 2010.
Colegio de Bachilleres Plantel 13 Xochimilco - Tepepan
Base de Datos para la Gestión de Proyectos
Temas: El Ordenador | Redes | ¿Qué es un wiki? | Diseño Web | Programación informática | Hojas de cálculo El OrdenadorRedes¿Qué.
Ejercicio de columnas periodísticas
EXPLOTACIÓN DE SISTEMAS INFORMÁTICOS 2000 HORAS I.E.S. SAN FERNANDO – CONSTANTINA (SEVILLA) CICLO FORMATIVO GRADO MEDIO.
BUSINESS T&G Think & Grow Uniclass Business Intelligence La solución Business Objects que analiza los procesos de su negocio.
Bases de Datos y Sistemas de Gestión de Bases Relacionales.
El administrador de los formatos de bases de datos Es el profesional que administra las tecnologías de la información y la comunicación, siendo responsable.
En el presente trabajo, se explica los diferentes elementos que nos ofrece Microsoft Access, para hacer mas fácil y rápido la realización de bases de.
Tutorial Rehabilitation Reference Center support.ebsco.com.
Experiencia de Ecuador Opciones de desarrollo. Introducción La implementación de un sistema informático de contratación pública involucra dos grandes.
1.ª Parte: Dónde y cómo buscar información.  Cuando se busca información sobre un tema, es necesario emplear una «estrategia de búsqueda» para optimizar.
PRESENTACION DE RESULTADOS
Práctica Joomla.. Creación de Maquina Virtual.  Una vez instalado Oracle VM VirtualBox podemos crear un disco duro virtual nuevo o usar un disco duro.
Transcripción de la presentación:

PFC ITIS 2012 Alumno: Dersu García Sanz Director: German Rigau Claramunt 1

 Introducción  New Explorer  Objetivos del proyecto  Arquitectura del sistema  Elección del tecnológica  Desarrollo (CR-A-D-I-P)  Gestión  Conclusión  Demostración 2

 Este proyecto se enmarca en la Minería Web y el seguimiento de noticias.  Extraer noticias del portal EMM, desarrollado por el Joint Research Centre de la Comisión Europea. 3

 Recuperar y almacenar las noticias y las relaciones que sobre ellas realiza el EMM News Explorer.  Con la autorización de Ralf Steinberger, máximo responsable del EMM y miembro del JRC. 4

 Sistema informático de clasificación de noticias multilingües.  Su motor central recopila una media de artículos al día de páginas web en 42 idiomas.  Agrupa noticias similares en clústers y los relaciona con clústers en otros idiomas y a lo largo del tiempo. 5

6

 Extraer periódicamente información de las noticias recogidas en el portal News Explorer.  Almacenarla en disco para su posterior análisis.  Guardar un registro con la fecha de ejecución del programa y los datos almacenados. 7

8

9

 Acceder al RSS de News Explorer y obtener los enlaces a páginas de clúster.  Acceder a dichas páginas y extraer información de las noticias.  Necesitamos especificar al programa: ◦ Lenguajes de las noticias que queremos recoger. ◦ Umbral de semejanza para recopilar clústers relacionados. 10

 De cada clúster de noticias queremos extraer: ◦ Enlace ◦ Idioma ◦ Título ◦ Descripción ◦ Fecha ◦ Historia ◦ Noticias ◦ Países ◦ Lugares ◦ Personas ◦ Entidades ◦ Keywords ◦ Clústers relacionados 11

12

 Dividir el trabajo en subprogramas  Realizar los contratos de las operaciones 13

 Base de Datos ◦ Claves primarias  SHA1(enlace) ◦ Relaciones entre tablas ◦ Frecuencias (Personas, Países, Otros nombres)  Elección tecnológica ◦ Expresiones regulares  Pseudocódigo de las operaciones 14

15

 Ejemplos: ◦ Fecha del clúster  m{ (.+?) } ◦ Otros nombres  m{Other Names (.*?) }s  m{ (.*?) \((\d+)\) }g ◦ Noticias  m{a target="EMMARTICLE" href="(.+)" class=".+">(.+) }g  m{.+? (.+?) }g 16

 Módulos Perl ◦ LWP::Simple ◦ DBI ◦ URI ◦ HTML::Entities ◦ Digest::SHA1  Extracción de información ◦ Expresiones Regulares  Estructuras de datos ◦ Listas 17

 emm_launcher.pl ◦ Ejecuta diferentes configuraciones de emm.pl  emm.pl ◦ Programa principal  NewsMonitor.pm ◦ Definición de funciones y variables globales 18

 Parámetros de entrada del programa ◦ Idioma Principal ◦ Idiomas Secundarios ◦ Umbral de Semejanza  Unitarias ◦ Probar funcionamiento de subprogramas antes de añadirlos al programa principal. (Caja Negra)  De Integración ◦ Probar programa principal al añadirle un subprograma. 19

 De Sistema ◦ Comparación de los datos almacenados en la base de datos con los que se encuentran en las páginas extraídas.  De Explotación ◦ Problema al cambiar de servidor. ◦ Personas con claves primarias iguales.  De Rendimiento ◦ Expresiones regulares frente a parsers HTML. ◦ Tamaño de columnas en la base de datos. 20

ProcesosPlanificadoReal Tácticos5060 Operativos8085 Formativos Total Desviación18% 21

 Incidencias principales ◦ Falta de documentación. ◦ Se estimó poco tiempo para desarrollar la memoria. ◦ Re-planificación de entregas. ◦ Pensábamos terminar el proyecto en junio.  Otras asignaturas  Cursos online  Trabajo  Inglés 22

 Objetivos Cumplidos ◦ Extraer datos de News Explorer ◦ Almacenarlos en disco ◦ Guardar registro log  El programa está en explotación  Mejoras futuras ◦ Extraer información adicional ◦ Obtener clústers relacionados en el mismo idioma ◦ Guardar los datos en XML ◦ Recuperar todo el cuerpo de las noticias (PF Máster) ◦ Normalizar las fechas 23

 Balance positivo del resultado ◦ Objetivos cumplidos. ◦ El programa lleva en funcionamiento desde febrero de 2012 y será de utilidad para otros proyectos, entre los cuales de encuentran:  OpeNER  NewsReader  SKATer  Semantic Textual Similarity Proyectos Europeos Proyecto Nacional (MEC)

 Estado actual de la base de datos en el servidor.  Prueba de ejecución en local.  emm_launcher.pl ◦ emm.pl en es fr it de nl 0.5 ◦ emm.pl nl en es fr it de 0.5 ◦ emm.pl de nl en es fr it 0.5 ◦ emm.pl it de nl en es fr 0.5 ◦ emm.pl fr it de nl en es 0.5 ◦ emm.pl es fr it de nl en