Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porPilar Ávila Mora Modificado hace 9 años
1
Archivador web Proyecto de colaboración para el LSI Autor: Adrián Mesa Pachón Contacto: elhispano@elhispano.org
2
Índice Motivaciones y descripción del trabajo. Entrada de datos, Config, Urls y WebSiteBunch. DataSource y extracciones. Aplicación de reglas. Planificación. Dudas
3
Motivaciones de la exposición Explicar el trabajo realizado hasta ahora. Sacar una lista “casi” definitiva de requisitos. Solventar dudas en las dos direcciones. Planificar.
4
Descripción del trabajo Archivar una web en local para poder trabajar sobre ella y realizar distintas extracciones. Proceso de archivado lo mas automático posible. Crear una estructura que permita una clasificación eficiente y de fácil entendimiento. Pensado para soportar cambios en las webs. No es un web crawler.
5
Motivaciones del trabajo No hay software que haga esta tarea de forma sencilla, directa y sin errores. Personalización y expansión de funcionalidades.
6
Fecha1 Fecha2Fecha3 Regla1 Copias locales de una misma web Resultados de aplicar una regla sobre distintas copias locales de una misma web
7
Entrada de datos Archivo Config en XML Parser XML Objeto config singleton
8
Entrada de datos
9
Entrada de URLS http:\\wwww.paginadeejemplo1.es ”C:\rules1.xml” http:\\wwww.paginadeejemplo1.es ”C:\rules1.xml” Ejemplo de XML de entrada de URLS
10
Entrada de URLS: Forma simplificada http:\\wwww.paginadeejemplo1.es ”C:\rules1.xml” http:\\wwww.paginadeejemplo1.es ”C:\rules1.xml” Ejemplo de XML de entrada de URLS
11
Entrada de URLS URLs a archivar en XML Parser XML Objeto WebSiteBunch
12
Entrada de URLS: WebSiteBunch Class WebSiteBunch XML Load WebSitePara meters1 WebSitePara meters2 WebSitePara meters3 WebSitePara meters4
13
Entrada de URLS: WebSiteBunch
14
Interfaz DataSource Todas las fuentes de datos de las que vamos a extraer Información y guardarlas en local, deben implementar esta interfaz.
15
Implementación de DataSource: Clase Web
18
Extracciones MainExtraction (html) DataSource
19
Extracciones Importante: Cada extracción puede identificarse únicamente por la fecha (instante) en la que se realizó. Load() Save()
20
Indice de extracciones Amazon Ebay Extraccion 1 Extraccion 2 Extraccion 3 Extraccion 4 Extraccion 1 Extraccion 2 Extraccion 3 Extraccion 4 URL Amazon 1 URL Amazon 2 URL Ebay 1 URL Ebay 2
21
Indice de extracciones
22
Querys de extracciones getExtractions(http://www.amazon.com/Kindl e-Wireless-Reader-Wifi-Graphite/);http://www.amazon.com/Kindl e-Wireless-Reader-Wifi-Graphite/ getLastExtraction(http://www.amazon.com/Ki ndle-Wireless-Reader-Wifi-Graphite/);http://www.amazon.com/Ki ndle-Wireless-Reader-Wifi-Graphite/ getExtractions(“amazon”); getExtractions(“23/02/2011”,”24/02/2011”);
23
Aplicar reglas Reglas predefinidas en proyecto aunque se cargan por XML. Las reglas se aplican en el orden establecido. Extraccion1.getMainExtraction(); Apply String resultante de aplicar las reglas, archivo, etc.
24
Aplicar reglas
25
Enseñar demo prototipo
26
Dudas Necesidad de bajar todo el contenido (imagenes dentro de Css, todos los JS, etc). Como se va a utilizar la aplicación. Necesidad de multi threading. Salida de aplicar reglas. String, archivos etc. Que tipo de reglas se van a aplicar, documento con algunos ejemplos reales para usarlos como referencia.
27
Planificación Mediados de Marzo: Prototipo completo con carga de configuración en XML, primera aplicación de reglas, conexión a sitios seguros. Mediados de Mayo: Sistema de reglas mas complejo, multi-threading, prueba de la aplicación en un entorno real. Julio: Implementación de funcionalidades y corrección de errores encontrados por la explotación de la aplicación. Septiembre: Comodín
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.