La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Archivador web Proyecto de colaboración para el LSI Autor: Adrián Mesa Pachón Contacto:

Presentaciones similares


Presentación del tema: "Archivador web Proyecto de colaboración para el LSI Autor: Adrián Mesa Pachón Contacto:"— Transcripción de la presentación:

1 Archivador web Proyecto de colaboración para el LSI Autor: Adrián Mesa Pachón Contacto: elhispano@elhispano.org

2 Índice Motivaciones y descripción del trabajo. Entrada de datos, Config, Urls y WebSiteBunch. DataSource y extracciones. Aplicación de reglas. Planificación. Dudas

3 Motivaciones de la exposición Explicar el trabajo realizado hasta ahora. Sacar una lista “casi” definitiva de requisitos. Solventar dudas en las dos direcciones. Planificar.

4 Descripción del trabajo Archivar una web en local para poder trabajar sobre ella y realizar distintas extracciones. Proceso de archivado lo mas automático posible. Crear una estructura que permita una clasificación eficiente y de fácil entendimiento. Pensado para soportar cambios en las webs. No es un web crawler.

5 Motivaciones del trabajo No hay software que haga esta tarea de forma sencilla, directa y sin errores. Personalización y expansión de funcionalidades.

6 Fecha1 Fecha2Fecha3 Regla1 Copias locales de una misma web Resultados de aplicar una regla sobre distintas copias locales de una misma web

7 Entrada de datos Archivo Config en XML Parser XML Objeto config singleton

8 Entrada de datos

9 Entrada de URLS http:\\wwww.paginadeejemplo1.es ”C:\rules1.xml” http:\\wwww.paginadeejemplo1.es ”C:\rules1.xml” Ejemplo de XML de entrada de URLS

10 Entrada de URLS: Forma simplificada http:\\wwww.paginadeejemplo1.es ”C:\rules1.xml” http:\\wwww.paginadeejemplo1.es ”C:\rules1.xml” Ejemplo de XML de entrada de URLS

11 Entrada de URLS URLs a archivar en XML Parser XML Objeto WebSiteBunch

12 Entrada de URLS: WebSiteBunch Class WebSiteBunch XML Load WebSitePara meters1 WebSitePara meters2 WebSitePara meters3 WebSitePara meters4

13 Entrada de URLS: WebSiteBunch

14 Interfaz DataSource Todas las fuentes de datos de las que vamos a extraer Información y guardarlas en local, deben implementar esta interfaz.

15 Implementación de DataSource: Clase Web

16

17

18 Extracciones MainExtraction (html) DataSource

19 Extracciones Importante: Cada extracción puede identificarse únicamente por la fecha (instante) en la que se realizó. Load() Save()

20 Indice de extracciones Amazon Ebay Extraccion 1 Extraccion 2 Extraccion 3 Extraccion 4 Extraccion 1 Extraccion 2 Extraccion 3 Extraccion 4 URL Amazon 1 URL Amazon 2 URL Ebay 1 URL Ebay 2

21 Indice de extracciones

22 Querys de extracciones getExtractions(http://www.amazon.com/Kindl e-Wireless-Reader-Wifi-Graphite/);http://www.amazon.com/Kindl e-Wireless-Reader-Wifi-Graphite/ getLastExtraction(http://www.amazon.com/Ki ndle-Wireless-Reader-Wifi-Graphite/);http://www.amazon.com/Ki ndle-Wireless-Reader-Wifi-Graphite/ getExtractions(“amazon”); getExtractions(“23/02/2011”,”24/02/2011”);

23 Aplicar reglas Reglas predefinidas en proyecto aunque se cargan por XML. Las reglas se aplican en el orden establecido. Extraccion1.getMainExtraction(); Apply String resultante de aplicar las reglas, archivo, etc.

24 Aplicar reglas

25 Enseñar demo prototipo

26 Dudas Necesidad de bajar todo el contenido (imagenes dentro de Css, todos los JS, etc). Como se va a utilizar la aplicación. Necesidad de multi threading. Salida de aplicar reglas. String, archivos etc. Que tipo de reglas se van a aplicar, documento con algunos ejemplos reales para usarlos como referencia.

27 Planificación Mediados de Marzo: Prototipo completo con carga de configuración en XML, primera aplicación de reglas, conexión a sitios seguros. Mediados de Mayo: Sistema de reglas mas complejo, multi-threading, prueba de la aplicación en un entorno real. Julio: Implementación de funcionalidades y corrección de errores encontrados por la explotación de la aplicación. Septiembre: Comodín


Descargar ppt "Archivador web Proyecto de colaboración para el LSI Autor: Adrián Mesa Pachón Contacto:"

Presentaciones similares


Anuncios Google