La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

75.06 Org. de Datos FeedReader Integrantes: Andrés Castaño (84538) Diego Costa (78189 ) Nahuel González (82868) Ignacio Marambio Catán (82694)

Presentaciones similares


Presentación del tema: "75.06 Org. de Datos FeedReader Integrantes: Andrés Castaño (84538) Diego Costa (78189 ) Nahuel González (82868) Ignacio Marambio Catán (82694)"— Transcripción de la presentación:

1 75.06 Org. de Datos FeedReader Integrantes: Andrés Castaño (84538) Diego Costa (78189 ) Nahuel González (82868) Ignacio Marambio Catán (82694)

2 Temas de la Presentación 1. Diseño de la Aplicación 2. XML-RPC 3. Parser RSS 4. Interfaz Web 5. Organización de Archivos 6. Filtro Bayesiano 7. Stop Words 8. Reclasificación Automática 9. Prueba de Ejecución.

3 Diseño de la Aplicación FRONT-END DAEMON XML-RPC PARSER WEB ARCHIVOS

4 XML-RPC Aplicaciones Distribuidas. Conectar Aplicaciones que pueden estar implementadas en distintos lenguajes, y que se ejecutan en diversos sistemas operativos.

5 Parser: Arquitectura de Plug-Ins DAEMON Raptor Plug-In Ventajas: Elegir entre distintos Parsers (C/C++/Python). Actualizar el Parser, sin detener el servicio. UniversalFeedParser

6 Interfaz Web

7 Organización de Archivos feeds news tags

8 feeds index data datav

9 feeds index data datav

10 feeds index data datav

11 feeds index data datav

12 news data index 1.datatag index 1.index data 1.data 1.datatag

13 news data index 1.datatag index 1.index data 1.data 1.datatag

14 news data index 1.datatag index 1.index data 1.data 1.datatag

15 news data index 1.datatag index 1.index data 1.data 1.datatag

16 tags N.index index 1.index

17 Reorganización de Archivos Consiste en la eliminación de archivos y registros innecesarios. Se realiza a pedido del usuario por medio de una señal al proceso.

18 Filtro Bayesiano

19 Filtro Bayesiano: Filtro Bayesiano: Serialización Los datos del filtro se guardan en dos archivos por separado, uno de categorías y palabras (comprimido con front coding) y otro que guarda las frecuencias en forma de array. En ambos se incluye un encabezado que indica el checksum y la correcta finalización y el id de la serialización, para asegurarse que no se levantará un par de archivos inválidos

20 Filtro Bayesiano Filtro Bayesiano: Performance. Tiempo estimado para entrenar el filtro con 100.000 palabras nunca vistas, con 32 categorías: ~1.5 seg. Tiempo estimado para agregar una categoría: ~0.25 seg. Tiempo estimado para eliminar una categoría: ~0.2 seg. Tiempo estimado para entrenar o clasificar una noticia de 100000 palabras, sin palabras desconocidas y 32 categorías : ~0.2 seg.

21 Stop Words Palabras que aparecen en casi todas las noticias, por lo no que brindan información sobre a que categorías pertenecen. Estas palabras se eliminan de la noticias, con lo que se obtiene una mejor clasificación. Se genera dinámicamente un archivo de stop words que luego es importado por el daemon.

22 Reclasificación Automática El Daemon toma bloques de noticias e intenta reclasificarlas por cada iteración. La cantidad de noticias y el tiempo entre iteraciones es parametrizable.


Descargar ppt "75.06 Org. de Datos FeedReader Integrantes: Andrés Castaño (84538) Diego Costa (78189 ) Nahuel González (82868) Ignacio Marambio Catán (82694)"

Presentaciones similares


Anuncios Google