La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski.

Presentaciones similares


Presentación del tema: "Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski."— Transcripción de la presentación:

1 Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski

2 Introducción del proyecto Clasificación de las páginas web del Centro Virtual Cervantes La clasificación actual - incompleta: Música Enseñanza Artes Literatura Lengua

3 Alcance Crear un clasificador que se pueda aplicar a las páginas del CVC Este clasificador tendrá que cumplir los siguientes requisitos: Entrada desde un fichero de texto Salida a una base de datos Usar, en la medida posible, distintos frameworks La clasificación debe producirse sin (demasiados) errores Debe terminar en tiempo aceptable

4 Entorno software 1. Eclipse (Java) Entorno de desarrollo integrado de código abierto

5 2. Lucene es un framework de código abierto para recuperación de información Búsqueda de palabras en documentos Problema – analizador en inglés Solución – adaptación de la librería a través de un fichero externo (300 palabras)

6 3. SVN Sistema de control de versiones Compatible con Eclipse

7 4. Google code Espacio web para el almacenamiento de proyectos de código abierto Página web: http://code.google.com/p/proyectoil2010

8 5. JUnit Librerías de código para hacer pruebas unitarias y de integración

9 6. Jericho HTML Parser Librería de Java para el tratamiento de páginas web Al final no lo utilizamos – sacaba información irrelevante

10 Sistema desarrollado Estructura general del proyecto

11 Ficheros de entrada: Base – páginas web, ya categorizadas SpanishSmart – lista de palabras ruido Test – páginas web no clasificadas Salida del programa: Base de datos

12 Objetos del proyecto (despliegue)

13 Lista de funcionalidades de la aplicación hasta el momento

14

15

16

17 Pendiente de desarrollo Cambiar el modo de introducción de páginas web a categorizar Implementar la función de similitud Implementar el almacenamiento de resultados Calcular la validez del código (JUnit)

18 Bibliografía Código de nuestra página web: http://proyectoil2010.googlecode.com/svn/trunk http://junit.sourceforge.net http://www.adictosaltrabajo.com http://www.googlecode.com http://lucene.apache.org http://www.ibm.com/developerworks/opensource/libr ary/os-ecl-subversion http://www.ibm.com/developerworks/opensource/libr ary/os-ecl-subversion http://jericho.htmlparser.net

19 ¡Ahora, vosotros!


Descargar ppt "Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski."

Presentaciones similares


Anuncios Google