Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porCarlitos Resendez Modificado hace 10 años
1
Categorización de documentos del Centro Virtual Cervantes Fernando García Eddy Rodriguez Paula Zitinski
2
Introducción del proyecto Clasificación de las páginas web del Centro Virtual Cervantes La clasificación actual - incompleta: Música Enseñanza Artes Literatura Lengua
3
Alcance Crear un clasificador que se pueda aplicar a las páginas del CVC Este clasificador tendrá que cumplir los siguientes requisitos: Entrada desde un fichero de texto Salida a una base de datos Usar, en la medida posible, distintos frameworks La clasificación debe producirse sin (demasiados) errores Debe terminar en tiempo aceptable
4
Entorno software 1. Eclipse (Java) Entorno de desarrollo integrado de código abierto
5
2. Lucene es un framework de código abierto para recuperación de información Búsqueda de palabras en documentos Problema – analizador en inglés Solución – adaptación de la librería a través de un fichero externo (300 palabras)
6
3. SVN Sistema de control de versiones Compatible con Eclipse
7
4. Google code Espacio web para el almacenamiento de proyectos de código abierto Página web: http://code.google.com/p/proyectoil2010
8
5. JUnit Librerías de código para hacer pruebas unitarias y de integración
9
6. Jericho HTML Parser Librería de Java para el tratamiento de páginas web Al final no lo utilizamos – sacaba información irrelevante
10
Sistema desarrollado Estructura general del proyecto
11
Ficheros de entrada: Base – páginas web, ya categorizadas SpanishSmart – lista de palabras ruido Test – páginas web no clasificadas Salida del programa: Base de datos
12
Objetos del proyecto (despliegue)
13
Lista de funcionalidades de la aplicación hasta el momento
17
Pendiente de desarrollo Cambiar el modo de introducción de páginas web a categorizar Implementar la función de similitud Implementar el almacenamiento de resultados Calcular la validez del código (JUnit)
18
Bibliografía Código de nuestra página web: http://proyectoil2010.googlecode.com/svn/trunk http://junit.sourceforge.net http://www.adictosaltrabajo.com http://www.googlecode.com http://lucene.apache.org http://www.ibm.com/developerworks/opensource/libr ary/os-ecl-subversion http://www.ibm.com/developerworks/opensource/libr ary/os-ecl-subversion http://jericho.htmlparser.net
19
¡Ahora, vosotros!
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.