La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

SISTEMA PARA LA CATEGORIZACIÓN AUTOMÁTICA DE CORREO ELECTRÓNICO Camilo Rodríguez, Departamento de Ingeniería de Sistemas, Universidad Nacional de Colombia.

Presentaciones similares


Presentación del tema: "SISTEMA PARA LA CATEGORIZACIÓN AUTOMÁTICA DE CORREO ELECTRÓNICO Camilo Rodríguez, Departamento de Ingeniería de Sistemas, Universidad Nacional de Colombia."— Transcripción de la presentación:

1 SISTEMA PARA LA CATEGORIZACIÓN AUTOMÁTICA DE CORREO ELECTRÓNICO Camilo Rodríguez, Departamento de Ingeniería de Sistemas, Universidad Nacional de Colombia Abstract Introducción El presente trabajo propone un sistema categorizador de correo electrónico bajo aprendizaje no supervizado y que permite una visualización de los mensajes a manera de red semántica o grafo. En los últimos años el volumen de correo electrónico que reciben los usuarios a diario ha crecido vertiginosamente. Prueba de ello es que compañías prestadoras de servicio gratuito de correo tales como yahoo, google y hotmail han aumentado la capacidad de almacenamiento por usuario. Esta gran cantidad de información hace cada vez más difícil la tarea de administración del correo por parte del usuario. En los últimos años se han desarrollado diversas técnicas para la categorización de correo de manera automática con buenos resultados. Sin embargo la mayoría de estas técnicas se basan en aprendizaje supervisado y los trabajos que han utilizado aprendizaje no supervisado se han enfocado en una estructura jerárquica de fólderes. Por esta razón nuevos enfoques utilizados para la organización de información utilizados con éxito en problemas de categorización automática de textos (organización de documentos, búsqueda de información en Internet) tales como redes semánticas y mapas conceptuales pueden ser utilizados para crear sistemas de categorización automática de correo de tal manera que le permitan al usuario visualizar, analizar y extraer información de manera más fácil que los sistemas tradicionales. El presente trabajo plantea un sistema categorizador de correos electrónicos que organiza de manera automática los mensajes a partir del contenido de estos y que permite una visualización de la información de los mensajes de correos a manera de red semántica o grafo. El sistema de visualización propuesto es similar al utilizado por el buscador kartoo. Métodos El sistema categorizador se resume en cuatro fases: Extracción y selección de características, agrupamiento, relación entre mensajes y visualización. Para la extracción y selección de características se tuvo en cuenta diferente tipo de información contenido en los mensajes de correo, como por ejemplo, fecha, remitente, asunto y cuerpo del mensaje. Para la extracción de características del asunto y del cuerpo del mensaje se utlizó tf-idf. Para la parte de categorización y visualización se compararon tanto técnicas que permiten y agrupamiento y visualización, por ejemplo los mapas autoorganizados, como técnicas tradicionales como agrupamiento jerárquico y agrupamiento particional. Resultados Las pruebas experimentales realizadas para agrupamiento jerárquico incluyó el algoritmo de distancia promedio. Se realizó experimentación incluyendo el asunto solamente, fecha y asunto, fecha, asunto y cuerpo del mensaje. Para esta prueba se utilizó distancia coseno. A diferencia de la distancia euclidiana, la distancia coseno permitió un mejor agrupamiento cuando se incluyó información del cuerpo del mensaje. Sin embargo no se obtuvieron buenos resultados cuando se incluyo información de la fecha. Resultados Las pruebas experimentales realizadas para agrupamiento jerárquico incluyo el algoritmo de distancia promedio. Se realizó experimentación incluyendo asunto solamente, fecha y asunto, y fecha, asunto y cuerpo del mensaje. Para esta prueba se utilizó distancia euclidiana. Esta distancia presentó buenos resultados para las pruebas que incluyeron información de la fecha y el asunto del mensaje, mas no presentó buen desempeño incluyendo información del cuerpo del mensaje. Resultados Las pruebas experimentales realizadas para agrupamiento mediante mapas autoorganizados, se utilizó tanto el asunto como el cuerpo del mensaje. También se etiquetó cada grupo encontrado con las palabras mas frecuentes encontradas en cada categoría. Al igual que el agrupamiento jerárquico con distancia euclidiana, la inclusión de información del cuerpo del mensaje empeoró el desempeño del sistema. Posiblemente, debido a que los mapas autoorganizados utilizan este tipo de distancia, en lugar de distancia coseno. Conclusiones Los resultados de este trabajo indican que debido a la gran diversidad de información contenida en los mensajes de correo es difícil establecer una medida de similaridad adecuada para realizar el agrupamiento. La distancia coseno funciona bien cuando se incluye información del asunto y del cuerpo del mensaje, mas no con información de la fecha. La distancia euclidiana funciona bien con los campos fecha y asunto, pero no cuando se incluye información del cuerpo del mensaje. Por otro lado aunque los mapas autoorganizados permiten una buena visualización del agrupamiento, se deben incluir modificaciones en el algoritmo o en la representación de los datos para lograr un buen desempeño del sistema categorizador. El trabajo futuro es mejorar el desempeño del agrupamiento, ya sea evaluando otras téncnicas bajo aprendizaje no supervizado o incluyendo otras características de los mensajes. También utilizando otras medidas de similaridad. A partir de esto se entraría a abordar la creación de relaciones entre mensajes y el sistema de visualización. Arquitectura del Sistema propuesto


Descargar ppt "SISTEMA PARA LA CATEGORIZACIÓN AUTOMÁTICA DE CORREO ELECTRÓNICO Camilo Rodríguez, Departamento de Ingeniería de Sistemas, Universidad Nacional de Colombia."

Presentaciones similares


Anuncios Google