Facultad de Ciencias Exactas Universidad Nacional del Centro de la Provincia de Buenos Aires (UNICEN) Nicolás A. Tourné Directora: Dra. Daniela Godoy Tandil,

Slides:



Advertisements
Presentaciones similares
Sistema Organizacional en línea para Administradores y Gerentes de Proyecto Gerente Contratista ConsultorCliente EnVivo Punto central de Coordinación de.
Advertisements

Exposición: Clustering
Servicios de Internet (1)World Wide Web [WWW] (2)Transferencia de ficheros (FTP)
DISEÑO Y GESTIÓN DE BASES DE DATOS Luciano H. Tamargo Depto. de Ciencias e Ingeniería de la Computación Universidad Nacional del Sur, Bahía Blanca INTRODUCCIÓN.
Publicar en la web – el rol de los bibliotecarios Dominique Babini – CLACSO Bibliotecas y nuevas lecturas en el espacio digital 2º Congreso Iberoamericano.
SILVIA BEATRIZ GAVILANES NARANJO KELLY VERÓNICA CARVAJAL CUJI
Danilo Yáñez Alarcón. Avance II
Programación 1 Introducción
INTERFAZ DE ACCES DISEÑO DE BASE DE DATOS
Herramientas Web 2.0 para la investigación Doctorado en Estudios Feministas y de Género Marzo 2014.
El portal de recursos electrónicos de la UAM
¿Qué es la internet? Internet es un conjunto descentralizado de redes de comunicación interconectadas que utilizan la familia de protocolos TCP/IP, garantizando.
Lic. Manuel Álvaro Pacheco Hoyo
PROCESO DE DESARROLLO. Introducción Mediante esta presentación se pretende describir el proceso de desarrollo del TALLER I.
Weka.
Arquitectura de la Información Prof. Adelaide Bianchini – Dpto. de Computación y Tecnología de la Información, Universidad Simón Bolívar. Febrero 2006.
EL INTERNET El Internet es una red informática descentralizada, que para permitir la conexión entre computadoras opera a través de un protocolo de comunicaciones.
EVALUACION INTERNA NIVEL MEDIO

Isabel Edo del Moral Susana Fernández LLoria Patricia Moraga Barrero
Bases de Datos Modelamiento.
Derechos reservados ¿QUÉ ES UNA CAZA DEL TESORO? Una caza del tesoro es un tipo de actividad constructivista, muy sencilla, utilizada por los docentes.
Google Objetivos: comprender y conocer los beneficios que nos entrega este buscador. Nombres: -Javiera Arratia -Milena Pereira Curso: 2ºMedio B Fecha:
ARCHIVOS PDF POR: MARINA MORALES VIII SEMESTRE DE ADMITRACIÓN DE EMPRESAS UNICIENCIA.
GOOGLE     Es el buscador más utilizado es la fuente prioritaria de sus ingresos y utilización, tienen desarrolladas.
WEDQUEST.
ASOPROJECT Componentes del grupo: - Alberto Díaz Gil - Miguel Ángel Llorente Gracía - Javier E. Yépez Hualde.
Herramientas informáticas
1  ¿ Qué es un sitio web ?  Colección de páginas web dotadas de una dirección web única  ¿ Qué es un página web ?  Es un documento creado en lenguaje.
5.- Aplicaciones software Procesador de textos Hoja de cálculo Bases de datos Programas de estadística Informática Aplicada al Trabajo Social. Universidad.

LÓGICA DE PROGRAMACIÓN LSC. Susana Alejandra López Jiménez.
Tecnologías para el Aprendizaje
Servicio de Internet http Pagina Web (blog). ¿ Que es una página Web? Documento en la World Wide Web que es visto a través de un navegador como Internet.
DIEGO MADARRIAGA BRIEVA DARIO DIAZ PEÑALOZA ANDERSON ACEVEDO RIOS.
WIKIS.
1 Clase 3 Registro de resultados Tecnología de la Comunicación I.
Tutorial deDel.icio.us Tutorial de Del.icio.us. ¿Qué se puede hacer endel.icio.us? en del.icio.us?
COLEGIO DE BACHILLERES “XOCHIMILCO TEPEPAN” Nº13  Tecnologías de la Información y comunicación 3.  Profa. Gabriela Pichardo Lazardo EQUIPO 25  Emmanuel.
 Este protocolo opera a través de solicitudes y respuestas, entre un "cliente" y un "servidor". El cliente para los usuarios es el navegador web, usado.
ESTRATEGIAS EN EL AULA PARA EL MODELO 1 A 1
Aplicaciones de los social bookmarks para la enseñanza y la investigación. Mario A. Núñez Molina Coordinador IDEAL
Colegio de bachilleres plantel n°14
HERRAMIENTAS DE LAS WEB 2.0 PRESENTADO POR: María Isabel Baquero Villero 11°B.
Facultad de Ingeniería y Tecnologías Memoria de Grado Geolocalización de documentos en el marco GIS.
 Com:  Edu: sigla utilizada para los portales o paginas web de educación, denominados dominios  Org: sigla utilizada para definir el dominio de la.
Unidad 2: Tareas básicas de InfoPath 2010
Internet y Navegadores Unidad 5. Fecha: 1 de agosto de 2011 Periodo# : 2 Objetivo: identificar el contenido de una dirección web Tema: Elementos de una.
Análisis y Diseño de Aplicaciones
Que es un navegador de Internet. Un navegador web o de Internet, es un programa que permite visualizar la información que contiene una página web (que.
TRABAJO MONOGRÁFICO – 4º ESO
Herramientas colaborativas: Marcadores sociales. INTRODUCCIÓN Cuando una web o página nos parece interesante en Internet solemos guardar la dirección.
INTERFAZ DE ACCESS  Access es un sistema gestor de bases de datos relacionales (SGBD). Una base de datos suele definirse como un conjunto de información.
M.C. Meliza Contreras González
Tema: Cloud computing Software Libre (Open source) Software con licencia.
Tema: Motores de Búsqueda
 El término WikiWiki es de origen hawaiano que significa: rápido. Comúnmente para abreviar esta palabra se utiliza Wiki y en términos tecnológicos es.
es una herramienta que forma parte de un proceso de aprendizaje guiado, con recursos principalmente procedentes de internet, que promueve la utilización.
Es una red de información en tiempo real que permite conectarse a asuntos de interés, nos permite a los usuarios enviar y recibir mensajes de texto de.
Facultad de Ciencias Exactas Universidad Nacional del Centro de la Provincia de Buenos Aires (UNICEN) Nicolás A. Tourné Directora: Dra. Daniela Godoy Tandil,
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Facultad de Ciencias Exactas Universidad Nacional del Centro de la Provincia de Buenos Aires (UNICEN) Nicolás A. Tourné Directora: Dra. Daniela Godoy Tandil,
EJEMPLO DE BÚSQUEDA AVANZADA EN GOOGLE. Pasos para buscar Escribir el objetivo de búsqueda: descripción escrita de lo que se busca Escribir el resumen:
Conalep 150 Tehuacán inmi 309 soma
Google docs Tutorial para elaborar una presentación en línea con Google docs Prof. Edgar Oswaldo González Bello Prof. Adolfo Castillo Navarro Universidad.
Entorno de Recomendación para el Desarrollo de Objetos de Aprendizaje Manuel E. Prieto Universidad de Castilla-La Mancha, España Victor H. Menéndez Universidad.
Realizado por Lucia y Florencia.  Es el conjunto de programas encargado de la gestión interna de la computadora, controla el funcionamiento del hardware.
Gestión del Conocimento MBA Luis Elissondo. Definición de KM Knowledge Management Es el proceso de administrar y aprovechar de forma sistemática y activa.
Antonio de Jesús González Arce Matricula DHTIC.
Búsqueda en la Web. Razones para introducir las TIC (OECD 2001) Las TIC son una competencia básica, tal como la lectura, escritura y matemática. Las TIC.
Transcripción de la presentación:

Facultad de Ciencias Exactas Universidad Nacional del Centro de la Provincia de Buenos Aires (UNICEN) Nicolás A. Tourné Directora: Dra. Daniela Godoy Tandil, Argentina. 24 de Junio, 2011 Clasificación de Documentos Web utilizando Marcadores Sociales Tesis de Grado. Ingeniería de Sistemas

Introducción Marcadores sociales en la Web Recursos utilizados Desarrollo de la investigación Conclusiones Agenda

Introducción Marcadores sociales en la Web Recursos utilizados Desarrollo de la investigación Conclusiones Agenda

Introducción Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Marco teórico Nuevo medio de comunicación: INTERNET. Surgimiento de data mining en los 90’s. A partir del rotundo crecimiento de la web, se comienza a hablar de web mining. Las técnicas más utilizadas son clasificación y clustering. Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones PARADIGMA DE APRENDIZAJE SISTEMA DE APRENDIZAJE EJEMPLOS CLASIFICADOR O CATEGORIZADOR

Se llama web directory a un directorio organizado de enlaces a otros sitios, estructurado con distintos niveles de categorías. Se comienza a pensar en la “categorización automática”. Utilización de algoritmos de clasificación empleados en otros dominios. Contexto (1) Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Contexto (2) El término Web 2.0: Colaboración e intercambio ágil de información entre los usuarios. Surgimiento de los marcadores sociales. Beneficios en la categorización: A mayor información, mejores predicciones. delicious Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Propuesta Evaluar si los marcadores sociales son útiles para ser empleados en la clasificación automática de documentos web Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Marcadores sociales en la Web Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Las etiquetas (tags) Palabras claves asignadas a un recurso escogidas libremente. No siguen regla formal de escritura. Significado “oculto”. Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Tagging colaborativo Sistemas de clasificación colaborativa por medio de etiquetas simples. Surgen de la participación de varios usuarios. Comúnmente se produce en entornos de software social. Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Folcsonomía Significa clasificación gestionada por el pueblo. Se compone de anotaciones, cada una relacionada con tres entidades (usuarios, tags y recursos) vinculados entre sí de varias maneras. Varias deficiencias. Usuario 1 Usuario 2 Recurso N Recurso 1 Recurso 3 Recurso 4 Recurso 2 Tag 1 Tag 2 Tag 4... Tag 3 Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

¿Qué son los marcadores sociales? Forma sencilla de almacenar, clasificar y compartir enlaces en internet. Los usuarios guardan una lista de recursos que consideran útiles. Los recursos son categorizados mediante etiquetas o tags. Existe un gran número de servicios. Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Recursosutilizados

Colección de datos CABS120k08 Consiste en casi 120 mil URLs con metadatos adicionales presentado en formato XML, basados en la intersección de: Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones 500k random queries Tags Categorías Anchors text

Weka Software para aprendizaje automático y data mining escrito en Java. Licencia GNU-GPL. Extensa colección de técnicas para pre-procesamiento de datos. Herramientas de visualización y algoritmos para análisis de datos y modelado predictivo. En la investigación se utilizaron los algoritmos Naive Bayes y SMO. Formato de archivo plano ARFF. Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Parser: CABS120k08 » ARFF Se ha construido en Java para convertir CABS120k08 a ARFF. Filtros aplicados a cada documento: Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones Reemplazar código HTML Eliminar acentos Eliminar caracteres espec. Aplicar stemming Eliminar stop-words Documento Documento filtrado

Desarrollo de la investigación Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Resumen Procedimiento utilizado: Generación de datasets Pre-procesam. de c/ dataset Clasificación Análisis de resultados Optimizaciones datasets CABS120k08.xml datasets pre-procesados Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Generación de datasets Cada dataset está compuesto por los mismos documentos, representados a partir de distintas fuentes de información: queriesanchor texttags queries + anchor text queries + tags anchor text + tags queries + anchor text + tags Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Análisis de resultados Primero, se decide cuál es el mejor clasificador: - NaiveBayes - SMO (PolyKernel) - SMO (RBFKernel) Se utiliza la configuración por defecto para cada clasificador: Percentage split (66%) y Cross-validation (10 folds). Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Resultados » NaiveBayes (1) Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones 57,92% 60,38%

Resultados » NaiveBayes (2) Precision 51,8% 64,2% anchortext tags Recall 42,2% 57,9% query anchortext + tags * Resultados empleando Percentage split (66%) F-measure 46,7% 60% query query+tags +anchortext RAError 68,49% 49,51% query anchortext + tags Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Resultados » SMO (PolyKernel) (1) Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones 64,34% 65,40%

Resultados » SMO (PolyKernel) (2) Precision 45,8% 66,5% query tags Recall 45,5% 64,7% query tags F-measure 45,6% 65,6% query RAError 96,66% 94,89% query anchortext + tags tags Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones * Resultados empleando Percentage split (66%)

Resultados » SMO (RBFKernel) (1) Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones 49,67% 51,48%

Resultados » SMO (RBFKernel) (2) Precision 46,9% 64,4% anchortext tags Recall 36,1% 59,5% anchortext query+tags +anchortext F-measure 40,8% 60,7% anchortext RAError 97,75% 95,39% query query+tags +anchortext Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones * Resultados empleando Percentage split (66%)

Selección del clasificador La performance de los clasificadores evaluados es la siguiente: SMO (PolyKernel) NaiveBayes SMO (RBFKernel) Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Elección del dataset ideal Pruebas realizadas con distintos % de entrenamiento. anchortext+tags 85% inst. = 64,96% Pocas instancias de entrenamiento, pobres resultados Los tags son el recurso de mayor aporte a la clasif. Las queries perjudican la clasificación Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Optimizaciones Llevar a cabo una serie de cambios para lograr mejorar los resultados de la clasificación. Se utiliza el categorizador SMO (PolyKernel) y Percentage split como modo de entrenamiento. Se define un baseline. Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

#1 - Sin aplicar stemming (1) No se aplica stemming en la generación del dataset. Reemplazar código HTML Eliminar acentos Eliminar caracteres espec. Aplicar stemming Eliminar stop-words DocumentoDocumento filtrado Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

#1 - Sin aplicar stemming (2) Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones baseline 85% inst. = 64,96% no stemming 85% inst. = 59,89%

#1 - Sin aplicar stemming (3) Existen casos como: baseline = compute (53) sin stemming = computer (28), compute (16), computadora (8), computation (1) Se descarta esta optimización Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

#2 - Sinónimos (WordNet) (1) Encontrar sinónimos a cada término del dataset. Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones Reemplazar código HTML Eliminar acentos Eliminar caracteres espec. Aplicar stemming Eliminar stop-words DocumentoDocumento filtrado Generar sinónimos

#2 - Sinónimos (WordNet) (2) Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones baseline 85% inst. = 64,96% sinónimos 90% inst. = 56,22%

#2 - Sinónimos (WordNet) (3) Si bien hubo casos donde los sinónimos fueron ventajosos (ej. “globe” y “earth”), se incorporó demasiada información para muchos otros términos. computer = “computing machine”, “computing device”, “data processor”, “electronic computer” Se descarta esta optimización Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

#3 - Spell-check (1) Corrección de los errores ortográficos encontrados. Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones Reemplazar código HTML Eliminar acentos Eliminar caracteres espec. Aplicar stemming Eliminar stop-words DocumentoDocumento filtrado Aplicar spell-check para cada término

#3 - Spell-check (2) » Tumba Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones spell-check Tumba 85% inst. = 70,12% baseline 85% inst. = 64,96%

#3 - Spell-check (3) » JaSpell Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones spell-check JaSpell 85% inst. = 71,25% baseline 85% inst. = 64,96%

#3 - Spell-check (4) » Hunspell Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones spell-check Hunspell 85% inst. = 69,12% baseline 85% inst. = 64,96%

#3 - Spell-check (5) Los 3 spell-checkers mejoran los resultados del dataset baseline. Es JaSpell quien logra una pequeña diferencia con respecto a sus pares. Se acepta esta optimización Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

#4 - Spell-check mejorado (1) La idea es mejorar el spell-check anterior. Evitar la pérdida de términos cuando no existen sugerencias. Reemplazar código HTML Eliminar acentos Eliminar caracteres espec. Aplicar stemming Eliminar stop-words DocumentoDocumento filtrado Aplicar Spell-check para cada término ¿Traducción? ¿Abreviación? término traducido si Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones incorrectos y sin sugerencias términos originales si se descarta el término

#4 - Spell-check mejorado (2) Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones spell-check mejorado 85% inst. = 72,35%

#4 - Spell-check mejorado (3) Los resultados mejoran al spell-check anterior. La mejora se debe a los nuevos términos presentes en el dataset que antes eran descartados. Se acepta esta optimización (y reemplaza la anterior) Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Conclusiones

Investigación (1) Muchos investigadores coinciden que: Los tags proveen información adicional que no está presente en los documentos mismos. Suponen que pueden ser útiles para la clasificación automática de páginas web. Los tags son más diversos que los anchor-tags, pero capturan información y significados desde distintos puntos de vista. Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Investigación (2) Según esta investigación: Los tags efectivamente aportan valor a la clasificación automática de documentos web. La fusión de tags y anchortexts resulta en la combinación ideal para la generación del dataset. Según una clasificación individual para cada recurso: 1ro tags, 2do anchortext y 3ro queries. Completar un poco más Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Extensiones Existen diversas formas de mejorar los resultados: Filtrado de tags considerados subjetivos, resolver problemas de sinonimia o polisemia. Utilizar las notas escritas por usuarios en Delicious. Considerar la “popularidad” de los documentos. Utilizar otros servicios donde se compartan links, como Facebook o Twitter. Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Trabajo futuro Muy relacionado con el campo de las búsquedas web. Por ej. SafeSearch de Google. Personalización de búsquedas web: tags pueden ser útiles para la desambiguación de palabras claves en una consulta. Sugerir categorías que expandan o refinen una búsqueda web. Aplicación de categorización automática en ODP. En el área de marketing o publicidad. Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

¿Preguntas? Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

GRACIAS Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones