Facultad de Ciencias Exactas Universidad Nacional del Centro de la Provincia de Buenos Aires (UNICEN) Nicolás A. Tourné Directora: Dra. Daniela Godoy Tandil,

Slides:



Advertisements
Presentaciones similares
Sistema Organizacional en línea para Administradores y Gerentes de Proyecto Gerente Contratista ConsultorCliente EnVivo Punto central de Coordinación de.
Advertisements

Wiki como herramienta de aprendizaje de Post grado en Anestesiología Objetivos de la presentación Objetivos de la presentación Definición de wiki Definición.
Taller opcional Tecnologías de la información y la comunicación Web 2.0.
ALFIN en el contexto de la Web 2.0
HERRAMIENTAS WEB 2.0.
Asesorías Metodológicas LAPSO (2011-2) Fase II
DISEÑO Y GESTIÓN DE BASES DE DATOS Luciano H. Tamargo Depto. de Ciencias e Ingeniería de la Computación Universidad Nacional del Sur, Bahía Blanca INTRODUCCIÓN.
Publicar en la web – el rol de los bibliotecarios Dominique Babini – CLACSO Bibliotecas y nuevas lecturas en el espacio digital 2º Congreso Iberoamericano.
SISTEMA DE NACIMIENTOS MANUAL DEL USUARIO. El objetivo del presente manual es servir de guía al usuario final para interactuar con el Sistema, permitiéndole.
SILVIA BEATRIZ GAVILANES NARANJO KELLY VERÓNICA CARVAJAL CUJI
Herramientas Web 2.0 para la investigación Doctorado en Estudios Feministas y de Género Marzo 2014.
¿Qué es la web 2.0 Web 2.0 y educación Tipos de herramientas web 2.0 Herramientas y ejemplos de aplicación ¿Dónde buscar aplicaciones Web 2.0?
Maestría en Tecnologías de la Información
INTELIGENCIA DE NEGOCIOS
Internet.
Un wiki o una wiki (del hawaiano wiki, 'rápido') es un sitio web cuyas páginas pueden ser editadas por múltiples voluntarios a través del navegador web.
UNIVERSIDAD DE LA FF. AA. ESPE CARRERA DE INGENIERIA DE SISTEMAS PROYECTO DE TESIS : “Análisis, diseño, construcción e implementación de una Guía Interactiva.
Weka.
EL INTERNET El Internet es una red informática descentralizada, que para permitir la conexión entre computadoras opera a través de un protocolo de comunicaciones.
Construcción de una página Web.

TEMA 3.2 CORREO ELECTRONICO (GMAIL). TIPOLOGIAS DE APRENDIZAJE.
Integrantes: Daniel Peña Alfredo Zuñiga
Derechos reservados ¿QUÉ ES UNA CAZA DEL TESORO? Una caza del tesoro es un tipo de actividad constructivista, muy sencilla, utilizada por los docentes.
3. Espacios de trabajo. Manual de formación 2 3. Espacios de trabajo 3.1 Introducción … ……pág.45.
ARCHIVOS PDF POR: MARINA MORALES VIII SEMESTRE DE ADMITRACIÓN DE EMPRESAS UNICIENCIA.
JENNY MILENA DIAZ MONCALEANO GESTION EMPRESARIAL.
Conceptos de Gestión y Planificación de Proyectos Software
¿QUÉ SON LAS WEBQUESTS? ANGELA MARIA ANDRADE CAMACHO
ASOPROJECT Componentes del grupo: - Alberto Díaz Gil - Miguel Ángel Llorente Gracía - Javier E. Yépez Hualde.
Universidad Nacional Autónoma de Honduras- Valle de Sula Wikis y Foros Carrera de Pedagogía.
¿ que es una wiki ?  El término Wiki Wiki es de origen hawaiano que significa: rápido. Comúnmente para abreviar esta palabra se utiliza Wiki y en términos.
5.- Aplicaciones software Procesador de textos Hoja de cálculo Bases de datos Programas de estadística Informática Aplicada al Trabajo Social. Universidad.
Dr. Sergio Teijero Profesor Asociado Universidad Central de Venezuela
LÓGICA DE PROGRAMACIÓN LSC. Susana Alejandra López Jiménez.
MIME EXTENSIONES DE CORREO INTERNET MULTIPROPÓSITO. SERIE DE ESPECIFICACIONES DIRIGIDAS AL INTERCAMBIO TRANSPARENTE DE TODO TIPO DE ARCHIVOS A TRAVÉS DE.
DIEGO MADARRIAGA BRIEVA DARIO DIAZ PEÑALOZA ANDERSON ACEVEDO RIOS.
Búsqueda de información
© 2008 IBM Corporation Web 2.0 en la Empresa Pablo Pedemonte Software Engineer, IBM Research
1 Clase 3 Registro de resultados Tecnología de la Comunicación I.
 Este protocolo opera a través de solicitudes y respuestas, entre un "cliente" y un "servidor". El cliente para los usuarios es el navegador web, usado.
WORD WIDE WEB Nace a principios de los años 90 en Suiza. Su función es ordenar y distribuir la información que existe en internet. La World Wide Web se.
Tema: P roblemas con el navegador. Motor de búsqueda.
Trabajo colaborativo. El término WikiWiki es de origen hawaiano que significa: rápido. Comúnmente para abreviar esta palabra se utiliza Wiki y en términos.
Aplicaciones de los social bookmarks para la enseñanza y la investigación. Mario A. Núñez Molina Coordinador IDEAL
ESTEFANIA FIALLO GIANELLA ROSERO.   El e-learning es un modelo de formación a distancia que utiliza Internet como herramienta de aprendizaje. Este modelo.
Colegio de bachilleres plantel n°14
HERRAMIENTAS DE LAS WEB 2.0 PRESENTADO POR: María Isabel Baquero Villero 11°B.
Facultad de Ingeniería y Tecnologías Memoria de Grado Geolocalización de documentos en el marco GIS.
 Com:  Edu: sigla utilizada para los portales o paginas web de educación, denominados dominios  Org: sigla utilizada para definir el dominio de la.
Análisis y Diseño de Aplicaciones
Curso “Hacia una integración curricular de las TIC en la formación docente inicial”. Tema: Bookmarking Social Alumna: CHARLIAC, Ma. Laura. (Profesorado.
Herramientas colaborativas: Marcadores sociales. INTRODUCCIÓN Cuando una web o página nos parece interesante en Internet solemos guardar la dirección.
Taller Formulación de proyectos de aula (blogs - páginas web)
Tema: Motores de Búsqueda
 El término WikiWiki es de origen hawaiano que significa: rápido. Comúnmente para abreviar esta palabra se utiliza Wiki y en términos tecnológicos es.
es una herramienta que forma parte de un proceso de aprendizaje guiado, con recursos principalmente procedentes de internet, que promueve la utilización.
HERRAMIENTAS WEB 2.0 CONTENIDO QUE ES LA WEB 2.0 WEB 2.0 Y EDUCACION TIPOS DE HERRAMIENTAS WEB 2.0 HERRAMIENTAS Y EJEMPLOS DE APLICASION DONDE BUSCAR.
Facultad de Ciencias Exactas Universidad Nacional del Centro de la Provincia de Buenos Aires (UNICEN) Nicolás A. Tourné Directora: Dra. Daniela Godoy Tandil,
Facultad de Ciencias Exactas Universidad Nacional del Centro de la Provincia de Buenos Aires (UNICEN) Nicolás A. Tourné Directora: Dra. Daniela Godoy Tandil,
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
El valor de hacerlo sencillo. Capacitación N°1 Oracle RightNow.
Conalep 150 Tehuacán inmi 309 soma
Google docs Tutorial para elaborar una presentación en línea con Google docs Prof. Edgar Oswaldo González Bello Prof. Adolfo Castillo Navarro Universidad.
Universidad Autónoma del Estado de México Facultad de Ciencias Políticas y Sociales.
Extracción de conocimiento a partir de Recursos Digitales para el Aprendizaje Mtro. Alfredo Zapata González Escuela Superior de Informática.
Realizado por Lucia y Florencia.  Es el conjunto de programas encargado de la gestión interna de la computadora, controla el funcionamiento del hardware.
Archivador web Proyecto de colaboración para el LSI Autor: Adrián Mesa Pachón Contacto:
Antonio de Jesús González Arce Matricula DHTIC.
Búsqueda en la Web. Razones para introducir las TIC (OECD 2001) Las TIC son una competencia básica, tal como la lectura, escritura y matemática. Las TIC.
Transcripción de la presentación:

Facultad de Ciencias Exactas Universidad Nacional del Centro de la Provincia de Buenos Aires (UNICEN) Nicolás A. Tourné Directora: Dra. Daniela Godoy Tandil, Argentina. 1 de Julio, 2011 Clasificación de Documentos Web utilizando Marcadores Sociales Tesis de Grado. Ingeniería de Sistemas

1. Introducción 2. Marcadores sociales 3. Recursos utilizados 4. Desarrollo de la investigación 5. Conclusiones Agenda

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones tags: internet, directorio web, data mining, web mining, web 2.0, marcadores sociales 1 Introducción

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones tags: internet, directorio web, data mining, web mining, web 2.0, marcadores sociales 1 Introducción

Marco teórico Nuevo medio de comunicación: INTERNET. Crecimiento exponencial de páginas web a fines de los 90’. Creación de directorios web. Se comienza a pensar en “categorización automática”. Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Data mining Extracción no trivial de información. Data mining = estadísticas + IA + machine learning A partir del rotundo crecimiento de la web, se habla de web mining. La clasificación es una técnica muy utilizada. Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Colaboración e intercambio ágil de información entre los usuarios. Nuevos servicios: blogs, wikis, redes sociales, etc. Surgimiento de los marcadores sociales. La Web 2.0 Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Propuesta ¿Los marcadores sociales son útiles para ser empleados en la clasificación automática de documentos web? Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones categorización automática marcadores sociales a mayor información, mejores predicciones + +

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones tags: palabras claves, tagging colaborativo, folcsonomía, social bookmarks 2 Marcadores sociales

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones tags: palabras claves, tagging colaborativo, folcsonomía, social bookmarks 2 Marcadores sociales

Etiquetas (tags) Palabras claves asignadas a un recurso escogidas libremente. No siguen regla formal de escritura. Significado social y oculto. Comportamiento “power law”. Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Tagging colaborativo (1) Sistemas de clasificación colaborativa por medio de etiquetas simples. Surgen de la participación de varios usuarios. Comúnmente se produce en entornos de software social. Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Tagging colaborativo (2) Folcsonomía, clasificación gestionada por el pueblo. Se compone de 3 entidades vinculadas. Folcsonomías amplias y estrechas. Varias deficiencias. Usuario 1 Usuario 2 Recurso N Recurso 1 Recurso 3 Recurso 4 Recurso 2 Tag 1 Tag 2 Tag 4... Tag 3 Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

¿Qué son los marcadores sociales? Forma sencilla de almacenar, clasificar y compartir enlaces en internet. Los usuarios guardan una lista de recursos que consideran útiles. Los recursos son categorizados mediante etiquetas o tags. Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: dataset, CABS120k08, weka, clasificador, Naive Bayes, SMO, parser Recursos utilizados 3

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones tags: dataset, CABS120k08, weka, clasificador, Naive Bayes, SMO, parser Recursos utilizados 3

Colección de datos CABS120k08 Consiste en casi 120 mil URLs con metadatos adicionales presentado en formato XML, basados en la intersección de: Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones 500k random queries Tags Categorías Anchors text

Weka Software para aprendizaje automático y data mining escrito en Java. Licencia GNU-GPL. Soporta varias tareas de data mining como clasificación, clustering, pre-procesamiento de datos, regresión, etc. En la investigación se utilizaron los algoritmos de clasificación Naive Bayes y SMO. Formato de archivo plano ARFF. Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Parser: CABS120k08 » ARFF Se ha construido en Java para convertir CABS120k08 a ARFF. Filtros aplicados a cada documento: Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones Reemplazar código HTML Eliminar acentos Eliminar caracteres espec. Aplicar stemming Eliminar stop-words Documento Documento filtrado

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones tags: Naive Bayes, SMO, percentage split, cross- validation, tags, anchor-text, queries Desarrollo investigación 4 optimización, baseline, WordNet, spell-check

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones tags: Naive Bayes, SMO, percentage split, cross- validation, tags, anchor-text, queries Desarrollo investigación 4 optimización, baseline, WordNet, spell-check

Resumen Procedimiento utilizado: Generación de datasets Pre-procesam. de c/ dataset Clasificación Análisis de resultados Optimizaciones datasets CABS120k08.xml datasets pre-procesados Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Generación de datasets Cada dataset está compuesto por los mismos documentos, representados a partir de distintas fuentes de información: queriesanchor texttags queries + anchor text queries + tags anchor text + tags queries + anchor text + tags Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Análisis de resultados Primero, se decide cuál es el mejor clasificador: - Naive Bayes - SMO (PolyKernel) - SMO (RBFKernel) Se utiliza la configuración por defecto para cada clasificador: Percentage split (66%) y Cross-validation (10 folds). Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Resultados » Naive Bayes Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones 57,92% 60,38%

Resultados » SMO (PolyKernel) Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones 64,34% 65,40%

Resultados » SMO (RBFKernel) Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones 49,67% 51,48%

Selección del clasificador La performance de los clasificadores evaluados es la siguiente: SMO (PolyKernel) NaiveBayes SMO (RBFKernel) Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Elección del dataset ideal Pruebas realizadas con distintos % de entrenamiento. anchortext+tags 85% inst. = 64,96% Pocas instancias de entrenamiento, pobres resultados Los tags son el recurso de mayor aporte a la clasif. Las queries perjudican la clasificación Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones tags anchortext+tags query+anchortext+tags queries

Optimizaciones Llevar a cabo una serie de cambios para lograr mejorar los resultados de la clasificación. Se utiliza el categorizador SMO (PolyKernel) y Percentage split como modo de entrenamiento. Se define un baseline. Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

#1 - Sin aplicar stemming (1) No se aplica stemming en la generación del dataset. Reemplazar código HTML Eliminar acentos Eliminar caracteres espec. Aplicar stemming Eliminar stop-words DocumentoDocumento filtrado Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

#1 - Sin aplicar stemming (2) Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones baseline 85% inst. = 64,96% no stemming 85% inst. = 59,89%

#1 - Sin aplicar stemming (3) Existen casos como: Se descarta esta optimización Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones no stemming computer (28) compute (16) computadora (8) computation (1) baseline compute (53)

#2 - Sinónimos (WordNet) (1) Encontrar sinónimos a cada término del dataset. Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones Reemplazar código HTML Eliminar acentos Eliminar caracteres espec. Aplicar stemming Eliminar stop-words DocumentoDocumento filtrado Generar sinónimos

#2 - Sinónimos (WordNet) (2) Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones baseline 85% inst. = 64,96% sinónimos 85% inst. = 56,22%

#2 - Sinónimos (WordNet) (3) Si bien hubo casos donde los sinónimos fueron ventajosos, se incorporó demasiada información para muchos otros términos. “computer” = “computing machine”, “computing device”, “data processor”, “electronic computer” Se descarta esta optimización Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

#3 - Spell-check (1) Corrección de los errores ortográficos encontrados. Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones Reemplazar código HTML Eliminar acentos Eliminar caracteres espec. Aplicar stemming Eliminar stop-words DocumentoDocumento filtrado Aplicar spell-check para cada término

#3 - Spell-check (2) » Tumba Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones spell-check Tumba 85% inst. = 70,12% baseline 85% inst. = 64,96%

#3 - Spell-check (3) » JaSpell Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones spell-check JaSpell 85% inst. = 71,25% baseline 85% inst. = 64,96%

#3 - Spell-check (4) » Hunspell Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones spell-check Hunspell 85% inst. = 69,12% baseline 85% inst. = 64,96%

#3 - Spell-check (5) Los 3 spell-checkers mejoran los resultados del dataset baseline. Es JaSpell quien logra una pequeña diferencia con respecto a sus pares. Se acepta esta optimización Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

#4 - Spell-check mejorado (1) La idea es mejorar el spell-check anterior. Evitar la pérdida de términos cuando no existen sugerencias. Reemplazar código HTML Eliminar acentos Eliminar caracteres espec. Aplicar stemming Eliminar stop-words DocumentoDocumento filtrado Aplicar Spell-check para cada término ¿Traducción? ¿Abreviación? término traducido si Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones incorrectos y sin sugerencias términos originales si se descarta el término

#4 - Spell-check mejorado (2) Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones spell-check mejorado 85% inst. = 72,35%

#4 - Spell-check mejorado (3) Los resultados mejoran al spell-check anterior. La mejora se debe a los nuevos términos presentes en el dataset que antes eran descartados. Se acepta esta optimización (y reemplaza la anterior) Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: marcadores sociales, beneficios, clasificación, búsqueda web Conclusiones 5 Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

tags: marcadores sociales, beneficios, clasificación, búsqueda web Conclusiones 5 Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

Conclusiones generales Los marcadores sociales efectivamente aportan valor a la clasificación automática de documentos web Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

¿Preguntas? Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones

¡Muchas gracias!

Introducción Marcadores sociales Recursos utilizados Desarrollo investigación Conclusiones ¡Muchas gracias!