Sistema de Agrupamiento y Búsqueda de Contenidos de la Blogosfera de la ESPOL, Utilizando Hadoop como Plataforma de Procesamiento Masivo y Escalable de.

Slides:



Advertisements
Presentaciones similares
Pensiones Civiles del Estado PROYECTO: Página Web PCE
Advertisements

Objetivos Desarrollar software funcional multi-modelo sobre distintas plataformas para el estudio de sistemas complejos de cómputo de alto rendimiento.
Stuart Pérez A12729.
Sistemas Operativos Distribuidos Plataforma Cliente/Servidor
SharePoint 2010.
República Bolivariana de Venezuela Ministerio del Poder Popular para la Defensa Universidad Nacional Experimental Politécnica de la Fuerza Armada Nacional.
Unidad I: Transición del Análisis hacia el Diseño
Profra: Verónica Pérez Rosas Introducción a la Programación Universidad Politécnica de Altamira.
SILVIA BEATRIZ GAVILANES NARANJO KELLY VERÓNICA CARVAJAL CUJI
“SISTEMA DE PASANTÍAS PARA LA FACULTAD DE INGENIERÍA
Utilización de la plataforma Hadoop para implementar un programa distribuido que permita encontrar las paredes de células de la epidermis de plantas modificadas.
MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS
Andy Miguel Castro Amaiquema
Búsquedas avanzadas en la Wikipedia
DESARROLLO E IMPLEMENTACIÓN DE UN PLUGIN DE GOOGLE WALLET PARA PAGOS ONLINE UTILIZANDO SOFTWARE OPEN SOURCE.
Sistema Para GENERAR gráficas a partir de logs tcpdump usando Hadoop
Introducción a los sistemas de Información Hospitalarios
BASES DE DATOS DISTRIBUIDAS
Lógica de Programación
Fases para el desarrollo de un proyecto Web
HADOOP, como una plataforma de procesamiento masivo de datos.
Denisse Cayetano – Christian Rivadeneira
Arelis De León Erika Quiroz Manuel Frago
Introducción a los Conceptos de Bases de Datos Docente: Ing. Marleny Soria Medina.
INTELIGENCIA DE NEGOCIOS
UNIVERSIDAD DE LA FF. AA. ESPE CARRERA DE INGENIERIA DE SISTEMAS PROYECTO DE TESIS : “Análisis, diseño, construcción e implementación de una Guía Interactiva.
SQL Server 2008 Integration Services
Curso de Computación Científica en Clusters
MAESTRÍA DE GERENCIA EN SISTEMA
Generación de recomendaciones de ítems musicales basado en las valoraciones implícitas y las similitudes de los usuarios utilizando Hadoop para procesamientos.
Sistema de Información
Escuela Superior Politécnica del Ejército
Programacion Web Practica 1 Estudio de la aplicación distribuida: Apache Hadoop.
Planeación con Planning Tool y DotProject Grupo de Construcción de Software Facultad de Ingeniería Universidad de los Andes Rubby Casallas, Andrés Yie.
ESCUELA POLITÉCNICA DEL EJÉRCITO
Unidad VI Documentación
Sistema Organizador de Invitaciones, Eventos y Memos basado en una aplicación Cliente – Servidor SOIEM TESIS DE GRADO FIEC – ESPOL 2007 Christian Vulgarin.
Computación en la Nube UASF.
Proyecto de Ingeniería de Software Grupo 9 Septiembre 2009
TRABAJO DE INTERNET 1 Alumno: TORRES EDINSON Profesor: VICTOR ESPINOZA
Google Docs y Talk. Vamos a hacer una pequeña presentación de google docs y google talk en la que hablaremos de: Historia Historia Ventajas y desventajas.
SPA S ISTEMA DE P LANIFICACIÓN A CADÉMICA Erika Lara – Daniel Plúa FACULTAD DE INGENIERÍA EN ELECTRICIDAD Y COMPUTACIÓN Y COMPUTACIÓN TESIS DE GRADO 2006.
Universidad Central de Venezuela Facultad de Ciencias Postgrado en Ciencias de la Computación Sistemas Distribuidos Albany Márquez.
Escuela Superior Politécnica del Litoral
Integrantes: Jorge Herrera M. Carlos Rodríguez R..
ASOPROJECT Componentes del grupo: - Alberto Díaz Gil - Miguel Ángel Llorente Gracía - Javier E. Yépez Hualde.
Universidad Nacional del Callao Curso: INTRODUCCIÓN AL DISEÑO ELÉCTRICO ING.: CARLOS DORIVAL CASTILLO.
Informe de Materia de Graduación “Uso de la plataforma Pig sobre Hadoop como alternativa a una RDBMS para el análisis de datos masivos. Prueba de concepto.
Departamento de Informática Universidad de Rancagua
Aspectos Tecnológicos Plataforma e-Muni Luis M. Guzmán S. Jefe de Tecnología MuNet e-Gobierno.
Aulas virtuales.
Universidad Metropolitana Introducción a la Computación
INTRODUCCIÓN INGENIERIA DE SISTEMAS
SENA REGIONAL HUILA REGIONAL HUILA CENTRO DE LA INDUSTRIA LA EMPRESA Y LOS SERVICIOS Huila Elementos de sistemas de información.
Metodología de la programación
Cluster de Computadores de Alto Desempeño con Acceso Remoto
ESCUELA NORMAL PARA EDUCADORA ‘’PROFR. SERAFIN CONTRERAZ MANZO’’
Facultad de Ingeniería y Tecnologías Memoria de Grado Geolocalización de documentos en el marco GIS.
¿Que es Cloud Computing? La computación en la nube, concepto conocido también bajo los términos servicios en la nube, informática en la nube, nube de.
DISEÑO CURRICULAR Presentado por: Cesar Augusto Sáenz María Alejandra Hernández 1.contenidos curriculares de competencia.
RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ INF-252.
Competencias Avanzadas de Telemática Agosto de 2015.
Computación en la Nube.
PROYECTO DE GRADUACIÓN
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
BUSINESS T&G Think & Grow Uniclass Gestión Documental Solución Web para Mejorar la Captura y Gestión.
UNIVERSIDAD LATINA (UNILA)
Optativa II Carlos Quilumbaqui. ¿Qué es Big Data? Big Data son grandes en cantidad, se capturan a un índice rápido, y son estructurados o no estructurados,
Autores: Myriam Montes, Iván Viera, Carlos Caizaguano, José Sancho
1.ª Parte: Dónde y cómo buscar información.  Cuando se busca información sobre un tema, es necesario emplear una «estrategia de búsqueda» para optimizar.
Transcripción de la presentación:

Sistema de Agrupamiento y Búsqueda de Contenidos de la Blogosfera de la ESPOL, Utilizando Hadoop como Plataforma de Procesamiento Masivo y Escalable de Datos. Allan Avendaño

Agenda Introducción Paradigma Map/Reduce Amazon Web Services Information Retrieval Diseño Implementación Pruebas

INTRODUCCIÓN Estado Actual ESPOL se ha planteado el objetivo de mejorar su posicionamiento en la lista de sitios Web de universidades latinoamericanas Se crea la blogosfera politécnica Autores: estudiantes, profesores y personal afín Propósito: Diversificación de contenidos Aún no existen datos que permitan determinar las características de la comunidad Solución Actual: Directorio de Blogs No permite realizar búsquedas Solución Propuesta: Sistema de Búsqueda de Contenidos en la Blogosfera Politécnica Y un motor de recomendación de entradas

INTRODUCCIÓN Motivación Consolidar la comunidad de autores de blogs de la ESPOL Proporcionar de una visión general de lo que se escribe en la blogosfera politécnica a los lectores y miembros de la comunidad

INTRODUCCIÓN Objetivos Implementar un módulo de agrupamiento de contenidos de la blogosfera de la ESPOL Usando Hadoop como plataforma de procesamiento masivo de datos Implementar un módulo de búsqueda de entradas publicadas en los blogs Implementar una interfaz Web para el sistema de búsqueda y agrupamiento de contenidos desarrollado

Paradigma Map/Reduce Modelo de programación desarrollado por Google para resolver tareas de procesamiento de datos a gran escala Inspirado en las operaciones de lenguajes funcionales

Hadoop Plataforma de procesamiento distribuido y masivo de datos de la ASF Sistema de archivos distribuido HDFS Esconde las características complejas Paralelización de tareas Control de trabajos Tolerancia a fallos Escalabilidad Detección de errores Sincronización

Amazon Web Services Computación en la nube Uso de recursos bajo demanda Algunos servicios útiles: Elastic Computing Cloud (EC2) Permite, entre otras cosas, levantar clústeres con Hadoop instalado Simple Storage Service (S3) Almacenamiento escalable de datos Elastic MapReduce (EMR) Automatiza tarea de levantar un clúster Hadoop sobre EC2

Information Retrieval Representar, almacenar, organizar y acceder a documentos relevantes tomados a partir de una colección de documentos sin estructurar (generalmente en lenguaje natural), con el objetivo de satisfacer las necesidades de los usuarios Técnicas de Extracción de Información: Agrupamiento (Clustering). Clasificación.

Diseño (I) Los usuarios ingresan los términos de búsqueda desde la interfaz Web del sistema (1) Los términos son enviados al módulo de indexación y búsqueda para obtener los blogs relevantes a los términos (2) A partir de las entradas resultantes de la búsqueda (3) se obtienen los blogs relacionados (4) Finalmente, el resultado es procesado y visualizado en la interfaz Web (5)

Diseño (II) Se implementan técnicas de extracción de información Siete procesos Map/Reduce

Implementación El sistema está compuesto por dos módulos: Agrupamiento de contenidos Indexación y búsqueda de entradas Datos a procesar: Entradas de la blogosfera politécnica Extraídas durante los meses de Febrero y Marzo del 2009 Gran cantidad de datos a analizar

Pruebas Se evaluó el rendimiento de la fase medular del sistema: Agrupamiento de entradas. Plataforma de evaluación: Recursos de Amazon Web Services Diez nodos con Hadoop instalado Pequeños grupos de entradas

Resultados

Conclusiones Tiempo de procesamiento directamente relacionado al número de entradas que componen cada grupo Muestra la escalabilidad lineal de Hadoop. Resulta conveniente implementar técnicas de extracción de información en un ambiente distribuido. Servicio EC2 permite utilizar clústeres a bajo costo en lugar de adquirirlos.

Recomendaciones Agrupamiento de entradas relacionadas debe continuar realizándose como un proceso en segundo plano. Previo a la puesta en producción, es conveniente diseñar un plan de extracción de entradas de la blogosfera politécnica. Estudiar el grado de afectación del sistema en la comunidad de autores de blogs.

GRACIAS POR SU ATENCIÓN