Informe de Materia de Graduación “Uso de la plataforma Pig sobre Hadoop como alternativa a una RDBMS para el análisis de datos masivos. Prueba de concepto.

Slides:



Advertisements
Presentaciones similares
Red Social: “Un millón de Amigos”.
Advertisements

INSTITUTO TECNOLOGICO ANTIVIRUS
DIRECTOR: ING. DIEGO MARCILLO CODIRECTOR: ING. JAIME ANDRANGO
Grabación y supervisión telefónica. 2 INTRODUCCIÓN Este documento contiene información del producto. La información contenida en esta presentación es.
Aplicaciones Cliente-Servidor
Tecnologías Cliente / Servidor Capitulo III Richard Jiménez V. clienteserver.wordpress.com.
UNIVERSIDAD TECNOLÓGICA ISRAEL CARRERA DE SISTEMAS INFORMÁTICOS
TECNOLOGIA DE NUBES JORLETH POVEDA MURCIA.
Trabajo de programas de simulación de redes
MI PROGRAMA DE FORMACION
Introducción 1 Puntos Clave –La orientación a objetos representa un cambio radical en los métodos tradicionales de creación de software –Los métodos tradicionales.
Introducción al software
Utilización de la plataforma Hadoop para implementar un programa distribuido que permita encontrar las paredes de células de la epidermis de plantas modificadas.
MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS
Presentado por: Lenin Isaías Escobar Mendoza
Búsquedas avanzadas en la Wikipedia
Presentado por: Luis Loaiza Carlos Andrés Granda Informe de Materia de Graduación Procesamiento Masivo y Escalable de Datos.
ESCUELA POLITÉCNICA DE LAS FUERZAS ARMADAS - ESPE
CÓMO REALIZAR UN PROYECTO
Sistema de Agrupamiento y Búsqueda de Contenidos de la Blogosfera de la ESPOL, Utilizando Hadoop como Plataforma de Procesamiento Masivo y Escalable de.
Sistema Para GENERAR gráficas a partir de logs tcpdump usando Hadoop
Agenda Introducción Relevamientos de tecnologías
Proyecto de Ingeniería de Software 2008
Denisse Cayetano – Christian Rivadeneira
HERRAMIENTAS CASE.
Contexto: Aplicación gráfica.  Siempre que se piensa en separar la funcionalidad de una aplicación de su interacción con el usuario, bien sea una aplicación.
ESCUELA POLITÉCNICA DEL EJÉRCITO
Índice Introducción Big Data Arquitectura HDFS
ANALITICA - INTEGRATOR INTRODUCCIÓN Y CONCEPTOS. ANALITICA - INTEGRATOR OBJETIVO Integrar información aislada en archivos o sistemas, tanto corporativos.
SQL Server 2008 Integration Services
Generación de recomendaciones de ítems musicales basado en las valoraciones implícitas y las similitudes de los usuarios utilizando Hadoop para procesamientos.
P2WX Phone2Wave-Extended Grabación y supervisión telefónica.
Escuela Superior Politécnica del Ejército
Introducción al modelo Cliente-Servidor Carlos Rojas Kramer Universidad Cristóbal Colón.
Eloísa Orozco Bueno Alvaro Padilla Vilema
Sistema Organizador de Invitaciones, Eventos y Memos basado en una aplicación Cliente – Servidor SOIEM TESIS DE GRADO FIEC – ESPOL 2007 Christian Vulgarin.
¿QUE NO ES? COMPUTADORES EN LAS NUBES Es un paradigma que permite ofrecer servicios de computación a través de Internet. Los usuarios puedan acceder.
O Funcionamiento, ventajas y alcance o ESTUDIANTE: EDWIN ARAY VÉLEZ o PROFESOR: ING. JOSÉ MEDINA o FUNDAMENTOS TECNOLÓGICOS DE INFORMACIÓN.
Sistema de comunicación segura.. Comunicación Segura Las agencias gubernamentales, organizaciones y personas del común tienen a disposición todas las.
Computación en la Nube UASF.
SPA S ISTEMA DE P LANIFICACIÓN A CADÉMICA Erika Lara – Daniel Plúa FACULTAD DE INGENIERÍA EN ELECTRICIDAD Y COMPUTACIÓN Y COMPUTACIÓN TESIS DE GRADO 2006.
Escuela Superior Politécnica del Litoral
EXÁMEN DE TÍTULO Ingeniería de Ejecución en Informática
Integrantes: Jorge Herrera M. Carlos Rodríguez R..
Diseño del Modelo de una Red WiFi con Servicios de Telefonía IP con enlaces de larga distancia en zonas rurales como solución a la demanda de telefonía.
ASOPROJECT Componentes del grupo: - Alberto Díaz Gil - Miguel Ángel Llorente Gracía - Javier E. Yépez Hualde.
PORTAL WEB PARA CONTRIBUIR EN LA VENTA, COMERCIALIZACIÓN Y DISTRIBUCIÓN DE LA ZEOLITA NATURAL USANDO AJAX Integrantes: Martha Isabel Correa Barrera Patricia.
KARINA SMITH GALLARDO ROBIN ANDERSON HERNANDEZ FABIAN TARAZONA SONIA TORRES LAURA.
EXAMEN DE TITULO Srta. Nataly Muñoz Sr. Miguel Rodríguez Sr. Cristian Varela Profesor guía: Sr. Juan Duarte Lange Ingeniería de Ejecución en Informática.
Servicio Remoto de Monitoreo
EL SERVICIO ORIENTADO A CONEXIONES Sigue el modelo del sistema telefónico. Para hablar con alguien levantamos el auricular, marcamos el número, Hablamos.
SERVICIOS EN LA NUBE La computación en la nube, concepto conocido también bajo los términos servicios en la nube, informática en la nube, nube de cómputo.
DISEÑO CURRICULAR Presentado por: Cesar Augusto Sáenz María Alejandra Hernández 1.contenidos curriculares de competencia.
Son los atributos de un sistema que son visibles para un programador, es decir aquellos atributos que impactan directamente en la ejecución lógica de un.
Introducción al proceso de verificación y validación.
Naime Cecilia del Toro Alvarez
Gestión Centralizada de Campañas
BASE DE DATOS DISTRIBUIDAS
Departamento de Procedimientos de Control Programados Dirección de Programas y Normas de Fiscalización Subdirección General de Fiscalización.
Computación en la Nube.
Instituto Tecnológico Superior de Libres Organismo Publico Descentralizado del Gobierno del Estado de Puebla José Alejandro Leal González.
SISTEMAS OPERTIVOS DE RED Los usuarios están conectados a la red y que pueden compartir recursos. Cada equipo ejecuta con sus propios recursos su propio.
Es un antivirus gratuito basado en cloud computing, especialmente diseñados para ofrecer protección desde la nube. Es un software de protección, como los.
1 ESTIMACIÓN basada en PUNTOS de FUNCIÓN. 2 Agenda de la presentación 4 Técnicas de estimación. 4 Puntos de Función. (En general) 4 Puntos de Función.
Optativa II Carlos Quilumbaqui. ¿Qué es Big Data? Big Data son grandes en cantidad, se capturan a un índice rápido, y son estructurados o no estructurados,
Integrantes Miguel Betancourt Alexis Tacuri.  Activiti es una plataforma para la formación de flujos de trabajo y procesos empresariales dentro del.
Conociendo el modelo Cliente-Servidor
QUÉ ES UNA BASE DE DATOS? Es un Conjunto de Información, que está clasificada de distintas maneras; pero que comparten entre sí algún tipo de vínculo,
UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO Instituto de Ciencias Económico Administrativas.
Informe de Materia de Graduación
Transcripción de la presentación:

Informe de Materia de Graduación “Uso de la plataforma Pig sobre Hadoop como alternativa a una RDBMS para el análisis de datos masivos. Prueba de concepto utilizando registros de detalles de llamadas” Presentado por: Romeo Cabrera Arévalo Fabricio Medina Palacios Profesora: Ing. Cristina Abad

Introducción  En la actualidad se ha dado una explosión y alta penetración en la telefonía celular.  La información de registros (CDRs) generada por el uso de los servicios es del orden de los terabytes al mes.  Enfoque tradicional: Almacenar esta información en RDBMSs para su procesamiento.  El paradigma “en la nube” para realizar procesamiento paralelo masivo de información surge como una alternativa.

Objetivos 1. Comprobar la escalabilidad y adecuación al uso de la herramienta Pig sobre Hadoop para el procesamiento de cantidades masivas de registros. 2. Comparar la razón costo/rendimiento entre el uso de Pig-Hadoop en un clúster en la nube contra el uso de un RDBMS comercial para procesar registros masivamente. 3. Demostrar la facilidad de crear consultas ad-hoc usando Pig para diversas y cambiantes necesidades de análisis de información.

Alcance 1. Instalar una plataforma basada en Pig sobre Hadoop para el procesamiento de registros de detalles de llamadas. 2. Configurar esta plataforma para que sea ejecutada sobre Amazon EC2. 3. Desarrollar scripts en Pig que realicen análisis de esta información. 4. Comparar esta solución frente al uso de una herramienta comercial (Oracle) en una empresa de telefonía celular local. 5. Desarrollar un sencilla interfaz Web para poder ingresar y/o subir scripts en Pig para esta plataforma, y para realizar una visualización de los resultados.

Archivos CDRs  Registros informáticos generados por una central telefónica, los cuales contienen detalles de los eventos que han pasado a través de ella.  Ejemplo: –10888, , ,86067, ,17667,202,304,1222F ,1436,0,0,0,319,,108,0,0,0,701, 1002,101,-1,0,,0,9,35,9/28/ :55:0,1/1/1900 0:0:0,9/28/ :55:0,0,0,0,0,,0,0,0,0,0,0,1,2,1,350,16,50,- 1,0, , , ,2,1  Especifica datos como: Número origen, Número destino, Hora de evento, Celda origen, Duración del evento, Perfil del suscriptor, Tipo de Tarificación del evento, entre otros.

Arquitectura sistema actual Code lines Cdrs Voz Espacio físico (Tablespaces (DAT, IDX) 670 GB (90 días) Cdrs SMS (registros de mensajes de texto) Espacio físico (Tablespaces (DAT, IDX) 710 GB (90 días) Procesos En línea y por lotes para carga de Cdrs a Bases de datos

Diseño  Hadoop: Implementación Open Source del paradigma MapReduce de computación distribuida.  Pig: Capa de software que recibe scripts en un lenguage de flujo de datos y los convierte en trabajos MapReduce.  Uso de archivos comprimidos BZ2  Uso de servicios Web de Amazon –Simple Storage Service (S3) –Elastic Cloud Computing (EC2)

Arquitectura de la solución

Esquema de directorios

Script en Pig A = LOAD 'cdrs/data/SMS/2009/01' USING PigStorage(','); Y = GROUP A BY $1; Z = FOREACH Y GENERATE $0,COUNT(A); N = ORDER Z BY $1 DESC; STORE N INTO 'output/sms' USING PigDump();

Pantalla de consultas predeterminadas

Ingreso de script por pantalla

Ingreso de script por archivo

Consulta de requerimientos

Consulta de detalle de requerimiento

Gráfico de resultado

Pruebas  Se probó con archivos CDRs de 3,15 GB. (1,54 GB comprimidos)  Dos procesos: –Sumatoria de SMS. –Distribución de envío de mensajes.  Nodos Linux “High CPU medium” (1.7 GB de memoria, 5 EC2 computing units, 350 GB de almacenamiento local y plataforma de 32 bits. )  1 EC2 C.U. = Xeon 2007 de GHz

Resultados Tiempo de ejecuci ó n de procesos (en segundos)

Costo monetario Nuevo esquema Esquema tradicional Costo anual de soporte HW: $ Costo del HW: $1 Mill ó n

Conclusiones  La solución presentada permite el realizar consultas y análisis sobre volúmenes de información que no hubieran sido posibles en un esquema de RDMS convencional.  Esta tecnología no implica un reemplazo de una RDBMS tradicional, más bien la complementa.  Pig minimiza el tiempo necesario para implementar un requerimiento ad-hoc.  El costo monetario de almacenamiento y procesamiento en un clúster en la nube es dos órdenes de magnitud inferiores al de una solución tradicional.  El uso de las plataformas Pig, MapReduce, EC2, simplifican el desarrollo de aplicaciones distribuidas.

Recomendaciones  Uso de EBS (Elastic Block Store) como alternativa a S3.  Actualizar a Hadoop 0.20 (se utiliza 0.18). Mejoras varias en rendimiento y permite referenciar directamente archivos S3.  Levantar los nodos en demanda, y en una cantidad óptima para cada script.  Uso de SQS (Simple Queue System) o similar para control y priorización de trabajos enviados a procesar.  Usos adicionales: Minería de datos para marketing, detección de patrones de fraude, etc.

Preguntas

¡Gracias!