Sistema Para GENERAR gráficas a partir de logs tcpdump usando Hadoop

Slides:



Advertisements
Presentaciones similares
¿PARA QUE ESTAMOS AQUÍ? LOS OBJETIVOS DE LA ENCARNACIÓN.
Advertisements

SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR
Como arruinar tu influencia Lucas 14:34-35
el 1, el 4 y el 9 tres cuadrados perfectos autosuficientes
Porsche Latin America, Inc de junio de 2004 Porsche Latin America y GrupoUno Capacitación Porsche Acceleration IV Kit de Herramientas de Publicidad.
MOVIMIENTO JOVENES DE LA CALLE CIUDAD DE GUATEMALA la storia la historia lhistoire the history strada calle rue street.
Paso 1 Portada YO SOY EUROPEO Comisión Europea.
“Planificación de Aplicaciones Web”
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS ( Resumen PYMES ) Noviembre de 2004.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS (MICROEMPRESAS, resultados provisionales) 29 de julio de 2004.
1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO Resumen. 24 de Junio de 2005.
Tema 6. Evaluación de SRIs
Aranda Fernández, Miguel Ángel García Redondo, Luis Miguel
Cuestiones y problemas
Los números.
Cómo cargar contenidos en un curso en Moodle
ANALISIS DE IMÁGENES A PARTIR DE LA PRESENTACIÓN DE ALGUNAS IMÁGENES, PEDIR A LOS NIÑOS QUE OBSERVEN LAS ILUSTRACIONES Y QUE DESCRIBAN EN SU CUADERNO LAS.
Los Objetos de la Clase Escriban la palabra (the word) en español para los objetos de la clase (#1-20).
Conexión a Internet a través de un ISP
… Y así nos distraemos Vocabulario.
Los números.
PRESENTACIÓN DEL SISTEMA
Cuenta Pública Ministerio de Agricultura 18 de diciembre de 2013.
© 2006 Cisco Systems, Inc. Todos los derechos reservados.Información pública de Cisco 1 Configuración de un switch Conmutación y conexión inalámbrica de.
Resolución de Problemas
Coincidencia de imagen a través de cadena de triángulos
PROCESO DE CONTRATACIÓN 1 Ventanas en Cif-KM Proceso contratación de obra
GRÁFICOS SOBRE DATOS GENERALES. Inicio de la causa 1 - Datos generales.
BIENVENIDO AL CURSO INTRODUCTORIO LIBREOFFICE IMPRESS 3.4.5
Teoría matemática.
Proyecto ProMéxico Plasmas abril SECCIONES NOTICIAS PROYECTOS UNIDAD ACTÚA EVENTUALES secciones ProMéxico.
Proyecto ProMéxico Plasmas mayo SECCIONES NOTICIAS PROYECTOS UNIDAD ACTÚA EVENTUALES secciones ProMéxico.
RETIRO DE COMALCALCO DIC. 2012
Proyecto para Centros que trabajan una vez por semana.
Ecuaciones y Resolución de Ecuaciones Lineales
Expresiones Racionales
Utilización de la plataforma Hadoop para implementar un programa distribuido que permita encontrar las paredes de células de la epidermis de plantas modificadas.
Oscar Navarrete J. Jorge Gutiérrez A.
MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS
Búsquedas avanzadas en la Wikipedia
Sistema de Agrupamiento y Búsqueda de Contenidos de la Blogosfera de la ESPOL, Utilizando Hadoop como Plataforma de Procesamiento Masivo y Escalable de.
Seguridad de redes empresariales
Grupo 8 Fernando Arias Porras Jorge Mozos Arias Walber González Sedeño
Investigación Algorítmica
MARKETPLACE DE LOS ALPES
Comité Nacional de Información Bogotá, Julio 21 de 2011 Consejo Nacional de Operación de Gas Natural 1 ESTADISTICAS NACIONALES DE OFERTA Y DEMANDA DE GAS.
Comité Nacional de Información Bogotá, Julio 27 de 2011 Consejo Nacional de Operación de Gas Natural 1 ESTADISTICAS NACIONALES DE OFERTA Y DEMANDA DE GAS.
INFORME PIPADI HOSPITAL VALL DHEBRON JUNIO 2012 – JUNIO
Aqui está Señoras y Señores !!!!!
JORNADA 1 DEL 24 DE MARZO AL 30 DE MARZO EQUIPO 01 VS EQUIPO 02 EQUIPO 03 VS EQUIPO 06 EQUIPO 05 VS EQUIPO 10 EQUIPO 07 DESCANSA EQUIPO 08 VS EQUIPO 13.
CULENDARIO 2007 Para los Patanes.
Reunión de los requerimientos de la red
BEATRIZ LAFONT VILLODRE
SI QUIERES VERLO DALE AL CLICK
Investigación en acción
ESTADOS FINANCIEROS A DICIEMBRE DE 2013.
GUIÓN GRÁFICO VALORES EN LA USB
Denisse Cayetano – Christian Rivadeneira
Ministerio de Educación Nacional República de Colombia 1 SABER 2003 Evaluación de competencias ciudadanas en 5o. y 9o. de educación básica Resultados en.
Agrupamiento de relaciones no lineales entre expresiones de genes
ISAIAS 5:1-2.
EL RETO DE UN GRANDE Y PROFUNDO LEGADO
0 cero. 0 cero quince 1 1 uno catorce.
Análisis Diseño y Desarrollo
ESCUELA PROFESIONAL DE INGENIERIA INDUSTRIAL CURSO: GESTION DE LA CALIDAD ING.ELIZABETH FERG 1.
“Android – Hola Mundo” Rogelio Ferreira Escutia. 2 Creación del Proyecto.
DISEÑO DE LA PROPUESTA DEL PROCESO DE RENDICION DE CUENTAS 2014 Coordinación General de Planificación Ministerio de Agricultura, Ganadería, Acuacultura.
Integrantes: Jorge Herrera M. Carlos Rodríguez R..
Informe de Materia de Graduación “Uso de la plataforma Pig sobre Hadoop como alternativa a una RDBMS para el análisis de datos masivos. Prueba de concepto.
Transcripción de la presentación:

Sistema Para GENERAR gráficas a partir de logs tcpdump usando Hadoop Ángel Stalin Cruz Palaquibay Pedro Alfredo Torres Arellano

Descripción general El Problema Motivación Objetivos Metodología del proyecto Resultados y Conclusiones Recomendaciones

EL PROBLEMA

El Problema Capacidad de procesamiento y análisis de logs tcpdump del orden de Gigabytes en programas tradicionales.

MOTIVACIÓN

Motivación La importancia de analizar logs tcpdump como fuente de conocimiento frente a ataques de red. Conocer y utilizar herramientas que implementen programación paralela para analizar grandes cantidades de datos.

OBJETIVOS

Objetivos Desarrollar una solución al problema utilizando herramientas que implemente programación paralela. Analizar el uso de los servicios de web de Amazon en la implementación de la solución.

METODOLOGÍA

Diseño de la Solución Pre – Procesamiento Data set Procesamiento masivo con MapReduce Generación de Gráficas a partir resultados proceso anterior

Pre – Procesamiento Data set Data set original Data Pre - procesada JNetStream v2.4 Logs Pcap Archivos de texto

Pre – Procesamiento Data set Formato para los archivos de texto generados

Procesamiento masivo con MapReduce JNetStream es una librería de Java que nos permite capturar y enviar paquetes. JFreeChart es una librería de Java que facilita la generación de gráficos. Hadoop es una plataforma que nos permite desarrollar aplicaciones distribuidas la cual nos provee escalabilidad.

Procesamiento masivo con MapReduce S3 (Simple Storage Service).- Es el servicio que ofrece Amazon para almacenar y recuperar cualquier cantidad de datos en cualquier momento y desde cualquier lugar en la web. Con este servicio almacenamos datos de entrada, programa MapReduce en un archivo jar y los resultados obtenidos luego de procesarlos.

Procesamiento masivo con MapReduce EC2 (Elastic Compute Cloud).- Este servicio de Amazon provee los recursos computacionales necesarios para correr nuestra aplicación MapReduce. Es aquí donde se ejecutan los procesos de map y reduce en la data que es recuperada desde S3.

Procesamiento masivo con MapReduce Elastic MapReduce.- Es un servicio web que permite procesar grandes cantidades de datos, de una forma ordenada (pasos) a manera de algoritmo donde utiliza la infraestructura de Amazon EC2 y Amazon S3. Esto lo utilizamos para realizar los pasos de copiado del S3 a HDFS y visceversa y procesamiento MapReduce.

Procesamiento masivo con MapReduce Sucede en EC2 de Amazon. Datos son tomados del S3 de Amazon Resultados almacenados en el S3 de Amazon S3 EC2 S3

Generación de Gráficas a partir resultados proceso anterior Recuperación de resultados del S3 mediante aplicación web Uso de librería S3 para Java de Amazon Generar graficas con JFreeChart Web Application S3

Generación de Gráficas a partir resultados proceso anterior Recuperación de resultados del S3 mediante aplicación web

PRUEBAS

Pruebas Levantamiento de nodos en EC2 Utilización de Elastic MapReduce

Pruebas Con la aplicación web recuperamos los resultados del S3 y mostramos la gráfica

Tiempo de procesamiento de datos Wireshark vs MapReduce 90MB 265MB 1GB WIRESHARK 2 min 8min 18 seg No fue posible MAPREDUCE 47 seg 1 min 28 seg 6 min 3seg

Tiempos obtenidos sobre un data set de 1.4GB No. Nodos Step 1 "S3 to HDFS" Step 2 "MapReduce" Step 3 "HDFS to S3" Total 5 66 minutos 62 segundos 21 segundos 67 min 23 seg 8 41 segundos 67 min 2 seg 10 65 minutos 35 segundos 23 segundos 65 min 58 seg

Tiempos obtenidos sobre un data set de 1.4GB

Conclusión Este sistema realiza un análisis en todo el data set, obteniendo información de mayor alcance que si lo hiciéramos con una herramienta común para este tipo de análisis. El uso de los servicios de Amazon como parte de la solución, fue de gran ayuda al proveernos los recursos computacionales para las pruebas del sistema.

PREGUNTAS