S ISTEMA PARA EL A NÁLISIS Y P ROCESAMIENTO DE LOS LOGS DE LOS SERVIDORES DE RED DE LA F ACULTAD DE I NGENIERÍA EN E LECTRICIDAD Y C OMPUTACIÓN (FIEC) DE LA ESPOL USANDO HADOOP ESCUELA SUPERIOR POLITÉCNICA DEL LITORAL Facultad de Ingeniería en Electricidad y Computación INTEGRANTES: Eddy Roberto Espinosa Daquilema Josué Jefferson Guartatanga Robayo
Datos vs. Información P ROBLEMA A RESOLVER
J USTIFICACIÓN Existen herramientas con precios altos No muestran resultados deseados Rendimiento deficiente / tiempo extenso No son distribuidas ni escalables
A LCANCE Visitas/Recursos/Navegadores Correos Acceso de usuarios/Recursos Información de los servidores: Cedro(HTTP), Ceibo(Maillog) y Palma(Samba).
H ADOOP Plataforma -> aplicaciones escalablesDesarrollador enfoca -> lógica de negocioCorre en cluster / (HDFS)Map/Reduce
H IVE Infraestructura para data warehouse que provee sumarización de datos y soporta Ad-hoc queries Aplicaciones Logs Minería Datos Indexación documentos Inteligencia Negocios Modelamiento predictivo y Prueba de hipótesis
F ORMATO DE L OGS Ceibo genera archivos tipo MaillogPalma posee un servidor Samba.Cedro posee un Servidor Apache HTTP
D ISEÑO DE LA SOLUCIÓN
C LAVES Y V ALORES
C ÓDIGO B ASE : M APPER /R EDUCER DE C EDRO
C ÓDIGO B ASE : M APPER /R EDUCER DE C EIBO
C ÓDIGO B ASE : M APPER /R EDUCER DE P ALMA
T IEMPOS nodos Tiempo (minutos) tiempo (min) carga 37.2 MB / GB Palma ConcatenaPalma AccesosPalma Recursos Nodos # prueba 16,7831,9331,3670,4670,3500,2670,4170,6200,333 26,8331,9671,9830,4500,6200,3170,5330,2200,350 37,0173,0201,6830,5170,2000,3000,5500,2400,350 47,6833,5171,6830,5500,2100,3330,5330,2200,350 56,8334,3501,2670,5170,2700,3000,4330,6000,300 66,3834,4172,0500,7170,2200,3170,5170,2200,317 79,6835,6671,6330,4830,2100,3000,4500,6300,400 86,1674,3171,4830,4670,6000,2830,4500,2400,300 98,6334,2671,2830,4330,5900,4170,5000,6800, ,3505,3671,3330,5170,2300,3170,5170,2000,317 promedio7,2373,8821,5770,5120,3500,3150,4900,3870,333 Var. Std.1,1241,2730,2810,0810,1800,0400,0480,2130,030
A PLICACIÓN NO D ISTRIBUIDA Carga 10 GB
A PLICACIÓN D ISTRIBUIDA
C ONCLUSIONES Estable entre 5 y 10 nodos con carga 1GB. Procesamiento secuencial es extenso con archivos de gran tamaño. El modelo distribuido es una solución escalable y la tolerancia a fallos se puede controlar.
R ECOMENDACIONES Asignar suficiente espacio en disco para la instalación. Familiarizarse con el entorno que ofrece Hadoop y su aplicación Hive.
F IN