Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porSilvio Barreras Modificado hace 10 años
1
BIG DATA Hernán Rodríguez M Gerente Proyectos & Desarrollo
2
Que es Big Data? La definición más usada
Volumen, Velocidad, Variedad Más tarde se agregaron más V´s Veracidad, Variabilidad, Visualización, Valor
3
Que es Big Data? Otras definiciones
«Análisis de Data que era previamente ignorada por limitaciones de la tecnología» (Matt Aslett)
4
Que es Big Data? Gran conjunto de datos Muchos tipos de datos
Imposibles de procesar con herramientas tradicionales Conceptos de Big Data: Extracción Almacenamiento Procesamiento Análisis Exposición PROCESAMIENTO [IOPS] Volumetría, Tipo Contenido DOMINIO HERRAMIENTAS PROCESAMIENTO DATOS BIG DATA DATA PROCESADA HERRAMIENTAS TRADICIONALES Data Estructurada
5
Hoy en día…muchos casos de uso
Big Data ayuda a mejorar tráfico vehicular El flujo de tráfico en la ciudad de Lyon se optimiza en forma automática analizando información de miles de sensores en toda la ciudad, para modificar la programación de los semáforos. Big Data para obtener más votos En la última campaña de Barak Obama en 2012 se recolectó información de gustos y necesidades de los ciudadanos, permitiendo adecuar discursos y programas políticos como respuesta a estos.
6
Qué beneficios se están logrando ?
Big Data ayuda a combatir delincuencia La Policía de Londres ahora es capaz de saber con un 68% de probabilidad si en una zona determinada se van a producir más de 5 delitos graves al mes, mediante el análisis y correlación de la información de actividad delictiva. Inteligencia Mercado Big Data ayuda a generar ofertas personalizadas Una Empresa de Telecomunicaciones en USA redujo su número de portabilidades hasta en un 50%, mediante el análisis de quejas y comentarios en redes sociales de sus clientes.
7
Big Data ayuda a Ganar la Copa del Mundo
8
En que más se está aplicando ?
GENOMA HUMANO MEDICINA METEOROLOGÍA TSUNAMI SEGURIDAD SISMOS SALUD
9
La tecnología está disponible, pero..?
“No obtiene respuestas quién posee los datos, sino quién sabe hacer las preguntas” - Genis Roca CEO RocaSalvatella – No sirve de nada tener una gran infraestructura para analizar los datos si no sabemos qué estamos buscando.
10
Qué se requiere ? Definir los lineamientos estratégicos
Definir objetivos de negocio y requerimientos de la Data ¨Mapeo¨ de objetivos y requerimientos con fuentes de información Proceso, Integración, Análisis y Exposición
11
Qué se requiere ? Conocimiento y experiencia en el Negocio y sus modelos de datos asociados Conocimiento y experiencia en la Tecnología para resolverlo CIENTISTA DE DATOS ¿?
12
Qué tecnología se utiliza ?
Relacional No Relacional Analytics Streaming ALMACENA ORGANIZA ANALYTIC REPORTING DESPLIEGUE E/R ETL FUENTES DATA CONECTORES PROCESA MOTOR JDBC XML OTROS ANALYTICS & REPORTES VISUALIZACIÓN ADO ODBC
13
Hadoop Proyecto de Apache Software Foundation
Conjunto de Aplicaciones Distribuidas Almacenar, procesar y analizar Core del producto: HDFS Apache Apache MapReduce Apache HBase
14
Por qué Hadoop ? Capacidad de escalamiento a Petabytes sobre hardware commodity Jobs son enviados a la data en vez de transportar la data para su procesamiento (MapReduce) No utiliza un único formato de datos, por lo que puede manejar datos estructurados, semi estructurados y no estructurados
15
Arquitectura HDFS
16
MapReduce
17
Proyectos Hadoop
18
Cloudera Distribución empaquetada de Hadoop Existen 3 versiones: CDH
Cloudera Express Cloudera Enterprise
19
Núcleo Cloudera-Hadoop
20
CDH (Cloudera Distribution Hadoop)
21
Cloudera Express (CDH con Cloudera Manager, soporte incluido)
22
Cloudera Enterprise
23
HP Vertica Plataforma analítica que ofrece velocidad y escalabilidad, muy simple de incorporar en cualquier solución. Opera con una arquitectura de columnas comprimidas para manejar grandes volúmenes de datos.
24
¿ Por qué adexus ?
25
Operación Inteligente
Qué sucedió? Por qué sucedió? Qué sucederá? Qué hacer? Iteración Prescripción Predicción Diagnóstico Descripción
26
Centro de Operaciones…Análisis de LOG´s
WS AS DS Transacción Negocios Información de Valor Almacenamiento Temporal Visión Vertical (silos) Formatos Semi-Estructurados FALLAS… ¿CAUSA(S)? ¿CÓMO SE RELACIONAN? ¿CÓMO PREVENIRLAS?
27
Centro de Operaciones…Análisis de LOG´s
PROCESO 100% DATOS, EN MINUTOS O SEGUNDOS CORRELACIÓN ENTRE LOGS , VISIÓN INTEGRAL DEL PROCESO TRAZA FALLAS POR TRANSACCIÓN NEGOCIO OPTIMIZACIÓN DE PROCESOS Y SU UP TIME
28
Flujo de Implementación
Instalación de Cloudera Almacenamiento manual (HDFS) Presentación en tabla (HIVE) Captura Syslog (FLUME) Avro Creación de scripts Separación de archivos (PIG) Creacion de flujos automaticos (OOZIE) Conexión a datos (Tableau) Presentación de datos
29
Arquitectura Implementada
Batch Layer (Hadoop) Speed Layer Vista Realtime Nuevos Datos HDFS (All data) Pre procesos Service Layer Vista Pre Procesada ETL Query
30
Cluster Implementado Cloudera01 Administrador Cloudera02 Cloudera03
31
Servicios utilizados Nombre Servicio Prestado Versión usada HDFS
Almacenamiento. 2.0.0-cdh4.7.0 MapReduce Procesamiento distribuido. Hbase Base de datos columnar. cdh4.7.0 Hive Consultas SQL sobre metadata. cdh4.7.0 Pig Procesamiento Batch. cdh4.7.0 Sqoop Conector hacia bases de datos relacionales. 1.4.3-cdh4.7.0 Flume Recolector de logs. 1.4.0-cdh4.7.0 Tableau Visualización y gráfica de datos almacenados. 8.1 cliente desktop 8.1 server
32
HP Vertica Implementación
Instalación en un nodo y en Clúster (tres nodos) con alta disponibilidad. Tres servidores RHEL en los cuales se montó una base de datos dos esquemas. La instalación de HP Vertica fue en la versión 6.0.1, posteriormente se instalado la versión la cual esta disponible desde este año. Instalación de conector Hadoop Instalación de Consola web de Administración Cluster
33
HP Vertica Operación Creación de esquemas y objetos
Pruebas de respaldo de bases de datos Pruebas de monitoreo a través de la consola de administración web Carga de datos
34
HP Vertica Integración
Integración con Hadoop Carga de tablas desde archivos de salidas alojados en el HDFS del clúster hadoop . Consultar archivos como tablas externas. Integración con Windows/SQL Cargar y consultar datos desde herramientas de SQL Server Consultas desde Reporting Services
35
HP Vertica Integración
Integración con TABLEAU Reportes Integración con Pentaho Conectividad Querys Integración con WEKA Extraer subconjunto de datos ANALYTIC REPORTING DESPLIEGUE
36
HP Vertica Casos prácticos
Carga de información desde tablas del SAP de ADEXUS Carga de tablas de log desde hadoop SAP ANTIGUO SAP NUEVO
37
Muestra de Resultados
38
Resultados Análisis de volumen. Caso servidor Web
39
Resultados • Análisis de más de 2 millones de registros al día. Resumen se obtiene en 30 seg. • Análisis de más de 3,5 millones de registros de CDR´s de la central telefónica. Cálculo de tiempo de uso de los anexos demora 60 segundos • Análisis de grandes volúmenes de datos de uso de servicios • Análisis de datos presentes e históricos de SAP • Se incorporó búsqueda y correlación con bases de conocimiento (Oracle, Cisco, otras) • Múltiples reportes con distintos niveles de agregación
40
Beneficios • Mejora substancial en la búsqueda de errores e información relacionada. • Capacidad de verificación simultánea de múltiples dispositivos y componentes. • Capacidad probada de anticipar problemas. • Capacidad de predecir comportamiento de los componentes y su efecto sobre los respectivos servicios
41
Otros Beneficios Dominio de la tecnología y su correcta utilización
Experiencia real para distintos escenarios de integración Verificación de rendimientos, escalabilidad y comportamiento de los componentes tecnológicos Valor agregado en control de SLA´s, administración y seguridad Verificación de plazos y costos de implementación
42
En ADEXUS Vivimos la Innovación,
Sabemos de Tecnología. ¡Muchas Gracias!
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.