BIG DATA Hernán Rodríguez M Gerente Proyectos & Desarrollo

Slides:



Advertisements
Presentaciones similares
Red Social: “Un millón de Amigos”.
Advertisements

DATA MART Sergio Daniel.
Control Interno Informático. Concepto
Cognos Data Integration
Introducción a servidores
Presentación de la Plataforma de Gestión de la Excelencia
I T S S P LIC INFORMATICA SISTEMAS OPERATIVOS WINDOWS 2003 SERVER DOCENTE: L.I RAMIRO ROBLES VILLANUEVA ALUMNOS: ROGELIO CHAIDEZ CORDOBA ZENON ESTRADA.
Portal Hacienda Digital
Tecnologías Cliente / Servidor Capitulo III Richard Jiménez V. clienteserver.wordpress.com.
Nanci Abarca Pablo Cruz Gabriela Palacios Cisne Sarmiento
Microsoft SQL Server 2008 – SQL Server Integration Services
Experiencia e innovación
Especialista en Business Intelligence Reporting Services SSRS (Sesión 16) Microsoft SQL Server 2008 R2 (2013) Suscribase a o escríbanos.
MI PROGRAMA DE FORMACION
Presentado por: Lenin Isaías Escobar Mendoza
Presentado por: Katya Aranda Lesley Vallejos Alfredo Yong
Introducción arquitectura base de datos Microsoft SQL Server 2000/2005
Marisol Lopez Roman Estela Medrano Gamez. INTRODUCCION El DBMS : ( Data Base Management System ) es un conjunto de programas que se encargan de manejar.
Nomiplus T&A . NET Sistema Integral de Control de Asistencias altamente configurable para el Control de Personal, permitiendo la Administración del.
Ciclo de vida de la información histórica INEGI – Aguascalientes 2008.
Denisse Cayetano – Christian Rivadeneira
TENDENCIAS Y ESCENARIOS DE LAS TIC
1 Propuesta de Plataforma Tecnológica Sistema Nacional de Indicadores Universidad Veracruzana.
“Cloud Inteligente: Avances Proyecciones”
ANALITICA - INTEGRATOR INTRODUCCIÓN Y CONCEPTOS. ANALITICA - INTEGRATOR OBJETIVO Integrar información aislada en archivos o sistemas, tanto corporativos.
©2013 SAP AG. Reservados todos los derechos.1 Información confidencial Hoja de referencia de SAP Business One para la plataforma SAP HANA Al igual que.
Desarrollo de Aplicaciones Utilizando Java Edición Empresarial – JEE6
Aplicaciones del Big Data a la Inteligencia del Negocio
DATA WAREHOUSE Equipo 9.
BASE DE DATOS BY: Julián Villar Vázquez.
Introducción al modelo Cliente-Servidor Carlos Rojas Kramer Universidad Cristóbal Colón.
RED TECNOLOGICA EN EL SISTEMA DE COOPERATIVAS DE AHORRO Y CREDITO
1INFORMACIÓN CONFIDENCIAL DE EMC: SOLO PARA USO INTERNO Ventajas de EMC para SQL Optimización del rendimiento.
Juanita Flores Rodríguez Ana Vianey Ferreyra Díaz
Eguana Reports Servidor de Reportes basado en Tecnología Java y XML Presentado por: Roy Cox S. Fernando Pérez M. José Pérez S.
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
Integrantes: Jorge Herrera M. Carlos Rodríguez R..
ISCE. Nava Gutiérrez Carolina
UNIVERSIDAD NACIONAL AUTONOMA DE MEXICO MODULO IV ADMINISTRACIÓN DE BASES DE DATOS Servidor de la Base de Datos E.I. L.E. Prof. Ramón Castro Liceaga SEMINARIO.
Nuevos Productos Macro Pro ofrece varias soluciones complementarias para cumplir con los objetivos de control y análisis de información de nuestros clientes.
Con Aspel-BANCO 4.0 Tendrás:
“condición que necesita el usuario para resolver un problema o conseguir un objetivo determinado”. Los requisitos de un sistema son los aspectos que el.
Servicio Remoto de Monitoreo
1 GESTIÓN DE UTILIZACIÓN DE REDES Noviembre 2013 Herramienta de Monitoreo Pandora FMS David González.
Programación Java y Desarrollo de Aplicaciones Modulo 3 Lenguaje de programación Java Software utilizado.
1ra Sesión Práctica – Informática II Semana No. 3 Período 2010 – II 1ra Sesión Práctica – Informática II Semana No. 3 Período 2010 – II Utilizar la hoja.
OUTSOURCING DE IMPRESION
UNIVERSIDAD LATINA II. FUNCIONES DEL ADMINISTRADOR.
Manual violento de Navicat
DISEÑO CURRICULAR Presentado por: Cesar Augusto Sáenz María Alejandra Hernández 1.contenidos curriculares de competencia.
GeneXus 9.0: Creando el ERP del Futuro basado en una Arquitectura Orientada a Servicios
Tecnologías Cliente / Servidor Capitulo II Richard Jiménez V. clienteserver.wordpress.com.
Karla Yunuen González Villanueva
Introducción al Data Warehouse
Gestión Centralizada de Campañas
BASE DE DATOS DISTRIBUIDAS
Presentación Comercial IDE
Nombre: Hebert Rangel Gutierrez Matricula: Materia: Base De datos Cuatrimestre: 3er Profesor: Nasheli López Bautista Carrera: Licenciatura en.
ADMINISTRACIÓN DE REDES SIZING de Servidores.
• SQL Server Integration Services SSIS
Taller de Inteligencia de Negocios SQL Server Analysis Services Semana 8.
SOLUCIONES EMPRESARIALES
BUSINESS T&G Think & Grow Uniclass Business Intelligence La solución Business Objects que analiza los procesos de su negocio.
Optativa II Carlos Quilumbaqui. ¿Qué es Big Data? Big Data son grandes en cantidad, se capturan a un índice rápido, y son estructurados o no estructurados,
Integrantes Miguel Betancourt Alexis Tacuri.  Activiti es una plataforma para la formación de flujos de trabajo y procesos empresariales dentro del.
Conociendo el modelo Cliente-Servidor
DLM Transact SQL Sesión I Introducción al SQL Server Uso de las herramientas de consultas del Transact SQL.
Conociendo el modelo Cliente-Servidor. Introducción En el mundo de TCP/IP las comunicaciones entre computadoras se rigen básicamente por lo que se llama.
Equipo 3: Francisco Santamaría Serrano Roberto Ramírez Zavaleta.
Construir un sistema de información en Internet e-conecta + zahén.
Transcripción de la presentación:

BIG DATA Hernán Rodríguez M Gerente Proyectos & Desarrollo

Que es Big Data? La definición más usada Volumen, Velocidad, Variedad Más tarde se agregaron más V´s Veracidad, Variabilidad, Visualización, Valor

Que es Big Data? Otras definiciones «Análisis de Data que era previamente ignorada por limitaciones de la tecnología» (Matt Aslett)

Que es Big Data? Gran conjunto de datos Muchos tipos de datos Imposibles de procesar con herramientas tradicionales Conceptos de Big Data: Extracción Almacenamiento Procesamiento Análisis Exposición PROCESAMIENTO [IOPS] Volumetría, Tipo Contenido DOMINIO HERRAMIENTAS PROCESAMIENTO DATOS BIG DATA DATA PROCESADA HERRAMIENTAS TRADICIONALES Data Estructurada

Hoy en día…muchos casos de uso Big Data ayuda a mejorar tráfico vehicular El flujo de tráfico en la ciudad de Lyon se optimiza en forma automática analizando información de miles de sensores en toda la ciudad, para modificar la programación de los semáforos. Big Data para obtener más votos En la última campaña de Barak Obama en 2012 se recolectó información de gustos y necesidades de los ciudadanos, permitiendo adecuar discursos y programas políticos como respuesta a estos.

Qué beneficios se están logrando ? Big Data ayuda a combatir delincuencia La Policía de Londres ahora es capaz de saber con un 68% de probabilidad si en una zona determinada se van a producir más de 5 delitos graves al mes, mediante el análisis y correlación de la información de actividad delictiva. Inteligencia Mercado Big Data ayuda a generar ofertas personalizadas Una Empresa de Telecomunicaciones en USA redujo su número de portabilidades hasta en un 50%, mediante el análisis de quejas y comentarios en redes sociales de sus clientes.

Big Data ayuda a Ganar la Copa del Mundo

En que más se está aplicando ? GENOMA HUMANO MEDICINA METEOROLOGÍA TSUNAMI SEGURIDAD SISMOS SALUD

La tecnología está disponible, pero..? “No obtiene respuestas quién posee los datos, sino quién sabe hacer las preguntas” - Genis Roca CEO RocaSalvatella – No sirve de nada tener una gran infraestructura para analizar los datos si no sabemos qué estamos buscando.

Qué se requiere ? Definir los lineamientos estratégicos Definir objetivos de negocio y requerimientos de la Data ¨Mapeo¨ de objetivos y requerimientos con fuentes de información Proceso, Integración, Análisis y Exposición

Qué se requiere ? Conocimiento y experiencia en el Negocio y sus modelos de datos asociados Conocimiento y experiencia en la Tecnología para resolverlo CIENTISTA DE DATOS ¿?

Qué tecnología se utiliza ? Relacional No Relacional Analytics Streaming ALMACENA ORGANIZA ANALYTIC REPORTING DESPLIEGUE E/R ETL FUENTES DATA CONECTORES PROCESA MOTOR JDBC XML OTROS ANALYTICS & REPORTES VISUALIZACIÓN ADO ODBC

Hadoop Proyecto de Apache Software Foundation Conjunto de Aplicaciones Distribuidas Almacenar, procesar y analizar Core del producto: HDFS Apache Apache MapReduce Apache HBase

Por qué Hadoop ? Capacidad de escalamiento a Petabytes sobre hardware commodity Jobs son enviados a la data en vez de transportar la data para su procesamiento (MapReduce) No utiliza un único formato de datos, por lo que puede manejar datos estructurados, semi estructurados y no estructurados

Arquitectura HDFS

MapReduce

Proyectos Hadoop

Cloudera Distribución empaquetada de Hadoop Existen 3 versiones: CDH Cloudera Express Cloudera Enterprise

Núcleo Cloudera-Hadoop

CDH (Cloudera Distribution Hadoop)

Cloudera Express (CDH con Cloudera Manager, soporte incluido)

Cloudera Enterprise

HP Vertica Plataforma analítica que ofrece velocidad y escalabilidad, muy simple de incorporar en cualquier solución. Opera con una arquitectura de columnas comprimidas para manejar grandes volúmenes de datos.

¿ Por qué adexus ?

Operación Inteligente Qué sucedió? Por qué sucedió? Qué sucederá? Qué hacer? Iteración Prescripción Predicción Diagnóstico Descripción

Centro de Operaciones…Análisis de LOG´s WS AS DS Transacción Negocios Información de Valor Almacenamiento Temporal Visión Vertical (silos) Formatos Semi-Estructurados FALLAS… ¿CAUSA(S)? ¿CÓMO SE RELACIONAN? ¿CÓMO PREVENIRLAS?

Centro de Operaciones…Análisis de LOG´s PROCESO 100% DATOS, EN MINUTOS O SEGUNDOS CORRELACIÓN ENTRE LOGS , VISIÓN INTEGRAL DEL PROCESO TRAZA FALLAS POR TRANSACCIÓN NEGOCIO OPTIMIZACIÓN DE PROCESOS Y SU UP TIME

Flujo de Implementación Instalación de Cloudera Almacenamiento manual (HDFS) Presentación en tabla (HIVE) Captura Syslog (FLUME) Avro Creación de scripts Separación de archivos (PIG) Creacion de flujos automaticos (OOZIE) Conexión a datos (Tableau) Presentación de datos

Arquitectura Implementada Batch Layer (Hadoop) Speed Layer Vista Realtime Nuevos Datos HDFS (All data) Pre procesos Service Layer Vista Pre Procesada ETL Query

Cluster Implementado Cloudera01 Administrador Cloudera02 Cloudera03

Servicios utilizados Nombre Servicio Prestado Versión usada HDFS Almacenamiento. 2.0.0-cdh4.7.0 MapReduce Procesamiento distribuido. Hbase Base de datos columnar. 0.94.15-cdh4.7.0 Hive Consultas SQL sobre metadata. 0.10.0-cdh4.7.0 Pig Procesamiento Batch. 0.11.0-cdh4.7.0 Sqoop Conector hacia bases de datos relacionales. 1.4.3-cdh4.7.0 Flume Recolector de logs. 1.4.0-cdh4.7.0 Tableau Visualización y gráfica de datos almacenados. 8.1 cliente desktop 8.1 server

HP Vertica Implementación Instalación en un nodo y en Clúster (tres nodos) con alta disponibilidad. Tres servidores RHEL en los cuales se montó una base de datos dos esquemas. La instalación de HP Vertica fue en la versión 6.0.1, posteriormente se instalado la versión 7.0.1 la cual esta disponible desde este año. Instalación de conector Hadoop Instalación de Consola web de Administración Cluster

HP Vertica Operación Creación de esquemas y objetos Pruebas de respaldo de bases de datos Pruebas de monitoreo a través de la consola de administración web Carga de datos

HP Vertica Integración Integración con Hadoop Carga de tablas desde archivos de salidas alojados en el HDFS del clúster hadoop . Consultar archivos como tablas externas. Integración con Windows/SQL Cargar y consultar datos desde herramientas de SQL Server Consultas desde Reporting Services

HP Vertica Integración Integración con TABLEAU Reportes Integración con Pentaho Conectividad Querys Integración con WEKA Extraer subconjunto de datos ANALYTIC REPORTING DESPLIEGUE

HP Vertica Casos prácticos Carga de información desde tablas del SAP de ADEXUS Carga de tablas de log desde hadoop SAP ANTIGUO SAP NUEVO

Muestra de Resultados

Resultados Análisis de volumen. Caso servidor Web

Resultados • Análisis de más de 2 millones de registros al día. Resumen se obtiene en 30 seg. • Análisis de más de 3,5 millones de registros de CDR´s de la central telefónica. Cálculo de tiempo de uso de los anexos demora 60 segundos • Análisis de grandes volúmenes de datos de uso de servicios • Análisis de datos presentes e históricos de SAP • Se incorporó búsqueda y correlación con bases de conocimiento (Oracle, Cisco, otras) • Múltiples reportes con distintos niveles de agregación

Beneficios • Mejora substancial en la búsqueda de errores e información relacionada. • Capacidad de verificación simultánea de múltiples dispositivos y componentes. • Capacidad probada de anticipar problemas. • Capacidad de predecir comportamiento de los componentes y su efecto sobre los respectivos servicios

Otros Beneficios Dominio de la tecnología y su correcta utilización Experiencia real para distintos escenarios de integración Verificación de rendimientos, escalabilidad y comportamiento de los componentes tecnológicos Valor agregado en control de SLA´s, administración y seguridad Verificación de plazos y costos de implementación

En ADEXUS Vivimos la Innovación, Sabemos de Tecnología. ¡Muchas Gracias!