UNIDAD 1 ESTUDIO DE UNA APLICACIÓN DISTRIBUIDA: HADOOP HDFS PARA EL ALMACENAMIENTO DE BIG DATA
Índice Introducción Big Data Arquitectura HDFS Proceso de Lectura de datos Proceso de Escritura de datos Q&A 1 2 3 4 5 6
Generamos más datos que nunca © Centro de Innovación BBVA
Usos potenciales Análisis de negocio Recomendaciones de producto Previsión de demanda Seguridad ciudadana Estadística …
Big Data Toda esta enorme cantidad de información que se genera cada día y los sistema preparados para procesarla con el objetivo de ayudar en la toma de decisiones o análisis estadístico es lo que se conoce como Big Data.
Dificultades técnicas principales Almacenamiento Procesamiento Heterogeneidad de los datos
Almacenamiento Aumento de capacidad de almacenamiento Disminución del precio por MB Aumento de ratio de transferencia en porcentajes muy inferiores © Cloudera
Almacenamiento - Contención © Oracle
Procesamiento Tradicionalmente para aumentar la capacidad de procesamiento se ha optado por aumentar los recursos disponibles en un servidor o adquirir otro de mayor capacidad. Sin embargo, es posible repartir el trabajo a realizar distribuyéndolo entre servidores de menor capacidad con un almacenamiento propio y un conjunto de datos único, evitando contención, SPOF y abaratando costes.
Grace Hopper, early advocate of distributed computing (1906-1992) Procesamiento “In pioneer days they used oxen for heavy pulling, and when one ox couldn’t budge a log, we didn’t try to grow a larger ox.” Grace Hopper, early advocate of distributed computing (1906-1992)
Heterogeneidad Las soluciones tradicionales de almacenamiento y tratamiento de los datos (RDBMS con herramientas de Business Intelligence o Data Mining) no son válidas, pues es difícil homogeneizar toda esta información en un modelo de datos que permita almacenarlo de manera estructural 
Para cubrir esta necesidad surgió en 2005 Hadoop. Hadoop es todo un ecosistema de aplicaciones que permite el procesamiento distribuido de largas cantidades de datos repartiéndolos entre todos los nodos de un cluster de servidores usando modelos de programación sencillos (MapReduce) © VMWare
Arquitectura Hadoop HDFS Bloques Bloques de gran tamaño replicados NameNodes Metadatos DataNodes Datos
Operación de lectura
Operación de escritura
Más información  Hadoop: The Definitive Guide Oracle Big Data (https://www.oracle.com/bigdata/index.html) Cloudera (http://www.cloudera.com)
Q&A