Descargar la presentación
La descarga está en progreso. Por favor, espere
1
UNIDAD 1 ESTUDIO DE UNA APLICACIÓN DISTRIBUIDA: HADOOP HDFS PARA EL ALMACENAMIENTO DE BIG DATA
2
Índice Introducción Big Data Arquitectura HDFS
Proceso de Lectura de datos Proceso de Escritura de datos Q&A 1 2 3 4 5 6
3
Generamos más datos que nunca
© Centro de Innovación BBVA
4
Usos potenciales Análisis de negocio Recomendaciones de producto
Previsión de demanda Seguridad ciudadana Estadística …
5
Big Data Toda esta enorme cantidad de información que se genera cada día y los sistema preparados para procesarla con el objetivo de ayudar en la toma de decisiones o análisis estadístico es lo que se conoce como Big Data.
6
Dificultades técnicas principales
Almacenamiento Procesamiento Heterogeneidad de los datos
7
Almacenamiento Aumento de capacidad de almacenamiento
Disminución del precio por MB Aumento de ratio de transferencia en porcentajes muy inferiores © Cloudera
8
Almacenamiento - Contención
© Oracle
9
Procesamiento Tradicionalmente para aumentar la capacidad de procesamiento se ha optado por aumentar los recursos disponibles en un servidor o adquirir otro de mayor capacidad. Sin embargo, es posible repartir el trabajo a realizar distribuyéndolo entre servidores de menor capacidad con un almacenamiento propio y un conjunto de datos único, evitando contención, SPOF y abaratando costes.
10
Grace Hopper, early advocate of distributed computing (1906-1992)
Procesamiento “In pioneer days they used oxen for heavy pulling, and when one ox couldn’t budge a log, we didn’t try to grow a larger ox.” Grace Hopper, early advocate of distributed computing ( )
11
Heterogeneidad Las soluciones tradicionales de almacenamiento y tratamiento de los datos (RDBMS con herramientas de Business Intelligence o Data Mining) no son válidas, pues es difícil homogeneizar toda esta información en un modelo de datos que permita almacenarlo de manera estructural 
12
Para cubrir esta necesidad surgió en 2005 Hadoop.
Hadoop es todo un ecosistema de aplicaciones que permite el procesamiento distribuido de largas cantidades de datos repartiéndolos entre todos los nodos de un cluster de servidores usando modelos de programación sencillos (MapReduce) © VMWare
13
Arquitectura Hadoop HDFS
Bloques Bloques de gran tamaño replicados NameNodes Metadatos DataNodes Datos
14
Operación de lectura
15
Operación de escritura
16
Más información  Hadoop: The Definitive Guide
Oracle Big Data ( Cloudera (
17
Q&A
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.