Índice Introducción Big Data Arquitectura HDFS

UNIDAD 1 ESTUDIO DE UNA APLICACIÓN DISTRIBUIDA: HADOOP HDFS PARA EL ALMACENAMIENTO DE BIG DATA

Índice Introducción Big Data Arquitectura HDFS
Proceso de Lectura de datos Proceso de Escritura de datos Q&A 1 2 3 4 5 6

Generamos más datos que nunca
© Centro de Innovación BBVA

Usos potenciales Análisis de negocio Recomendaciones de producto
Previsión de demanda Seguridad ciudadana Estadística …

Big Data Toda esta enorme cantidad de información que se genera cada día y los sistema preparados para procesarla con el objetivo de ayudar en la toma de decisiones o análisis estadístico es lo que se conoce como Big Data.

Dificultades técnicas principales
Almacenamiento Procesamiento Heterogeneidad de los datos

Almacenamiento Aumento de capacidad de almacenamiento
Disminución del precio por MB Aumento de ratio de transferencia en porcentajes muy inferiores © Cloudera

Almacenamiento - Contención
© Oracle

Procesamiento Tradicionalmente para aumentar la capacidad de procesamiento se ha optado por aumentar los recursos disponibles en un servidor o adquirir otro de mayor capacidad. Sin embargo, es posible repartir el trabajo a realizar distribuyéndolo entre servidores de menor capacidad con un almacenamiento propio y un conjunto de datos único, evitando contención, SPOF y abaratando costes.

Grace Hopper, early advocate of distributed computing (1906-1992)
Procesamiento “In pioneer days they used oxen for heavy pulling, and when one ox couldn’t budge a log, we didn’t try to grow a larger ox.” Grace Hopper, early advocate of distributed computing ( )

Heterogeneidad Las soluciones tradicionales de almacenamiento y tratamiento de los datos (RDBMS con herramientas de Business Intelligence o Data Mining) no son válidas, pues es difícil homogeneizar toda esta información en un modelo de datos que permita almacenarlo de manera estructural

Para cubrir esta necesidad surgió en 2005 Hadoop.
Hadoop es todo un ecosistema de aplicaciones que permite el procesamiento distribuido de largas cantidades de datos repartiéndolos entre todos los nodos de un cluster de servidores usando modelos de programación sencillos (MapReduce) © VMWare

Arquitectura Hadoop HDFS
Bloques Bloques de gran tamaño replicados NameNodes Metadatos DataNodes Datos

Operación de lectura

Operación de escritura

Más información Hadoop: The Definitive Guide
Oracle Big Data ( Cloudera (

Índice Introducción Big Data Arquitectura HDFS

Presentaciones similares

Presentación del tema: "Índice Introducción Big Data Arquitectura HDFS"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Índice Introducción Big Data Arquitectura HDFS

Presentaciones similares

Presentación del tema: "Índice Introducción Big Data Arquitectura HDFS"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback