La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Agenda ¿Qué es Big Data? ¿Por qué usar Big Data? ¿Quién usa Big Data? Hadoop Arquitectura de Hadoop.

Presentaciones similares


Presentación del tema: "Agenda ¿Qué es Big Data? ¿Por qué usar Big Data? ¿Quién usa Big Data? Hadoop Arquitectura de Hadoop."— Transcripción de la presentación:

1

2

3 Agenda ¿Qué es Big Data? ¿Por qué usar Big Data? ¿Quién usa Big Data? Hadoop Arquitectura de Hadoop

4 Big Data ¿Qué es Big Data? Big Data es un concepto que se aplica a toda aquella información que no puede ser procesada o analizada usando procesos o herramientas convencionales debido al enorme volumen de datos sobre el cual hay que trabajar. ¿Por qué usar Big Data? ¿Quién usa Big Data?

5 Hadoop Open Source Desarrollado originalmente por Yahoo Administrado por Apache Software Foundation Diseñado para trabajar con petabytes de datos Pensado para implementarse con hardware económico Ofrece alta disponibilidad Escala horizontalmente Muchas tecnologías de desarrollo están basadas en Hadoop Bueno aceptación en el mercado Curva de aprendizaje elevada No es una base de datos No es real time The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple programming model Características Generales

6 Hadoop Hadoop se compone por tres elementos principales HDFS MapReduce Hadoop Common Componentes Principales

7 Hadoop Creado por Doug Cutting Google lo introdujo en 2004 Consiste en la ejecución de dos procesos separados, Map y Reduce Paralelismo Escalabilidad Tolerancia a fallos Curva de aprendizaje elevada MapReduce

8 Hadoop Recibe como entrada un par (clave, valor) y recupera como salida uno o varios pares (clave-i, valor-i) k1v1 k2v2 k1v3 k3v4 k1v5 k2v6 k3v7 k1v8 k4v9 C1vi1 Map C2vi2 C3vi3 MapReduce - Map

9 Hadoop Para cada (clave1, valor1) de entrada recupera una lista de (clave2, valor2) k1v1 k2v2 k1v3 k3v4 k1v5 k2v6 k3v7 k1v8 k4v9 MEZCLAR Y ORDENAR k1v1 k2v2 k3v4 k4v9 v3v5v8 v6 v7 MapReduce - Map

10 Hadoop Recibe como entrada un par (clave, lista de valores) y recupera como salida un único par (clave, valor) k1v1 k2v2 k3v4 k4v9 v3v5v8 v6 v7 k1vf1 k2 k3 k4 vf2 vf3 vf4 Reduce MapReduce - Reduce

11 Hadoop Es un componente de Hadoop Lee y escribe sobre el sistema de archivos de Hadoop (HDFS) JobTracker TaskTracker Input Job (Map, Reduce, Input) Data transfer Assign Task MapReduce - Arquitectura

12 Hadoop JobTracker: Planificador de tareas Registra los trabajos pendientes Asigna las tareas a los nodos Mantiene los trabajos cerca de los nodos Si falla el JobTracker los trabajos pendientes de ejecución se pierden JobTracker Input Job (Map, Reduce, Input) Assign Task MapReduce - Arquitectura

13 Hadoop TaskTracker Se llaman TaskTrackers a los nodos Atienden operaciones de Map y Reduce Tienen slots asignados para Map y para Reduce Controla las tareas en ejecución Notifica al JobTracker acerca del estado del nodo y las tareas Si un TaskTracker falla o se produce un timeout, esa parte del trabajo ese re planifica TaskTracker Data transfer Assign Task MapReduce - Arquitectura

14 Hadoop Significa Hadoop Distributed File System Es el sistema de archivos por defecto de Hadoop Inspirado en GFS Estructurado en bloques (típicamente 64 MB o 128 MB por bloque) Rebalanceo de bloques Escalabilidad Disponibilidad Modelo de seguridad POSIX HDFS

15 Hadoop NameNode DataNode Client TCP/IP Networking Metadata Replicated data blocks HDFS - Arquitectura

16 Hadoop NameNode Es la pieza central del HDFS Administra el almacenamiento de datos No almacena datos en si mismo Las operaciones de Entrada/Salida no pasan a través de él Hace de intermediario entre el cliente y los DataNodes Es un Single Point of Failure HDFS - Arquitectura

17 Hadoop DataNode Cientos o miles de DataNodes por cluster Organizados en racks Operaciones de Entrada/Salida ocurren sobre el DataNode Contienen información replicada Alta tolerancia a fallas HDFS - Arquitectura

18 Hadoop NameNode JobTracker DataNode TaskTracker DataNode TaskTracker DataNode TaskTracker Master Slave HDFS - Arquitectura

19 Hadoop Permite interactuar con el HDFS a través de CLI Ej: $ hadoop fs –copyFromLocal miArchivo /miHDFSDir Algunos comandos son: cat copyFromLocal copyToLocal du dus cp rmr mkdir HDFS - API

20 Hadoop ¿Quiénes usan Hadoop?

21


Descargar ppt "Agenda ¿Qué es Big Data? ¿Por qué usar Big Data? ¿Quién usa Big Data? Hadoop Arquitectura de Hadoop."

Presentaciones similares


Anuncios Google