Azure Data Lake vs Azure HDInsight

Azure Data Lake vs Azure HDInsight
Jorge Pastor – Consultor BI Azure Data Lake vs Azure HDInsight

BIG Thanks to SQLSatLima sponsors

Sponsor sessions at 16:50 Don’t miss them, they might be getting distributing some awesome prizes! KEMP ER CLOUD 4U Also Games XBOX One & Raffle prizes at 17:30

Azure Data Lake vs Azure HDInsight
Agenda Big Data y Hadoop Big Data en la nube Azure Data Lake Store Azure Data Lake Analytics Azure HDInsight Tablas comparativas

Big Data y Hadoop

¿Qué es Big Data? Evolución del BI tradicional
Nueva forma de trabajar con los datos Apoyado por nuevas herramientas ¿Cuando nace? Desde siempre… Cuando se hace conocido? Desde que salen herramientas fuera de lo tradicional…

Las 3 V

¿Qué es ? Sistema Distribuido
Trabaja en Cluster: colección de nodos (CPU’s). Utiliza una arquitectura de maestro/esclavo. Se ejecuta el código en el nodo donde está almacenado el dato (dependiendo de la disponibilidad del nodo). Su diseño permite pasar de pocos nodos a miles de nodos de forma ágil. Arquitectura Hadoop Resumen hdfs y mapreduce linux

Arquitectura Arquitectura Hadoop Resumen hdfs y mapreduce linux

2.0 Intro de YARN

HDFS HDFS es el sistema de almacenamiento, es un sistema de ficheros distribuido. La escalabilidad y disponibilidad son otras de sus claves, gracias a la replicación de los datos y tolerancia a los fallos. NameNode: Mantiene en memoria la metadata del sistema de ficheros y control de los bloques de fichero que tiene cada DataNode. DataNode: Almacena los bloques. Son los responsables de leer y escribir las peticiones de los clientes. Arquitectura Hadoop Resumen hdfs y mapreduce linux

YARN Es una nueva arquitectura de Hadoop que aparece en la versión 2.0 para la administración de los recursos del clúster. Esto permite una variedad de procesamiento como SQL interactivo, real-time streaming, data science y otros. MapReduce pasa a ser sólo procesamiento. ResourceManager Es un componente de clúster (uno para cada clúster) y se ejecuta en la máquina maestra Administra los recursos y programa las aplicaciones en YARN. NodeManager Es un componente a nivel de nodo (uno en cada nodo) y ejecuta en cada máquina esclavo. Es responsable de administrar los contenedores y monitorear la utilización de los recursos en cada contenedor. Se comunica continuamente con ResourceManager para mantenerse actualizado. Intro de YARN

Ecosistema Apache Tez El procesamiento distribuido es la base del hadoop. Hive y Pig se basa en el marco de MapReduce para el procesamiento distribuido. Pero MapReduce está orientado por lotes. Por lo tanto, no es adecuado para consultas interactivas. Así que Apache Tez es una alternativa para el procesamiento interactivo de consultas. Está disponible en versiones 2.x de Hadoop [3]. Tez es prominente en el mapa de reducir mediante el uso de contenedores hadoop eficientemente, múltiples fases de reducción sin fases de mapa y el uso eficaz de HDFS.

Big Data en la nube

Azure: Suite Cortana Intelligence

Servicios de Big Data

Azure Data Lake

Azure Data Lake Store

Azure Data Lake Store HDFS como servicio. Almacenamiento redundante.
Escenarios: Alta capacidad Alta frecuencia Alto rendimiento Almacenamiento de datos en su formato nativo Estructurado, semi-estructurado y no estructurado. Almacenamiento ilimitado

Azure Data Lake Store Confiable Optimizado para analítica
Datos replicado 3 veces en una misma región. Alta disponibilidad Optimizado para analítica Creado para ejecutar grandes sistemas de análisis que requieren un rendimiento masivo. Optimizado para el procesamiento en paralelo.

Azure Data Lake Store: SDKs
Java C++ .Net R Python Data Operations Management Operations

Azure Data Lake Store: Precio

Azure Data Lake Analytics

Alternativa a HDInsight y Hadoop. Escala dinámicamente de acuerdo al tamaño de los datos y complejidad de la consulta. Construido en Apache YARN. Optimizado para ADL Store U-SQL: lenguaje de consulta basado en SQL y C#

Azure Data Lake Analytics: U-SQL
Basado en SQL y C# Expresiones y tipos C# Tablas, vistas User-defined functions /operators/aggregators in C# Típico flujo Leer datos de archivo o tabla. Transformar en un pipeline (conducto) Salida a tabla o archivo.

Azure Data Lake Analytics: SDKs
Java C++ .Net R Python U-SQL Extensibility Management Operations

Azure Data Lake Analytics: Precio
Unidad de Análisis (AU) ~= 2 núcleos y 6 GB de memoria 1 AU para una tarea ejecutada en 1 minuto = 1 AU Minutos 1 AU para una tarea ejecutada en 60 minutos = 60 AU Minutos o 1 AU Hora Costo final = 1 hora * 1 AU * $2/hora = $2

Ventajas Data Lake Analytics
No hay infraestructura por la que preocuparse, porque no hay servidores, máquinas virtuales ni clústeres a los que haya que esperar, administrar o ajustar. Escalamiento instantáneo en unidades de análisis (AU). Sólo se paga por el procesamiento que se usa para hacer el trabajo. U-SQL es un lenguaje sencillo, expresivo y extensible que permite escribir código una vez y paralelizarlo automáticamente a la escala que necesite.

Desventajas Data Lake Analytics
Nodos con administración muy limitada. No compatible con Spark y otras herramientas del ecosistema Hadoop.

Azure HDInsight

Azure HDInsight Clúster Hadoop en la nube
Compuesto por nodos head y workers con el administrador de recursos YARN. Almacenamiento HDFS Procesamiento Almacenamiento Windows Azure Storage Blob (WASB) Azure Data Lake Store (WebHDFS, ADL) Emplea la distribución Hortonworks Incluye Hive, Pig, Storm, Spark y otros.

Arquitectura HDInsight
What is WASB? Windows Azure Storage Blob (WASB) is an extension built on top of the HDFS APIs. The WASBS variation uses SSL certificates for improved security. It in many ways "is" HDFS. However, WASB creates a layer of abstraction that enables separation of storage. This separation is what enables your data to persist even when no clusters currently exist and enables multiple clusters plus other applications to access a single piece of data all at the same time. This increases functionality and flexibility while reducing costs and reducing the time from question to insight. How do I manage and configure block/chunk size and the replication factor with WASB? You don't. It's not generally necessary. The data is stored in the Azure storage accounts, remaining accessible to many applications at once. Each blob (file) is replicated 3x within the data center. If you choose to use geo-replication on your account you also get 3 copies of the data in another data center within the same region. The data is chunked and distributed to nodes when a job is run. If you need to change the chunk size for memory related performance at run time that is still an option. You can pass in any Hadoop configuration parameter setting when you create the cluster or you can use the SET command for a given job. Isn't one of the selling points of Hadoop that the data sits with the compute? How does that work with WASB? Just like with any Hadoop system the data is loaded into memory on the individual nodes at compute time (when the job runs). The difference with WASB is that the data is loaded from the storage accounts instead of from local disks. Given the way Azure data center backbones are built the performance is generally the same or better than if you used disks locally attached to the VMs.

Azure HDInsight: Precio

Ventajas HDInsight Disposición y configuración de clúster automático.
Escalamiento del clúster Cambia el número de nodos sin necesidad de borrar de eliminar o recrear el clúster. Alta disponibilidad / confiabilidad Solución gestionada HDInsight incluye un secondary head node. Puede desplegarse desde el portal de Azure Fácil creación y eliminación

Desventajas HDInsight
No hay suspensión del clúster HDInsight. Despliega el clúster, haz el trabajo y luego elimínalo para evitar cargos innecesarios.

Tablas comparativas

Azure Data Lake Store VS Azure Blob Storage
ADL Store Azure Blob Storage Escenarios Optimizado para analítica Almacenamiento de uso general Facturación Cantidad de datos almacenados. Operaciones E/S WebHDFS Implementado No implementado Autenticación Azure Active Directory Access Keys Autorización POSIX-style ACLs (lista de control)

Azure Data Lake Analytics vs HDInsight
Escalamiento Sin límites Limitado al número de núcleos disponibles en la región. Flexibilidad Muy Alta Alta Gestión/Control de nodos Baja Personalización Media Eficiencia Facturación Por uso Por clúster creado Procesamiento paralelo Sí

Azure Data Lake Analytics vs HDInsight
Data Lake Store Data Lake Analytics HDInsight Unidad GB - TB Unidad de Análisis (AU) Precio base/nodo-hora Tener la cuenta Gratis Por hora Pagas por Cantidad de datos almacenados. Operaciones E/S Unidades de Análisis (AU) por duración de la consulta. Tipo de CPU

Azure Data Lake vs Azure HDInsight

Presentaciones similares

Presentación del tema: "Azure Data Lake vs Azure HDInsight"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Azure Data Lake vs Azure HDInsight

Presentaciones similares

Presentación del tema: "Azure Data Lake vs Azure HDInsight"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback