Azure Data Lake vs Azure HDInsight

Slides:



Advertisements
Presentaciones similares
Adjective Agreement Well, the same is true of adjectives. You can’t use the exact same word to describe “mujer” that you use to describe “hombre.” Remember.
Advertisements

What has to be done today? It can be done in any order. Make a new ALC form Do the ALC Get two popsicle sticks Get 16 feet of yarn. That is 4 arms width.
Adverbs are words that describe how, when, and where actions take place. They can modify verbs, adjectives, and even other adverbs. In previous lessons,
Essential question: How do I say what I like and what interests/bores me?
English Language II (2). English Language I (2) Warm-up.
Preparación/ Review Hoy es miércoles el 23 de septiembre de 2015 Today is day, September 23, 2015 ¿Te gusta o no te gusta? What do you like and what you.
 Try to figure out what the following questions are asking: 1.¿Qué día es la fiesta? 2.¿Qué día es el catecismo? 3.¿Qué días son los partidos (games)
Input Devices. An input device is a piece of equipment used for entering data or controlling a computer, for example, a mouse, a keyboard, a scanner,
##SQLSatMadrid Big Data con Hadoop en SQL Server SSIS 2016 Ángel M. Rayo.
Herramientas Análisis Masivo de Datos
Conferencia # 3 Ingeniería de Software II
UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO
Notes #20 Notes #20 There are three basic ways to ask questions in Spanish. Can you guess what they are by looking at the photos and photo captions on.
Quasimodo: Get ready for your quiz!.
Extracción automática de datos mediante BIML
1’15 “Information is the oil of the 21st century, and analytics is the combustion engine,” Mr. Sondergaard said. Peter Sondergaard, senior vice president.
Un viaje en el tiempo Leonel Abreu
Gustar V. Encantar.
UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO ESCUELA SUPERIOR DE ZIMAPÁN
Notes: La Hora (Time) How do I tell time in Spanish?
Español 1 6 y 7 de noviembre de 2013.
Por y para You’ve probably noticed that there are two ways to express “for” in Spanish: Por Para In this slide show, we’ll look at how these two prepositions.
Asking questions Apuntes.
(How to tell time in Spanish)
Las Palabras Interrogativas
Las Palabras Interrogativas p.154
Base de Datos II Almacenamiento.
Getting to know you more!
First Grade Dual High Frequency Words
Optimización de SQL Server para IOT
Streaming de datos con Power BI
Telling Time (Cómo decir la hora).
¿Qué hora es?.
GRAPHIC MATERIALS 1. GRAPHIC MATERIALS. GRAPHIC MATERIALS 1. GRAPHIC MATERIALS.
Saying what someone likes
Las Palabras Interrogativas
Best Practice Instalacion de motores SQL.
Saying what someone likes
Por y para You’ve probably noticed that there are two ways to express “for” in Spanish: Por Para In this slide show, we’ll look at how these two prepositions.
Nuevas Características de SQL Server 2016
Las Palabras Interrogativas
Porque no todo tiene que ser SQL: CosmosDB
Por y para You’ve probably noticed that there are two ways to express “for” in Spanish: Por Para In this slide show, we’ll look at how these two prepositions.
Quasimodo: Prepárate para la prueba.
Por y para You’ve probably noticed that there are two ways to express “for” in Spanish: Por Para In this slide show, we’ll look at how these two prepositions.
Por y para You’ve probably noticed that there are two ways to express “for” in Spanish: Por Para In this slide show, we’ll look at how these two prepositions.
Quasimodo: Tienes que hacer parte D de la tarea..
Por y para You’ve probably noticed that there are two ways to express “for” in Spanish: Por Para In this slide show, we’ll look at how these two prepositions.
Por y para You’ve probably noticed that there are two ways to express “for” in Spanish: Por Para In this slide show, we’ll look at how these two prepositions.
Por y para You’ve probably noticed that there are two ways to express “for” in Spanish: Por Para In this slide show, we’ll look at how these two prepositions.
Las Palabras Interrogativas
Las Palabras Interrogativas
Las Palabras Interrogativas
Las Palabras Interrogativas
Las Palabras Interrogativas
Telling Time in Spanish
Fundamentals of Web Development - 2 nd Ed.Randy Connolly and Ricardo Hoar Fundamentals of Web DevelopmentRandy Connolly and Ricardo Hoar © 2017 Pearson.
Las Palabras Interrogativas
Las Palabras Interrogativas
Juliana Carmona Esteban Cano
Las Palabras Interrogativas
Las Palabras Interrogativas
Las Palabras Interrogativas
Necesitas marcadores, borradores y pizarras blancas.
How to use “Gustar”.
To insert audio you need to be on that slide
Las Palabras Interrogativas
Las Palabras Interrogativas
a. Which job do you think pays more? I think an assistant chef earns more, as he spends all day working, while the dog walker earns according to the dogs.
Transcripción de la presentación:

Azure Data Lake vs Azure HDInsight Jorge Pastor – Consultor BI Azure Data Lake vs Azure HDInsight

BIG Thanks to SQLSatLima sponsors

Sponsor sessions at 16:50 Don’t miss them, they might be getting distributing some awesome prizes! KEMP ER CLOUD 4U Also Games XBOX One & Raffle prizes at 17:30

Azure Data Lake vs Azure HDInsight Agenda Big Data y Hadoop Big Data en la nube Azure Data Lake Store Azure Data Lake Analytics Azure HDInsight Tablas comparativas

Big Data y Hadoop

¿Qué es Big Data? Evolución del BI tradicional Nueva forma de trabajar con los datos Apoyado por nuevas herramientas ¿Cuando nace? Desde siempre… Cuando se hace conocido? Desde que salen herramientas fuera de lo tradicional…

Las 3 V

¿Qué es ? Sistema Distribuido Trabaja en Cluster: colección de nodos (CPU’s). Utiliza una arquitectura de maestro/esclavo. Se ejecuta el código en el nodo donde está almacenado el dato (dependiendo de la disponibilidad del nodo). Su diseño permite pasar de pocos nodos a miles de nodos de forma ágil. Arquitectura Hadoop Resumen hdfs y mapreduce linux

Arquitectura Arquitectura Hadoop Resumen hdfs y mapreduce linux

2.0 Intro de YARN

HDFS HDFS es el sistema de almacenamiento, es un sistema de ficheros distribuido. La escalabilidad y disponibilidad son otras de sus claves, gracias a la replicación de los datos y tolerancia a los fallos. NameNode: Mantiene en memoria la metadata del sistema de ficheros y control de los bloques de fichero que tiene cada DataNode. DataNode: Almacena los bloques. Son los responsables de leer y escribir las peticiones de los clientes. Arquitectura Hadoop Resumen hdfs y mapreduce linux

YARN Es una nueva arquitectura de Hadoop que aparece en la versión 2.0 para la administración de los recursos del clúster. Esto permite una variedad de procesamiento como SQL interactivo, real-time streaming, data science y otros. MapReduce pasa a ser sólo procesamiento. ResourceManager Es un componente de clúster (uno para cada clúster) y se ejecuta en la máquina maestra Administra los recursos y programa las aplicaciones en YARN. NodeManager Es un componente a nivel de nodo (uno en cada nodo) y ejecuta en cada máquina esclavo. Es responsable de administrar los contenedores y monitorear la utilización de los recursos en cada contenedor. Se comunica continuamente con ResourceManager para mantenerse actualizado. Intro de YARN

Ecosistema Apache Tez El procesamiento distribuido es la base del hadoop. Hive y Pig se basa en el marco de MapReduce para el procesamiento distribuido. Pero MapReduce está orientado por lotes. Por lo tanto, no es adecuado para consultas interactivas. Así que Apache Tez es una alternativa para el procesamiento interactivo de consultas. Está disponible en versiones 2.x de Hadoop [3]. Tez es prominente en el mapa de reducir mediante el uso de contenedores hadoop eficientemente, múltiples fases de reducción sin fases de mapa y el uso eficaz de HDFS.

Big Data en la nube

Azure: Suite Cortana Intelligence

Servicios de Big Data

Azure Data Lake

Azure Data Lake Store

Azure Data Lake Store HDFS como servicio. Almacenamiento redundante. Escenarios: Alta capacidad Alta frecuencia Alto rendimiento Almacenamiento de datos en su formato nativo Estructurado, semi-estructurado y no estructurado. Almacenamiento ilimitado

Azure Data Lake Store Confiable Optimizado para analítica Datos replicado 3 veces en una misma región. Alta disponibilidad Optimizado para analítica Creado para ejecutar grandes sistemas de análisis que requieren un rendimiento masivo. Optimizado para el procesamiento en paralelo.

Azure Data Lake Store: SDKs Java C++ .Net R Python Data Operations Management Operations

Azure Data Lake Store: Precio

Azure Data Lake Analytics

Azure Data Lake Analytics Alternativa a HDInsight y Hadoop. Escala dinámicamente de acuerdo al tamaño de los datos y complejidad de la consulta. Construido en Apache YARN. Optimizado para ADL Store U-SQL: lenguaje de consulta basado en SQL y C#

Azure Data Lake Analytics: U-SQL Basado en SQL y C# Expresiones y tipos C# Tablas, vistas User-defined functions /operators/aggregators in C# Típico flujo Leer datos de archivo o tabla. Transformar en un pipeline (conducto) Salida a tabla o archivo.

Azure Data Lake Analytics

Azure Data Lake Analytics: SDKs Java C++ .Net R Python U-SQL Extensibility Management Operations

Azure Data Lake Analytics: Precio Unidad de Análisis (AU) ~= 2 núcleos y 6 GB de memoria 1 AU para una tarea ejecutada en 1 minuto = 1 AU Minutos 1 AU para una tarea ejecutada en 60 minutos = 60 AU Minutos o 1 AU Hora Costo final = 1 hora * 1 AU * $2/hora = $2

Ventajas Data Lake Analytics No hay infraestructura por la que preocuparse, porque no hay servidores, máquinas virtuales ni clústeres a los que haya que esperar, administrar o ajustar. Escalamiento instantáneo en unidades de análisis (AU). Sólo se paga por el procesamiento que se usa para hacer el trabajo. U-SQL es un lenguaje sencillo, expresivo y extensible que permite escribir código una vez y paralelizarlo automáticamente a la escala que necesite.

Desventajas Data Lake Analytics Nodos con administración muy limitada. No compatible con Spark y otras herramientas del ecosistema Hadoop.

Azure HDInsight

Azure HDInsight Clúster Hadoop en la nube Compuesto por nodos head y workers con el administrador de recursos YARN. Almacenamiento HDFS Procesamiento Almacenamiento Windows Azure Storage Blob (WASB) Azure Data Lake Store (WebHDFS, ADL) Emplea la distribución Hortonworks Incluye Hive, Pig, Storm, Spark y otros.

Arquitectura HDInsight What is WASB? Windows Azure Storage Blob (WASB) is an extension built on top of the HDFS APIs. The WASBS variation uses SSL certificates for improved security. It in many ways "is" HDFS. However, WASB creates a layer of abstraction that enables separation of storage. This separation is what enables your data to persist even when no clusters currently exist and enables multiple clusters plus other applications to access a single piece of data all at the same time. This increases functionality and flexibility while reducing costs and reducing the time from question to insight. How do I manage and configure block/chunk size and the replication factor with WASB? You don't. It's not generally necessary. The data is stored in the Azure storage accounts, remaining accessible to many applications at once. Each blob (file) is replicated 3x within the data center. If you choose to use geo-replication on your account you also get 3 copies of the data in another data center within the same region. The data is chunked and distributed to nodes when a job is run. If you need to change the chunk size for memory related performance at run time that is still an option. You can pass in any Hadoop configuration parameter setting when you create the cluster or you can use the SET command for a given job. Isn't one of the selling points of Hadoop that the data sits with the compute? How does that work with WASB? Just like with any Hadoop system the data is loaded into memory on the individual nodes at compute time (when the job runs). The difference with WASB is that the data is loaded from the storage accounts instead of from local disks. Given the way Azure data center backbones are built the performance is generally the same or better than if you used disks locally attached to the VMs. https://blogs.msdn.microsoft.com/cindygross/2015/02/04/understanding-wasb-and-hadoop-storage-in-azure/

Azure HDInsight: Precio

Ventajas HDInsight Disposición y configuración de clúster automático. Escalamiento del clúster Cambia el número de nodos sin necesidad de borrar de eliminar o recrear el clúster. Alta disponibilidad / confiabilidad Solución gestionada HDInsight incluye un secondary head node. Puede desplegarse desde el portal de Azure Fácil creación y eliminación

Desventajas HDInsight No hay suspensión del clúster HDInsight. Despliega el clúster, haz el trabajo y luego elimínalo para evitar cargos innecesarios.

Tablas comparativas

Azure Data Lake Store VS Azure Blob Storage ADL Store Azure Blob Storage Escenarios Optimizado para analítica Almacenamiento de uso general Facturación Cantidad de datos almacenados. Operaciones E/S WebHDFS Implementado No implementado Autenticación Azure Active Directory Access Keys Autorización POSIX-style ACLs (lista de control)

Azure Data Lake Analytics vs HDInsight Escalamiento Sin límites Limitado al número de núcleos disponibles en la región. Flexibilidad Muy Alta Alta Gestión/Control de nodos Baja Personalización Media Eficiencia Facturación Por uso Por clúster creado Procesamiento paralelo Sí

Azure Data Lake Analytics vs HDInsight Data Lake Store Data Lake Analytics HDInsight Unidad GB - TB Unidad de Análisis (AU) Precio base/nodo-hora Tener la cuenta Gratis Por hora Pagas por Cantidad de datos almacenados. Operaciones E/S Unidades de Análisis (AU) por duración de la consulta. Tipo de CPU