Herramientas Análisis Masivo de Datos

Slides:



Advertisements
Presentaciones similares
Agenda ¿Qué es Big Data? ¿Por qué usar Big Data? ¿Quién usa Big Data? Hadoop Arquitectura de Hadoop.
Advertisements

Stuart Pérez A12729.
MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS
Índice Introducción Big Data Arquitectura HDFS
BIG DATA Hernán Rodríguez M Gerente Proyectos & Desarrollo
Programacion Web Practica 1 Estudio de la aplicación distribuida: Apache Hadoop.
Tecnologias Usadas.Net Framework LINQ WCF Subversion Clickonce Smart Client Deployment SQL Server Compact Edition. Visual Studio Express 2008.
Integrantes: Jorge Herrera M. Carlos Rodríguez R..
Informe de Materia de Graduación “Uso de la plataforma Pig sobre Hadoop como alternativa a una RDBMS para el análisis de datos masivos. Prueba de concepto.
Aplicaciones de Big Data en R V Jornadas de Usuarios de R Zaragoza, diciembre 2013.
Bluemix (PaaS) – Overview
Optativa II Carlos Quilumbaqui. ¿Qué es Big Data? Big Data son grandes en cantidad, se capturan a un índice rápido, y son estructurados o no estructurados,
Jesús Santisteban Fernández Miguel Ángel Díaz Corchero Jornadas Técnicas RedIris 2015 Santa Cruz de Tenerife Experiencias del Uso de Infraestructuras Cloud.
Introducción Framework 3.0. Introducción Junto con Windows Vista se libera al mercado una serie de tecnologías para desarrolladores de software que cambiarán.
Sistema de Gestión integral de promociones de los centros comerciales Gestión integral de promociones de los centros comerciales de una ciudad de una ciudad.
GUÍA DE USO DEL SISTEMA DE ATENCIÓN Y GESTIÓN TICKETS (SAGT) ANALISTAS Gerencia de Atención al Estado Oficina de Atención al Usuario Octubre, 2010.
BIA100: Introducción a SSIS (SQL Server Integration Services) PRESENTADO POR: JUAN CARLOS MENA OSORIO.
El éxito de la administración radica en un adecuado manejo de la contabilidad, que proporcione una información exacta y oportuna. Actualmente existen.
##SQLSatMadrid Big Data con Hadoop en SQL Server SSIS 2016 Ángel M. Rayo.
TELEPATHY – XMPP Rubén Álvarez Mikel López. OBJETIVOS Los objetivos de esta practica son: Conocer que es un framework. Obtener información sobre el proyecto.
Data Warehouse RONALD FERNANDO QUINTERO VEGA DIEGO ALEJANDRO VALENCIA RIVERA INTELIGENCIA DE NEGOCIOS CREAD-HONDA 2017.
Componentes y funciones de los SGDB.. El objetivo de un SGBD es proporcionar una interfaz adecuada y eficaz para la manipulación de la información que.
#606 | SANTIAGO 2017 Abril 1, 2017 Santiago, Chile #sqlsatSantiago.
TECNOLOGÍAS DE LA INFORMACIÓN Y DE LA COMUNICACIÓN (TIC’S)
Universidad American College. Objetivos Introducción a la Informática Tema: Introducción a la Informática 1.Explicar los conceptos fundamentales relacionados.
Escuela Profesional de Nuevas Tecnologías
PLATAFORMA DE TECNOLOGÍAS E INFORMACIÓN SISTEMAS DISTRIBUIDOS.
Sistema Informático Las nuevas tecnologías informáticas han evolucionado la forma de acceder a la información. Estamos en una época caracterizada por la.
Integrando múltiples fuentes de datos con Microsoft Azure
LOS DIFERENTES LENGUAJES DE PROGRAMACION PARA LA WEB
09 de mayo del 2016Pg. 1 ING. BERTHA MAZON, UNIDAD III: SOLUCIONES DE INTELIGENCIA DE NEGOCIOS.
MODELO CLIENTE -SERVIDOR
Educación inclusiva Seminario Internacional de Educación Superior Abierta y a Distancia México “La Educación a Distancia en México, Oportunidad de Desarrollo”.
BASES DE DATOS.
PARCIAL III BASE DE DATOS.
GXplorer 2025 Ing. Carla Demarchi Genexus Consulting
MEJORA EN LA TOMA DE DECISIONES
Software Software según su licencia. Software según su finalidad.
Rafael Medina Luis Najera
BIG DATA e INTERNET DE LAS COSAS
“Logs”.
AuraPortal Cloud ayuda a las organizaciones a automatizar y controlar sus procesos de negocio a través de aplicaciones en la nube de Microsoft Azure PERFIL.
BASES DE DATOS FUNDAMENTO DE BASES DE DATOS
Sistemas de Información.
BASES DE DATOS EN LA NUBE
Tecnología de la Información Software
Tecnología de la Información Profesora Ariana Rosenthal Software
Efecto Stroop
Propuesta Comercial dirigida a la
PROVEEDOR DATA WAREHOUSE TERADATA
Azure Data Lake vs Azure HDInsight
Comprensión y obtención de los requerimientos
Desde Big data a la Analítica de Datos
Informe de Materia de Graduación
Nuevas Características de SQL Server 2016
Gestión Estadística Institucional: Competencias para el futuro
LICENCIATURA EN SISTEMAS COMPUTACIONALES EN ADMINISTRACION
Servidor de Reportes basado en Tecnología Java y XML
Ciencia de datos, big data y redes sociales
Introducción a la informática. Definiciones Es el término resultante de la contracción de los vocablos INFORmación y autoMÁTICA. Se define como el conjunto.
Balance de Carga Adaptable bajo Cómputo Paralelo en Clusters
Areli Morán Espino Licenciatura en Matemáticas
Conceptos de Hadoop Rogelio Ferreira Escutia
Evolución de los Sistemas de Bases de Datos Rogelio Ferreira Escutia
Universidad Laica Eloy Alfaro de Manabí Extensión El Carmen Nombre: Génesis Mishell López Figueroa Ing: Soraida Zambrano Tema: Avance 1 Fecha: 30/04/2019.
MySQL By Osman Jimenez Edgar Cortes. Datos Importantes MySQL.
Base de datos años  En la década de los años 80’, se desarrolló el SQL, un lenguaje de consultas que permite consultar, valga la redundancia,
Transcripción de la presentación:

Herramientas Análisis Masivo de Datos Jorge Quesada Acuntia Responsable Preventa Zona Levante

Big Data Citas “Nos ahogamos en información y, a la vez, estamos hambrientos de conocimiento” John Naisbitt “Big data es como el sexo adolescente: todos hablan de ello, nadie realmente sabe cómo hacerlo, todo el mundo piensa que todos los demás lo están haciendo y, por tanto, todo el mundo asegura que ellos también lo hacen” Dan Ariely

Big Data Definición “Volumen masivo de datos, tanto estructurados como no-estructurados, los cuales son demasiado grandes y difíciles de procesar con las bases de datos y el software tradicionales" (ONU, 2012)

La Era de Internet of Things

Generación de Datos abrumadora Los datos nunca duermen

Big Data 4 V’s

Madurez Analítica Ventaja Competitiva Madurez Analítica Optimización ¿Qué es lo mejor que puede pasar? Modelado Predictivo Ventaja Competitiva Análisis Estadístico ¿Qué va a pasar? OLAP-Reportes Ad-Hoc ¿Por qué pasó? Consultas y Reportes Datos Limpios Datos Crudos ¿Qué pasó? Madurez Analítica

¿Las empresas creen que necesitan Big Data?

Hadoop En la actualidad existen diferentes herramientas software para el tratamiento de la tecnología Big Data. A la hora de hablar del software de tratamiento de grandes almacenes de datos lo primero que se debe hacer es hablar de Hadoop que es la base de la programación de los diferentes herramientas y software.

Developer: Apache Foundation Escrito en Java y lenguajes C Hadoop Definición Hadoop es un framework Open Source que almacena y procesa Big Data de una manera distribuida en grandes agrupaciones de hardware. Developer: Apache Foundation Escrito en Java y lenguajes C

Hadoop Building Blocks Las dos piezas clave en Hadoop son: MapReduce Sistema de Archifos HDFS

Arquitectura HDFS Bloques entre 64 y 128 Mb Writ Once, read many

MapReduce Mientras que el sistema de archivos distribuido (HDFS) de Hadoop ayuda a descomponer todos los datos entrantes y almacenarlos en múltiples nodos, el componente MapReduce facilita el procesamiento simultáneo de datos a través de múltiples nodos.

Ecosistema Hadoop Ambari R Connectors Sqoop Mahout Oozie Hive Pig Provisioning, Managing and Monitoring Hadoop Clusters Data Exchange Sqoop WorkFlow Oozie Machine Learning Mahout R Connectors Statistics SQL Query Hive Scripting Pig Columnar Store Hbase YARN MapReduce v2 Distributed Processing Framework Log Collector Flume Zookeeper Coordination HDFS Hadoop Distributed File System Flume -> Kafka, Talent, Spark Streaming Mahout y R Connectors son usados por la comunidad de científicos de datos. Mahout para aplicar algoritmos de Machine learning y R para cálculos matemáticos y estadísticos. Ambari -> Claudera Manager Zookeaper: Coordinación y sincronización de todos estos elementos Oozie: se encarga de la programación de los Jobs que se escriben en Pig Hive y MapReduce. Hbase -> Cassandra, MongoDB, Couchbase. Se asienta sobre HDFS y está estrechamente integrada con HDFS. En verde los elementos de Almacenamiento: HDFS y Hbase En amarillo los elementos de procesamiento: MapReduce y conectores API de alto nivel: Pig, Mahout, R y Hive En azul los elementos que inyectan datos en Hadoop: Sqoop y Flume En rojo los elementos de administración: Ambari, Zookeeper y Oozie

Servicios Distribuciones Soft Paquetizado Soporte Training

Distribuciones Big Data (Forrester)

Comparación Distribuciones Licencia Comercial Comercial Open Source Soporte y Comunidad Sí Sí Sí Elementos únicos Cloudera Manager Direct Access NFS 100% Open Source SQL Impala Hive, Drill, Shark Hive, Stinger MapReduce, Yarn Sí Sí Sí Modo Replicación Master-Slave Master-Slave Master-Slave Arquitectura Shared Nothing Shared-Nothing Shared-Nothing Uso Libre Trial 60 días Trial 90 días 100% Libre

Claves Diferenciadoras 100% Open Source Siguen desarrollando herramientas Open Source (E. Ambari, Yarn) Herramientas propietarias Cloudera Manager Impala Herramientas propietarias Direct Acces NFS Servicio en el Cloud Mejor integración con otros servicios AWS

www.acuntia.es