Stuart Pérez A12729.

Slides:



Advertisements
Presentaciones similares
Agenda ¿Qué es Big Data? ¿Por qué usar Big Data? ¿Quién usa Big Data? Hadoop Arquitectura de Hadoop.
Advertisements

Capitulo 7: Procesamiento batch y el Job Entry Subsystem (JES)
SISTEMAS DE COMUNICACIÓN
Arquitectura Cliente Servidor
Internet y tecnologías web
Introducción a HIBERNATE
Introducción a servidores
Base de Datos Distribuidas FUNDAMENTOS DE BASES DE DATOS DISTRIBUIDAS
Aplicaciones Cliente-Servidor
Carlos Rojas Kramer Universidad Cristóbal Colón
Tecnologías Cliente / Servidor Capitulo III Richard Jiménez V. clienteserver.wordpress.com.
Sistemas Operativos Distribuidos Plataforma Cliente/Servidor
Estructura de un Sistema Operativo
Gabriel Montañés León. La principal idea de la arquitectura Peer-to-Peer (Par a par, P2P) es determinar la base y reglas necesarias para compartir recursos.
Utilización de la plataforma Hadoop para implementar un programa distribuido que permita encontrar las paredes de células de la epidermis de plantas modificadas.
MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS
Sistema de Agrupamiento y Búsqueda de Contenidos de la Blogosfera de la ESPOL, Utilizando Hadoop como Plataforma de Procesamiento Masivo y Escalable de.
Sistema Para GENERAR gráficas a partir de logs tcpdump usando Hadoop
BASES DE DATOS DISTRIBUIDAS
SISTEMAS OPERATIVOS DE UNA RED.
TIPOS DE SERVIDORES 4/2/2017 3:29 PM
DEFENSA PÚBLICA Jorge Salinas
Johanna Lizeth Rodríguez Lorena Fda. Chávarro Ramos
Transferencia o distribución de archivos entre iguales (peer-to-peer)
Denisse Cayetano – Christian Rivadeneira
Introducción UTM: – Sistema de Gestión del Conocimiento Solución tecnológica IN2: – Alfresco – Open Oval 3 Condiciones de colaboración Reunión UTM-IN2.
En las empresas se generan documentos que tienen que ser administrados, revisados y autorizados por varias personas, por lo cual es necesario determinar.
Índice Introducción Big Data Arquitectura HDFS
HILOS Y COMUNICACIÓN ENTRE PROCESOS
Sebastián Sánchez Prieto
OMAR SANCHEZ ROBLES HECTOR PEREZ GARCIA. “Sistemas de cómputo compuesto por un gran número de CPU´s conectados mediante una red de alta velocidad”, Tanenbaum.
Sistema de archivos Sistemas operativos.
Programacion Web Practica 1 Estudio de la aplicación distribuida: Apache Hadoop.
Asignación de Espacio No Contiguo
Soporte HW para Administración de Memoria Cecilia Hernández
Introducción al modelo Cliente-Servidor Carlos Rojas Kramer Universidad Cristóbal Colón.
Un sistema de gestión de bases de datos: Es un conjunto de programas que permite a los usuarios crear y mantener una base de datos. Por tanto, el SGBD.
Sistemas Distribuídos Sistemas de Ficheros Distribuídos: CODA e Intermezzo.
Servidores Conceptos Generales.
DNS Pamela Millán Ana Laura Félix Teresa Treviño
Eguana Reports Servidor de Reportes basado en Tecnología Java y XML Presentado por: Roy Cox S. Fernando Pérez M. José Pérez S.
DAM ¿Qué es y qué NO es un DAM? DAM.
Integrantes: Jorge Herrera M. Carlos Rodríguez R..
Administrador de procesos
DB2 UNIVERSAL DATABASE.
CONCEPTOS FUNDAMENTALES DEL NIVEL DEL SISTEMA OPERATIVO
Sistemas Distribuidos
Agenda  Introducción  Relevamientos de tecnologías Objetivos de la fase de relevamiento de tecnologías Principales tecnologías disponibles -OpenMosix,
“condición que necesita el usuario para resolver un problema o conseguir un objetivo determinado”. Los requisitos de un sistema son los aspectos que el.
Punteros Recomendado: 1. Nivelación Funciones
Francisco Gamboa Herrera Tanya Pérez Herrera 26 Noviembre 2010.
LIA. SUEI CHONG SOL, MCE..  1.- SOFTWARE BÁSICO O DE SISTEMA. Conjunto de programas imprescindibles para el funcionamiento del sistema.  2.- SOTWARE.
RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ INF-252.
ESCULA NORMAL “PROFR. DARÍO RODRÍGUEZ CRUZ” LIC
Servidores. ¿Qué es un servidor? Servidor de Aplicación Servidor de impresión Servidor de base de datos Servidor de correo Servidor de Internet Servidor.
SISTEMAS OPERATIVOS Son un conjunto de programas destinados a permitir la comunicación entre el usuario y en computador y gestionar sus recursos.
DISCOS RAID (Redundant Array of Independent Disks)
Computación en la Nube.
Tendencia De Los Sistemas Operativos
Evelin Ramos Cabrera 1° B
Optativa II Carlos Quilumbaqui. ¿Qué es Big Data? Big Data son grandes en cantidad, se capturan a un índice rápido, y son estructurados o no estructurados,
Instituto de Ciencias y Humanidades Tabasco. El software Coordinar el uso del hardware Coordinar el uso del hardware Ejercer el control Programas de aplicación.
Proyecto ASO 2008 GOOGLE08 Ricardo Espinosa Vea Emilio García de Galdiano.
 Definir conceptos fundamentales de las BDD como DTM y DBMS.  Conocer el esquema actual de la Base de datos de la UNACH.  Analizar cuándo utilizar.
Conociendo el modelo Cliente-Servidor
Sistemas Distribuidos Conceptos Básicos Propiedades MSI. Nancy A. Olivares Ruiz.
AS Medina Nicolás D.. Propuesta Crecimiento de manera exponencial provocando altas erogaciones de recursos, de volumen físico y un gasto energético importante.
Universidad Tecnológica de Aguascalientes Informática I.
*Pérez Pérez Diana Karen *Sánchez García José Luis *Valdespino Hinojosa Erick.
Transcripción de la presentación:

Stuart Pérez A12729

Agenda Que es Hadoop Porque usarlo Componentes de Hadoop HDFS MapReduce Cluster Hadoop (HDFS + MR) Hadoop Scheduler Conclusiones

Que es hadoop Apache Hadoop es un proyecto de software libre para procesar grandes cantidades de datos a traves de clusters de servidores Permite manejar escalabilidad de los datos, reduce los costos de hardware, es flexible en cuanto al tipo de datos y tolerante a fallos por sus archivos replicados

Uso de hadoop Grandes cantidades de información Indexación y búsquedas Google procesa 400,000,000 GB (400 PB) de datos, por mes, solo en el 2007 80% de los datos generados por las empresas no están organizados, cómo analizarlos?

Framework de procesamiento distribuido Componentes Hadoop HDFS: Sistema de archivos distribuidos de hadoop Modelado del GFS(google file system) Framework de procesamiento distribuido Usa el procesamiento Map/Reduce

HDFS – Sistema de Archivos Distribuido Sistema de almacenamiento distribuido Archivos divididos en blocks grandes, se distribuyen a través del clúster Los blocks son replicados (copiados) para manejo de fallo de hardware Fácil ubicación de los datos, el paso de un servidor a otro es transparente para el cliente

Arquitectura HDFS Arquitectura de Maestro – Esclavo El Maestro: “Namenode” Maneja los metadatos del todo el sistema de archivos Controla las lecturas y escrituras a archivos Maneja la replicación de los blocks

Arquitectura HDFS El Esclavo: “Datanodes” Notifica al maestro sobre los id de los bloques que le pertenecen Recibe las solicitudes de lectura/escritura de los clientes Hace la replicación cuando es ordenada por el maestro Conocimiento de ubicación de los racks

Gráfico de Arquitectura

HDFS Manejo de fallos Fallo en el NameNode Fallo en DataNode Las replicas en otros servidores asisten Se copia un FsImage y un transaction log Fallo en DataNode La aplicación (cliente) busca otro dataNode con la misma información o parte de ella (replica)

HDFS Verificación de datos Se usa Checksum para validar Se usa CRC32 Creación de archivos El cliente crea archivo y se hace checksum por cada 512 bytes DataNode guarda el checksum Acceso a archivos El cliente recupera los datos y el checksum del DataNode Si la validación falla, el cliente se mueve a una replica

MapReduce – proceso distribuido Conteo de palabras en un archivo gigante…

MapReduce – proceso distribuido Datos: lista de palabras y valores…

MapReduce: Flujo de datos Tareas de usuario son reducidas en Mapeos y reducciones Los datos son convertidos en “keys” y “values” Tareas de mapeo: invoca al mapper Tareas de reducción: invoca Reducer Llamado una ves por cada key, en orden

Arquitectura Map-Reduce Arquitectura Maestro – Esclavo Map-Reduce Maestro “Jobtracker” Recibe las solicitudes MR de los usuarios Asigna tareas MR a los “tasktrackers” Monitorea las tareas y las re-ejecuta si fallan Map-Reduce Esclavo “Tasktrackers” Ejecuta las tareas MR que le indica el “jobtracker” Maneja almacenamiento y transmisión de datos Framework genérico y reusable Se ajusta a varios sistemas de archivos Los formatos de entrada y salida pueden ser definidos por el usuario

Clúster Hadoop: HDFS+MR

Programador de tareas Hadoop Hasta el 2008 hadoop usaba una pila para almacenar los trabajos del jobTracker. Se implementa un programador para las tareas, independiente del jobTracker y de forma de pluggin. Facebook utiliza el Fair scheduler Yahoo crea el Capacity scheduler

Fair scheduler Cada trabajo obtiene una cantidad igual de los recursos disponibles Se crean pilas de trabajo, el programador asigna recursos de manera igualitaria A cada usuario se le asigna una pila, si un usuario envía muchos trabajos, se comparten las capacidades del clúster

Capacity Scheduler El usuario define colas y les asigna nombres El programador asigna recursos a las colas mientras estas contengan trabajos El programador utiliza FIFO con prioridades para definir que cola ingresa primero Se puede colocar un porcentaje limite a las tareas de un solo usuario

Conclusiones Hardware siempre propenso a fallos Toneladas de información centralizada – mala idea Información desordenada – perdida para la empresa Datos crecen de manera incontrolable Facebook para marzo 2011 tenia 30 PB, 3 mil veces mas grande que la librería del congreso Clúster son la solución para el manejo de información

Conclusiones Hadoop: Solución a manejo de datos de gran escala Velocidad y confiabilidad de los datos Software libre, adaptable a cualquier necesidad Soporte de grandes compañías

Referencias http://developer.yahoo.com/hadoop/ http://www-01.ibm.com/software/data/infosphere/hadoop/ http://hadoop.apache.org/common/docs/stable/index.html http://www.youtube.com/watch?v=Aq0x2z69syM

Referencias http://sentidoweb.com/2007/11/21/hadoop-plataforma-para-trabajar-con- gran-cantidad-de-datos.php http://hadoop.apache.org/common/docs/stable/single_node_setup.html http://www.youtube.com/watch?v=3nB_0hb-rv0&feature=related http://www.cloudera.com/blog/2008/11/job-scheduling-in-hadoop/ http://www.ibm.com/developerworks/linux/library/os-hadoop- scheduling/index.html?ca=drs-