Programacion Web Practica 1 Estudio de la aplicación distribuida: Apache Hadoop.

Slides:



Advertisements
Presentaciones similares
Agenda ¿Qué es Big Data? ¿Por qué usar Big Data? ¿Quién usa Big Data? Hadoop Arquitectura de Hadoop.
Advertisements

Storage Networking y el almacenamiento sobre internet: iSCSI
I T S S P LIC INFORMATICA SISTEMAS OPERATIVOS WINDOWS 2003 SERVER DOCENTE: L.I RAMIRO ROBLES VILLANUEVA ALUMNOS: ROGELIO CHAIDEZ CORDOBA ZENON ESTRADA.
Base de Datos Distribuidas FUNDAMENTOS DE BASES DE DATOS DISTRIBUIDAS
Carlos Rojas Kramer Universidad Cristóbal Colón
Stuart Pérez A12729.
Estructura de un Sistema Operativo
Arquitectura del sistema
Programación Visual de Sistemas
MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS
Sistema de Agrupamiento y Búsqueda de Contenidos de la Blogosfera de la ESPOL, Utilizando Hadoop como Plataforma de Procesamiento Masivo y Escalable de.
Base de Datos Distribuidas
Introducción a los Sistemas de Bases de Datos Distribuidos
Servidores de Archivo SX-520 de XenData Una serie de servidores de archivo LTO basados en estándares IT, diseñados para los exigentes requisitos de la.
SISTEMAS OPERATIVOS (SO)
MOTORES DE BASE DE DATOS
Bioinformática FJS.
Universidad Centroamericana
Universidad de La Coruña Escuela Universitaria Politécnica Control de Procesos por Computador Diego Cabaleiro 24 de Noviembre 2009.
Autor: Alberto Luengo Cabanillas
Ing. Fabián Ruano.  Definición  Diferencias con BD Centralizadas.
OMAR SANCHEZ ROBLES HECTOR PEREZ GARCIA. “Sistemas de cómputo compuesto por un gran número de CPU´s conectados mediante una red de alta velocidad”, Tanenbaum.
POP3 UCLV Mapas Conceptuales para la enseñanza de Redes de Computadoras.
Clusters Presentado por : Manuel Alejandro ahumada trochez Yenny carabali.
Teoría de Sistemas Operativos
SISTEMAS DISTRIBUIDOS
Desarrollo de aplicaciones para ambientes distribuidos
High Availability Servicios de alta disponibilidad Surge la necesidad a raíz de la implantación de las empresas en Internet. Queremos conseguir... Mantener.
Un sistema de gestión de bases de datos: Es un conjunto de programas que permite a los usuarios crear y mantener una base de datos. Por tanto, el SGBD.
Despliegue de la aplicación Web
TEMA 10. SISTEMAS OPERATIVOS DISTRIBUIDOS
MANTENIMIENTO PREVENTIVO Y CORRECTIVO
Escuela Superior Politécnica del Litoral
Integrantes: Jorge Herrera M. Carlos Rodríguez R..
TOPOLOGIA MALLA.
Introducción a los SOs.
Tema 8: Introducción a los SOs. Tema 8: 2 Silberschatz, Galvin and Gagne ©2005 Fundamentos de los Computadores (ITT, Sist. Electr.), Introducción.
Sistemas Distribuidos
Agenda  Introducción  Relevamientos de tecnologías Objetivos de la fase de relevamiento de tecnologías Principales tecnologías disponibles -OpenMosix,
PROYECTO EMPRESARIAL Clase # 1.
Cloud Computing.
“condición que necesita el usuario para resolver un problema o conseguir un objetivo determinado”. Los requisitos de un sistema son los aspectos que el.
Modelo de 3 capas.
Como es de saber el mundo se deja llevar mucho por la competencia en el sentido tecnológico, a estas formas de competencia y de relación se les llama.
Tema 10. Planificación de materiales
ARQUICTECTURA DE SERVIDORES
Bases de Datos II BASES DE DATOS DISTRIBUIDAS
ARQUITECTURA ALTERNATIVA DE SERVIDORES SISTEMAS OPERTIVOS DE RED En un sistema operativo de red los usuarios saben que están conectados a la red y que.
Son los atributos de un sistema que son visibles para un programador, es decir aquellos atributos que impactan directamente en la ejecución lógica de un.
DESARROLLO DE APLICACIONES PARA AMBIENTES DISTRIBUÍDOS ALUMNOS: MARIANA MIGNÓN RÉDING CARLOS ANTONIO CARRASCO MARTÍNEZ PROFESOR: DR. JOSÉ BERNARDO PARRA.
A RQUITECTURA DE SOFTWARE. CLIENTE-SERVIDOR Esta arquitectura consiste básicamente en un cliente que realiza peticiones a otro programa (el servidor)
* UNIVERSIDAD TECNOLOGICA DE PUEBLA TECNOLOGIAS DE LA INFORMACION Y COM. AREA REDES Y TELECOMUNIC IONES ADMINISTRACION DE SERVIDORES «ARQUITECTURA DE COMPUTADORAS»
ARQUITECTURAS DE LOS SERVIDORES El computador tiene 2 aspectos para entender su funcionamiento al nivel de programación: Almacenamiento Procesamiento Para.
1 Tema 8: Web Distribuido, Servidores Replicados.
BASE DE DATOS DISTRIBUIDAS
Edwin Oliveros.  El diseño de sistemas consiste en la transformación del modelo de diseño, que toma en cuenta los requerimientos no funcionales y las.
Computadoras de Alto Rendimiento (HPC)
SISTEMAS OPERTIVOS DE RED Los usuarios están conectados a la red y que pueden compartir recursos. Cada equipo ejecuta con sus propios recursos su propio.
Optativa II Carlos Quilumbaqui. ¿Qué es Big Data? Big Data son grandes en cantidad, se capturan a un índice rápido, y son estructurados o no estructurados,
*UNIVERSIDAD JUARES DEL ESTADO DE DURANGO “EXPOSICIÓN” *ERICK DE JESUS MONTIEL REYES *JORGE LUIS FLORES NEVARES *1-F TURNO VESPERTINO.
1 Unidad I.2.- Objetivos de los Sistemas Distribuidos Ing. Luis Armando García Eliseo © Agosto 2011.
 Definir conceptos fundamentales de las BDD como DTM y DBMS.  Conocer el esquema actual de la Base de datos de la UNACH.  Analizar cuándo utilizar.
Conociendo el modelo Cliente-Servidor
Sistemas Distribuidos Conceptos Básicos Propiedades MSI. Nancy A. Olivares Ruiz.
BASES DE DATOS DISTRIBUIDAS M.C.C. María Guadalupe Villanueva Carrasco INGENIERIA EN SISTEMAS COMPUTACIONALES.
INFORMÁTICA BÁSICA CURSO DE NIVELACIÓN. CAPITULO I Conceptos Básicos  Objetivo  Introducir al alumno en los conceptos básicos de la informática, tanto.
Conociendo el modelo Cliente-Servidor. Introducción En el mundo de TCP/IP las comunicaciones entre computadoras se rigen básicamente por lo que se llama.
*Pérez Pérez Diana Karen *Sánchez García José Luis *Valdespino Hinojosa Erick.
METODO RCM USO Y APLICACIONES PRESENTADO POR: DARCY LORENA CUEVAS VARGAS COD. 1,075,540,480 DE AIPE TUTORA: NIDIA PARRA RINCON UNIVERSIDAD NACIONAL ABIERTA.
Transcripción de la presentación:

Programacion Web Practica 1 Estudio de la aplicación distribuida: Apache Hadoop

Qué es Apache Hadoop Apache Hadoop es un framework de software que soporta aplicaciones distribuidas bajo una licencia libre. Permite a las aplicaciones trabajar con miles de nodos y petabytes de datos. Objetivo: analizar y gestionar resultados extraídos de ficheros de gran tamaño (petabytes) de manera rápida. Hadoop fue creado por Doug Cutting. Ventajas: Bajo coste Facilidad de uso Tolerancia a fallos

Conceptos clave Replicación: la alta disponibilidad se debe a la replicación. Cada bloque de archivo se replica a otros nodos en función de “factor de replicación”. (1,2,3) Arquitectura: hadoop se base en la arquitectura maestro esclavo. Un clúster hadoop tiene un solo nodo maestro y varios esclavos. Nodo master: se encarga de almacenar el metadato de los nodos esclavos dentro del rack del que forma parte. Nodo esclavo: almacena la información que en un momento dado es procesada por el nodo master Rack : se denomina rack a la combinacion de “nodos de datos”. Un rack puede tener como máximo 40 nodos master. Proceso cliente: proceso que se lanza a peticion de un nodo master ya sea para almacenamiento de archivo nuevo o recuperación de un archivo en el clúster Hadoop.

Componentes de software de hadoop HDFS MAP REDUCE

HDFS Sistema de archivos distribuido, escalable y portátil escrito en Java. Permite conectar nodos (máquinas de bajo coste a nivel de hardware) formando clusters. Los cálculos se realizan en la máquina donde residen los datos en lugar de mover los datos donde se realiza la petición. Tanto los nodos master o nodo de metadatos como esclavo o nodo de datos son componentes software.

HDFS(2) Un cluster esta compuesto por un nodo master (regula el namespace y las peticones)y varios esclavos (almacenan la informacion) El protocolo de comunicación es TCP/IP. HDFS se conecta a un puerto TCP abierto en el namenode, y luego se comunica con el namenode usando el protocolo RPC(Remote Procedure Call). Para evitar los fallos se replica la información por cercanía de nodos. El factor de replicación es un parámetro configurable.

Ventajas de HDFS Diseñado para almacenar ficheros muy grandes en commodity hardware (máquinas comunes y corrientes a nivel de hardware) Fiabilidad mediante replicación Tolerancia a fallos Procesamiento de los datos donde están almacenados en lugar de moverlos

Inconvenientes de HDFS Elevada latencia Poco eficiente con muchos ficheros pequeños Modificaciones siempre al final de los ficheros No permite múltiples writers

MAP REDUCE Un modelo de programación y una implementación asociada para solucionar problemas de computación paralela sobre datos de gran escala. Consta de dos fases: Map y Reduce. Las funciones map y reduce se aplican sobre pares de datos(clave,valor) y devuelve una lista de pares (clave2,valor2). Esta operación se realiza en paralelo para cada par de datos de entrada Luego se agrupan todos los pares generados creando una lista por cada una de las claves generadas. Reduce se realiza en paralelo tomando como entrada cada lista de las obtenidas en el Map y produciendo una colección de valores.

Ventajas e inconvenientes Map Reduce Ventajas: Aísla la aplicación de los detalles de la ejecución de un programa distribuido, tales como los problemas de distribución de datos, planificación y tolerancia a las fallas La lógica de procesamiento es la que se mueve a donde están los datos. Inconvenientes: La flexibilidad del modelo clave/valor, puesto que es demasiado restrictivo y por ello dificulta el desarrollo. Dificultad excesiva al hacer un reduce join y otros cálculos con fuentes de datos heterogéneas.