Integrantes: Jorge Herrera M. Carlos Rodríguez R..

Slides:



Advertisements
Presentaciones similares
Agenda ¿Qué es Big Data? ¿Por qué usar Big Data? ¿Quién usa Big Data? Hadoop Arquitectura de Hadoop.
Advertisements

Internet y tecnologías web
Red Social: “Un millón de Amigos”.
Autor: Juan Carlos Álvarez Martín Tutor: Francisco Javier Finat Codes
Pensiones Civiles del Estado PROYECTO: Página Web PCE
Caso Práctico Urbaniza.com
DIRECTOR: ING. DIEGO MARCILLO CODIRECTOR: ING. JAIME ANDRANGO
AUTORES: Eloy Cantero Salvador López
Tecnologías Cliente / Servidor Capitulo III Richard Jiménez V. clienteserver.wordpress.com.
Stuart Pérez A12729.
La web semántica y su impacto en la recuperación de información
“SISTEMA DE PASANTÍAS PARA LA FACULTAD DE INGENIERÍA
Utilización de la plataforma Hadoop para implementar un programa distribuido que permita encontrar las paredes de células de la epidermis de plantas modificadas.
Oscar Navarrete J. Jorge Gutiérrez A.
MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS
Presentado por: Lenin Isaías Escobar Mendoza
Búsquedas avanzadas en la Wikipedia
DESARROLLO E IMPLEMENTACIÓN DE UN PLUGIN DE GOOGLE WALLET PARA PAGOS ONLINE UTILIZANDO SOFTWARE OPEN SOURCE.
Sistema de Agrupamiento y Búsqueda de Contenidos de la Blogosfera de la ESPOL, Utilizando Hadoop como Plataforma de Procesamiento Masivo y Escalable de.
ESCUELA POLITÉCNICA DEL EJÉRCITO
Sistema Para GENERAR gráficas a partir de logs tcpdump usando Hadoop
Índice 1. Introducción, objetivos y justificación del proyecto.
Fases para el desarrollo de un proyecto Web
HADOOP, como una plataforma de procesamiento masivo de datos.
Diseño de un Sistema de Control en Tiempo Real para el Kernel del Sistema Operativo utilizando MatLab-SimuLink Por: MARCO ANTONIO ESPINEL CANGUI DIRECTOR:
Jonathan Patricio Cárdenas Ruperti
Denisse Cayetano – Christian Rivadeneira
El paradigma de la orientación a objetos La programación orientada a objetos genera códigos eficientes y estandariza la metodología de programación, además.
HERRAMIENTAS CASE.
Índice Introducción Big Data Arquitectura HDFS
Tecnologías para el desarrollo de aplicaciones Web
Lisette E. Espín Noboa Análisis, diseño e implementación de una red social para ESPOL Digital utilizando herramientas 2.0 Lisette.
Sistema de Gestión de Información Desarrollado por: Solange Ahumada K Bernardo Malet
Programacion Web Practica 1 Estudio de la aplicación distribuida: Apache Hadoop.
Presentado por: Ing. Manuel Rodríguez Coria. Software Freedom Day 26 de Septiembre de 2009Ing. Manuel Rodríguez Coria Quien Soy? Ing.
PRESENTA: ALICIA GONZÁLEZ INSTALACIÓN DE COMPONENTES EN JAVA.
Introducción al modelo Cliente-Servidor Carlos Rojas Kramer Universidad Cristóbal Colón.
Sistema Organizador de Invitaciones, Eventos y Memos basado en una aplicación Cliente – Servidor SOIEM TESIS DE GRADO FIEC – ESPOL 2007 Christian Vulgarin.
Marco Conceptual para la Gestión de Conocimiento de entornos de colaboración: aplicación a la creación de un portal de revistas electrónicas EUITIO Daniel.
Creación de un dominio Windows  Descripción general Introducción a la creación de un dominio de Windows 2000 Instalación de Active Directory Proceso.
RAÚL IVÁN GUARDADO PACHECO.  Gracias a los Resultados Patrocinados de Yahoo! Search Marketing, su negocio aparecerá en cabeza de lista de las páginas.
Eguana Reports Servidor de Reportes basado en Tecnología Java y XML Presentado por: Roy Cox S. Fernando Pérez M. José Pérez S.
UNIDAD EDUCATIVA CALASANZ Manual de usos de WORDPRESS. NOMBRE: Melissa Veintimilla Labanda Curso: 1º ´´C´´ FECHA: 29 de marzo del 2015.
Company LOGO Frank Carlos Malo Pinza María Fernanda Solórzano Lombeida “ANÁLISIS,DISEÑO E IMPLEMENTACIÓN DE UNA APLICACIÓN WEB PARA LA.
Informe de Materia de Graduación “Uso de la plataforma Pig sobre Hadoop como alternativa a una RDBMS para el análisis de datos masivos. Prueba de concepto.
PORTAL WEB PARA CONTRIBUIR EN LA VENTA, COMERCIALIZACIÓN Y DISTRIBUCIÓN DE LA ZEOLITA NATURAL USANDO AJAX Integrantes: Martha Isabel Correa Barrera Patricia.
“condición que necesita el usuario para resolver un problema o conseguir un objetivo determinado”. Los requisitos de un sistema son los aspectos que el.
Ing. Fredys Simanca Herrera.  Es muy habitual encontrarse con que más de un 30% de la información contenida en los sistemas operaciones o es incorrecta.
Proyecto de Fin de Carrera
LA IDEA DE NEGOCIO Se basa en un servicio ofrecido a las empresas o persona que tiene un negocio, y quieren vender su producto por internet, nosotros.
RESEARCH ON ALGORITHMS OF DATA MINING UNDER CLOUD COMPUTING ENVIRONMENT BY FEI LONG KEVIN FLORES ALVAREZ INF-252.
Una base de datos es una colección de información organizada de forma que un programa de ordenador pueda seleccionar rápidamente los fragmentos de datos.
TALLER DE SISTEMAS OPERATIVOS
BASE DE DATOS DISTRIBUIDAS
1     Sistema de gestión de contactos PARQUE E Miércoles, 29 de Abril de 2015   
FACULTAD DE CIENCIAS COMPUTACIONALES Y TELECOMUNICACIONES ASIGNATURA:
Computación en la Nube.
SISTEMAS DE INFORMACION ORGANIZACIONAL
Software.
Desarrollo Web en Entorno Servidor
MUCHAS GRACIAS Ya no es necesario tener grandes instalaciones de hardware en las empresas, reduciendo notablemente.
SISTEMAS OPERTIVOS DE RED Los usuarios están conectados a la red y que pueden compartir recursos. Cada equipo ejecuta con sus propios recursos su propio.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Instalación de Moodle local, paso a paso.
Optativa II Carlos Quilumbaqui. ¿Qué es Big Data? Big Data son grandes en cantidad, se capturan a un índice rápido, y son estructurados o no estructurados,
Integrantes Miguel Betancourt Alexis Tacuri.  Activiti es una plataforma para la formación de flujos de trabajo y procesos empresariales dentro del.
Autores: Myriam Montes, Iván Viera, Carlos Caizaguano, José Sancho
BASES DE DATOS DISTRIBUIDAS M.C.C. María Guadalupe Villanueva Carrasco INGENIERIA EN SISTEMAS COMPUTACIONALES.
Internet Infranet Protocolo World Wide Web Hipertexto Página web Sitio web Protocolo http Código HTML Editores HTML Portal Url Navegadores: A. Internet.
COMUNICACIÓN Y TICS KÁROL FERNANDA BARRAGÁN M. JENNYLITH DAYANA ARDILA P. WENDY PAOLA PINTO F.
Transcripción de la presentación:

Integrantes: Jorge Herrera M. Carlos Rodríguez R.

Índice: Resumen Objetivos Descripción del Problema Fundamentos Teóricos Diseño e implementación Conclusiones y Recomendaciones

Resumen Actualmente el sitio web de la universidad no cuenta con un proceso de búsqueda propio que permita obtener resultados de contenidos referentes del sitio de la ESPOL, para lo cual se ha desarrollado un módulo que permita realizar búsquedas en los diferentes contenidos que están publicados en el sitio web de la universidad.

Objetivos Implementar una opción de búsqueda de calidad con los contenidos de la página de la ESPOL usando Hadoop como plataforma de procesamiento masivo y escalable de datos. Optimizar el tiempo de búsqueda utilizando los nodos del cluster de hadoop.

Objetivos Comparar los tiempos de respuesta de las búsquedas realizadas con Hadoop y el buscador actual que contiene el sitio de ESPOL. Realizar recomendaciones y sugerencias en la opción de búsqueda a futuro dentro del sitio de ESPOL.

Descripción del Problema La opción de búsqueda de la página de la ESPOL a pesar de que realiza su función gracias al API de Google, no optimiza sus resultados en las preferencias ni la presenta organizada por algún parámetro implícito como fecha u orden alfabético de las páginas coincidentes con la búsqueda.

FUNDAMENTOS TEÓRICOS Qué es Hadoop? HDFS (Hadoop Distributed File System) Map/Reduce

Hadoop Plataforma que permite desarrollar y ejecutar aplicaciones que procesan grandes cantidades de datos. Modelo distribuido. Alta disponibilidad. Hardware de bajo costo. Alto rendimiento.

Esquema Hadoop Modelo distribuido

Hadoop Commons Conjunto de librerías y utilidades.jar y scripts. Interactúa con el sistema de archivos distribuidos. Gestiona el control de acceso a los nodos del FS.

HDFS Sistema de archivos distribuido, escalable y tolerante a fallos. Escrito en Java. Reduce el impacto de un corte de energía. Nodo primario o "NameNode" que controla los "DataNodes", donde finalmente se almacenan los datos.

HDFS Namenode B replication Rack1 Rack2 Client Blocks Datanodes Client Write Read Metadata ops Metadata(Name, replicas..) (/home/foo/data,6... Block ops

MapReduce framework que nos permite desarrollar las aplicaciones que son capaces de procesar en paralelo los datos. Separan los datos de entrada Los datos de entrada son Tareas MAP Los datos de salida del map son enviados como entradas de Tareas REDUCE.

Map/Reduce

Diseño e Implementación Herramientas: Entorno de desarrollo: NetBeans IDE Lenguaje: Java Lenguajes de Páginas Web: JSP Lenguaje de Scripts: JavaScript

Arquitectura

Diseño e Implementación

Resultados Tiempo Vs Nodos NodosTiempo de búsqueda hadoop 216 segundos 411 segundos Tiempo Vs Nodos NodosTiempo de búsqueda hadoop 212 segundos 410 segundos Tiempo Vs Nodos NodosTiempo de búsqueda hadoop 212 segundos 49 segundos

Conclusiones Hadoop es un framework muy potente y realmente sencillo de utilizar, sin embargo, debemos tener muy claro que se quiere resolver y no intentar resolver todos nuestros problemas con él. Se requiere mayor cantidad de nodos y datos para que hadoop pueda ser utilizado de manera eficiente.

Recomendaciones Se recomienda que para futuras pruebas, se debe extraer la información completa de cada uno de los sitios web de ESPOL y realizar búsquedas más exhaustivas. También se debe realizar una actualización de las versiones de hadoop para ver las mejoras en el análisis escalable de datos en los diferentes nodos del cluster. Se recomienda incorporar la opción de búsqueda personalizada de hadoop dentro del sitio web de ESPOL para que los usuarios puedan ver los resultados de su búsqueda más detallada y precisa. Y posiblemente la creación de sesiones para personalizar aun más las búsquedas.

Gracias