SISTEMAS DE BASES DE DATOS MASIVOS (U. N.) / GESTIÓN Y EL PROCESAMIENTO DE GRANDES VOLÚMENES DE DATOS (U. de A.) Francisco Moreno & Freddy Duitama 2015-II.

SISTEMAS DE BASES DE DATOS MASIVOS (U. N.) / GESTIÓN Y EL PROCESAMIENTO DE GRANDES VOLÚMENES DE DATOS (U. de A.) Francisco Moreno & Freddy Duitama 2015-II

Propósito del curso Presentar los fundamentos computacionales para la gestión, análisis y modelamiento de grandes volúmenes de datos estructurados, semi-estructurados o no estructurados.

Justificación La web y la gestión de datos de diversa naturaleza generan retos al análisis de grandes volúmenes de datos en áreas poco exploradas: aplicaciones médicas, los gustos de los usuarios, la seguridad informática, la minería de datos, entre otras. Estas posibilidades plantean problemas en la computación tanto en la gestión como en el procesamiento y análisis de este tipo de datos.

Objetivo general Presentar los fundamentos y las técnicas esenciales para la gestión computacional de grandes volúmenes de datos.

Objetivos específicos Conocer los fundamentos para el modelamiento y manejo de bodegas de datos. Conocer nuevos paradigmas computacionales para el manejo de grandes volúmenes de datos distribuidos.

Contenido resumido Bodegas de datos DFS (Distributed File Systems) MapReduce - SPARK Técnicas básicas para el análisis de información

Unidad 1 Tema a desarrollar: Bodegas de datos Subtemas: Introducción Operaciones OLAP Modelos multidimensionales Elementos espaciales y temporales en una bodega de datos

BIBLIOGRAFÍA BÁSICA PARA ESTA UNIDAD Malinowski, E., & Zimányi, E. (2008). Advanced Data Warehouse Design: From Conventional to Spatial and Temporal Applications. Springer. Jensen, C. S., Kligys, A., Pedersen, T. B., & Timko, I. Multidimensional data modeling for location-based services. The VLDB Journal, Vol. 13(1), 2004. Imhoff C., Galemmo N. (2003). Mastering Data Warehouse Design: Relational and Dimensional Techniques. Wiley.

Unidad 2 Tema a desarrollar: Sistemas de archivos distribuidos, MapReduce y SPARK Subtemas: DFS (Distributed File Systems) MapReduce - SPARK El álgebra relacional y MapReduce Modelo de costos para MapReduce

BIBLIOGRAFÍA BÁSICA PARA ESTA UNIDAD Leskovec, J., Rajaraman, A., Ullman, J. (2012). Mining of Massive datasets. Cambridge: Cambridge University Press. Ghemawat, S., Gobioff H., Tack-Leung S. (December, 2003). The Google File System. ACM SIGOPS Operating Systems Review - SOSP '03. sigops. 37(5),29 -43. Afrati, Foto N. and Ullman, Jeffrey D. (March, 2010) Optimizing Joins in a MapReduce Environment. EDBT. Stanford InfoLab. SPARK.

Unidad 3 Tema a desarrollar: Minería de datos Subtemas: Introducción a minería de datos. Reglas de asociación Link analysis Clustering o análisis de sentimientos.

BIBLIOGRAFÍA BÁSICA PARA ESTA UNIDAD Leskovec, J., Rajaraman, A., Ullman, J. (2012). Mining of Massive datasets. Cambridge: Cambridge University Press. Manning, C. D., Raghavan, P., Schutze, H. (2009). An Introduction to Information Retrieval.Cambrigde: Cambridge University Press.

Unidad 4 Tema a desarrollar: Búsqueda por similitud Subtemas: Finding similar items Locality sensitive hashing (LSH) Recommendation systems

BIBLIOGRAFÍA BÁSICA PARA ESTA UNIDAD Leskovec, J., Rajaraman, A., Ullman, J. (2012). Mining of Massive datasets. Cambridge: Cambridge University Press. Manning, C. D., & Raghavan, P., Schutze, H. (2009). An Introduction to Information Retrieval.Cambrigde: Cambridge University Press.

Programación clases Bodegas de datosFrancisco Moreno3 agosto Bodegas de datosFrancisco Moreno10 agosto Festivo 17 agosto Bodegas de datosFrancisco Moreno24 agosto TemaResponsableFecha

Introduccion a big data - DFS Freddy Duitama31 agosto MapReduceFreddy Duitama7 septiembre MapReduce - SPARK Freddy Duitama14 septiembre Exposición trabajo bodega de datos 30% Francisco Moreno21 septiembre Programación clases TemaResponsableFecha

Programación clases Introducción minería de datos - reglas de asociación Francisco Moreno28 septiembre Cont. reglas de asociación - link analysis Francisco Moreno5 octubre Festivo 12 Octubre Clustering o análisis de sentimientos Francisco Moreno19 octubre Exposición Trabajo MapReduce 40% Freddy Duitama26 octubre TemaResponsableFecha

Programación clases Finding similar items Freddy Duitama9 noviembre Festivo 16 Noviembre Locality sensitive hashing Freddy Duitama23 noviembre Recommendation systems Freddy Duitama30 noviembre Exposición trabajo sobre minería de datos - búsqueda por similitud 30% Francisco Moreno Freddy Duitama 7 diciembre TemaResponsableFecha

Evaluación ActividadValor Trabajo sobre bodega de datos 30% Trabajo sobre MapReduce y SPARK 40% Trabajo sobre minería de datos / Trabajo sobre búsqueda por similitud. 30%

Información de Contacto Francisco Moreno Email: fjmoreno@unal.edu.co (reviso correos de L-V, una vez al día) Teléfono: 425 53 76 Oficina: Bloque M8A (anexo al M8), Of. 312 Celular: No tengo Horario de atención: W 4 – 6 pm.

Información de Contacto Freddy Duitama Email: john.duitama@udea.edu.co Oficina: Bloque 21 – 316 (Universidad de Antioquia) Horario de atención. Cita previa por email.

Otros datos Página del curso UN: www.medellin.unal.edu.co/~fjmoreno/tabd www.medellin.unal.edu.co/~fjmoreno/tabd Página del curso U de A. Por confirmar Aulas: M8-117 UN – Facultad de Minas Por definir U de A.

SISTEMAS DE BASES DE DATOS MASIVOS (U. N.) / GESTIÓN Y EL PROCESAMIENTO DE GRANDES VOLÚMENES DE DATOS (U. de A.) Francisco Moreno & Freddy Duitama 2015-II.

Presentaciones similares

Presentación del tema: "SISTEMAS DE BASES DE DATOS MASIVOS (U. N.) / GESTIÓN Y EL PROCESAMIENTO DE GRANDES VOLÚMENES DE DATOS (U. de A.) Francisco Moreno & Freddy Duitama 2015-II."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

SISTEMAS DE BASES DE DATOS MASIVOS (U. N.) / GESTIÓN Y EL PROCESAMIENTO DE GRANDES VOLÚMENES DE DATOS (U. de A.) Francisco Moreno & Freddy Duitama 2015-II.

Presentaciones similares

Presentación del tema: "SISTEMAS DE BASES DE DATOS MASIVOS (U. N.) / GESTIÓN Y EL PROCESAMIENTO DE GRANDES VOLÚMENES DE DATOS (U. de A.) Francisco Moreno & Freddy Duitama 2015-II."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback