Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porAlejandra Castilla Segura Modificado hace 9 años
1
SISTEMAS DE BASES DE DATOS MASIVOS (U. N.) / GESTIÓN Y EL PROCESAMIENTO DE GRANDES VOLÚMENES DE DATOS (U. de A.) Francisco Moreno & Freddy Duitama 2015-II
2
Propósito del curso Presentar los fundamentos computacionales para la gestión, análisis y modelamiento de grandes volúmenes de datos estructurados, semi-estructurados o no estructurados.
3
Justificación La web y la gestión de datos de diversa naturaleza generan retos al análisis de grandes volúmenes de datos en áreas poco exploradas: aplicaciones médicas, los gustos de los usuarios, la seguridad informática, la minería de datos, entre otras. Estas posibilidades plantean problemas en la computación tanto en la gestión como en el procesamiento y análisis de este tipo de datos.
4
Objetivo general Presentar los fundamentos y las técnicas esenciales para la gestión computacional de grandes volúmenes de datos.
5
Objetivos específicos Conocer los fundamentos para el modelamiento y manejo de bodegas de datos. Conocer nuevos paradigmas computacionales para el manejo de grandes volúmenes de datos distribuidos.
6
Contenido resumido Bodegas de datos DFS (Distributed File Systems) MapReduce - SPARK Técnicas básicas para el análisis de información
7
Unidad 1 Tema a desarrollar: Bodegas de datos Subtemas: Introducción Operaciones OLAP Modelos multidimensionales Elementos espaciales y temporales en una bodega de datos
8
BIBLIOGRAFÍA BÁSICA PARA ESTA UNIDAD Malinowski, E., & Zimányi, E. (2008). Advanced Data Warehouse Design: From Conventional to Spatial and Temporal Applications. Springer. Jensen, C. S., Kligys, A., Pedersen, T. B., & Timko, I. Multidimensional data modeling for location-based services. The VLDB Journal, Vol. 13(1), 2004. Imhoff C., Galemmo N. (2003). Mastering Data Warehouse Design: Relational and Dimensional Techniques. Wiley.
9
Unidad 2 Tema a desarrollar: Sistemas de archivos distribuidos, MapReduce y SPARK Subtemas: DFS (Distributed File Systems) MapReduce - SPARK El álgebra relacional y MapReduce Modelo de costos para MapReduce
10
BIBLIOGRAFÍA BÁSICA PARA ESTA UNIDAD Leskovec, J., Rajaraman, A., Ullman, J. (2012). Mining of Massive datasets. Cambridge: Cambridge University Press. Ghemawat, S., Gobioff H., Tack-Leung S. (December, 2003). The Google File System. ACM SIGOPS Operating Systems Review - SOSP '03. sigops. 37(5),29 -43. Afrati, Foto N. and Ullman, Jeffrey D. (March, 2010) Optimizing Joins in a MapReduce Environment. EDBT. Stanford InfoLab. SPARK.
11
Unidad 3 Tema a desarrollar: Minería de datos Subtemas: Introducción a minería de datos. Reglas de asociación Link analysis Clustering o análisis de sentimientos.
12
BIBLIOGRAFÍA BÁSICA PARA ESTA UNIDAD Leskovec, J., Rajaraman, A., Ullman, J. (2012). Mining of Massive datasets. Cambridge: Cambridge University Press. Manning, C. D., Raghavan, P., Schutze, H. (2009). An Introduction to Information Retrieval.Cambrigde: Cambridge University Press.
13
Unidad 4 Tema a desarrollar: Búsqueda por similitud Subtemas: Finding similar items Locality sensitive hashing (LSH) Recommendation systems
14
BIBLIOGRAFÍA BÁSICA PARA ESTA UNIDAD Leskovec, J., Rajaraman, A., Ullman, J. (2012). Mining of Massive datasets. Cambridge: Cambridge University Press. Manning, C. D., & Raghavan, P., Schutze, H. (2009). An Introduction to Information Retrieval.Cambrigde: Cambridge University Press.
15
Programación clases Bodegas de datosFrancisco Moreno3 agosto Bodegas de datosFrancisco Moreno10 agosto Festivo 17 agosto Bodegas de datosFrancisco Moreno24 agosto TemaResponsableFecha
16
Introduccion a big data - DFS Freddy Duitama31 agosto MapReduceFreddy Duitama7 septiembre MapReduce - SPARK Freddy Duitama14 septiembre Exposición trabajo bodega de datos 30% Francisco Moreno21 septiembre Programación clases TemaResponsableFecha
17
Programación clases Introducción minería de datos - reglas de asociación Francisco Moreno28 septiembre Cont. reglas de asociación - link analysis Francisco Moreno5 octubre Festivo 12 Octubre Clustering o análisis de sentimientos Francisco Moreno19 octubre Exposición Trabajo MapReduce 40% Freddy Duitama26 octubre TemaResponsableFecha
18
Programación clases Finding similar items Freddy Duitama9 noviembre Festivo 16 Noviembre Locality sensitive hashing Freddy Duitama23 noviembre Recommendation systems Freddy Duitama30 noviembre Exposición trabajo sobre minería de datos - búsqueda por similitud 30% Francisco Moreno Freddy Duitama 7 diciembre TemaResponsableFecha
19
Evaluación ActividadValor Trabajo sobre bodega de datos 30% Trabajo sobre MapReduce y SPARK 40% Trabajo sobre minería de datos / Trabajo sobre búsqueda por similitud. 30%
20
Información de Contacto Francisco Moreno Email: fjmoreno@unal.edu.co (reviso correos de L-V, una vez al día) Teléfono: 425 53 76 Oficina: Bloque M8A (anexo al M8), Of. 312 Celular: No tengo Horario de atención: W 4 – 6 pm.
21
Información de Contacto Freddy Duitama Email: john.duitama@udea.edu.co Oficina: Bloque 21 – 316 (Universidad de Antioquia) Horario de atención. Cita previa por email.
22
Otros datos Página del curso UN: www.medellin.unal.edu.co/~fjmoreno/tabd www.medellin.unal.edu.co/~fjmoreno/tabd Página del curso U de A. Por confirmar Aulas: M8-117 UN – Facultad de Minas Por definir U de A.
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.