Aplicaciones de Big Data en R V Jornadas de Usuarios de R Zaragoza, diciembre 2013
Índice presentación Introducción : Tecnología Big Data. ¿Dónde encaja R en todo esto? Principios: herramientas básicas y cómo trabajar en Big Data ¿Qué es Map-Reduce? Map-Reduce programando en R Map-Reduce usando paquetes de R Map-Reduce usando SQL desde R © 2013 Synergic Partners – Proprietary and Confidential
Introducción : Tecnología Big Data. ¿Dónde encaja R en todo esto? (I) ¿Qué es? Big Data != muchos datos Hadoop – Pig, jaql – Hive – HBase – … MongoDB Cassandra … © 2013 Synergic Partners – Proprietary and Confidential
Introducción : Tecnología Big Data. ¿Dónde encaja R en todo esto? (II) Usamos datos tabulados. (En caso contrario, habría otras soluciones que no explicamos aquí.) R es: – la solución analítica – la consola de control de (casi) todo el sistema © 2013 Synergic Partners – Proprietary and Confidential
Principios: herramientas básicas y cómo trabajar en Big Data (I) © 2013 Synergic Partners – Proprietary and Confidential
Principios: herramientas básicas y cómo trabajar en Big Data (II) © 2013 Synergic Partners – Proprietary and Confidential
Principios: herramientas básicas y cómo trabajar en Big Data (III) © 2013 Synergic Partners – Proprietary and Confidential
¿Qué es Map-Reduce? (I) © 2013 Synergic Partners – Proprietary and Confidential
¿Qué es Map-Reduce? (II) Tanto para clasificación como para regresión: Algunos algoritmos se pueden paralelizar de manera centralizada. Por ejemplo: Regresión lineal, regresión logística, k-means Algunos algoritmos se pueden paralelizar “as is” y combinar todos los modelos en un único modelo. Por ejemplo: Random Forests Todos los algoritmos se pueden paralelizar “as is” y utilizar una metaheurística (por ejemplo, un voto ponderado) para obtener una clasificación conjunta. © 2013 Synergic Partners – Proprietary and Confidential
¿Qué es Map-Reduce? (III) En R Podemos programar Map-Reduce Podemos usar un paquete que use Map- Reduce Podemos controlar desde R programas como Hive que usan Map-Reduce © 2013 Synergic Partners – Proprietary and Confidential
Map-Reduce programando en R (I)
© 2013 Synergic Partners – Proprietary and Confidential
Map-Reduce programando en R (II)
© 2013 Synergic Partners – Proprietary and Confidential
Map-Reduce programando en R (III)
Map-Reduce usando paquetes de R (I)
Map-Reduce usando paquetes de R (II)
Map-Reduce usando SQL desde R (I)
Map-Reduce usando SQL desde R (II)
Map-Reduce usando SQL desde R (III)
© 2013 Synergic Partners – Proprietary and Confidential
Map-Reduce usando SQL desde R (III) © 2013 Synergic Partners – Proprietary and Confidential
Map-Reduce usando SQL desde R (III) © 2013 Synergic Partners – Proprietary and Confidential
Map-Reduce usando SQL desde R (III) © 2013 Synergic Partners – Proprietary and Confidential