Actividades en Big Data José Mira Laboratorio de Estadística Octubre 2016
CART y RF multivariante SOM (Self Organizing Maps) Técnicas empleadas CART (Classification and Regression Trees) ordinario CART condicional (Conditional Trees) Ensembles of Trees: Bagging Boosting Random Forets BART Dynatree CART y RF multivariante SOM (Self Organizing Maps)
Aplicaciones Para importancia de variables y predicción Series de precios de energía eléctrica – CART, RF Seguridad del automóvil CART, RF - Series de número de accidentes, fallecidos - Estudios de influencia de género - Estimación de exposición Modelado de emisiones EMT – CART, RF Predicción de episodios en transtorno bipolar-K-means y SOM Predicción de fuga de clientes (Churning) - SOM Localización de emisiones de tweets- SOM
Librerías y funciones de R CART ordinario, Librería rparty, función rparty CART condicional: librería party o partykit, función ctree Random Forest: librería RandomForest, función RandomForest
Líneas de contribuciones metodológicas en desarrollo/proyecto Random Forest: simulación y Resultados teóricos Random Forest: cuantificación de incertidumbres SOM: cuantificación de incertidumbres
Producción científica González, C., Mira, J., y Juárez, I., (2015), “Important variable assessment and electricity price forecasting based on regression tree models: classification and regression trees, Bagging and Random Forests”, IET Generation, Transmission and Distribution, vol. 9(11), 1120-1128. González, C., Mira, J., García-Lezama, J., “Variable selection to predict electricity price categories”, a presentar en CMStatistics, Sevilla, Dic. 2016. González, C., Mira, J. y Ojeda. A., (2016), “Applying Multi-Output Random Forest Models to Electricity Price Forecast”, paper en elaboración
INTRODUCCIÓN ÁRBOLES DE CLASIFICACIÓN Y REGRESIÓN (Breiman et al, 1984) Relación entrada/salida tipo histograma mediante algoritmo de descomposición binario
Árbol de clasificación y regresión ÁRBOLES DE CLASIFICACIÓN Y REGRESIÓN INTRODUCCIÓN (Breiman et al, 1984) Nodos Particiones Árbol de clasificación y regresión Particiones binarias con el fin de obtener nodos más homogéneos (puros) Análisis de sensibilidad con árboles de regresión: aplicación a un código de elementos finitos
Referencias Breiman, L., (2001), “Random Forests”, Machine Learning, 45, pp 5-32 Chipman, H., George, E., and McCullogh, R., (2010), “BART: Bayesian Additive Regression Trees”, The Annals of Applied Statistics, 4,1, 266-298. Gramacy, R., Taddy, M, (2013), “Variable Selection and Sensitivity Analysis via Dynamic Trees with Application to Computer Code Performance Testing”., The Annals of Applied Statistics, vol. 7, 1, 51-80. Guo, X., Wang, H., y Glass, D., (2013), “bayesian Self-Organizing Mao for Data Classification and Clustering”, International Journal of Wavelets, Multiresolution and Information Processing, vol 11, (5). Hastie, T., Tibshirani, R., and Friedman, J., (2008), “The elements of Statistical Learning”. Springer. Murphy, K., (2012), “Machine Learning: A probabilistic perspective. MIT press. Rascha, S., (2015), “Python Machine Learning”. PACKT-Open Source Taddy, M., Gramacy, R., and Polson, L., (2011), “Dynamic Trees for Learning and Design”, JASA, 106(493), 109-123 Se han llevado a cabo los tres objetivos planteados, obtener la importancia de variables, los patrones de comportamiento y los modelos de predicción a corto plazo. La técnica utilizada para ello ha resultado adecuada dentro de la misma la metodología RF obtenido mejoras respecto a la metodología de un único árbol. Los resultados obtenidos de importancia muestran la gran influencia en la hora t del precio en la hora t-1, t-24, la hora del día, la reserva hidráulica y la demanda y en cuanto a las tecnologías la gran influencia de la hidráulica seguida del RE, eólica, carbón y CC. Los resultados en los patrones de comportamiento muestran que los precios altos vienen marcados por la estructura de generación y los bajos y medios por el efecto calendario fundamentalmente. Los resultados de predicción a corto plazo son competitivos con otro estudio que utiliza la misma técnica.