La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Actividades en Big Data

Presentaciones similares


Presentación del tema: "Actividades en Big Data"— Transcripción de la presentación:

1 Actividades en Big Data
José Mira Laboratorio de Estadística Octubre 2016

2 CART y RF multivariante SOM (Self Organizing Maps)
Técnicas empleadas CART (Classification and Regression Trees) ordinario CART condicional (Conditional Trees) Ensembles of Trees: Bagging Boosting Random Forets BART Dynatree CART y RF multivariante SOM (Self Organizing Maps)

3 Aplicaciones Para importancia de variables y predicción
Series de precios de energía eléctrica – CART, RF Seguridad del automóvil CART, RF - Series de número de accidentes, fallecidos - Estudios de influencia de género - Estimación de exposición Modelado de emisiones EMT – CART, RF Predicción de episodios en transtorno bipolar-K-means y SOM Predicción de fuga de clientes (Churning) - SOM Localización de emisiones de tweets- SOM

4 Librerías y funciones de R
CART ordinario, Librería rparty, función rparty CART condicional: librería party o partykit, función ctree Random Forest: librería RandomForest, función RandomForest

5 Líneas de contribuciones metodológicas en desarrollo/proyecto
Random Forest: simulación y Resultados teóricos Random Forest: cuantificación de incertidumbres SOM: cuantificación de incertidumbres

6 Producción científica
González, C., Mira, J., y Juárez, I., (2015), “Important variable assessment and electricity price forecasting based on regression tree models: classification and regression trees, Bagging and Random Forests”, IET Generation, Transmission and Distribution, vol. 9(11), González, C., Mira, J., García-Lezama, J., “Variable selection to predict electricity price categories”, a presentar en CMStatistics, Sevilla, Dic González, C., Mira, J. y Ojeda. A., (2016), “Applying Multi-Output Random Forest Models to Electricity Price Forecast”, paper   en elaboración

7 INTRODUCCIÓN ÁRBOLES DE CLASIFICACIÓN Y REGRESIÓN
(Breiman et al, 1984) Relación entrada/salida tipo histograma mediante algoritmo de descomposición binario

8 Árbol de clasificación y regresión
ÁRBOLES DE CLASIFICACIÓN Y REGRESIÓN INTRODUCCIÓN (Breiman et al, 1984) Nodos Particiones Árbol de clasificación y regresión Particiones binarias con el fin de obtener nodos más homogéneos (puros) Análisis de sensibilidad con árboles de regresión: aplicación a un código de elementos finitos

9 Referencias Breiman, L., (2001), “Random Forests”, Machine Learning, 45, pp 5-32 Chipman, H., George, E., and McCullogh, R., (2010), “BART: Bayesian Additive Regression Trees”, The Annals of Applied Statistics, 4,1, Gramacy, R., Taddy, M, (2013), “Variable Selection and Sensitivity Analysis via Dynamic Trees with Application to Computer Code Performance Testing”., The Annals of Applied Statistics, vol. 7, 1, Guo, X., Wang, H., y Glass, D., (2013), “bayesian Self-Organizing Mao for Data Classification and Clustering”, International Journal of Wavelets, Multiresolution and Information Processing, vol 11, (5). Hastie, T., Tibshirani, R., and Friedman, J., (2008), “The elements of Statistical Learning”. Springer. Murphy, K., (2012), “Machine Learning: A probabilistic perspective. MIT press. Rascha, S., (2015), “Python Machine Learning”. PACKT-Open Source Taddy, M., Gramacy, R., and Polson, L., (2011), “Dynamic Trees for Learning and Design”, JASA, 106(493), Se han llevado a cabo los tres objetivos planteados, obtener la importancia de variables, los patrones de comportamiento y los modelos de predicción a corto plazo. La técnica utilizada para ello ha resultado adecuada dentro de la misma la metodología RF obtenido mejoras respecto a la metodología de un único árbol. Los resultados obtenidos de importancia muestran la gran influencia en la hora t del precio en la hora t-1, t-24, la hora del día, la reserva hidráulica y la demanda y en cuanto a las tecnologías la gran influencia de la hidráulica seguida del RE, eólica, carbón y CC. Los resultados en los patrones de comportamiento muestran que los precios altos vienen marcados por la estructura de generación y los bajos y medios por el efecto calendario fundamentalmente. Los resultados de predicción a corto plazo son competitivos con otro estudio que utiliza la misma técnica.


Descargar ppt "Actividades en Big Data"

Presentaciones similares


Anuncios Google