Actividades en Big Data

Slides:



Advertisements
Presentaciones similares
BOOSTING REGRESSION TREES CON STATISTICA TÉCNICAS AVANZADAS DE REGRESIÓN EN CIENCIAS NATURALES Y SU APLICACIÓN CON R Luis M. Carrascal & Javier Seoane.
Advertisements

URBAN WATERGY Francisco J. Álvaro González. Energía hidroeléctrica urbana Aguas residuales y pluviales subterráneas para uso energético. Proyecto-> Análisis.
Determinación del esfuerzo mínimo horizontal (MHS) Uno de los aspectos más importantes del comportamiento geomecánico del yacimiento.
1 CAPTAR LO ESENCIAL Y PREPARAR EL DIAGNÓSTICO Los profesores como Diagnosticadores de Necesidades de Formación en las Empresas 4.- CRITERIOS DE ELECCIÓN.
Sistema de Soporte a la Toma de Decisiones en la Gestión del Inventario de Medicamentos Vigentes Para la Farmacia General del Hospital Universitario San.
ADMINISTRACIÓN DEL MERCADO ELÉCTRICO  Datos de generación eólica real  Datos meteorológicos medidos por las estaciones de medida (MET) de los.
Desarrollo Y Evaluación De Un Sistema De Predicción Automática De Género De Texto Para Conversión Automática De Texto A Habla Expresiva ALUMNO: MIGUEL.
PROYECTO DE PRODUCCIÓN INDUSTRIAL Índice Introducción EL SISTEMA PERSONA-PRODUCTO El sistema persona-maquina El sistema maquina-producto Que son las.
Título del Proyecto Times New Roman, tamaño 66. Nombres de los autores Datos de la Institución de adscripción de los autores. Marcar con números superíndices.
Programa de Escritura para la Comunidad Universitaria del CEDILE-PUCMM
Cómo presentar trabajos académicos
Epidemiología y estadística descriptivas e indicadores
Axel Villalobos Cortés, Amparo Martínez3, José Vega-Pla4, Juan Vicente
Identificación de tráfico de red basado en Aprendizaje Automático
ARCGIS Taller básico con enfoque a Moscas de la Fruta Resumen
Estadísticas de Impartición de MOOC's
Lorenzo Bruzzone IEEE Geoscience and remote sensing 38,1pp429
Licenciatura en Contaduría
Una reflexión acerca del uso de distribuciones aproximadas
Rafael Asprilla Universidad de Panamá ,
Mariela N. Uhrig Julio R. Galli Hugo L. Rufiner Diego H. Milone
“Generación de un Plan estratégico tecnológico, caso TI (PETi) : un enfoque de Sistemas y Gestión” Luis Hevia.
ANÁLISIS DE EFICIENCIA - DEA
Licenciatura en Contaduría Tema: Integración del Control Presupuestal
TABLA DE CONTENIDOS RESUMEN
DOMINIO Y RANGO DE UNA FUNCIÓN.
GRADO DE CONTROL DE LA HTA COMO VARIABLE PREDICTIVA
Análisis de Redes con gvSIG
Red Iberoamericana de Computación de Altas Prestaciones
UNIVERSIDAD JUÁREZ AUTÓNOMA DE TABASCO
Estimación de la Demanda
Introducción a la Simulación de Elementos Finitos para Nanopolímeros
PLANEACIÓN ENERGÉTICA INDICATIVA ANÁLISIS ENERGÉTICO DE LARGO PLAZO Documento XM-CND- 009 Febrero 13 de 2017.
Calidad técnica de los EXANI
Tema 1 El método científico
BLOQUE 5.
Universidad Técnica de Machala
Apuntes de Matemáticas 3º ESO
Método de Verificación
Gestión de Riesgos y Control Interno: Función Actuarial Experiencia Peruana.
RODRÍGUEZ CARRANZA SARAÍ ABI
OFDM óptimo para smart grid
ENERGÍA CONCEPTOS BÁSICOS
X SIMPOSIO DE FUERZA de Diciembre de 2017, Madrid
Clasificación del Presupuesto
TRABAJO ESPECAL DE GRADO
IBM Cloud Flexible Choice of Infrastructure VMware | Openstack | Hardware | IaaS Kubernetes-based Platform Developer Productivity | Operational Efficiency.
Estructuras de datos y Bases de datos
Fundamentos de Microeconomía
i=2I.
Principales actividades desarrolladas en el último año (11/16 – 10/17)
POR: GUADALUPE MIREYA REYES OLVERA
Predicción de fallos en redes bancarias mediante Machine Learning
METODOS PARA ANALISIS DE TALUDES
Peine óptico (Frequency Comb)
Potencial de la analítica del aprendizaje en evaluación educativa
ENERTRÓNICA Leonel G. Corona Ramírez, José Antonio Aquino Robles, V. Darío Cuervo Pinto.
Área académica: Contabilidad
XII CONGRESO DE LA SOCIEDAD ESPAÑOLA DE ONCOLOGÍA MÉDICA
IMPORTANCIA DEL ANÁLISIS Y CONTROL QUÍMICO ENOLÓGICO
DESEMPEÑO AMBIENTAL 2017 CARBURES DEFENSE
EXPERIMENTACIÓN AGRÍCOLA Investigación Agrícola
Analítica de Datos en Medidores Inteligentes para Determinar Patrones de Consumo/Producción para Mejorar la Eficiencia Energética y Evitar Robo de Energía.
DETECTOR PREDICTIVO DE CONEXIONES FRAUDULENTAS
X Congreso Iberoamericano de Economía del Deporte
Grupo de trabajo Flexibilidad
Jugando a ser ricos: Machine Learning para predecir la Bolsa
Información Básica para las Simulaciones a Largo Plazo
Escuela Nacional Preparatoria
Churn Norris – Retain your customers with ML
Transcripción de la presentación:

Actividades en Big Data José Mira Laboratorio de Estadística Octubre 2016

CART y RF multivariante SOM (Self Organizing Maps) Técnicas empleadas CART (Classification and Regression Trees) ordinario CART condicional (Conditional Trees) Ensembles of Trees: Bagging Boosting Random Forets BART Dynatree CART y RF multivariante SOM (Self Organizing Maps)

Aplicaciones Para importancia de variables y predicción Series de precios de energía eléctrica – CART, RF Seguridad del automóvil CART, RF - Series de número de accidentes, fallecidos - Estudios de influencia de género - Estimación de exposición Modelado de emisiones EMT – CART, RF Predicción de episodios en transtorno bipolar-K-means y SOM Predicción de fuga de clientes (Churning) - SOM Localización de emisiones de tweets- SOM

Librerías y funciones de R CART ordinario, Librería rparty, función rparty CART condicional: librería party o partykit, función ctree Random Forest: librería RandomForest, función RandomForest

Líneas de contribuciones metodológicas en desarrollo/proyecto Random Forest: simulación y Resultados teóricos Random Forest: cuantificación de incertidumbres SOM: cuantificación de incertidumbres

Producción científica González, C., Mira, J., y Juárez, I., (2015), “Important variable assessment and electricity price forecasting based on regression tree models: classification and regression trees, Bagging and Random Forests”, IET Generation, Transmission and Distribution, vol. 9(11), 1120-1128. González, C., Mira, J., García-Lezama, J., “Variable selection to predict electricity price categories”, a presentar en CMStatistics, Sevilla, Dic. 2016. González, C., Mira, J. y Ojeda. A., (2016), “Applying Multi-Output Random Forest Models to Electricity Price Forecast”, paper   en elaboración

INTRODUCCIÓN ÁRBOLES DE CLASIFICACIÓN Y REGRESIÓN (Breiman et al, 1984) Relación entrada/salida tipo histograma mediante algoritmo de descomposición binario

Árbol de clasificación y regresión ÁRBOLES DE CLASIFICACIÓN Y REGRESIÓN INTRODUCCIÓN (Breiman et al, 1984) Nodos Particiones Árbol de clasificación y regresión Particiones binarias con el fin de obtener nodos más homogéneos (puros) Análisis de sensibilidad con árboles de regresión: aplicación a un código de elementos finitos

Referencias Breiman, L., (2001), “Random Forests”, Machine Learning, 45, pp 5-32 Chipman, H., George, E., and McCullogh, R., (2010), “BART: Bayesian Additive Regression Trees”, The Annals of Applied Statistics, 4,1, 266-298. Gramacy, R., Taddy, M, (2013), “Variable Selection and Sensitivity Analysis via Dynamic Trees with Application to Computer Code Performance Testing”., The Annals of Applied Statistics, vol. 7, 1, 51-80. Guo, X., Wang, H., y Glass, D., (2013), “bayesian Self-Organizing Mao for Data Classification and Clustering”, International Journal of Wavelets, Multiresolution and Information Processing, vol 11, (5). Hastie, T., Tibshirani, R., and Friedman, J., (2008), “The elements of Statistical Learning”. Springer. Murphy, K., (2012), “Machine Learning: A probabilistic perspective. MIT press. Rascha, S., (2015), “Python Machine Learning”. PACKT-Open Source Taddy, M., Gramacy, R., and Polson, L., (2011), “Dynamic Trees for Learning and Design”, JASA, 106(493), 109-123 Se han llevado a cabo los tres objetivos planteados, obtener la importancia de variables, los patrones de comportamiento y los modelos de predicción a corto plazo. La técnica utilizada para ello ha resultado adecuada dentro de la misma la metodología RF obtenido mejoras respecto a la metodología de un único árbol. Los resultados obtenidos de importancia muestran la gran influencia en la hora t del precio en la hora t-1, t-24, la hora del día, la reserva hidráulica y la demanda y en cuanto a las tecnologías la gran influencia de la hidráulica seguida del RE, eólica, carbón y CC. Los resultados en los patrones de comportamiento muestran que los precios altos vienen marcados por la estructura de generación y los bajos y medios por el efecto calendario fundamentalmente. Los resultados de predicción a corto plazo son competitivos con otro estudio que utiliza la misma técnica.