Regresión (II).

Slides:



Advertisements
Presentaciones similares
Capitulo 10: La metodología Box-Jenkins
Advertisements

Contraste de Hipotesis
1 Introducción a la minería de datos. 2 Temario ¿Qué es minería de datos? ¿Qué es minería de datos? ¿Quién usa minería de datos? ¿Quién usa minería de.
LEONARDO LÓPEZ C. ECONOMIA ESTADISTICA COMPUTARIZADA PARALELO: 261.
Aprendiendo de las observaciones Capítulo 18. Contenido Agentes aprendices Aprendizaje inductivo Aprendizaje de árboles de decisión.
Grupo de Comunicaciones Ópticas Universidad de Valladolid Valladolid, España Ignacio de Miguel E.T.S.I. de Telecomunicación –
Free and Quick Translation of Anderson's slides1 Modelo de Regresión Lineal Simple y =  0 +  1 x + u.
Bioestadística Distribuciones muestrales para variables cuantitativas.
REGRESIÓN Y CORRELACIÓN  REGRESIÓN Es un Proceso estadístico que consiste en predecir una variable a partir de otra utilizando datos anteriores. INGA.
Ing. VITELIO ASENCIOS TARAZONA. Dentro de los modelos causales o asociativos encontramos el análisis de regresión o regresión lineal, que es un método.
DISEÑO EXPERIMENTAL Ma44D Mayo 2006.
MEP- II.
Estimación de la distribución de las variables
SESION 2: AGRUPACIÓN DE DATOS (TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS)
Introducción a las Estadísticas
Instituto Nacional de Estadística y Geografía
Procedimiento completo de regresión múltiple
Pedro Letelier Patricio Contreras
TALLER REGIONAL SOBRE EL DISEÑO ESTADÍSTICO DE ENCUESTAS DE HOGARES PARA EL ESTUDIO DEL MERCADO LABORAL “Jackknife” Jaime Mojica Cuevas Agosto Panamá.
Continuación DE MCO.
Statistic Package for Social Sciencies
“Bootstrap” Jaime Mojica Cuevas
Introducción a los modelos econométricos
Metodologías para Riesgo de Crédito
ESTADÍSTICA II Ing. Danmelys Perozo MSc.
Clase 8: Contraste de Hipótesis
CONCEPTOS BASICOS ESTADISTICA.-Conjunto de métodos que nos permiten tomar decisiones en momentos de incertidumbre (duda). Tiene como objetivo que la información.
Pautas Generales y Metodología de Análisis de Información en la
Inteligencia Computacional
Fuente:
Analisis de Regresion Para dos Variables (poblacion y muestra)
Tema 9 Fiabilidad de las puntuaciones
Tutorial Holdings Management (Administración de Colecciones)
TEMA II. ESTUDIO DE MERCADO 2.2 El muestreo estadístico en la investigación de mercados. Métodos de pronósticos de corto plazo.
PREDICCIÓN Y ESTIMACIÓN
REGRESÍON LINEAL SIMPLE
PLAN DE MUESTREO.
MEDICION Y ELABORACION DE ESCALAS
Pronósticos, Series de Tiempo y Regresión Capítulo 1: Introducción a los Pronósticos.
Más allá de la regresión lineal de medias
ESTIMACIÓN (Inferencia Estadística) Intervalos de Confianza
Modelo de regresión lineal múltiple. Estimación de parámetros. Evaluación de la recta estimada. Diagnóstico del modelo. Detección, evaluación de puntos.
 La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de la estadística y las.
ANALISIS DE VARIANZA
Modelos SARIMA Metodología Box-Jenkins
i=2I.
Predicción de fallos en redes bancarias mediante Machine Learning
Analisis de Regresion Para dos Variables.
Contraste de Hipotesis
Ensayos Interaboratorio. Distintos Tipos y Objetivos
ICPM050 – ECONOMETRÍA tema 03: ESTIMACIÓN MODELO LINEAL SIMPLE
Analisis de Regresion Para dos Variables.
ESTADISTICA MEDIDAS DE DISPERSIÓN Cristian Gómez Coordinar Técnico Calidad Laboratorio Labsai.
Tema 6: Regresión lineal. 1. Introducción. 2. La ecuación de la recta. 3. El criterio de mínimos cuadrados. 4. Representación gráfica. 5. Coeficientes.
Contraste de Hipotesis
SERIES DE TIEMPO. Concepto Una serie de tiempo es un conjunto de observaciones de un fenómeno tomadas en tiempos específicos, generalmente a intervalos.
MEDIDAS DE DISPERSION absolutas y relativas. INTRODUCCION La estadística es la ciencia que se encarga de recolectar, organizar, resumir y analizar datos.
Regresión (I).
URBINA GUADARRAMA GILBERTO MORENO CONTRERAS TANGANXOAN ZUANGUA
Modelo de Regresión Lineal Simple
Contraste de Hipotesis
Analisis de Regresion Para dos Variables (poblacion y muestra)
Qucik and Free Translation of Anderson's slides
Analisis de Regresion Multiple
Qucik and Free Translation of Anderson's slides
Capitulo 1 Introducción y recolección de datos 1.
ESTUDIO DE MERCADO. MÉTODOS DE PROYECCIÓN ¿Qué es una proyección? Es una estimación del comportamiento de una variable en el futuro. Específicamente, se.
ESTADÍSTICA APLICADA  ZEUS DE JESÚS RODRÍGUEZ BUDA  GABRIELA MÁRQUEZ TORRES  MARÍA ENRIQUETA GIL CÓRDOVA  ELIÁN ANTONIO GONZALEZ GARCÍA  CRISTELL.
REGRESION LINEAL SIMPLE
TIPOS DE ALGORITMO DE APRENDIZAJE Aprendizaje Supervisado Aprendizaje no Supervisado Aprendizaje por Refuerzo.
Transcripción de la presentación:

Regresión (II)

Performance predictiva Regresión Introducción Partición en los datos Performance predictiva Trabajando con R Ejemplo Prototipo Ejercicio REGRESIÓN COMO MODELO PREDICTIVO MEDIDAS DE PERFORMANCE PREDICTIVA

E[Y/X] REGRESIÓN COMO MODELO PREDICTIVO AHORA EL OBJETIVO ES PREDECIR Introducción Partición en los datos Performance predictiva Trabajando con R Ejemplo Prototipo Ejercicio REGRESIÓN COMO MODELO PREDICTIVO AHORA EL OBJETIVO ES PREDECIR EL VALOR MEDIO DE LA Y PARA CADA COMBINACION DE VALORES DE LAS X PARA DATOS NO USADOS EN LA ESTIMACION DEL MODELO E[Y/X]

E[Y/X] ALGUNOS ALGORITMOS Regresión Introducción Partición en los datos Performance predictiva Trabajando con R Ejemplo Prototipo Ejercicio ALGUNOS ALGORITMOS DE APRENDIZAJE SUPERVISADO PARA REGRESIÓN (TARGET NUMÉRICO) Regresión E[Y/X] REGRESIÓN LINEAL ENSEMBLES: p.e. RANDOM FOREST KNN SVM SUPPORT VECTOR MACHINES ÁRBOLES DE CLASIFICACIÓN REDES NEURONALES ARTIFICIALES

Performance predictiva Regresión Introducción Partición en los datos Performance predictiva Trabajando con R Ejemplo Prototipo Ejercicio La predicción del valor de la Y para un nuevo individuo en la regresión lineal consiste en sustituir en el modelo estimado (ajustado) los valores de sus X y obtener el valor de la Y correspondiente Nota ML1* = -2.4 + 0.3 horas estudio +0.01 asistencia (%) Para un alumno que ha estudiado 30 horas y ha asistido al 90% de las clases, la nota predicha es: Nota ML1* = -2.4 + 0.3 *30 +0.01 *90 = 7.5

Performance predictiva Regresión Introducción Partición en los datos Performance predictiva Trabajando con R Ejemplo Prototipo Ejercicio ¿Es buena la predicción? ¿Cómo medir la performance predictiva de un modelo de regresión? ¿Cómo comparar la performance predictiva de mi modelo con la de otros modelos? ¿Cómo seleccionar el mejor modelo?

Performance predictiva Error de predicción = Y real – Y predicha Regresión Introducción Partición en los datos Performance predictiva Trabajando con R Ejemplo Prototipo Ejercicio DATASET 100% DATOS ¿Es buena la predicción? Medida obvia: comparar Y predicha con Y real y obtener error de predicción Error de predicción = Y real – Y predicha Problema si hemos usado todo el dataset para estimar el modelo Si predecimos la Y para una observación del dataset, los datos ya han sido usados para estimar el modelo y no obtenemos verdaderas predicciones ni medidas válidas de error de predicción generalizables (en la estimación de MCO la suma de errores o residuos SIEMPRE vale 0) Si predecimos la Y para un individuo que no ha sido usado para estimar el modelo, es posible que no conozcamos el valor de su Y real y no podamos conocer el error de predicción aún.

Performance predictiva Regresión Introducción Partición en los datos Performance predictiva Trabajando con R Ejemplo Prototipo Ejercicio SOLUCIÓN Realizar una PARTICIÓN de los DATOS en dos conjuntos: Conjunto de ENTRENAMIENTO o TRAINING SET. Se usa para ajustar y estimar el modelo, para que el modelo “aprenda” de los datos. Conjunto de TEST o TEST SET. Parte de los datos originales que se reserva para realizar predicciones sobre ellos y poder comparar los valores predichos de la Y con los valores reales y poder evaluar el error de predicción y las medidas de performance predictiva

Performance predictiva Regresión Introducción Partición en los datos Performance predictiva Trabajando con R Ejemplo Prototipo Ejercicio SOLUCIÓN Realizar una PARTICIÓN de los DATOS en dos conjuntos: La partición de datos se realizará en TODOS los algoritmos de aprendizaje supervisado. Para evitar sesgos, la asignación de datos al conjunto de entrenamiento y de validación se hace de forma ALEATORIA 60-80% 20-40%

Performance predictiva Regresión Introducción Partición en los datos Performance predictiva Trabajando con R Ejemplo Prototipo Ejercicio AÚN MÁS SOFISTICADOS EN LAS PARTICIONES… En muchos algoritmos hay que hacer un TUNING o ajuste de su versión final. Por ejemplo, decidir el valor de sus HIPERPARÁMETROS (p.e. en los “K vecinos más cercanos”, decidir el valor de “K” o en una red neuronal el número de capas intermedias) (en una regresión lineal puede ser el número de variables) Para este fin suele hacerse una partición del training set llamada VALIDATION SET (se puede hacer de muchas maneras, por ejemplo, mediante CROSSVALIDATION). Posteriormente, para testar la performance predictiva del algoritmo ya ajustado se usa el TEST set. 60% 20% 20%

Performance predictiva Regresión Introducción Partición en los datos Performance predictiva Trabajando con R Ejemplo Prototipo Ejercicio AÚN MÁS SOFISTICADOS EN LAS PARTICIONES…

Performance predictiva Regresión Introducción Partición en los datos Performance predictiva Trabajando con R Ejemplo Prototipo Ejercicio MEDIDAS DE PERFORMANCE PREDICTIVA Obtenemos errores de predicción en el TEST set y los promediamos de alguna de las maneras posibles. El modelo será mejor cuanto menores sean estas medidas Benchmark mínimo a batir: modelo “nulo” Y=media(Y) 1. Error medio. Indica si el modelo SOBRE o INFRA predice EM=suma (Y observada – Y predicha) 2. Raiz del error cuadrático medio 3. Error absoluto porcentual medio 4. Error absoluto medio

Performance predictiva Regresión Introducción Partición en los datos Performance predictiva Trabajando con R Ejemplo Prototipo Ejercicio SELECCIÓN DE VARIABLES ¿QUÉ VARIABLES INCLUIR EN UN MODELO? ENFOQUE “KITCHEN-SINK”, incluir todas las disponibles y ver qué pasa… Precaución!! Hay que tener en cuenta: Coste o posibilidad de tener datos y medidos con precisión para predicciones futuras Peligro de valores perdidos Riesgo de multicolinealidad (modelo inestable, difícil de interpretar) Un modelo PARSIMONIOSO es preferible en términos de interpretabilidad Trade-off SESGO – VARIANZA (variable omitida: SESGO; variable irrelevante: VARIANZA en la predicción Demasiadas variables, riesgo de SOBREAJUSTE

Performance predictiva Regresión Introducción Partición en los datos Performance predictiva Trabajando con R Ejemplo Prototipo Ejercicio SELECCIÓN DE MODELOS Para comparar modelos y prevenir SOBREAJUSTE hay medidas IN-SAMPLE (basadas en el TRAINING SET) que PENALIZAN modelos demasiado COMPLICADOS (muchos parámetros) si no aportan lo suficiente R2 corregido. Cuanto mayor, mejor AIC Criterio de información de AKAIKE. BIC Criterio de información Bayesiano de SCHWARTZ. Mejores cuanto MENORES (si negativos, cuanto más negativos) COMPARACIÓN DE ERRORES ENTRE TRAINING Y VALIDATION SET Esto es válido en general para todos los algoritmos de aprendizaje supervisado

Performance predictiva Regresión Introducción Partición en los datos Performance predictiva Trabajando con R Ejemplo Prototipo Ejercicio SELECCIÓN AUTOMÁTICA DE VARIABLES EN LOS MODELOS ¿Cómo decidir qué variables entre las disponibles proporcionan el mejor modelo? Uno de los procedimientos más sencillos (hay más): regresión STEPWISE ( selección por pasos) Consiste en agregar y eliminar de manera iterativa las variables en el modelo, para encontrar el subconjunto de variables que mejor ajusta en el conjunto de datos, reduciendo el error de predicción. Hay tres estrategias: FORWARD. Se comienza sin variables en el modelo, agrega de manera iterativa los predictores más contributivos, y se detiene cuando la mejora ya no es estadísticamente significativa. BACKWARD, Comienza con todas las variables en el modelo (modelo completo), elimina de manera iterativa los predictores menos contributivos, y se detiene cuando tiene un modelo donde todas las variables son estadísticamente significativos. STEPWISE, combinación de selección FORWARD y BACKWARD. Se comienza sin predictores, luego agregan secuencialmente los predictores más contributivos (como en la FORWARD). Después de agregar cada nueva variable, se elimina cualquier variable que ya no proporcione una mejora en el ajuste del modelo (como en la BACKWARD).

Performance predictiva Regresión Introducción Partición en los datos Performance predictiva Trabajando con R Ejemplo Prototipo Ejercicio CASO TOYOTA COROLLA: Predecir precio de un coche Toyota Corolla en función de sus atributos # abrimos datos en nuestro working directory (antes setwd donde corresponda) ToyotaCorolla <- read_csv("ToyotaCorolla.csv") # para simplificar nos quedamos solo con algunas variables ToyotaCorolla<-ToyotaCorolla[ ,c(3, 4, 7, 8, 9, 10, 12, 13, 14, 17, 18)] # particion en training y test (80%/20%) set.seed(1) #para que siempre se haga la misma partición y el ejercicio sea reproducible n<-nrow(ToyotaCorolla) #numero de observaciones del dataset TrainIndex<-sample(1:n, n*0.8) #seleccionamos los números de fila de las # observaciones que iran al training set TrainingSet<-ToyotaCorolla[TrainIndex,] TestSet<-ToyotaCorolla[-TrainIndex,] N=1436 H=288

Performance predictiva Regresión Introducción Partición en los datos Performance predictiva Trabajando con R Ejemplo Prototipo Ejercicio CASO TOYOTA COROLLA: Predecir precio de un coche Toyota Corolla en función de sus atributos

Performance predictiva Regresión Introducción Partición en los datos Performance predictiva Trabajando con R Ejemplo Prototipo Ejercicio CASO TOYOTA COROLLA: Predecir precio de un coche Toyota Corolla en función de sus atributos # estimamos modelo de regresion sobre el TrainingSet con todas las variables seleccionadas modelo<-lm(TrainingSet$Price~. , data=TrainingSet) summary(modelo) # obtenemos predicciones en el TestSet predicciones<-predict(modelo, newdata = TestSet) # calculamos los errores de predicción errores<-TestSet$Price-predicciones boxplot(errores) # interesante ver la gráfica de los errores de predicción hist(errores, breaks=20) h<-nrow(TestSet) # numero de observaciones en el TestSet # cálculo de las medidas de performance predictiva en el TestSet ME<-sum(errores)/h RMSE<-sqrt(sum(errores^2)/h) MAE<-sum(abs(errores))/h MAPE<-sum (abs(errores)/TestSet$Price)/h*100 "ME";ME;"RMSE";RMSE;"MAE";MAE;"MAPE";MAPE "ME" -74.31462 "RMSE" 1309.9 ”MAE" 953.0782 "MAPE" 9.628216

Performance predictiva Regresión Introducción Partición en los datos Performance predictiva Trabajando con R Ejemplo Prototipo Ejercicio CASO TOYOTA COROLLA: Predecir precio de un coche Toyota Corolla en función de sus atributos # instalamos y cargamos paquete MASS install.packages("MASS") library(MASS) # estimamos modelo con todas las variables fullmodel<-lm(ToyotaCorolla$Price~., data=ToyotaCorolla) # aplicamos procedimiento stepwise stepmodel<-stepAIC(fullmodel, direction="both", trace=1) #both: stepwise, trace=1 muestra el proceso summary(stepmodel) #obtenemos AIC y BIC de fullmodel y de stepmodel AIC(fullmodel) AIC(stepmodel) BIC(fullmodel) BIC(stepmodel) AIC(fullmodel) 24719.62 AIC(stepmodel) 24716.32 BIC(fullmodel) 24788.12 BIC(stepmodel) 24774.29