La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Diseño experimental 2137 Juan C. Benavides

Presentaciones similares


Presentación del tema: "Diseño experimental 2137 Juan C. Benavides"— Transcripción de la presentación:

1 Diseño experimental 2137 Juan C. Benavides
Regresión Diseño experimental 2137 Juan C. Benavides Tomado en parte de:

2 Que es regresión? Tecnica que trata de explicar la “VARIACIÓN” en una variable dependiente usando variable(s) independientes #R a<-sort(rnorm(50)) unif1<-seq(1,50)+rnorm(50) x<-seq(-25,24) fun1<-(x+rnorm(50))^2 fun2<-(x+abs(x+rnorm(50)))^2 fun3<-sort(unif1^2) par(mfrow=c(2,2)) plot(x,unif1) plot(x,-unif1) plot(x,(x+rnorm(50))^2) plot(x,fun3)

3 par(mfrow=c(2,2)) plot(x,unif1);abline(lm(unif1~x),lwd=3,col="red") plot(x,-unif1); abline(lm((-unif1)~x),lwd=3,col="red") scatter.smooth(fun1~ x,lpars = list(col = "red", lwd = 3)) scatter.smooth(fun3~ x,lpars = list(col = "red", lwd = 3))

4 Que es regresión linear?
Tecnica que trata de explicar la “VARIACIÓN” en una variable dependiente usando UNA variable independiente Regresión tiene implicito causa y efecto entre variables Las variables deben ser continuas (o no?) Dependent variable Independent variable (x)

5 Que es regresión linear?
Si la variable independiente tiene un poder de explicación suficiente el modelo puede ser usado para predicción La regresión simple ajusta una linea recta a las variables Dependent variable Independent variable (x)

6 Que es regresión linear?
La recta resultado de la regresión tiene dos coeficientes Intercepto Pendiente Independent variable (x) Dependent variable (y) y’ = b0 + b1X ± є b0 (y intercept) B1 = slope = ∆y/ ∆x є

7 Que es regresión linear?
pendiente Tasa de cambio Cambio en unidades de la variable dependiente con respecto a la independiente Independent variable (x) Dependent variable (y) y’ = b0 + b1X ± є b0 (y intercept) B1 = slope = ∆y/ ∆x є

8 Que es regresión linear?
intercepto Valor de la variable dependiente cuando la independiente es 0 (x=0) Independent variable (x) Dependent variable (y) y’ = b0 + b1X ± є b0 (y intercept) B1 = slope = ∆y/ ∆x є

9 Que es regresión linear?
La recta resultado de la regresión tiene dos coeficientes Intercepto Pendiente unif1<-seq(1,50)+rnorm(50) x<-seq(-25,24) plot(x,unif1) reg1<-lm(unif1~x) coef(reg1) abline(coef(reg1)) predict(reg1)

10 Predicción en regresión
Independent variable (x) Dependent variable Zero Prediction: y Observation: y ^ predict(reg1) El valor de la variable se marca con y El valor predicho se denota como y ^

11 Predicción en regresión
Prediction error: ε Observation: y ^ Prediction: y Zero La variación para cada observación puede ser descrita como: y = y + ε valor= explicado + Error ^

12 La recta de regresión Dependent variable Independent variable (x)
La recta es construida usando una tecnica estadistica conocida como minimos cuadrados Se selecciona la recta con la minima desviación de los errores de predicción Suma de cuadrados del error SSE

13 La recta de regresión Population mean: y Dependent variable
Independent variable (x) Primero se calcula la SUMA de Cuadrados de la Regresion SSR Desviación de cada valor con respecto a la media ^ SSR = ∑ ( y – y )2 (Variación explicada) SSE = ∑ ( y – y ) (Variación no explicada) SST = SSR + SSE = ∑ ( y – y ) 2 (Variación total en y) ^

14 Ajuste de la recta de regresión
Population mean: y Dependent variable Independent variable (x) Coeficiente de determinación R2 es la proporción de la variación total SST explicada por la regresión SSR R2 varia entre 0 y 1 Determina (en porcentaje) que tan precisa es la regresión 𝑅 2 = 𝑆𝑆𝑅 𝑆𝑆𝑇 = 𝑆𝑆𝑅 𝑆𝑆𝑅+𝑆𝑆𝐸

15 Variabilidad de la recta de regresión
x <- rnorm(20) df <- data.frame(x = x, y = x + rnorm(20)) plot(y ~ x, data = df)# model mod <- lm(y ~ x, data = df)# predicts + interval newx <-seq(min(df$x),max(df$x), length.out=100) preds <- predict(mod, newdata = data.frame(x=newx), interval = 'confidence') # plot plot(y ~ x, data = df, type = 'n') # add fill polygon(c(rev(newx), newx), c(rev(preds[ ,3]), preds[ ,2]), col = 'grey80', border = NA)# model abline(mod) # intervals lines(newx, preds[ ,3], col ='red') lines(newx, preds[ ,2], col ='red') Error estandard ES (SE) mide el grado de variabilidad de la regresión Util para determinar intervalos de confianza de la predicción K es el número de variables independientes en el modelo (1) 𝑆𝐸= 𝑆𝑆𝐸 𝑛−𝑘

16 Ecuación de la recta de regresión
Independent variable (x) Dependent variable (y) y’ = b0 + b1X ± є b0 (y intercept) B1 = slope = ∆y/ ∆x є y = A + β * x + ε y= valor medido de la variable dependiente x= valor medido de la variable independiente β= relación de cambio entre x & y A= intercepto (valor que toma y cuando x=0) ε= variación de los residuos (error)

17 Regresión múltiple y= valor medido de la variable dependiente
Independent variable (x) Dependent variable (y) y’ = b0 + b1X ± є b0 (y intercept) B1 = slope = ∆y/ ∆x є y = A + β1X1+β2X2+ … + βkXk + ε y= valor medido de la variable dependiente xi= valor medido de la variable independiente i βi= relación de cambio entre xi & y A= intercepto (valor que toma y cuando x=0) ε= variación de los residuos (error)

18 Regresión no linear y = A + β log(X)
Relaciones no lineares pueden ser ajustadas como regresiones lineares usando transformaciones

19 Sumas de cuadrados en regresión
Suma de cuadrados totales 𝑆𝑆𝑇= ( 𝑋 𝑖 − 𝑥 ) 2 Varianza 𝑣𝑎𝑟(𝑥)= ( 𝑋 𝑖 − 𝑥 ) 2 𝑛−1 covarianza 𝑐𝑜𝑣𝑎𝑟(𝑥)= ( 𝑥 𝑖 − 𝑥 )( 𝑦 𝑖 − 𝑦 ) 𝑛−1 Pendiente 𝛽= 𝑐𝑜𝑣(𝑥,𝑦) 𝑣𝑎𝑟(𝑥) = ( 𝑥 𝑖 − 𝑥 )( 𝑦 𝑖 − 𝑦 ) ( 𝑋 𝑖 − 𝑥 ) 2

20 Sumas de cuadrados en regresión
Pendiente 𝛽= 𝑐𝑜𝑣(𝑥,𝑦) 𝑣𝑎𝑟(𝑥) = ( 𝑥 𝑖 − 𝑥 )( 𝑦 𝑖 − 𝑦 ) ( 𝑋 𝑖 − 𝑥 ) 2 Intercepto 𝑦 =a+b 𝑥 a= 𝑦 -b 𝑥 Si: Entonces: Coeficiente de determinación 𝑅 2 = 𝑐𝑜𝑣(𝑥,𝑦) 2 𝑣𝑎𝑟 𝑥 ∗𝑣𝑎𝑟(𝑦)

21 Sumas de cuadrados en regresión
unif1<-seq(1,50)+rnorm(50) x<-seq(-25,24)plot(x,unif1) meanx<-mean(x); meanunif<-mean(unif1) reg1<-lm(unif1~x);summary(reg1) covxy<-cov(x,unif1) varx<-var(x); vary<-var(unif1) slope<-covxy/varx intercept<-meanunif-slope*meanx r2<- covxy^2/(varx*vary) abline(intercept,slope,col="blue",lwd=8) abline(coef(reg1),col="red")

22 Pruebas de hipotesis en regresión
Parametros Pendiente Valor pendiente= 𝜷 Desviación de la pendiente = 𝜎 𝛽 𝜎 𝛽 = 𝑆 𝑆 𝑥𝑥 = ( 𝑦 𝑖 − 𝑦 𝑖 ) 2 𝑛− ( 𝑥 𝑖 − 𝑥 𝑖 ) 2 Diferencia entre cada valor y su valor predicho Dividido por la variación en x

23 Pruebas de hipotesis en regresión
De dos lados Ho: 𝜷1=0 Ha: 𝜷1≠0 Valor t Regla de decisión Pendiente recta de regresión mayor o menora 0 val1<-sum((unif1-predict(reg1))^2) val2<-sum((x-mean(x))^2) n=length(x) sd_reg<-sqrt(1/(n-2))* (sqrt(val1)/sqrt(val2)) summary(reg1) 𝑡 𝑜𝑏𝑠 = 𝐵 𝜎 𝐵1 𝑡 𝑜𝑏𝑠 ≥ 𝑡 𝛼 2 ,𝑛−2

24 Intervalo de confianza del 95%
preds <- predict(reg1, interval = 'confidence') plot(unif1 ~ x, type = 'n') # intervalo en gris polygon(c(rev(x), x), c(rev(preds[ ,3]), preds[ ,2]), col = 'grey80', border =NA) points(x,unif1,col="blue",cex=0.5)abline(reg1)

25 Anova y regresion Es el modelo de ANOVA significativo
El modelo (todo) explica algo de la varianza? Les recuerda de ANOVA Prueba F??

26 Anova y regresion Total=Modelo+Error
Partición de la varianza entre varianza explicada y no explicada por el modelo Principio de ANOVA Sumas de cuadrados Total (Syy) dfTotal = n-1 Error (SSE) dfError = n-2 Model (SSR) dfModel = 1 𝑆 𝑦𝑦 = ( 𝑦 𝑖 − 𝑦 ) 2 𝑆𝑆𝐸= ( 𝑦 𝑖 − 𝑦 𝑖 ) 2 𝑆 𝑚𝑜𝑑𝑒𝑙𝑜 = ( 𝑦 − 𝑦 𝑖 ) 2 Total=Modelo+Error

27 Anova en regresion Total=Modelo+Error

28 Anova y regresion Usando nuestro ejemplo del día 𝑆 𝑦𝑦 = ( 𝑦 𝑖 − 𝑦 ) 2
#anova en regresion syy<-sum((unif1-mean(unif1))^2) sse<-sum((unif1-predict(reg1))^2) smodelo<-sum((mean(unif1)-predict(reg1))^2) df_total<- n-1 #syy df_sse<- n-2 df_modelo<- 1 m_sse<-sse/df_sse m_smodelo<-smodelo/df_modelo #valor f y probabilidad anova(reg1) f_reg1<- m_smodelo/m_sse 1-pf(f_reg1,df1=1,df2=df_sse) 𝑆 𝑦𝑦 = ( 𝑦 𝑖 − 𝑦 ) 2 𝑆𝑆𝐸= ( 𝑦 𝑖 − 𝑦 𝑖 ) 2 𝑆 𝑚𝑜𝑑𝑒𝑙𝑜 = ( 𝑦 − 𝑦 𝑖 ) 2 Si F1,48>5.35 se rechaza Ho qf(0.975,df1=1,df2=48)

29 Pero anova = regresion “…an ANOVA reports each mean and a p-value that says at least two are significantly different.  A regression reports only one mean(as an intercept), and the differences between that one and all other means, but the p-values evaluate those specific comparisons. It’s all the same model, the same information, but presented in different ways.  Understand what the model tells you in each way, and you are empowered.”

30 anova = regresion “The models differ in their basic aim ANOVA is mostly concerned to present differences between categories' means in the data Linear regression is mostly concern to estimate a sample mean response and an associated σ2.”


Descargar ppt "Diseño experimental 2137 Juan C. Benavides"

Presentaciones similares


Anuncios Google