Correlación y regresión Diseño experimental 2137 Juan C. Benavides http://geographyfieldwork.com/Spearm5.gif
Correlación Contesta preguntas básica Si una variable aumenta la otra tambien? Si una variable dismiminuye la otra también? Podemos obtener el grado de relación númerica entre dos variables?
Correlación-graficar Diagrama de dispersión de puntos Evidencia gráfica de la asociación entre dos variables x <- mtcars[,1]#millas y <- mtcars[,6]# peso total plot(x, y, xlab=”mpg", ylab=”peso")
Relación directa x <- mtcars[,4]# fuerza hp y <- mtcars[,6]# peso total plot(x, y, xlab="hp", ylab="peso")
Relación directa-tendencia x <- mtcars[,4]# fuerza hp y <- mtcars[,6]# peso total plot(x, y, xlab="hp", ylab="peso") abline(lm(y ~ x))
Relación inversa x <- mtcars[,1]#millas y <- mtcars[,6]# peso total plot(x, y, xlab="mpg", ylab="peso")
Relación inversa x <- mtcars[,1]#millas y <- mtcars[,6]# peso total plot(x, y, xlab="mpg", ylab="peso") abline(lm(y ~ x),col="red",lwd=2)
Dispersión de la relación No todos los puntos estan sobre la recta Que representa cada punto?
Tipos de correlación Varía entre -1 y 1 Corelación positiva Aumento en x asociado a aumentos en y Correlación negativa Aumento en x asociado a reducción en y No correlación Variación en una variable no relacionada con aumento o disminución de otra Varía entre -1 y 1
Medidas de correlación Correlación de Spearman Producto momento de Spearman Varia entre -1 y 1 Se basa en los rangos de los valores y no en los valores netos Medida de asociación no parametrica
Distancia a la universidad (m) Difference between ranks (d) Tiend Distancia a la universidad (m) Rango distancia Price of 50cl bottle (€) Rank price Difference between ranks (d) d² 1 50 10 1.80 2 8 64 175 9 1.20 3.5 5.5 30.25 3 270 2.00 7 49 4 375 1.00 6 5 425 580 1.5 2.25 710 0.80 -5 25 790 0.60 -7 890 -4 16 980 0.85 d² = 285.5
Medidas de correlación
Correlación Spearman R dist<-c(50,175,270,375,425,580,710,790,890,980) precio<-c(1.8,1.2,2,1,1,1.2,0.8,0.6,1,0.85) plot(dist, precio,cex=2)#graficar valores plot(order(dist),order(precio),cex=2)#graficar rangos cor(dist,precio,method="spearman")
Medidas de correlación Correlación de Pearson Parametrica Relacionada a la varianza Covarianza
Correlación de Pearson r Correlación de Pearson es covarianza dividida por las desviaciones estandard de las dos variables Covarianza estandarizada No confundirla con R2 cov1<-cov(dist,precio) sd_dist<-sd(dist) sd_precio<-sd(precio) cor1<-cov1/(sd_dist*sd_precio) cor2<-cor(dist,precio) cor2-cor1 round(cor2-cor1,0)
Factores que afectan r Restricciones de rango Las mediciones solo representan una porción pequeña del rango Las mediciones representan una fracción de la población total set.seed(7) dist1<-sample(dist,4) precio1<-sample(precio,4) plot(dist,precio) points(dist1,precio1,col="red") cor3<-cor(dist1,precio1) cor3-cor1 round(cor3-cor1,0)
Factores que afectan r Falta de lineraridad La correlación de Pearson mide el grado de asociación lineal entre variables Si la relación es no linear el valor de r no representa un estadistico relevante set.seed(7) unif1<-exp(rnorm(200)) unif2<-rnorm(200) cor(unif1,unif2);plot(unif2,unif1) cor(log(unif1),unif2)
Factores que afectan r Submuestras heterogeneas Valores extremos set.seed(7) unif1<-c(rnorm(200),300) unif2<-c(rnorm(200),0) cor(unif1,unif2) plot(unif2,unif1,cex=2,col="red")
Countries With Low Consumptions Data With Restricted Range Truncated at 5 Cigarettes Per Day Cigarette Consumption per Adult per Day 5.5 5.0 4.5 4.0 3.5 3.0 2.5 CHD Mortality per 10,000 20 18 16 14 12 10 8 6 4 2
Truncation
Non-linearity
Heterogenous samples
Outliers
Como analizar la correlacion r Cuando grande es grande Pequeñas correlaciones en data set grandes son importantes Grandes correlaciones en data sets pequeños no siempre son importantes El tamaño de la muestra es fundamental https://www.researchgate.net/profile/Luis_Hurtado5/publication/293802268/figure/fig2/AS:328049343123477@1455224466641/Figure-5-Correlation-between-pairwise-genetic-distances-and-Euclidean-distances-The.png
Como probar si r es diferente de 0 Parametro r (rho)= Hipotesis nula =0 Prueba de dependencia linear Prueba t de valor diferente de 0 Grados de libertad Df=n-2
Como probar si r es diferente de 0 dist<-c(50,175,270,375,425,580,710,790,890,980) precio<-c(1.8,1.2,2,1,1,1.2,0.8,0.6,1,0.85) plot(dist, precio,cex=2)#graficar valores cor(dist,precio) cor_t<-cor(dist,precio) GL<-10-2 T_value<- cor_t*sqrt((10-2)/(1-cor_t^2)) T_value dt(T_value,GL) cor.test(dist,precio)
Correlación y regresión En correlación se examina SOLO la relación entre las variables (covarianza) En regresión se examina como una variable independiente (x) AFECTA el cambio en una variable dependiente (y) β̂ =cor(Yi,Xi)⋅SD(Yi)/SD(Xi) Yi=α+βXi+εi
Correlación y regresión La pendiente de una regresión NUNCA es igual al valor de la correlación Excepto cuando SD(Yi)=SD(Xi) β =cor(Yi,Xi)⋅SD(Yi)/SD(Xi) β =cor(Yi,Xi)⋅(1)) Yi=α+βXi+εi
Ques es regresión? Es una técnica estadistica para predecir el valor mas probable de una variable con respecto a otra variable ”independiente” Usa la naturaleza de la relación lineal (correlación-covarianza) entre variables Contesta dos preguntas basicas: Cual es la relación entre las variables? Con que certeza podemos predecir una variable? http://www.ferdinand-engelbeen.be/klimaat/klim_img/Vostok_trends.gif
Correlación y regresión set.seed(7) a<-sort(runif(20)) a2<-(a-mean(a))/sd(a) #estandarizacion para sd=1 set.seed(3) b<-sort(runif(20)) b2<-(b-mean(b))/sd(b) #estandarizacion para sd=1 cor1<-cor(a2,b2) reg1<-lm(a2~b2) print(c(cor1,coef(reg1)[2])) plot(a2,b2) abline(reg1,col="blue", lwd=6)#linea de regresion en azul abline(0,cor1,col="red", lwd=2) #linea de corelacion en rojo
Correlación y regresión
Regresión Podemos predecir una variable desde otra variable? Cual es el nivel de precisión de la predicción? Como varia una variable con respecto a otra?
Ques es regresión? Es una técnica estadistica para predecir el valor mas probable de una variable con respecto a otra variable ”independiente” Usa la naturaleza de la relación lineal (correlación-covarianza) entre variables Contesta dos preguntas basicas: Cual es la relación entre las variables? Con que certeza podemos predecir una variable? http://www.ferdinand-engelbeen.be/klimaat/klim_img/Vostok_trends.gif
Ques es regresión? Los útimos 420 ky (hielo antartico) http://www.ferdinand-engelbeen.be/klimaat/klim_img/Vostok_trends.gif
Regresión = el valor predicho de la variable X = el valor de la variable independiente a = el valor de la variable cuando x=0 (intercepto) b = la tasa de cambio de la variable x con respecto a y (pendiente)
Regresión-coeficientes Valores a y b a = el valor de la variable cuando x=0 (intercepto) b = la tasa de cambio de la variable x con respecto a y (pendiente)
Regresión = el valor predicho de la variable X = el valor de la variable independiente a = el valor de la variable cuando x=0 (intercepto) x <- mtcars[,1]#millas y <- mtcars[,6]# peso total plot(x, y, xlab="mpg", ylab="peso") reg1<-lm(y~x) coef(reg1) abline(coef(reg1),col="red")