Descargar la presentación
La descarga está en progreso. Por favor, espere
1
Correlación y regresión
Diseño experimental 2137 Juan C. Benavides
2
Correlación Contesta preguntas básica
Si una variable aumenta la otra tambien? Si una variable dismiminuye la otra también? Podemos obtener el grado de relación númerica entre dos variables?
3
Correlación-graficar
Diagrama de dispersión de puntos Evidencia gráfica de la asociación entre dos variables x <- mtcars[,1]#millas y <- mtcars[,6]# peso total plot(x, y, xlab=”mpg", ylab=”peso")
4
Relación directa x <- mtcars[,4]# fuerza hp y <- mtcars[,6]# peso total plot(x, y, xlab="hp", ylab="peso")
5
Relación directa-tendencia
x <- mtcars[,4]# fuerza hp y <- mtcars[,6]# peso total plot(x, y, xlab="hp", ylab="peso") abline(lm(y ~ x))
6
Relación inversa x <- mtcars[,1]#millas y <- mtcars[,6]# peso total plot(x, y, xlab="mpg", ylab="peso")
7
Relación inversa x <- mtcars[,1]#millas y <- mtcars[,6]# peso total plot(x, y, xlab="mpg", ylab="peso") abline(lm(y ~ x),col="red",lwd=2)
8
Dispersión de la relación
No todos los puntos estan sobre la recta Que representa cada punto?
9
Tipos de correlación Varía entre -1 y 1 Corelación positiva
Aumento en x asociado a aumentos en y Correlación negativa Aumento en x asociado a reducción en y No correlación Variación en una variable no relacionada con aumento o disminución de otra Varía entre -1 y 1
11
Medidas de correlación
Correlación de Spearman Producto momento de Spearman Varia entre -1 y 1 Se basa en los rangos de los valores y no en los valores netos Medida de asociación no parametrica
12
Distancia a la universidad (m) Difference between ranks (d)
Tiend Distancia a la universidad (m) Rango distancia Price of 50cl bottle (€) Rank price Difference between ranks (d) d² 1 50 10 1.80 2 8 64 175 9 1.20 3.5 5.5 30.25 3 270 2.00 7 49 4 375 1.00 6 5 425 580 1.5 2.25 710 0.80 -5 25 790 0.60 -7 890 -4 16 980 0.85 d² = 285.5
13
Medidas de correlación
14
Correlación Spearman R
dist<-c(50,175,270,375,425,580,710,790,890,980) precio<-c(1.8,1.2,2,1,1,1.2,0.8,0.6,1,0.85) plot(dist, precio,cex=2)#graficar valores plot(order(dist),order(precio),cex=2)#graficar rangos cor(dist,precio,method="spearman")
15
Medidas de correlación
Correlación de Pearson Parametrica Relacionada a la varianza Covarianza
16
Correlación de Pearson r
Correlación de Pearson es covarianza dividida por las desviaciones estandard de las dos variables Covarianza estandarizada No confundirla con R2 cov1<-cov(dist,precio) sd_dist<-sd(dist) sd_precio<-sd(precio) cor1<-cov1/(sd_dist*sd_precio) cor2<-cor(dist,precio) cor2-cor1 round(cor2-cor1,0)
17
Factores que afectan r Restricciones de rango
Las mediciones solo representan una porción pequeña del rango Las mediciones representan una fracción de la población total set.seed(7) dist1<-sample(dist,4) precio1<-sample(precio,4) plot(dist,precio) points(dist1,precio1,col="red") cor3<-cor(dist1,precio1) cor3-cor1 round(cor3-cor1,0)
18
Factores que afectan r Falta de lineraridad
La correlación de Pearson mide el grado de asociación lineal entre variables Si la relación es no linear el valor de r no representa un estadistico relevante set.seed(7) unif1<-exp(rnorm(200)) unif2<-rnorm(200) cor(unif1,unif2);plot(unif2,unif1) cor(log(unif1),unif2)
19
Factores que afectan r Submuestras heterogeneas Valores extremos
set.seed(7) unif1<-c(rnorm(200),300) unif2<-c(rnorm(200),0) cor(unif1,unif2) plot(unif2,unif1,cex=2,col="red")
20
Countries With Low Consumptions
Data With Restricted Range Truncated at 5 Cigarettes Per Day Cigarette Consumption per Adult per Day 5.5 5.0 4.5 4.0 3.5 3.0 2.5 CHD Mortality per 10,000 20 18 16 14 12 10 8 6 4 2
21
Truncation
22
Non-linearity
23
Heterogenous samples
24
Outliers
25
Como analizar la correlacion r
Cuando grande es grande Pequeñas correlaciones en data set grandes son importantes Grandes correlaciones en data sets pequeños no siempre son importantes El tamaño de la muestra es fundamental
26
Como probar si r es diferente de 0
Parametro r (rho)= Hipotesis nula =0 Prueba de dependencia linear Prueba t de valor diferente de 0 Grados de libertad Df=n-2
27
Como probar si r es diferente de 0
dist<-c(50,175,270,375,425,580,710,790,890,980) precio<-c(1.8,1.2,2,1,1,1.2,0.8,0.6,1,0.85) plot(dist, precio,cex=2)#graficar valores cor(dist,precio) cor_t<-cor(dist,precio) GL<-10-2 T_value<- cor_t*sqrt((10-2)/(1-cor_t^2)) T_value dt(T_value,GL) cor.test(dist,precio)
28
Correlación y regresión
En correlación se examina SOLO la relación entre las variables (covarianza) En regresión se examina como una variable independiente (x) AFECTA el cambio en una variable dependiente (y) β̂ =cor(Yi,Xi)⋅SD(Yi)/SD(Xi) Yi=α+βXi+εi
29
Correlación y regresión
La pendiente de una regresión NUNCA es igual al valor de la correlación Excepto cuando SD(Yi)=SD(Xi) β =cor(Yi,Xi)⋅SD(Yi)/SD(Xi) β =cor(Yi,Xi)⋅(1)) Yi=α+βXi+εi
30
Ques es regresión? Es una técnica estadistica para predecir el valor mas probable de una variable con respecto a otra variable ”independiente” Usa la naturaleza de la relación lineal (correlación-covarianza) entre variables Contesta dos preguntas basicas: Cual es la relación entre las variables? Con que certeza podemos predecir una variable?
31
Correlación y regresión
set.seed(7) a<-sort(runif(20)) a2<-(a-mean(a))/sd(a) #estandarizacion para sd=1 set.seed(3) b<-sort(runif(20)) b2<-(b-mean(b))/sd(b) #estandarizacion para sd=1 cor1<-cor(a2,b2) reg1<-lm(a2~b2) print(c(cor1,coef(reg1)[2])) plot(a2,b2) abline(reg1,col="blue", lwd=6)#linea de regresion en azul abline(0,cor1,col="red", lwd=2) #linea de corelacion en rojo
32
Correlación y regresión
33
Regresión Podemos predecir una variable desde otra variable?
Cual es el nivel de precisión de la predicción? Como varia una variable con respecto a otra?
34
Ques es regresión? Es una técnica estadistica para predecir el valor mas probable de una variable con respecto a otra variable ”independiente” Usa la naturaleza de la relación lineal (correlación-covarianza) entre variables Contesta dos preguntas basicas: Cual es la relación entre las variables? Con que certeza podemos predecir una variable?
35
Ques es regresión? Los útimos 420 ky (hielo antartico)
36
Regresión = el valor predicho de la variable
X = el valor de la variable independiente a = el valor de la variable cuando x=0 (intercepto) b = la tasa de cambio de la variable x con respecto a y (pendiente)
37
Regresión-coeficientes
Valores a y b a = el valor de la variable cuando x=0 (intercepto) b = la tasa de cambio de la variable x con respecto a y (pendiente)
38
Regresión = el valor predicho de la variable
X = el valor de la variable independiente a = el valor de la variable cuando x=0 (intercepto) x <- mtcars[,1]#millas y <- mtcars[,6]# peso total plot(x, y, xlab="mpg", ylab="peso") reg1<-lm(y~x) coef(reg1) abline(coef(reg1),col="red")
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.