La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Covarianza y correlación

Presentaciones similares


Presentación del tema: "Covarianza y correlación"— Transcripción de la presentación:

1 Covarianza y correlación
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos Profesor Iván Fernando Camacho

2 Relación y variación conjunta
El concepto de relación en estadística coincide con lo que se entiende por relación en el lenguaje habitual: dos variables están relacionadas si varían conjuntamente. Si los sujetos tienen valores, altos o bajos, simultáneamente en dos variables, tenemos una relación positiva. Por ejemplo peso y altura en una muestra de niños de 5 a 12 años: los mayores en edad son también los más altos y pesan más, y los más jóvenes son los que pesan menos y son más bajos de estatura; decimos que peso y altura son dos variables que están relacionadas porque los más altos pesan más y los más bajos pesan menos. Si los valores altos en una variable coinciden con valores bajos en otra variable, tenemos una relación negativa. Por ejemplo edad y fuerza física en una muestra de adultos de 30 a 80 años de edad: los mayores en edad son los menores en fuerza física; hay una relación, que puede ser muy grande, pero negativa: según los sujetos aumentan en una variable (edad) disminuyen en la otra (fuerza física).

3 Relación y variación conjunta
El concepto de relación lineal lo veremos mejor con un ejemplo (tabla 1) donde tenemos los datos de tres situaciones o casos distintos: En cada caso tenemos cuatro sujetos (ejemplo reducido para poder ver todos los datos con facilidad) con puntuaciones en dos variables, X (un test de agudeza visual) e Y (una prueba de conducción de automóviles). Junto a la puntuación de cada sujeto en las dos variables, X e Y, ponemos su número de orden: 1º al que tenga la puntuación más alta, 2º al que tenga la siguiente más alta, etc.:

4 Los diagramas de dispersión
La representación gráfica de estos pares de puntuaciones se denomina diagrama de dispersión, y también nos ayuda a entender el mismo concepto de relación. Puede existir relación entre dos variables sin que ésta sea lineal. Las medidas estadísticas que detectan la relación lineal entre variables NO detectan las relaciones que no son lineales. En tal caso se deben utilizar métodos mas complejos (P. ej. regresión no lineal, regresión no paramétrica).

5 Correlación y covarianza
La correlación se define como la co-variación (co = con, juntamente: variar a la vez). En estadística existen muchas formas de medir correlación lineal entre variables dependiendo del interés investigativo y el tipo de variable (nominal, ordinal, numérica). Los más importantes conceptualmente son la covarianza y la correlación. Correlación y covarianza son términos conceptualmente equivalentes, expresan lo mismo. La covarianza (Cov, ) es una medida de relación, lo mismo que el coeficiente de correlación de Pearson (r). Habitualmente se utiliza el coeficiente de correlación (r de Pearson), pero es útil entender antes qué es la covarianza, y entenderlo precisamente en este contexto, el de las medidas de relación.

6 Correlación, covarianza y dispersión: importancia de las diferencias
Sin diferencias en las dos variables no podemos encontrar variación conjunta: si todos los sujetos tienen idéntica puntuación en X no podemos ver si los altos en X son también altos en Y, porque en X son todos iguales. La correlación y la covarianza dicen de dos variables lo mismo que la varianza (o la desviación típica) dice de una variable: hasta qué punto los sujetos son distintos simultáneamente en las dos variables. De la misma manera que la varianza es una medida de dispersión en una variable, la correlación (y la covarianza) son también medidas de dispersión, pero de dos variables tomadas a la vez.

7 Correlación, covarianza y dispersión: importancia de las diferencias
Por ejemplo, si queremos comprobar si la altura está relacionada con la capacidad de encestar (jugando al baloncesto) necesitaremos jugadores de distintas alturas, para ver si los más altos encestan más y los más bajos encestan menos. Si todos los jugadores tienen la misma altura (x), no podemos comprobar esa relación; no podemos comprobar si las diferencias en altura se corresponden con diferencias en la habilidad de encestar (y), porque todos tienen idéntica altura. Y también necesitaremos que unos encesten más y otros menos. Los sujetos deben ser distintos en las dos características cuya relación queremos comprobar. En el caso de los dos gráficos de arriba no podremos evaluar la relación entre las dos variables, pues una de ellas es constante.

8 Covarianza Para medir o cuantificar la relación entre dos variables comenzamos por tener presente que: Si las dos variables están relacionadas y esta relación es positiva → los sujetos tenderán a estar por encima o por debajo de la media en las dos variables a la vez Si las dos variables están relacionadas y esta relación es negativa → los sujetos tenderán a estar por encima de la media en una variable y por debajo de la media en la otra Si las dos variables no están relacionadas → el estar por encima o por debajo de la media en una variable es independiente del estar por encima o por debajo de la media en la otra variable

9 Covarianza Este estar por encima o por debajo de la media en dos variables simultáneamente nos permite cuantificar el grado de relación. Lo explicamos por pasos: La distancia o diferencia de un dato de un sujeto con respecto a la media la podemos representar restando cada puntuación de la media (la llamaremos d con subíndice X ó Y dependiendo de la variable ): Tenemos que si un dato está por encima de la media, la diferencia será positiva, y si está por debajo de la media, la diferencia será negativa.

10 Covarianza Lo explicamos por pasos:
2. Podemos multiplicar para cada individuo las diferencias en X y en Y, y luego sumar todos esos productos:

11 Covarianza: Teniendo en cuenta lo anterior, una buena medida de la variación simultánea de dos variables es la covarianza, que no es mas que un promedio de las distancias anteriormente expuestas :

12 Coeficiente de correlación
A la hora de interpretar es bien difícil hacerlo directamente, pues el valor de la covarianza depende de la escala en que medimos las variables X y Y. Por ejemplo, si estamos mirando la relación entre estura y peso las unidades de medida serían metros*kilos. ¿Cómo se interpreta eso? Para solucionar ese problema se usa el coeficiente de correlación de Pearson (r) que no tiene unidad de medida y siempre irá con valores de -1 (correlación total negativa) a 1 (correlación total positiva), pasando por el cero (ausencia total de relación entre las dos variables). Para lograr el ajuste, se divide la covarianza entre el producto de las desviaciones estándar de las dos variables:

13 Interpretación del coeficiente r
El coeficiente de correlación expresa en qué grado los sujetos (u objetos, elementos…) están variando simultáneamente en las dos variables y qué tan lineal es esa relación. Los valores extremos son 0 (ninguna relación) y ±1 (máxima relación). En últimas, el coeficiente de correlación r de Pearson nos dice que tanto se ajustan unos datos emparejados a una recta, sea cual sea ésta.

14 Interpretación del coeficiente r
Si r = 1 ó r =-1 el grafico de dispersión ajusta perfectamente a una línea recta. Podemos ver que coeficientes próximos a 0 expresan poca relación, y los coeficientes cercanos a 1 o a -1 expresan mucha relación, es decir mucho ajuste, mucho parecido con un línea recta.

15 Interpretación del coeficiente r
La magnitud del coeficiente es independiente del signo: El que la relación sea positiva o negativa es algo distinto de que sea grande o pequeña. El signo se refiere mas bien a si la relación es directa (cuando es positivo) o inversa (cuando es negativo) . Por ejemplo r = expresa más correlación que r = +0.79 r = -0.95 Correlación inversa muy fuerte r = 0.79 Correlación directa pero no tan fuerte

16 Interpretación del coeficiente de correlación r
La magnitud del coeficiente de correlación es independiente de la pendiente de la recta: Para toda serie de datos emparejados existe siempre una recta que es la que mejor ajusta a los datos. Sin embargo, dos series de datos pueden tener igual coeficiente de correlación y ajustarse a rectas de diferente pendiente. En últimas, el coeficiente de correlación r de Pearson nos dice que tanto se ajustan unos datos emparejados a una recta, pero no nos habla sobre la pendiente de ésa recta.

17 Un enfoque mas aplicado
Existe otro enfoque sobre la correlación lineal que tiene que ver con la varianza de cada una de las dos variables implicadas. Cabe preguntarse, ¿Todo cambio en X implica un cambio proporcional en Y? O en otras palabras, X es el único factor que explica a Y? Por ejemplo cabría preguntarnos si la estatura es el único factor que determina la capacidad de hacer cestas de baloncesto, o si hay otros factores como el entrenamiento, la habilidad innata, e incluso el estado anímico del jugador. Si la estatura fuera el único factor que determina la habilidad de encestar tendríamos que los datos se ajustan perfectamente a una línea recta. Lo que sería igual a decir que con solo saber la estatura de una persona sabemos y podemos calcular* sin error su capacidad de encestar. Gráficamente esto sería la línea recta, es decir, a cada valor de estatura le corresponde un solo valor posible de habilidad de encestar. * Para esto pueden hacerse modelos matemáticos lineales a partir de un conjunto de datos, es lo que en estadística se llama análisis de regresión lineal, metodología que no veremos en este curso.

18 Encestar siendo bajito
Estatura en metros Cestas en 20 lanzamientos Jugador 1 1,6 3 Jugador 2 1,65 4 Jugador 3 1,7 5 Jugador 4 1,75 6 Jugador 5 1,8 7 Jugador 6 1,85 8 Jugador 7 1,9 9 Jugador 8 1,95 10 En este modelo matemático (Ecuación a la derecha del gráfico) la línea representa lo que podríamos predecir acerca del numero de cestas en 20 lanzamientos sabiendo la estatura de una persona. Numero de cestas = (20*estatura)-29 Es decir que si una persona midiera 2.10, según este modelo debería hacer siempre 13 cestas en 20 lanzamientos.

19 Cestas en 20 lanzamientos
Encestar siendo bajito Sin embargo, en la realidad casi nunca encontramos fenómenos que estén determinados por un solo factor. De manera mucho mas realista podríamos encontrar la siguiente serie de datos: Estatura en metros Cestas en 20 lanzamientos Jugador 1 1,6 5 Jugador 2 1,65 8 Jugador 3 1,7 3 Jugador 4 1,75 4 Jugador 5 1,8 9 Jugador 6 1,85 6 Jugador 7 1,9 Jugador 8 1,95 11 Para estos datos, como no hay ajuste total, la línea y la ecuación ya no nos dicen exactamente donde está cada punto. Por ejemplo, el jugador 2, con su estatura de 1.65, según la ecuación de la recta y=13.33x debería hacer 5 cestas. Pero en realidad hizo 8 cestas. Quiere decir que hay otros factores, además de la estatura que influyen en el número de cestas. A lo mejor este jugador 2 entrena mucho y aún siendo bajito es bueno para el básquet, o a lo mejor estaba de buena suerte ese día, no lo sabemos.

20 Media de X Media de Y Distancia en X Distancia en Y ¿Cómo puede medirse esta determinación de una variable Y debida a los valores de X? Recordemos que la varianza se basa en las distancias de cada punto a la media, ya sea en X o en Y. Por ejemplo para el jugador 3, el punto que lo representa está por debajo de la media en X, también en Y como ya se había expuesto anteriormente. Tenemos que toda la distancia en Y se explica por (corresponde a) la distancia que hay en X y la relación entre ellos, lo que podemos determinar (Predecir) en Y según el valor de X es precisamente la ecuación de la recta. Tal es el resultado para todos los puntos que, como en este caso, están sobre la línea recta. Es decir. Toda la varianza en Y corresponde a la varianza de X. O en otras palabras, el 100% de la varianza de Y se explica por la varianza de X.

21 Distancia adicional en Y
Media de X Media de Y Distancia en X Distancia en Y Distancia adicional en Y Para el jugador 3, pero en la otra serie de datos la situación es diferente. Hay una parte de la distancia en Y que no es explicada por la distancia en X, es decir, no toda la distancia en los puntos en la variable Y es explicada por las distancias en la variable X, pues no todos los puntos caen sobre la recta. Como las distancias no corresponden, las varianzas de las dos variables no corresponden, pues hay por lo menos una parte de la variedad en Y, de los cambios en Y que no corresponden, no se explican por los cambios en X.

22 Coeficiente de determinación
Podemos entonces tratar de saber qué porcentaje de los cambios en Y son explicados por los cambios en X. Es decir, que porcentaje de la habilidad de un jugador para hacer cestas depende de su estatura. Se ha demostrado matemáticamente que este porcentaje puede evaluarse y es el resultado de elevar al cuadrado el coeficiente de correlación de Pearson. Siempre nos dará un resultado entre 0 y 1, siendo 1 un 100% de determinación de la variable Y según los valores de X.

23 Solución al problema de los basquetbolistas
Teniendo en cuenta lo anterior, tenemos que en la primera serie de datos el 100% de los cambios en la habilidad de encestar son explicados por la estatura de la persona, pues: r=1 entonces r2=1=100%

24 Solución al problema de los basquetbolistas
Para la segunda serie de datos tenemos que la estatura solo explica el 36% del éxito al encestar en 20 intentos, pues el r2 es de 0.36 Se presenta un resumen de los cálculos:

25 Bibliografía Morales Vallejo, Pedro (2008) Estadística aplicada a las Ciencias Sociales. Madrid: Universidad Pontificia. BEHRENS, JOHN T. (1997). Toward a Theory and Practice of Using Interactive Graphics in Statistics Education. In GARFIEL, J. B. and BURRILL G. (Eds.) Research on the Role of Technology in Teaching and Learning Statistics (pp ). Voorburg, The Netherlands: Internacional Statistical Institute GUILFORD, J. P. AND FRUCHTER, B. (1973). Fundamental Statistics in Psychology and Education. New York: McGraw-Hill (en castellano, Estadística aplicada a la psicología y la educación, 1984, México: McGraw-Hill).


Descargar ppt "Covarianza y correlación"

Presentaciones similares


Anuncios Google