Estadística: -Correlación y regresión Álvaro Arias Fernández 1ºA Bachillerato
¿ Qué es la estadística? Es un estudio científico que recopila, clasifica y analiza los datos numéricos referidos a diversos fenómenos, y a partir de ellos saca unas conclusiones basadas en el cálculo de probabilidades.
Estas probabilidades permiten la representación sobre diagramas, que dependen de una o más variables. Las causas comunes a esas variables se denomina correlación y la interdependencia recibe el nombre de regresión.
La representación de una distribución estadística da lugar a distintas gráficas, llamadas nubes de puntos o diagramas de dispersión, a través de los cuales se estudia la correlación y la regresión.
Nube de puntos. La nube de puntos es la gráfica que se obtiene al representar en unos ejes coordenados una distribución bidimensional, o de dos variables. Se considera a cada par de valores de las variables como un punto, y se representa en los ejes.
Dependencia o correlación Según la localización de la nube de puntos, se puede ver el tipo y grado de dependencia entre las variables. A esta dependencia la llamamos correlación.
La dependencia puede ser: Funcional Lineal Aleatoria Independiente
Funcional Se cumple si la nube de puntos se sitúa en la gráfica de una función, excepto que esta sea constante.
Lineal Si la nube de puntos se sitúa sobre una recta.
Correlación o dependencia aleatoria Si la nube de puntos se sitúa próxima a la gráfica de una función.
Independencia No hay correlación.
El grado de correlación puede ser: Fuerte Débil Positivo Negativo
Fuerte Si la nube de puntos se aproxima mucho a una recta o una curva.
Débil Si la nube se aproxima poco a una recta o curva.
Positivo Si al crecer una variable la otra también crece.
Negativo Si a medida que crece una variable la otra decrece.
Correlación lineal. Coeficiente de Pearson. La correlación lineal se mide mediante el coeficiente de correlación de Pearson, que se calcula con esta expresión:
Los elementos que aparecen en la expresión anterior pueden calcularse con las siguientes fórmulas:
Las fórmulas anteriores se corresponden con estos conceptos: - σxy es la covarianza o varianza conjunta de las variables X e Y. - σx y σy son las desviaciones típicas de las variables marginales X e Y, respectivamente.
Escala de valores del coeficiente de correlación lineal El coeficiente de correlación lineal de Pearson, r, siempre toma valores comprendidos entre –1 y 1. El coeficiente de correlación lineal permite analizar el grado de aproximación de la nube de puntos a una línea recta.
Tenemos que: Si -1<r<0, hay correlación lineal negativa cuanto más se aproxime r a –1 más fuerte será. Si 0<r<1, hay correlación lineal positiva, y será más fuerte cuanto más se aproxime r a 1.
Si r=1 ó r=-1, la correlación es una dependencia lineal. Si r=0, no existe correlación lineal, pero esto no excluye que la variables puedan estar relacionadas por una correlación curvilínea.
Regresión. Rectas de regresión En muchas ocasiones la nube de puntos de una variable sugiere la línea curva o recta que más se aproxima a los valores de dicha variable. Esta curva se denomina línea de regresión. Las variables bidimensionales que vamos a estudiar admiten líneas de regresión rectas. Estas rectas se llaman rectas de regresión.
Recta de Y sobre X: Recta de X sobre y:
En la búsqueda de las ecuaciones de regresión hay que tener en cuenta: - Ambas rectas pasan por el punto , llamado centro de gravedad de la distribución
-El valor de los coeficientes de las rectas son: -Se cumple m∙m'=r2 . Estos parámetros reciben el nombre de coeficientes de regresión.
Posiciones de las rectas de regresión Forman un ángulo próximo a 90º si el coeficiente de correlación es nulo o casi nulo.
Forman un ángulo pequeño si el coeficiente de correlación es alto Forman un ángulo pequeño si el coeficiente de correlación es alto. Las rectas casi coinciden si el coeficiente de correlación está próximo a 1 o –1.
Estimaciones con las rectas de regresión Las rectas de regresión nos permiten hacer previsiones, de manera aproximada, los valores esperados de otra variable. Hay que tener en cuenta: -Las estimaciones serán fiables siempre que el valor del coeficiente de correlación tome valores próximos a 1 ó –1
Cuando el coeficiente sea próximo a 0 las estimaciones carecerán de sentido. Las estimaciones solo tienen sentido para los valores de las variables próximos a los datos.