Dr. Alejandro Salazar – El Colegio de Sonora

Dr. Alejandro Salazar – El Colegio de Sonora
COrrelación Dr. Alejandro Salazar – El Colegio de Sonora

Correlación Supongamos que tenemos dos conjuntos de mediciones de un grupo de personas: 1. Peso 2. Altura Es muy probable que una persona de mayor altura tenga un mayor peso.

Correlación Es decir las dos características varían juntas: a mayor altura, mayor peso. Decimos que ambas variables están correlacionadas.

Ejemplo Altura (m) Peso (Kg) 1.59 62.08 64.60 1.61 65.71 1.63 65.13
1.65 72.45 68.78 68.55 1.66 74.11 1.67 76.57 75.71 1.69 70.91 1.70 77.53 75.08 1.71 80.98 1.76 81.21

Diagrama de dispersión

En el ejemplo, tenemos una correlación positiva, pues a mayor altura, encontramos mayor peso.
Ahora supongamos que tenemos un conjunto de medidas… (correlación negativa)

Resumen Si los representamos nuestras observaciones en un diagrama de dispersión obtendremos una “nube de puntos” que nos dará una idea gráfica de la posible correlación entre ambas variables. Correlación positiva Correlación negativa No hay correlación

Medidas de Correlación
Covarianza Coeficiente de correlación de Pearson

En una distribución bidimensional puede ocurrir que las dos variables guarden algún tipo de relación entre si. Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relación entre ambas variables: mientras más alto sea el alumno, mayor será su peso. El coeficiente de correlación lineal mide el grado de intensidad de esta posible relación entre las variables. Este coeficiente se aplica cuando la relación que puede existir entre las varables es lineal (es decir, si representaramos en un gáfico los pares de valores de las dos variables la nube de puntos se aproximaría a una recta). No obstante, puede que exista una relación que no sea lineal, sino exponencial, parabólica, etc. En estos casos, el coeficiente de correlación lineal mediría mal la intensidad de la relación las variables, por lo que convendría utilizar otro tipo de coeficiente más apropiado. Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor es representar los pares de valores en un gráfico y ver que forma describen. El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula: Es decir: Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamaño de la muestra. Denominador se calcula el produto de las varianzas de "x" y de "y", y a este produto se le calcula la raíz cuadrada. Los valores que puede tomar el coeficiente de correlación "r" son: -1 < r < 1 Si "r" > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de la otra). La correlación es tanto más fuerte cuanto más se aproxime a 1. Por ejemplo: altura y peso: los alumnos más altos suelen pesar más. Si "r" < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlación negativa es tanto más fuerte cuanto más se aproxime a -1. Por ejemplo: peso y velocidad: los alumnos más gordos suelen correr menos. Si "r" = 0, no existe correlación lineal entre las variables. Aunque podría existir otro tipo de correlación (parabólica, exponencial, etc.) De todos modos, aunque el valor de "r" fuera próximo a 1 o -1, tampoco esto quiere decir obligatoriamente que existe una relación de causa-efecto entre las dos variables, ya que este resultado podría haberse debido al puro azar. El coeficiente de correlación lineal mide el grado de intensidad de esta posible relación entre las variables. Este coeficiente se aplica cuando la relación que puede existir entre las varables es lineal (es decir, si representaramos en un gáfico los pares de valores de las dos variables la nube de puntos se aproximaría a una recta). Covarianza Varianza: Es una medida de lo que se dispersan los valores de una muestra respecto de su media.

Covarianza: Es una medida de lo que se dispersan los valores de una muestra bidimensional tanto del valor medio de la x como del valor medio de la y

Ejemplo Usar datos agua.csv Calcular covarianza entre datos

Coeficiente de Correlación de Pearson
Se define como el cociente entre la covarianza y la raíz cuadrada del producto de las varianzas. Bondad de los ajustes

Grado de Correlación Correlación lineal positiva
El coeficiente de correlación, r, presenta valores entre –1 y +1. Cuando r es próximo a 0, no hay correlación lineal entre las variables. La nube de puntos está muy dispersa o bien no forma una línea recta. No se puede trazar una recta de regresión. Cuando r es cercano a +1, hay una buena correlación positiva entre las variables según un modelo lineal Cuando r es cercano a -1, hay una buena correlación negativa entre las variables según un modelo lineal Correlación lineal positiva Correlación lineal negativa No hay correlación Hay correlación no lineal

Ejemplo Calcular correlación en ejemplo anterior

“Correlation does not imply Causation”

Dos variables, X y Y, son realmente independientes entre sí, pero dependientes ambas de una misma causa común, Z. X Y Z

Ejemplo: venta de helados vs crimen

Dr. Alejandro Salazar – El Colegio de Sonora

Presentaciones similares

Presentación del tema: "Dr. Alejandro Salazar – El Colegio de Sonora"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Dr. Alejandro Salazar – El Colegio de Sonora

Presentaciones similares

Presentación del tema: "Dr. Alejandro Salazar – El Colegio de Sonora"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback