Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María
Estadística Descriptiva Objetivo Obtener información desde una muestra, que permita entender o formular hipótesis acerca del fenómeno que se estudia. Tipos de Análisis: Describir cómo se comporta una variable Describir cómo una variable (digamos explicativa) afecta el comportamiento de a otra (digamos dependiente) Describir cómo interaccionan varias variables
Estadística Descriptiva Correlación en Análisis Bivariado Correlación: Medida cuantitativa del grado de asociación entre dos variables X e Y continuas Idea: Si X e Y están correlacionadas un cambio en X se corresponde con un cambio en Y y viceversa. Si un incremento en X genera un incremento en Y diremos que las variables están correlacionadas positivamente. En caso contrario diremos que están correlacionadas negativamente.
Estadística Descriptiva Correlación en Análisis Bivariado Ejemplo: Columna del New York Times
Estadística Descriptiva Correlación en Análisis Bivariado Covarianza: La idea es medir los cambios con respecto al nivel medio de cada variable Claramente generaliza la varianza: cov(x,x) Problema: la medida depende de las magnitudes absolutas de x e y. Una mayor covarianza no significa mayor asociación
Estadística Descriptiva Correlación en Análisis Bivariado Coeficiente de Correlación de Pearson: La idea es normalizar la covarianza con una medida de dispersión para X y para Y Medida acotada entre -1 y 1 (probarlo! se sigue de la desigualdad de Cauchy-Schwarz para productos puntos)
Estadística Descriptiva Correlación en Análisis Bivariado Observación: Si x e y tienen una relación lineal exacta la correlación de Pearson es igual al signo de a
Estadística Descriptiva Correlación en Análisis Bivariado Observación: Si x e y tienen una relación lineal exacta la correlación de Pearson es igual al signo de a
Estadística Descriptiva Correlación en Análisis Bivariado Observación: Si x e y tienen una relación lineal exacta la correlación de Pearson es igual al signo de a
Estadística Descriptiva Correlación en Análisis Bivariado Correlación positiva (Pearson)
Estadística Descriptiva Correlación en Análisis Bivariado Correlación negativa (Pearson)
Estadística Descriptiva Correlación en Análisis Bivariado Correlación nula (Pearson)
Estadística Descriptiva Correlación en Análisis Bivariado Ejemplo 1: Se tiene la hipótesis de que el número de años de estudio está correlacionado positivamente con el ingreso de las personas. Para corroborarlo se recogió la siguiente muestra:
Estadística Descriptiva Correlación en Análisis Bivariado Ejemplo 1: EncuestadoIngresoAños de Educación # # # # # # # # # #
Estadística Descriptiva Correlación en Análisis Bivariado Correlación y Ruido
Estadística Descriptiva Correlación en Análisis Bivariado Limitaciones del Coeficiente de Pearson
Estadística Descriptiva Correlación en Análisis Bivariado Limitaciones del Coeficiente de Pearson
Estadística Descriptiva Correlación en Análisis Bivariado Limitaciones del Coeficiente de Pearson
Estadística Descriptiva Correlación en Análisis Bivariado Limitaciones del Coeficiente de Pearson
Estadística Descriptiva Correlación en Análisis Bivariado Anscombe's Quartet Caso ICaso IICaso IIICaso IV xyXyxyxy
Estadística Descriptiva Regresión Modelo de una variable y como función de otra x x se denomina la variable independiente y se denomina la variable dependiente ε es el residuo, la parte que no logra ser explicada por el modelo (f será usualmente una función determinista)
Estadística Descriptiva Regresión Modelo de una variable y como función de otra x A partir de una muestra de valores de x e y, queremos encontrar un modelo apropiado. Qué tipo de función f utilizar? Cómo seleccionar un modelo adecuado en base a la muestra de observaciones?
Estadística Descriptiva Regresión ¿Qué función f utilizar?: Una función periódica?
Estadística Descriptiva Regresión ¿Qué función f utilizar? un polinomio?
Estadística Descriptiva Regresión ¿Qué función f utilizar? una exponencial?
Estadística Descriptiva Regresión ¿Qué función f utilizar? una logística?
Estadística Descriptiva Regresión Graficar la muestra de valores (x,y) y estudiar la forma de la posible relación
Estadística Descriptiva Regresión Lineal Una alternativa simple consiste en modelar y como función lineal de x, es decir
Estadística Descriptiva Regresión Lineal Una alternativa simple consiste en modelar y como función lineal de x, es decir
Estadística Descriptiva Regresión Lineal ¿Qué parámetros b 0 y b 1 son apropiados para modelar la relación entre x e y? Supongamos que hemos conseguido una muestra de n pares de valores x e y:
Estadística Descriptiva Regresión Lineal Ejemplo: ¿El financiamiento entregado a la autoridad Palestina contribuye a mitigar el conflicto en la región?
Estadística Descriptiva Regresión Lineal Variables: X: financiamiento entregado a la autoridad palestina. Y: número de homicidios el año siguiente. Muestra: Si medimos x e y en los últimos años tenemos: XY
Estadística Descriptiva Regresión Lineal Graficando X versus Y
Estadística Descriptiva Regresión Lineal Graficando X e Y en cada año
Estadística Descriptiva Regresión Lineal Variables: X: financiamiento entregado a la autoridad palestina. Y: número de homicidios el año siguiente. Modelo: Postulamos un modelo lineal
Estadística Descriptiva Regresión Lineal Ajustar el modelo lineal consiste en buscar parámetros b 0 y b 1 que hagan el modelo adecuado Cada combinación de parámetros genera una predicción para el valor de y asociado a x
Estadística Descriptiva Regresión Lineal b 0 = 10 y b 1 = 1 XYf(X)Y-f(X)
Estadística Descriptiva Regresión Lineal b 0 = 50 y b 1 = 0.5 XYf(X)Y-f(X)Anterior
Estadística Descriptiva Regresión Lineal b 0 = 50 y b 1 = 0.75 XYf(X)Y-f(X)Anterior
Estadística Descriptiva Regresión Lineal Lo que necesitamos es definir una función de error y encontrar los parámetros b 0 y b 1 que la minimizan Propuesta: minimizar error cuadrático,
Estadística Descriptiva Regresión Lineal Dada la muestra de observaciones buscamos el modelo que minimiza el error promedio
Estadística Descriptiva Regresión Lineal Si los paramétros b 0 y b 1 minimizan Se debe verificar
Estadística Descriptiva Regresión Lineal Ecuaciones normales: derivando
Estadística Descriptiva Regresión Lineal Ecuaciones normales: reordenando y dividiendo por n
Estadística Descriptiva Regresión Lineal Despejando b 0 en la primera y reemplazando en la segunda
Estadística Descriptiva Regresión Lineal Estimadores de Mínimos Cuadrados del Modelo Lineal para Y en función de X
Estadística Descriptiva Regresión Lineal En nuestro ejemplo anterior, variables: X: financiamiento entregado a la autoridad palestina. Y: número de homicidios el año siguiente. Muestra XY
Estadística Descriptiva Regresión Lineal Calculamos la varianza de la variable predictora y la covarianza entre las variables x e y XY
Estadística Descriptiva Regresión Lineal Tenemos entonces que XY
Estadística Descriptiva Regresión Lineal Predicciones de nuestro modelo XYf(x)
Estadística Descriptiva Regresión Lineal Predicciones de nuestro modelo (magenta)
Estadística Descriptiva Regresión Lineal ¿Cómo juzgar cuantitativamente qué tan bueno es el modelo?: Análisis de Varianza. variabilidad total de Y variabilidad NO explicada por el modelo variabilidad explicada por el modelo
Estadística Descriptiva Regresión Lineal ¿Cómo juzgar cuantitativamente qué tan bueno es el modelo?: Análisis de Varianza. variabilidad explicada por el modelo
Estadística Descriptiva Regresión Lineal ¿Cómo juzgar cuantitativamente qué tan bueno es el modelo?: Análisis de Varianza. variabilidad total de Y variabilidad NO explicada por el modelo variabilidad explicada por el modelo
Estadística Descriptiva Regresión Lineal Coeficiente de Determinación: Fracción de la variabilidad que sí es explicada por el modelo lineal (% de ajuste) variabilidad explicada por el modelo variabilidad total de Y variabilidad explicada variabilidad explicada + variabilidad NO explicada
Estadística Descriptiva Regresión Lineal Coeficiente de Determinación: Fracción de la variabilidad que sí es explicada por el modelo lineal
Estadística Descriptiva Regresión Lineal Coeficiente de Determinación: Fracción de la variabilidad que sí es explicada por el modelo lineal
Estadística Descriptiva Regresión Lineal Coeficiente de Determinación: Fracción de la variabilidad que sí es explicada por el modelo lineal Coeficiente de correlación de Pearson!!
Estadística Descriptiva Regresión Lineal Relación lineal?
Estadística Descriptiva Regresión Lineal Idea: Transformaciones. Construir un modelo lineal en una variable independiente auxiliar Ejemplo:
Estadística Descriptiva Regresión Lineal Transformaciones
Estadística Descriptiva Regresión Lineal Transformaciones
Estadística Descriptiva Regresión Lineal Transformaciones
Estadística Descriptiva Regresión Lineal Transformaciones