Introducción a la Estadística. Modelos de regresión CAPÍTULO 4 Introducción a la Estadística. Modelos de regresión
Distribuciones Bidimensionales Se estudian 2 caracteres estadísticos de la población. Por ejemplo: Las tallas y pesos de un grupo de personas.
Distribuciones Bidimensionales ¿Qué relación puede haber entre las tallas y los pesos de un grupo de personas? NO ESTRICTAMENTE FUNCIONAL
Distribuciones Bidimensionales Francis Galton (1822-1911) Relación entre las estaturas de padres e hijos. La estatura de los hijos “regresaba” a la media general. De aquí el término REGRESIÓN.
Modelos de regresión PROBLEMA Obtener un modelo matemático que relacione dos o más variables a partir de un número limitado de observaciones. x x1 x2 … xn y y1 y2 yn
Nubes de puntos x y x1 y1 x2 y2 … xn yn
Tipos de dependencia Dependencia funcional exacta Dependencia estadística o correlación Independencia
Dependencia funcional Las variables x e y están relacionadas mediante una fórmula. A un valor de x le corresponde exactamente un valor de y. Ejemplo: Altura desde la que cae un cuerpo y tiempo que tarda en llegar al suelo.
Dependencia funcional
Dependencia funcional
Dependencia Estadística Correlación Los valores de x e y siguen pautas similares, pero su relación no es exacta. Ejemplos: Estatura y peso. Edad del marido y de la mujer. Nivel de lluvias y cosechas.
Dependencia Estadística Positiva Función de regresión: RECTA
Dependencia Estadística Negativa Función de regresión: RECTA
Dependencia Estadística Positiva Función de regresión: Parábola
Independencia Las variables x e y no tienen ninguna relación o pauta entre ellas. Ejemplo: Estatura de los alumnos y calificación en Matemáticas.
Independencia
Modelos de regresión Problemas Fundamentales: Determinar la función de regresión: recta, parábola, exponencial, potencial, … Medir el nivel de aproximación de dicha función a los puntos.
Parámetros marginales Partimos de n observaciones efectuadas para las variables x e y. Calculamos las medias y varianzas marginales. x x1 x2 … xn y y1 y2 yn
Parámetros marginales Medias: Varianzas:
Covarianza Nos indica si hay (o no) dependencia lineal entre las variables x e y.
Covarianza Si existe dependencia lineal entre x e y. Dependencia Directa: Dependencia Inversa: Si x e y son independientes.
Covarianza Se expresa en las mismas unidades que las variables. Ejemplo: x es el peso (en kg) y es la estatura (en cm) Covarianza se expresa en kg por cm.
Covarianza Un problema que presenta es que es una magnitud absoluta No indica si el grado de dependencia entre las variables es elevado. Sólo nos dice si existe dependencia (o no) y su tipo (directa o inversa)
Coeficiente de correlación lineal Es una medida del grado de dependencia entre las variables x e y.
Coeficiente de correlación lineal No tiene unidad de medida. Es sólo un número. Tiene el mismo signo que la covarianza (Sxy). Porque las desviaciones típicas son positivas: Sx>0 y Sy>0
Coeficiente de correlación lineal Cuanto más se aproxime r a 1 o -1 mayor es la dependencia entre x e y. En tal caso, una recta aproximará casi de forma perfecta la nube de puntos.
Coeficiente de correlación lineal Si r es próximo a 0, no existirá dependencia lineal. Aunque puede existir otro tipo de dependencia: polinómica, potencial, exponencial, etc.
Función de regresión Función f que aproxime los datos observados para las variables x e y. Nube de puntos Tipo de función más adecuada para el ajuste.
Tipos de funciones de regresión Lineal: f(x) = a + bx Polinómica: f(x) = ao + a1x + … + anxn Exponencial: f(x) = aebx Potencial: f(x) = axb
Ajuste por mínimos cuadrados Se hace mínima la suma de los cuadrados de las diferencias entre los valores observados (yi) y los valores teóricos f(xi):
Ajuste por mínimos cuadrados
Regresión exponencial El problema se hace lineal tomando logaritmos:
Regresión lineal La pendiente es: La recta pasa por el centro de gravedad de la nube de puntos:
Error Típico o Error Estándar Mide la precisión (bondad) del ajuste de una función de regresión:
Error Típico o Error Estándar Si tenemos varias funciones de ajuste, se calcula el Error Típico de cada una, y el menor error será el que nos dará la mejor función de ajuste. El número e(f) no es una medida absoluta de la bondad del ajuste, sino que es una medida para comparar entre varias funciones la mejor.
Regresión potencial El problema se hace lineal tomando logaritmos:
Regresión parabólica