La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Regresión lineal múltiple

Presentaciones similares


Presentación del tema: "Regresión lineal múltiple"— Transcripción de la presentación:

1 Regresión lineal múltiple
Tema 2 Regina Kaiser Depto. Estadística, Universidad Carlos III

2 Descripción breve del tema
Introducción Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III

3 Depto. Estadística, Universidad Carlos III
Objetivos Formulación del modelo de regresión múltiple Métodos de estimación para dichos modelos Tomar decisiones acerca de los parámetros Aprendizaje de utilización de gráficos para detectar el tipo de relación entre las variables Cuantificación del grado de relación lineal Regina Kaiser Depto. Estadística, Universidad Carlos III

4 Descripción breve del tema
Introducción Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III

5 Depto. Estadística, Universidad Carlos III
Introducción Estudio conjunto de varias variables (más de dos). Varias variables independientes xi se utilizan para explicar otra dependiente y Utilizamos toda la información disponible Regina Kaiser Depto. Estadística, Universidad Carlos III

6 El modelo de regresión múltiple
n observaciones de la forma (xi1,…, xik,yi) Objetivo: aproximar y a partir de x1,…,xk x1,…,xk : variables independientes o explicativas y: variable dependiente o respuesta (a explicar) Regina Kaiser Depto. Estadística, Universidad Carlos III

7 Ejemplo: semiconductores
Regina Kaiser Depto. Estadística, Universidad Carlos III

8 Ejemplo: semiconductores
Regina Kaiser Depto. Estadística, Universidad Carlos III

9 Ejemplo: semiconductores
Regina Kaiser Depto. Estadística, Universidad Carlos III

10 Descripción breve del tema
Introducción Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III

11 Depto. Estadística, Universidad Carlos III
Linealidad Los datos se ajustan aproximadamente a la ecuación: Con dos variables explicativas: Los datos están aproximadamente contenidos en un plano. En general, en un hiperplano. Regina Kaiser Depto. Estadística, Universidad Carlos III

12 Depto. Estadística, Universidad Carlos III
Homogeneidad El valor promedio de la perturbación es cero, Regina Kaiser Depto. Estadística, Universidad Carlos III

13 Homocedasticidad: Var[ui]=s2 Varianza de perturbaciones constante
Regina Kaiser Depto. Estadística, Universidad Carlos III

14 Depto. Estadística, Universidad Carlos III
Independencia Perturbaciones ui independientes entre sí. En particular E[uiuj]= 0 para i ¹ j Regina Kaiser Depto. Estadística, Universidad Carlos III

15 Depto. Estadística, Universidad Carlos III
Normalidad Las perturbaciones siguen distribución normal ui~N(0, s2) En consecuencia: Regina Kaiser Depto. Estadística, Universidad Carlos III

16 Depto. Estadística, Universidad Carlos III
Otras hipótesis El número de datos n es mayor que k+1 Ninguna variable explicativa es combinación lineal de las demás (las xi son linealmente independientes) Regina Kaiser Depto. Estadística, Universidad Carlos III

17 Descripción breve del tema
Introducción Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III

18 Forma matricial del modelo
Habitualmente escribimos el modelo como Y = Xb + U con: Regina Kaiser Depto. Estadística, Universidad Carlos III

19 Descripción breve del tema
Introducción Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III

20 Método de Mínimos Cuadrados
Valor observado Dato (y) Valor observado Dato (y) Recta de regresión estimada Recta de regresión estimada Regina Kaiser Depto. Estadística, Universidad Carlos III

21 Depto. Estadística, Universidad Carlos III
Mínimos Cuadrados Objetivo: Buscar los valores de b0,b1,…,bk que mejor ajustan nuestros datos. Ecuación: Residuo: Minimizar: Regina Kaiser Depto. Estadística, Universidad Carlos III

22 Depto. Estadística, Universidad Carlos III
Mínimos Cuadrados Resultado en forma matricial: Regina Kaiser Depto. Estadística, Universidad Carlos III

23 Ejemplo: semiconductores
Regina Kaiser Depto. Estadística, Universidad Carlos III

24 Interpretación geométrica
Hemos calculado: Tenemos: Definimos la matriz: H es idempotente, simétrica y del mismo rango que X, (k+1). Es una matriz de proyección. Regina Kaiser Depto. Estadística, Universidad Carlos III

25 Interpretación geométrica
H simétrica (obvio) H idempotente Residuos ortogonales a valores ajustados Residuos ortogonales a matriz de diseño X Regina Kaiser Depto. Estadística, Universidad Carlos III

26 Interpretación geométrica
Subespacio vectorial generado por las columnas de X Regina Kaiser Depto. Estadística, Universidad Carlos III

27 Depto. Estadística, Universidad Carlos III
Varianza Para estimar s2 utilizamos la varianza residual Es insesgado como estimador de s2 y además Regina Kaiser Depto. Estadística, Universidad Carlos III

28 Descripción breve del tema
Introducción Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III

29 Propiedades de los estimadores
Normalidad. Sabemos Y=Xb +U, de donde Y~N(Xb,s2I). Como también es normal. Esperanza. Varianza. Regina Kaiser Depto. Estadística, Universidad Carlos III

30 Propiedades de los estimadores
Tenemos La varianza s2 suele ser desconocida y utilizamos el error estándar estimado Regina Kaiser Depto. Estadística, Universidad Carlos III

31 Descripción breve del tema
Introducción Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III

32 Inferencia. Contrastes para b
Para averiguar si la variable xi afecta a la respuesta, debemos plantear el contraste Rechazamos la hipótesis nula si: Regina Kaiser Depto. Estadística, Universidad Carlos III

33 Ejemplo: semiconductores
Regina Kaiser Depto. Estadística, Universidad Carlos III

34 Inferencia. Int. de confianza para b
Podemos construir un intervalo de confianza para b con nivel de confianza 1-a como Si n > 30 y a = 0.05, sabemos que 2. Regina Kaiser Depto. Estadística, Universidad Carlos III

35 Inferencia. Contraste de regresión
Igual que en la regresión simple VT=VE+VNE Regina Kaiser Depto. Estadística, Universidad Carlos III

36 Inferencia. Contraste de regresión
Para averiguar si existe relación lineal entre la variable respuesta y las explicativas, realizamos Rechazamos la hipótesis nula si: Regina Kaiser Depto. Estadística, Universidad Carlos III

37 Ejemplo: semiconductores
Regina Kaiser Depto. Estadística, Universidad Carlos III

38 Coeficiente de determinación
El coeficiente de determinación se define: El coeficiente de determinación ajustado es más interesante ya que sólo aumenta si disminuye la varianza residual Regina Kaiser Depto. Estadística, Universidad Carlos III

39 Ejemplo: semiconductores
Regina Kaiser Depto. Estadística, Universidad Carlos III

40 Predicción para la media
Buscamos estimador puntual e I.C. para el valor medio de la respuesta cuando x=x0 Regina Kaiser Depto. Estadística, Universidad Carlos III

41 Predicción para la media
El intervalo de confianza para la media que obtenemos es: Regina Kaiser Depto. Estadística, Universidad Carlos III

42 Ejemplo: semiconductores
¿Cúal sería el I.C. para para la respuesta media si la longitud del cable es 8 y la altura de la estructura es 275? Regina Kaiser Depto. Estadística, Universidad Carlos III

43 Ejemplo: semiconductores
Regina Kaiser Depto. Estadística, Universidad Carlos III

44 Predicción para una nueva observación
Intervalo de predicción Ejemplo: semiconductores (long. 8, altura 175) Regina Kaiser Depto. Estadística, Universidad Carlos III

45 Descripción breve del tema
Introducción Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III

46 Depto. Estadística, Universidad Carlos III
Multicolinealidad Problema frecuente que se presenta cuando las variables explicativas son muy dependientes entre sí. No es un problema del modelo, sino de los datos, surge cuando det(XtX) próximo a cero. Las variables explicativas son significativas en el modelo simple, pero dejan de serlo en el múltiple. Regina Kaiser Depto. Estadística, Universidad Carlos III

47 Índice de condicionamiento
Los autovalores de XtX son mayores o iguales que cero, para que haya multicolinealidad, alguno tiene que ser aproximadamente cero. Si 10 £ Ind.Cond. £ 30, multiolinealidad moderada Si Ind.Cond. > 30, multicolinealidad alta Regina Kaiser Depto. Estadística, Universidad Carlos III

48 Ejemplo: Sabor del queso
Regina Kaiser Depto. Estadística, Universidad Carlos III

49 Ejemplo: sabor del queso
Multicolinealidad moderada Regina Kaiser Depto. Estadística, Universidad Carlos III

50 Ejemplo: sabor del queso
Regina Kaiser Depto. Estadística, Universidad Carlos III

51 Ejemplo: sabor del queso Regresión simple Láctico
Antes 30.73 Regina Kaiser Depto. Estadística, Universidad Carlos III

52 Ejemplo: sabor del queso Regresión simple Acético
Antes 3.9 Regina Kaiser Depto. Estadística, Universidad Carlos III

53 Ejemplo: sabor del queso Regresión simple: H2S
Antes 1.2 Regina Kaiser Depto. Estadística, Universidad Carlos III

54 Ejemplo: sabor del queso
Regina Kaiser Depto. Estadística, Universidad Carlos III

55 Ejemplo: sabor del queso Regresión múltiple: Acético y H2S
Acético + H2S 64.5% Acético 50.61% H2S 57.11% Regina Kaiser Depto. Estadística, Universidad Carlos III

56 Ejemplo: sabor del queso Regresión múltiple: Láctico y H2S
Láctico + H2S 65.1% Láctico 49.59% H2S 57.11% Regina Kaiser Depto. Estadística, Universidad Carlos III

57 Ejemplo: sabor del queso Regresión múltiple: Láctico y Acético
Láctico + Acético 50.7% Acético Láctico 49.59% Regina Kaiser Depto. Estadística, Universidad Carlos III

58 Ejemplo: sabor del queso
Regina Kaiser Depto. Estadística, Universidad Carlos III

59 Ejemplo: sabor del queso Regresión múltiple: Láctico y H2S
Láctico + H2S 65.1% Láctico 49.59% H2S 57.11% Regina Kaiser Depto. Estadística, Universidad Carlos III

60 Depto. Estadística, Universidad Carlos III
Diagnosis Más compleja que en la regresión simple. Gráficos de residuos frente a valores previstos para detectar falta de linealidad y heterocedasticidad. Gráficos probabilísticos (pp-plots) para los residuos para detectar falta de normalidad. Análisis de datos influyentes. Regina Kaiser Depto. Estadística, Universidad Carlos III

61 Descripción breve del tema
Introducción Hipótesis del modelo Linealidad, homogeneidad, homocedasticidad, independencia, normalidad, otras hipótesis Modelo en forma matricial Estimación de los parámetros Propiedades de los estimadores Inferencia y predicción Multicolinealidad y diagnosis Extensiones del modelo Regina Kaiser Depto. Estadística, Universidad Carlos III

62 Variables dicotómicas
En un muestra pueden aparecer grupos de observaciones. Ejemplo: En una muestra de alumnos los grupos pueden venir dados por el sexo. Regina Kaiser Depto. Estadística, Universidad Carlos III

63 Variables dicotómicas
Podemos introducir variables ficticias, dicotómicas o dummies del siguiente modo: Regina Kaiser Depto. Estadística, Universidad Carlos III

64 Variables dicotómicas
Regina Kaiser Depto. Estadística, Universidad Carlos III

65 Variables politómicas
En numerosas ocasiones las variables cualitativas toman valores en más de dos características. Si tenemos s categorías, introducimos s-1 variables dicotómicas zt Regina Kaiser Depto. Estadística, Universidad Carlos III


Descargar ppt "Regresión lineal múltiple"

Presentaciones similares


Anuncios Google