La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Modelo de regresión lineal múltiple. Estimación de parámetros. Evaluación de la recta estimada. Diagnóstico del modelo. Detección, evaluación de puntos.

Presentaciones similares


Presentación del tema: "Modelo de regresión lineal múltiple. Estimación de parámetros. Evaluación de la recta estimada. Diagnóstico del modelo. Detección, evaluación de puntos."— Transcripción de la presentación:

1 Modelo de regresión lineal múltiple. Estimación de parámetros. Evaluación de la recta estimada. Diagnóstico del modelo. Detección, evaluación de puntos extremos e influyentes. MSc. José Chauca

2 Y i =  0 +  1 X i1 +  2 X i2 + … +  p-1 X i, p-1 +  i Y es el vector de respuesta  es el vector de parámetros X es la matriz de constantes  es un vector de variables aleatoria normal e independiente, con E(  ) = 0 y  2 (  )=  2 (es constante). Modelo de Regresión Lineal Múltiple En términos de matriz:

3 Modelo de Regresión Múltiple Modelo de dos variables: y x1x1 x2x2 Pendiente para la variable x 1 Pendiente para la variable x 2 Llamado hiperplano de regresión

4 Ejemplo 1: Podemos estar interesados en estudiar la inteligencia humana (IQ como variable respuesta), y es posible que consideremos que puede estar relacionada con otras variables como el volumen del cerebro. Es posible que la estatura y su sexo también deban ser tenidos en cuenta. Podríamos añadirlas al estudio como variables independientes. Un modelo de regresión lineal múltiple podría ofrecer una respuesta como: IQ = 80 + 0.02*Volumen Cerebro + 0.15*Estatura – 0.8*Sexo

5 Ejemplo 2: Efecto causal de la educación sobre el salario Y = Salario X 1 = Educación Nuestro interés fundamental radica en el efecto de la educación. Pero sabemos que otras variables afectan también al salario. Por ejemplo, sean X 2 = Sexo, X 3 = Experiencia (laboral), X 4 = Capacidad (que suponemos medible). Salario=  0 +  1 *Educación +  2 *Sexo +  3 *Experiencia +  4 *Capacidad +  Cabe esperar que Educación no sea independiente de Experiencia, Sexo y Capacidad.

6 Estimación del MRLM  Los coeficientes (b 0 +b 1 +b 2 …b k ) son elegidos de forma que la suma de cuadrados entre los valores observados y los pronosticados sea mínima.  La estimación se puede realiza mediante: El método de mínimos cuadrados ordinarios (MCO) El método de máxima verosimilitud (MV)

7 Análisis de Regresión Lineal Múltiple en STATA Coeficientes de la regresión Intervalo de confianza al 95 % para los coeficientes de la regresión ANOVA

8 Coeficiente de determinación (r 2 )

9 Análisis de Regresión Lineal Múltiple en STATA n = tamaño de la muestra; k = El número de variables independientes en la ecuación de regresión

10 Interpretación conjunta del test de la F y de los contrastes individuales de la t Resultados preocupantes

11 Detección de Multicolinealidad Examinar la matriz de correlación. Realizar la regresión de cada una de las variables explicativas (variables independientes) sobre el resto y analizar los coeficientes de determinación de cada regresión (Factor de Inflación de la Varianza).

12 Los estadísticos con frecuencia consideran a la multicolinealidad como un problema severo si al menos un coeficiente de correlación simple entre variables independientes es al menos 0.9 Análisis de la matriz de correlación

13 Factor de Inflación de la Varianza (VIF) Donde R j 2 es el coeficiente de determinación múltiple para el modelo de regresión que relaciona x j a todas las otras variables independientes x 1, …x j-1, x j+1,…..,x k disponibles. El VIF se interpreta como la razón entre la varianza observada y la que habría sido en caso de que Xi estuviera incorrelacionada con el resto de variables independientes del modelo, es decir, muestra en que medida se agranda la varianza del estimador como consecuencia de la relación de los regresores.

14 La multicolinealidad se considera severa si el valor de VIF es mayor de 10 y si la media de VIF es sustancialmente mayor de 1. Un criterio alternativo adicional sugiere la comparación R j 2 con el R 2 de la regresión. Si R j 2 excede al R 2 de la regresión entonces hay multicolinealidad estadísticamente significativa.. Verificando la presencia de multicolinealidad con STATA

15 Multicolinealidad - Soluciones  Eliminación de variables: La multicolinealidad puede atenuarse si se eliminan los regresores que son más afectados por la multicolinealidad. Este procedimiento puede crear problemas de sesgo en los estimadores de los coeficientes del modelo debe usarse con precaución.  Aumento del tamaño de la muestra: La multicolinealidad trae problemas asociados al aumento ostensiblemente la varianza muestral de los estimadores, las soluciones deben ir encaminadas a reducir esta varianza.  Utilizar la relación extramuestral que permita realizar relaciones entre los parámetros (información a priori) que permita estimar el modelo por mínimos cuadrados restringidos.  Uso de índices compuestos (metodología de componentes principales).

16 Residuo

17 Supuestos del análisis de regresión lineal Para cualquier valor dado de x (variable independiente), la población potencial de valores del término de error tiene una media igual a 0. Supuesto de varianza constante. Para cualquier valor dado de x la población potencial de valores del término de error tiene una varianza que no depende del valor de x. Es decir las diferentes poblaciones de valores del término de error correspondiente a los diferentes valores de x tienen igual varianza. La varianza constante se denota como  2. Supuesto de Normalidad. Para cualquier valor dado de x la población potencial de términos de error tiene una distribución normal. Supuesto de independencia. Para cualquier valor del termino de error  i este será estadísticamente independiente de cualquier otro valor de  j.

18 Gráficas de residuales

19 Residuos re-escalados Residuos estandarizados Los residuos estandarizado s tienen media cero y varianza aproximadamente uno. Un residuo estandarizado grande (d i > 3) potencialmente indica que el valor es “aberrante” o extremo. Residuos estudentizados En muestras grandes estos residuos no difieren mucho de los residuos estandarizados. Tienen Distribución aproximadamente normal estándar y son más útiles para detectar observaciones “aberrantes” o influyentes.

20 ¿Son independientes los residuos?

21

22 Regresión lineal simple

23 Temperatura Velocidad de reacción

24

25 Gráficos para detectar heterocedasticidad de los residuales Residuos vs valores predichos Residuos vs valores de variable independiente

26 Prueba de Breusch-Pagan En estadística, el test de Breusch-Pagan se utiliza para determinar la heterocedasticidad en un modelo de regresión lineal. Contraste: H 0 : Los datos son homocedasticos. H a : data son heterocedasticos.

27 Prueba para Heterocedasticidad Breusch-Pagan / Cook-Weisberg (STATA). Está diseñada para detectar cualquier forma lineal de heteroscedasticidad. Breusch-Pagan / Cook-Weisberg prueba la hipótesis nula (H 0 ) de que las varianzas de los residuales son todas iguales frente a la alternativa (H A ) de que las varianzas de los residuales son una función multiplicativa de una o más variables (Cuanto mayor sea el valor predicho de Y, mayor será la varianza del error).

28 Gráfica normal de probabilidad Prueba de Shapiro-Wilks

29 Los valores atípicos en regresión múltiple (outliers) Aquellos casos donde una o más variables toman valores que difieren del comportamiento del resto de la muestra. Consecuencias:  Distorsionan los resultados  Suelen afectar a la normalidad Causas:  Errores en los datos (recolección y/o digitación)  Errores intencionados  Errores de muestreo (introducir en la muestra un individuo que no pertenece a la población) Outliers verdaderos: casos que pertenecen a la población objeto de estudio y que realmente difieren del resto por la variabilidad inherente

30 Ejemplo

31 Apalancamiento (“Leverage”)  Una observación con un valor extremo en una variable de predicción es un punto con alto apalancamiento. El apalancamiento es una medida de hasta qué punto una variable independiente se desvía de su media. Los puntos de apalancamiento altos pueden tener una gran cantidad de efecto en la estimación de los coeficientes de regresión.  Influencia: se dice que una observación es influyente si la eliminación de la observación cambia sustancialmente la estimación de los coeficientes de regresión. La influencia puede ser considerada como el producto del apalancamiento y la atonía.

32 La Distancia de Cook  Una forma de determinar si una observación es influyente es calcular la medida de distancia de Cook, llamada también D de Cook, o simplemente D.  Se puede mostrar que si la D de Cook para la observación i es grande, entonces el puntos de mínimos cuadrados calculado utilizando todas las n observaciones difieren sustancialmente (como un grupo) del punto de mínimos cuadrados estimado calculados usando de todas las n observaciones, excepto la observación i. Esto indicaría que la observación i es influyente.  La D de Cook mide el cambio que se produce en las estimaciones de los coeficientes de regresión al ir eliminando cada caso de la ecuación de regresión.  Una distancia de Cook grande indica que ese caso (observación) tiene un peso considerable en la estimación de los coeficientes de regresión.  Una medida que combina la información de apalancamiento y residual de la observación.  Un punto de corte convencional es la D de Cook es 4/n, donde n es el número de observaciones en el conjunto de datos.

33

34 Regresión con errores estándar robustos En Stata el comando regress incluye la opción robust para estimar el error estándar usando el Huber-White sandwich estimators. El error estándar robusto puede hacer frente a una colección de problemas menores acerca de fallos para cumplir supuestos, problemas menores sobre normalidad, heterocedasticidad, o algunas observaciones que exhiben grandes residuales, leverage o influencia. Con la opción robust en STATA, los estimadores puntuales de los coeficientes son exactamente los mismos que aquellos obtenidos Mínimos Cuadrados Ordinarios, pero los errores estándar toman en cuenta los problemas de heterogeneidad y la falta de normalidad.

35 Gracias


Descargar ppt "Modelo de regresión lineal múltiple. Estimación de parámetros. Evaluación de la recta estimada. Diagnóstico del modelo. Detección, evaluación de puntos."

Presentaciones similares


Anuncios Google