Modelo de regresión lineal múltiple. Estimación de parámetros. Evaluación de la recta estimada. Diagnóstico del modelo. Detección, evaluación de puntos.

Slides:



Advertisements
Presentaciones similares
PROBLEMAS ECONOMETRICOS
Advertisements

Definición del Modelo de Regresión Simple Estimaciones por MCO Método de MCO Valores Esperados y Varianzas por MCO.
REGRESIÓN LINEAL MÚLTIPLE TEMA INTRODUCCIÓN 2 x1x1 Y x2x2 x3x3 xKxK.
Contraste de Hipotesis
LEONARDO LÓPEZ C. ECONOMIA ESTADISTICA COMPUTARIZADA PARALELO: 261.
Free and Quick Translation of Anderson´s slides1 Analisis de Regresión Multiple y =  0 +  1 x 1 +  2 x  k x k + u 2. Inferencia.
ESTADÍSTICA II Ing. Danmelys Perozo MSc. Blog:
Curso de posgrado: ANÁLISIS DE REGRESIÓN Universidad Nacional del Sur Nélida Winzer y Ricardo Camina 2012.
Free and Quick Translation of Anderson's slides1 Modelo de Regresión Lineal Simple y =  0 +  1 x + u.
Bioestadística Distribuciones muestrales para variables cuantitativas.
REGRESIÓN Y CORRELACIÓN  REGRESIÓN Es un Proceso estadístico que consiste en predecir una variable a partir de otra utilizando datos anteriores. INGA.
1 Pronósticos, Series de Tiempo y Regresión Capítulo 3: Regresión Lineal Simple.
¡Guía tonta de estadística! Dr. Hamda Qotba, B.Med.Sc, M.D, ABCM.
ESTADÍSTICA Mercedes de la Oliva ESTADÍSTICA INFERENCIAL Teorema Central del límite Distribución de media y proporción muestral.
Procedimiento completo de regresión múltiple
Muestreo PRUEBAS Y VALIDACION DE HIPOTESIS Carlos Willian Rincón Pérez
Instituto Nacional de Estadística y Geografía
Curso de Elaboración de Pruebas Prof. Gerardo A. Valderrama M
Facultad de Ciencias Sociales
Procedimiento completo de regresión múltiple
Intervalos de Confianza
Pedro Letelier Patricio Contreras
Continuación DE MCO.
MEP- II.
Análisis de varianza Paramétricos vs. No Paramétricos
Introducción a los modelos econométricos
ESTADÍSTICA II Ing. Danmelys Perozo MSc.
Regresion Multiple Varias variables explicativas
¿Cuándo usar esta distribución?
Temas Estimador de Efectos Fijos: utiliza una transformación para eliminar el efecto inobservable ai antes de la estimación Estimador de Efectos Aleatorios:
Correlación Lineal de Pearson y Regresión Lineal Simple
Analisis de Regresion Para dos Variables (poblacion y muestra)
SUPUESTOS DEL MODELO DE MINIMOS CUADRADOS
RELACIÓN ENTRE UNA VARIABLE DEPENDIENTE Y UNA O MAS INDEPENDIENTES.
¡Guía básica de estadística! Dr. Hamda Qotba, B.Med.Sc, M.D, ABCM.
REGRESÍON LINEAL SIMPLE
Kriging Consideremos información de determinada propiedad en el yacimiento y puntos en los cuales se tiene la estimación dea partir de los puntos.
ANÁLISIS DE REGRESIÓN SIMPLE
Más allá de la regresión lineal de medias
Tamaño de muestra Ecología Marina. Una población se define como un conjunto de individuos de una especie que habita un área determinada. Los métodos disponibles.
ESTIMACIÓN (Inferencia Estadística) Intervalos de Confianza
ANALISIS DE VARIANZA
DISEÑO Y ANALISIS DE EXPERIMENTOS
DISEÑO Y ANALISIS DE EXPERIMENTOS
Correlación Relación no lineal Relación lineal positiva Relación
Analisis de Regresion Para dos Variables.
Contraste de Hipotesis
Identificación de los efectos de los diseños experimentales.
ICPM050 – ECONOMETRÍA tema 03: ESTIMACIÓN MODELO LINEAL SIMPLE
Analisis de Regresion Para dos Variables.
Correlación Relación no lineal Relación lineal positiva Relación
¡Guía tonta de estadística! Dr. Hamda Qotba, B.Med.Sc, M.D, ABCM.
Presentación de datos e interpretación de resultados.
Regresión Lineal Simple
Contraste de Hipotesis
Modelo de Regresión Lineal Simple
Contraste de Hipotesis
Analisis de Regresion Para dos Variables (poblacion y muestra)
ANÁLISIS DE VARIANZA(ANOVA) AULA:33 INTEGRANTES: JUAN CHAUCA ALEXIS JARAMILLO JEFFERSON LLANGARI KATHY ULLOA UNIVERSIDAD CENTRAL DEL ECUADOR FACULTAD DE.
Analisis de Regresion Multiple
REGRESIONINTERPOLACION Los Métodos Numéricos Métodos mas utilizados Ajuste de Curvas.
01/08/ Escuela Nacional de Estadística e Informátia Muestreo I Muestreo Aleatorio Estratificado Prof. Willer David Chanduvi Puicón.
Presentación de datos e interpretación de resultados.
ANALISIS DE REGRESION SIMPLE
TRATAMIENTO Y EVALUACION DE RESULTADOS ANALITICOS 1.Conceptos generales sobre la medida. Tipos de errores, concepto, componentes, corrección. Distribución.
1 Afectados de cierto grado de INCERTIDUMBRE SIEMPRE HAY UN ERROR EN SU MEDIDA ESTABLECER LA FIABILIDAD DE LOS DATOS ¿Podemos evaluar la magnitud del error.
ESTUDIO DE MERCADO. MÉTODOS DE PROYECCIÓN ¿Qué es una proyección? Es una estimación del comportamiento de una variable en el futuro. Específicamente, se.
ESTADÍSTICA APLICADA  ZEUS DE JESÚS RODRÍGUEZ BUDA  GABRIELA MÁRQUEZ TORRES  MARÍA ENRIQUETA GIL CÓRDOVA  ELIÁN ANTONIO GONZALEZ GARCÍA  CRISTELL.
REGRESION LINEAL SIMPLE
Transcripción de la presentación:

Modelo de regresión lineal múltiple. Estimación de parámetros. Evaluación de la recta estimada. Diagnóstico del modelo. Detección, evaluación de puntos extremos e influyentes. MSc. José Chauca

Y i =  0 +  1 X i1 +  2 X i2 + … +  p-1 X i, p-1 +  i Y es el vector de respuesta  es el vector de parámetros X es la matriz de constantes  es un vector de variables aleatoria normal e independiente, con E(  ) = 0 y  2 (  )=  2 (es constante). Modelo de Regresión Lineal Múltiple En términos de matriz:

Modelo de Regresión Múltiple Modelo de dos variables: y x1x1 x2x2 Pendiente para la variable x 1 Pendiente para la variable x 2 Llamado hiperplano de regresión

Ejemplo 1: Podemos estar interesados en estudiar la inteligencia humana (IQ como variable respuesta), y es posible que consideremos que puede estar relacionada con otras variables como el volumen del cerebro. Es posible que la estatura y su sexo también deban ser tenidos en cuenta. Podríamos añadirlas al estudio como variables independientes. Un modelo de regresión lineal múltiple podría ofrecer una respuesta como: IQ = *Volumen Cerebro *Estatura – 0.8*Sexo

Ejemplo 2: Efecto causal de la educación sobre el salario Y = Salario X 1 = Educación Nuestro interés fundamental radica en el efecto de la educación. Pero sabemos que otras variables afectan también al salario. Por ejemplo, sean X 2 = Sexo, X 3 = Experiencia (laboral), X 4 = Capacidad (que suponemos medible). Salario=  0 +  1 *Educación +  2 *Sexo +  3 *Experiencia +  4 *Capacidad +  Cabe esperar que Educación no sea independiente de Experiencia, Sexo y Capacidad.

Estimación del MRLM  Los coeficientes (b 0 +b 1 +b 2 …b k ) son elegidos de forma que la suma de cuadrados entre los valores observados y los pronosticados sea mínima.  La estimación se puede realiza mediante: El método de mínimos cuadrados ordinarios (MCO) El método de máxima verosimilitud (MV)

Análisis de Regresión Lineal Múltiple en STATA Coeficientes de la regresión Intervalo de confianza al 95 % para los coeficientes de la regresión ANOVA

Coeficiente de determinación (r 2 )

Análisis de Regresión Lineal Múltiple en STATA n = tamaño de la muestra; k = El número de variables independientes en la ecuación de regresión

Interpretación conjunta del test de la F y de los contrastes individuales de la t Resultados preocupantes

Detección de Multicolinealidad Examinar la matriz de correlación. Realizar la regresión de cada una de las variables explicativas (variables independientes) sobre el resto y analizar los coeficientes de determinación de cada regresión (Factor de Inflación de la Varianza).

Los estadísticos con frecuencia consideran a la multicolinealidad como un problema severo si al menos un coeficiente de correlación simple entre variables independientes es al menos 0.9 Análisis de la matriz de correlación

Factor de Inflación de la Varianza (VIF) Donde R j 2 es el coeficiente de determinación múltiple para el modelo de regresión que relaciona x j a todas las otras variables independientes x 1, …x j-1, x j+1,…..,x k disponibles. El VIF se interpreta como la razón entre la varianza observada y la que habría sido en caso de que Xi estuviera incorrelacionada con el resto de variables independientes del modelo, es decir, muestra en que medida se agranda la varianza del estimador como consecuencia de la relación de los regresores.

La multicolinealidad se considera severa si el valor de VIF es mayor de 10 y si la media de VIF es sustancialmente mayor de 1. Un criterio alternativo adicional sugiere la comparación R j 2 con el R 2 de la regresión. Si R j 2 excede al R 2 de la regresión entonces hay multicolinealidad estadísticamente significativa.. Verificando la presencia de multicolinealidad con STATA

Multicolinealidad - Soluciones  Eliminación de variables: La multicolinealidad puede atenuarse si se eliminan los regresores que son más afectados por la multicolinealidad. Este procedimiento puede crear problemas de sesgo en los estimadores de los coeficientes del modelo debe usarse con precaución.  Aumento del tamaño de la muestra: La multicolinealidad trae problemas asociados al aumento ostensiblemente la varianza muestral de los estimadores, las soluciones deben ir encaminadas a reducir esta varianza.  Utilizar la relación extramuestral que permita realizar relaciones entre los parámetros (información a priori) que permita estimar el modelo por mínimos cuadrados restringidos.  Uso de índices compuestos (metodología de componentes principales).

Residuo

Supuestos del análisis de regresión lineal Para cualquier valor dado de x (variable independiente), la población potencial de valores del término de error tiene una media igual a 0. Supuesto de varianza constante. Para cualquier valor dado de x la población potencial de valores del término de error tiene una varianza que no depende del valor de x. Es decir las diferentes poblaciones de valores del término de error correspondiente a los diferentes valores de x tienen igual varianza. La varianza constante se denota como  2. Supuesto de Normalidad. Para cualquier valor dado de x la población potencial de términos de error tiene una distribución normal. Supuesto de independencia. Para cualquier valor del termino de error  i este será estadísticamente independiente de cualquier otro valor de  j.

Gráficas de residuales

Residuos re-escalados Residuos estandarizados Los residuos estandarizado s tienen media cero y varianza aproximadamente uno. Un residuo estandarizado grande (d i > 3) potencialmente indica que el valor es “aberrante” o extremo. Residuos estudentizados En muestras grandes estos residuos no difieren mucho de los residuos estandarizados. Tienen Distribución aproximadamente normal estándar y son más útiles para detectar observaciones “aberrantes” o influyentes.

¿Son independientes los residuos?

Regresión lineal simple

Temperatura Velocidad de reacción

Gráficos para detectar heterocedasticidad de los residuales Residuos vs valores predichos Residuos vs valores de variable independiente

Prueba de Breusch-Pagan En estadística, el test de Breusch-Pagan se utiliza para determinar la heterocedasticidad en un modelo de regresión lineal. Contraste: H 0 : Los datos son homocedasticos. H a : data son heterocedasticos.

Prueba para Heterocedasticidad Breusch-Pagan / Cook-Weisberg (STATA). Está diseñada para detectar cualquier forma lineal de heteroscedasticidad. Breusch-Pagan / Cook-Weisberg prueba la hipótesis nula (H 0 ) de que las varianzas de los residuales son todas iguales frente a la alternativa (H A ) de que las varianzas de los residuales son una función multiplicativa de una o más variables (Cuanto mayor sea el valor predicho de Y, mayor será la varianza del error).

Gráfica normal de probabilidad Prueba de Shapiro-Wilks

Los valores atípicos en regresión múltiple (outliers) Aquellos casos donde una o más variables toman valores que difieren del comportamiento del resto de la muestra. Consecuencias:  Distorsionan los resultados  Suelen afectar a la normalidad Causas:  Errores en los datos (recolección y/o digitación)  Errores intencionados  Errores de muestreo (introducir en la muestra un individuo que no pertenece a la población) Outliers verdaderos: casos que pertenecen a la población objeto de estudio y que realmente difieren del resto por la variabilidad inherente

Ejemplo

Apalancamiento (“Leverage”)  Una observación con un valor extremo en una variable de predicción es un punto con alto apalancamiento. El apalancamiento es una medida de hasta qué punto una variable independiente se desvía de su media. Los puntos de apalancamiento altos pueden tener una gran cantidad de efecto en la estimación de los coeficientes de regresión.  Influencia: se dice que una observación es influyente si la eliminación de la observación cambia sustancialmente la estimación de los coeficientes de regresión. La influencia puede ser considerada como el producto del apalancamiento y la atonía.

La Distancia de Cook  Una forma de determinar si una observación es influyente es calcular la medida de distancia de Cook, llamada también D de Cook, o simplemente D.  Se puede mostrar que si la D de Cook para la observación i es grande, entonces el puntos de mínimos cuadrados calculado utilizando todas las n observaciones difieren sustancialmente (como un grupo) del punto de mínimos cuadrados estimado calculados usando de todas las n observaciones, excepto la observación i. Esto indicaría que la observación i es influyente.  La D de Cook mide el cambio que se produce en las estimaciones de los coeficientes de regresión al ir eliminando cada caso de la ecuación de regresión.  Una distancia de Cook grande indica que ese caso (observación) tiene un peso considerable en la estimación de los coeficientes de regresión.  Una medida que combina la información de apalancamiento y residual de la observación.  Un punto de corte convencional es la D de Cook es 4/n, donde n es el número de observaciones en el conjunto de datos.

Regresión con errores estándar robustos En Stata el comando regress incluye la opción robust para estimar el error estándar usando el Huber-White sandwich estimators. El error estándar robusto puede hacer frente a una colección de problemas menores acerca de fallos para cumplir supuestos, problemas menores sobre normalidad, heterocedasticidad, o algunas observaciones que exhiben grandes residuales, leverage o influencia. Con la opción robust en STATA, los estimadores puntuales de los coeficientes son exactamente los mismos que aquellos obtenidos Mínimos Cuadrados Ordinarios, pero los errores estándar toman en cuenta los problemas de heterogeneidad y la falta de normalidad.

Gracias