Regresión Lineal Verificación de Supuestos

Slides:



Advertisements
Presentaciones similares
1. MODELO DE REGRESIÓN SIMPLE
Advertisements

Regresión lineal simple
REGRESION LINEAL SIMPLE
Error Estándar de la Media
Modelos de Variable Dependiente Binaria -Logit y Probit-
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
MÉTODOS DE MEDICIÓN DE COSTOS.
Pronósticos, Series de Tiempo y Regresión
ANÁLISIS EXPLORATORIO DE DATOS
Bivariadas y Multivariadas
Ingeniería Industrial II CicloEducativo 2011
León Darío Bello Parias
REGRESION Y CORRELACION LINEALES. REGRESION LINEAL SIMPLE Finalidad Estimar los valores de y (variable dependiente) a partir de los valores de x (variable.
MODELO DE REGRESIÓN MÚLTIPLE
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN
MANUAL DE LABORATORIO DE CÓMPUTO ECONOMETRÍA I MULTICOLINEALIDAD
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Econometria 2. Modelo de Regresión Lineal Simple
Regresión y correlación
CONTRASTE Y VALIDACIÓN DE UN MODELO
Estadística Descriptiva: 4. Correlación y Regresión Lineal
Tema 1- Regresión lineal simple.
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
Regresión Lineal Simple
9 Regresión Lineal Simple
División de Estudios Políticos, CIDE
Regresión Linear Correlación de Pearson, r Regresión Múltiple Regresión Logística Regresión de Poisson.
MEDIDAS DE DISPERSIÓN:
Distribuciones bidimensionales. Tablas de contingencia
Tests de hipótesis Los tres pasos básicos para testear hipótesis son
Técnicas estadísticas paramétricas univariantes: regresión
PROBLEMAS ECONOMETRICOS
CONTRASTE Y VALIDACIÓN DE UN MODELO
15 Análisis de Regresión Múltiple
Pronósticos, Series de Tiempo y Regresión
Pronósticos, Series de Tiempo y Regresión
REGRESION LINEAL III Mario Briones L. MV, MSc 2005.
ESTIMACIÓN DE COEFICIENTES DE MÁXIMA VEROSIMILITUD
Métodos de calibración: regresión y correlación
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
Estimador de Efectos Fijos
Regresión lineal múltiple
REGRESION LINEAL II Mario Briones L. MV, MSc
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
ANÁLISIS DE REGRESIÓN SIMPLE
Análisis de los Datos Cuantitativos
Titular: Agustín Salvia
Regresión Lineal Simple
Aplicaciones Estadísticas a las Finanzas Clase 1
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
Construcción de modelos con regresión y correlación
MANUAL DE LABORATORIO DE CÓMPUTO ECONOMETRÍA I MODELO DE REGRESIÓN GENERAL 1 Profesor: Barland A. Huamán Bravo 2011 UNIVERSIDAD NACIONAL AGRARIA DE LA.
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Regresión lineal simple Nazira Calleja
MODELOS DE PRONOSTICOS Primer semestre 2010 Modelo de Regresión con dos variables.
Unidad 4 Análisis de los Datos.
REGRESIÓN LINEAL MÚLTIPLE.
REGRESIÓN LINEAL SIMPLE
Supuestos en el análisis de regresión Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage.
Germán Fromm R. 1. Objetivo Entender los diseños metodológicos predictivos 2.
REGRESIÓN LINEAL SIMPLE
REGRESIÓN LINEAL SIMPLE. Temas Introducción Análisis de regresión (Ejemplo aplicado) La ecuación de una recta Modelo estadístico y suposiciones Estimación.
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
14 Introducción al Análisis de Correlación y de Regresión Lineal
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
M.E. ADA PAULINA MORA GONZALEZ. Esta parte describe las técnicas para ajustar curvas en base a datos para estimaciones intermedias. Una manera de hacerlo.
ANALISIS DE VARIANZA.
Transcripción de la presentación:

Regresión Lineal Verificación de Supuestos Análisis de residuales

Modelos de la regresión de p variables Yi = β0 + β1xi1 + β2xi2 + … + βpxip+ ei β0 - Intercepto β1 βp - Coeficientes de pendiente parciales de la regresión ei - Término residual asociado con Ia ‘i’ observación

Supuestos del modelo de la regresión Normalidad Linealidad Homoscedasticidad La no multicolinealidad o tolerancia entre las variables independientes

Representación del modelo en forma compacta Y1 = b0 + b1X11 + e1 Y2 = b0 + b1X21 + e2 ............................... Yn = b0 + b1Xn1 + en y = Xβ + ε (forma matricial compacta)

Modelo de la regresión simple (en términos de estimadores) Y = b0 + b1X1 + e Observación Parte fija Parte aleatoria (determinista) (error)

Normalidad En principio, cabe pensar que los datos tienen una distribución normal. Es posible verificar este supuesto, construyendo histogramas y comprobando la distribución de los datos. A veces, en los histogramas se incluye una línea que representa la forma de la distribución con la que es posible comprobar si la distribución de los datos de desvía de esta línea.

En otras palabras… Los valores de la variable dependiente son normalmente distribuidos para cada posible combinación de los niveles de las variables X.

Distribución normal de la variable edad.

Linealidad Se asume una relación lineal recta entre las variables independientes y la dependiente. En la práctica, este supuesto no suele verificarse, dado que los procedimientos de regresión múltiple no suelen ser gravemente afectados por leves desviaciones de este supuesto. Si la curvatura de la relación es evidente, se pueden transformar las variables o recurrir de forma explícita a componentes no lineales.

sigue… En otras palabras, la linealidad implica que las medias de las distribuciones de la variable dependiente deben situarse en una línea recta para cada variable independiente y que, para cada combinación de valores de las variables independientes, la distribución de la variable dependiente es normal con variancia constante.

Definición de modelo lineal Los modelos en que todos los parámetros (b0,b1,…,bp) tienen exponentes de uno se denominan modelos lineales. Los modelos cuyos los parámetros (b0,b1,…,bp) tienen de exponentes otros valores distintos de la unidad se denominan modelos no-lineales.

Homoscedasticidad Las variancias de los valores de la variable dependiente (datos del estudio), para cada posible combinación de niveles de la variable X, son iguales; es decir, la variancia de los residuales es constante.

Los supuestos de normalidad, linealidad y homoscedasticidad se pueden verificar mediante el gráfico de dispersión. En este gráfico, los valores predichos de Y (Ŷ) se trasladan al eje X y los residuales (Y-Ŷ) al eje Y.

Multicolinealidad Multicolinealidad implica que las variables independientes están correlacionadas. Supóngase que la altura de una persona tiene dos predictores: peso en libras y peso en kilos. Estos dos predictores son redundantes, ya que el peso es único independientemente de si se mide con libras o kilos. ..//..

Cuando esto ocurre, significa que al menos una de las variables predictoras es totalmente redundante con otras variables del modelo. El indicador estadístico de este fenómeno es conocido por tolerancia.

Regresión múltiple Modelos de la Regresión múltiple Lineal No Lineal V. Dummy Interac. Polinó-mica. Raíz Cuadrada Log-lineal Recípro-ca Expo-nencial

SUPUESTOS EN LA REGRESIÓN MÚLTIPLE NORMALIDAD El perfil de la distribución de los datos se corresponde con una distribución normal. Si la variación respecto de la distribución normal es amplia, los tests estadísticos resultantes no son válidos, dado que se requiere la normalidad para el uso de los estadísticos de la t y de la F. La normalidad univariante ayuda a obtener normalidad multivariante, pero no la garantiza. La normalidad multivariante implica que las variables individuales son normales. ¿cómo evaluarla? 1. Gráfico de probabilidad normal de los residuos 2. Test de Kolmogorov-Smirnov sobre los residuos estandarizados LINEALIDAD Supuesto implícito en todas las técnicas multivariantes basadas en medidas de correlación. Resulta necesario identificar cualquier desplazamiento de la linealidad que pueda impactar la correlación. ¿cómo evaluarla? Examen visual de los residuos y Gráfico de regresión parcial HOMOSCEDASTICIDAD Varianza constante del término de error. Se refiere al supuesto de que las variables dependientes exhiban iguales niveles de varianza a lo largo del rango de los valores de las variables independientes. ¿cómo evaluarla? 1. Examen visual de los residuos 2. Test de Levene

ANALISIS GRAFICO DE LOS RESIDUALES Heterocedasticidad No Correlación No linealidad Dependencia de evento Heterocedasticidad Dependencia temporal Preparado por León Darío Bello P.

EVALUACIÓN DE LA MULTICOLINEALIDAD Situación ideal: Tener una cantidad de variables independientes altamente correlacionadas con la variable dependiente, pero con poca correlación entre sí Multicolinealidad: correlación entre tres o más variables independientes La multicolinealidad reduce el poder predictivo de cualquier variable independiente individual, en la medida en que está asociado con las otras variables independientes A mayor colinealidad, la varianza única explicada por cada variable independiente se reduce y el porcentaje de predicción compartida aumenta ¿Cómo detectar la existencia de multicolinealidad? 1. Examen de la matriz de correlación de las variables independientes (altas correlaciones indican elevada colinealidad) 2. Estadísticos de colinealidad: valor de tolerancia (TOL) y factor de inflación de la varianza (FIV) (valores de TOL próximos a 0 y elevados valores de FIV, superiores a 4, denotan multicolinealidad) Efecto

IDENTIFICACION DE LA MULTICOLINEALIDA Matriz de correlación Valor de la tolerancia Factor de Inflación de la varianza (VIF) Indice de condición (30 o más). Es la cantidad de variabilidad de las Xi seleccionadas no explicadas por el resto de las Xi. Tolerancia reducida, elevada colinealidad (Valores cercanos a cero). Miden el grado en el que cada variable Xi se explica por otras variables independientes. Preparado por León Darío Bello P.

REMEDIOS PARA LA MULTICOLINEALIDAD Omitir una o varias Xi correlacionadas e identificar otras variables independientes. (Error de especificación) Utilizar el modelo sólo para predecir. (No interpretar coeficientes). Utilizar las correlaciones simples entre Y vs Xi para entender la relación de cada variable X con Y. Métodos más sofisticados (Regresión Bayesiana, Componentes principales) VALIDACION DE RESULTADOS Preparado por León Darío Bello P.

Variables Dummy Son aquellas que por ser cualitativas requieren una codificación especial, también son llamadas: Artificiales o internas o indicadoras. Si se tienen las siguientes opciones: Nunca fumó, Ex-fumador, Actualmente fuma menos de 10 cigarrillos diarios, Actualmente fuma 10 o más cigarrillos diarios, se tienen 4 posibles respuestas por lo que construiremos 3 variables internas dicotómicas (valores 0,1), existiendo diferentes posibilidades de codificación, que conducen a diferentes interpretaciones, y siendo la más habitual la siguiente: I1 I2 I3 Nunca fumó Ex- fumador 1 Menos de 10 cigarrillos diarios 10 o más cigarrillos diarios Preparado por León Darío Bello P.