La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Regresión Lineal Verificación de Supuestos

Presentaciones similares


Presentación del tema: "Regresión Lineal Verificación de Supuestos"— Transcripción de la presentación:

1 Regresión Lineal Verificación de Supuestos
Análisis de residuales

2

3

4 Modelos de la regresión de p variables
Yi = β0 + β1xi1 + β2xi2 + … + βpxip+ ei β0 - Intercepto β1 βp - Coeficientes de pendiente parciales de la regresión ei - Término residual asociado con Ia ‘i’ observación

5 Supuestos del modelo de la regresión
Normalidad Linealidad Homoscedasticidad La no multicolinealidad o tolerancia entre las variables independientes

6 Representación del modelo en forma compacta
Y1 = b0 + b1X11 + e1 Y2 = b0 + b1X21 + e2 Yn = b0 + b1Xn1 + en y = Xβ + ε (forma matricial compacta)

7 Modelo de la regresión simple (en términos de estimadores)
Y = b0 + b1X1 + e Observación Parte fija Parte aleatoria (determinista) (error)

8 Normalidad En principio, cabe pensar que los datos tienen una distribución normal. Es posible verificar este supuesto, construyendo histogramas y comprobando la distribución de los datos. A veces, en los histogramas se incluye una línea que representa la forma de la distribución con la que es posible comprobar si la distribución de los datos de desvía de esta línea.

9 En otras palabras… Los valores de la variable dependiente son normalmente distribuidos para cada posible combinación de los niveles de las variables X.

10 Distribución normal de la variable edad.

11 Linealidad Se asume una relación lineal recta entre las variables independientes y la dependiente. En la práctica, este supuesto no suele verificarse, dado que los procedimientos de regresión múltiple no suelen ser gravemente afectados por leves desviaciones de este supuesto. Si la curvatura de la relación es evidente, se pueden transformar las variables o recurrir de forma explícita a componentes no lineales.

12 sigue… En otras palabras, la linealidad implica que las medias de las distribuciones de la variable dependiente deben situarse en una línea recta para cada variable independiente y que, para cada combinación de valores de las variables independientes, la distribución de la variable dependiente es normal con variancia constante.

13 Definición de modelo lineal
Los modelos en que todos los parámetros (b0,b1,…,bp) tienen exponentes de uno se denominan modelos lineales. Los modelos cuyos los parámetros (b0,b1,…,bp) tienen de exponentes otros valores distintos de la unidad se denominan modelos no-lineales.

14 Homoscedasticidad Las variancias de los valores de la variable dependiente (datos del estudio), para cada posible combinación de niveles de la variable X, son iguales; es decir, la variancia de los residuales es constante.

15 Los supuestos de normalidad, linealidad y homoscedasticidad se pueden verificar mediante el gráfico de dispersión. En este gráfico, los valores predichos de Y (Ŷ) se trasladan al eje X y los residuales (Y-Ŷ) al eje Y.

16 Multicolinealidad Multicolinealidad implica que las variables independientes están correlacionadas. Supóngase que la altura de una persona tiene dos predictores: peso en libras y peso en kilos. Estos dos predictores son redundantes, ya que el peso es único independientemente de si se mide con libras o kilos //..

17 Cuando esto ocurre, significa que al menos una de las variables predictoras es totalmente redundante con otras variables del modelo. El indicador estadístico de este fenómeno es conocido por tolerancia.

18 Regresión múltiple Modelos de la Regresión múltiple Lineal No Lineal
V. Dummy Interac. Polinó-mica. Raíz Cuadrada Log-lineal Recípro-ca Expo-nencial

19 SUPUESTOS EN LA REGRESIÓN MÚLTIPLE
NORMALIDAD El perfil de la distribución de los datos se corresponde con una distribución normal. Si la variación respecto de la distribución normal es amplia, los tests estadísticos resultantes no son válidos, dado que se requiere la normalidad para el uso de los estadísticos de la t y de la F. La normalidad univariante ayuda a obtener normalidad multivariante, pero no la garantiza. La normalidad multivariante implica que las variables individuales son normales. ¿cómo evaluarla? 1. Gráfico de probabilidad normal de los residuos Test de Kolmogorov-Smirnov sobre los residuos estandarizados LINEALIDAD Supuesto implícito en todas las técnicas multivariantes basadas en medidas de correlación. Resulta necesario identificar cualquier desplazamiento de la linealidad que pueda impactar la correlación. ¿cómo evaluarla? Examen visual de los residuos y Gráfico de regresión parcial HOMOSCEDASTICIDAD Varianza constante del término de error. Se refiere al supuesto de que las variables dependientes exhiban iguales niveles de varianza a lo largo del rango de los valores de las variables independientes. ¿cómo evaluarla? 1. Examen visual de los residuos Test de Levene

20 ANALISIS GRAFICO DE LOS RESIDUALES
Heterocedasticidad No Correlación No linealidad Dependencia de evento Heterocedasticidad Dependencia temporal Preparado por León Darío Bello P.

21 EVALUACIÓN DE LA MULTICOLINEALIDAD
Situación ideal: Tener una cantidad de variables independientes altamente correlacionadas con la variable dependiente, pero con poca correlación entre sí Multicolinealidad: correlación entre tres o más variables independientes La multicolinealidad reduce el poder predictivo de cualquier variable independiente individual, en la medida en que está asociado con las otras variables independientes A mayor colinealidad, la varianza única explicada por cada variable independiente se reduce y el porcentaje de predicción compartida aumenta ¿Cómo detectar la existencia de multicolinealidad? 1. Examen de la matriz de correlación de las variables independientes (altas correlaciones indican elevada colinealidad) 2. Estadísticos de colinealidad: valor de tolerancia (TOL) y factor de inflación de la varianza (FIV) (valores de TOL próximos a 0 y elevados valores de FIV, superiores a 4, denotan multicolinealidad) Efecto

22 IDENTIFICACION DE LA MULTICOLINEALIDA
Matriz de correlación Valor de la tolerancia Factor de Inflación de la varianza (VIF) Indice de condición (30 o más). Es la cantidad de variabilidad de las Xi seleccionadas no explicadas por el resto de las Xi. Tolerancia reducida, elevada colinealidad (Valores cercanos a cero). Miden el grado en el que cada variable Xi se explica por otras variables independientes. Preparado por León Darío Bello P.

23 REMEDIOS PARA LA MULTICOLINEALIDAD
Omitir una o varias Xi correlacionadas e identificar otras variables independientes. (Error de especificación) Utilizar el modelo sólo para predecir. (No interpretar coeficientes). Utilizar las correlaciones simples entre Y vs Xi para entender la relación de cada variable X con Y. Métodos más sofisticados (Regresión Bayesiana, Componentes principales) VALIDACION DE RESULTADOS Preparado por León Darío Bello P.

24 Variables Dummy Son aquellas que por ser cualitativas requieren una codificación especial, también son llamadas: Artificiales o internas o indicadoras. Si se tienen las siguientes opciones: Nunca fumó, Ex-fumador, Actualmente fuma menos de 10 cigarrillos diarios, Actualmente fuma 10 o más cigarrillos diarios, se tienen 4 posibles respuestas por lo que construiremos 3 variables internas dicotómicas (valores 0,1), existiendo diferentes posibilidades de codificación, que conducen a diferentes interpretaciones, y siendo la más habitual la siguiente: I1 I2 I3 Nunca fumó Ex- fumador 1 Menos de 10 cigarrillos diarios 10 o más cigarrillos diarios Preparado por León Darío Bello P.


Descargar ppt "Regresión Lineal Verificación de Supuestos"

Presentaciones similares


Anuncios Google