La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Supuestos en el análisis de regresión Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage.

Presentaciones similares


Presentación del tema: "Supuestos en el análisis de regresión Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage."— Transcripción de la presentación:

1 Supuestos en el análisis de regresión Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 2. Supuestos para distribuciones multivariadas

2 Distribuciones multivariadas  Distribuciones conjuntas.  Contienen más de una variable.  Son más complejas que las univariadas.  Están regidas por los mismos principios.

3 Residuales  Diferencia entre los puntajes predichos por el modelo y los puntajes reales.  Error.

4 Residuales Distribución de los puntajes brutos = Distribución de los residuales Modelo de un parámetro: Media Residuales: Puntaje - media Todo se aplica de igual manera a las distribuciones de residuales. Puntajes brutos Residuales

5 Estimadores de mínimos cuadrados Media Beta o pendiente

6 Cuatro supuestos básicos 1. Normalidad en la distribución de los residuales En cada valor de la VD, la distribución de los residuales debe ser normal. 2. HomocedasticidadLa varianza de los residuales en cada grupo de valores de la VI debe ser igual. 3. Linealidad En cada valor posible de la VD, el valor esperado (la media) de los residuales debe ser igual a cero. 4. IndependenciaEl correlación esperada entre los residuales para cualquier par de casos debe ser igual a cero

7 Supuesto 1. NORMALIDAD En cada valor de la VD la distribución de los residuales es normal

8  Puntajes extremos (outliers)  Tipos de residuales  Residuales no estandarizados (RESID)  Residuales estandarizados (Z-RESID)  Residuales studentizados (S-RESID)  Residuales eliminados (deleted) (D-RESID)  Comparación de los residuales  Interpretación de los outliers que influyen  Estadísticos de distancia  Apalancamiento (Leverage)  Distancia de Mahalanobis  Distancia de Cook (D de Cook)  Comparación de los estadísticos de distancia  Estadísticos de influencia  Diferencias de betas (Df-Beta) y Diferencias de betas estandarizados (Df-Beta tipificada)  Diferencias de ajuste (Df Ajuste) y Diferencias de ajuste estandarizado (Df Ajuste tipificado) Supuesto 1. NORMALIDAD

9 Supuesto 1. Normalidad de los residuales En cada valor de la VD, la distribución de los residuales debe ser normal. Examinar:  A) Outliers  B) Sesgo y curtosis

10 Outliers No outlier Outlier ¿Por qué? ¿Error o real? Distribución conjunta o multivariadas Distribuciones univariadas

11 Outliers Complicado con 1VI Muy difícil con 2VIs Imposible con >2VIs ¿Cómo examinar si hay outliers? Método gráfico Dispersigrama Métodos con residuales 1º Calcular una ecuación de regresión. 2º Ver qué tan lejos se encuentra el puntaje de su valor predicho.

12 Outliers ¿Cómo examinar si hay outliers? Modelo Coeficientes no estandarizados Error estándar de Beta Coeficientes estandarizados tSig. Constante35.20012.3602.848.008 IQ de la Mujer.622.123.6925.073.000 a. Variable dependiente: IQ del Hombre IQ del Hombre = 0.622 X IQ de la Mujer + 35.2 1º Cálculo de la ecuación de regresión. 3º. Cálculo de las diferencias entre los valores predichos y los reales (residuales) 2º Cálculo de los valores predichos para cada par de puntajes (IQ de cada Hombre X IQ de la Mujer). Distribución conjunta o multivariada

13 Outliers ¿Cómo examinar si hay outliers? IQ del Hombre = 0.622 X IQ de la Mujer + 35.2 Línea de regresión Línea de mejor ajuste Residuales Dispersigrama con residuales Desventaja : Limitado a una VI.

14 Outliers ¿Cómo examinar si hay outliers? Histograma de residuales Outlier

15 Outliers ¿Cómo examinar si hay outliers? Dispersigrama con valores predichos y residuales Outlier Ventaja : Es posible usarlo cuando la regresión incluye muchas VIs.

16 Outliers Ejemplo Eventos de la vida Molestias Apoyo social Depresión

17 Outliers Eventos de la vida Molestias Apoyo social Depresión Distribución normal Dispersigramas bivariados sin outliers Distribución normal Eventos de la vida Molestias Eventos de la vida Apoyo social Eventos de la vida Depresión Molestias Eventos de la vida Molestias Apoyo social Molestias Depresión

18 Outliers Modelo Coeficientes no estandarizados Coeficientes estandarizados tSig. BError estándarBeta 1(Constante) 97.76929.980 3.261.002 Eventos de la vida.286.138.3552.081.045 Molestias -.050.536-.015-.093.927 Apoyo social -.380.292-.210-1.298.202 a. Variable dependiente: Depresión Pero, ¿hay outlier multivariado? Analizar Estadísticos descriptivos Descriptivos Guardar valores estandarizados como variables

19 Outliers Analizar Estadísticos descriptivos Descriptivos Guardar valores estandarizados como variables Caso Eventos Z EventosMolestias Z MolestiasApoyo Z ApoyoDepresión Z Depresión Z RESID 3 150.000.6160.001.7110.00-1.5370.00-1.87-2.59 Aparece un outlier cuando se considera todos los puntajes con los residuales.

20 Outliers Analizar Regresión Lineal Guardar Valores pronosticados / Residuos Estandarizados [ZPRED / ZRESID] Outlier Dispersigrama con puntajes predichos y residuales

21 Tipos de residuales Analizar Regresión Lineal Guardar Residuos

22 Comparación de los residuales Caso 3

23 Estadísticos de detección de outliers Los outliers no siempre influyen los resultados del análisis de regresión. Los que sí influyen se denominan: casos de influencia. Para detectarlos se calculan: Estadísticos de Influencia Influyen sobre las correlaciones Estadísticos de Distancia Dirigen la línea en alguna dirección

24 Estadísticos de distancia  Apalancamiento (Valor de influencia)  Mahalanobis  D de Cook Analizar Regresión Lineales Guardar Distancias

25 Estadísticos de distancia h i = [1 / N ] + [ (x i –  ) / ∑ x²] Outlier Línea de regresión Se calcula sólo con los valores de la(s) VI(s), por lo que es posible que no detecte el outlier de influencia. Apalancamiento (Valor de influencia) hi : Estadístico de apalancamiento para el caso i. xi : La VI. K : Número de Vis N : Número de participantes Cualesquier par de casos que compartan el mismo valor de X (VI), tendrán el mismo valor de apalancamiento. Valor máximo posible: 1 Valor de corte: 2(k + 1 ) / N

26 Estadísticos de distancia Prasanta Chandra Mahalanobis (1936) Distancia Mahalanobis Ventaja: Es posible usar las distancias como un valor con una distribución conocida, cuya significancia puede examinarse, al encontrar su probabilidad asociada.

27 Estadísticos de distancia D de Cook

28 Comparación de los estadísticos de distancia Estadísticos de distancia a Caso 3 MínimoMáximoMediaDE Apalancamiento (Valor de influencia).002.207.075.0460.11 Distancia de Mahalanobis.0928.0752.9251.7804.30 Distancia de Cook.000.303.032.0510.30 a. Variable dependiente: Depresión No están cerca del máximo Está cercano al máximo Toma en cuenta la VD No toman en cuenta el puntaje de ese caso en la VD)

29 Estadísticos de influencia Detectan el efecto que el outlier tiene sobre el modelo. Si un puntaje altera drásticamente el modelo al que se llegó, ese caso tiene una influencia indebida.  DfBeta/ DfBeta estandarizada  DfAjuste / DfAjuste estandarizada Analizar Regresión Lineal Guardar Estadísticos de influencia

30 Diferencia entre DfBeta / DfBeta estandarizada el valor de beta cuando el caso es incluido y el valor de beta cuando el caso es excluido Habrá un valor de Df Beta por cada beta (VIs) y por el intercepto: Df beta ij i : Número de caso j : Estimado del parámetro Df beta 0 : Intercepto

31 Estadísticos de influencia DfBeta / DfBeta estandarizada Df BETA No estandarizadosDF Beta Estandarizados Df Beta 0 Intercept Df Beta 1 Eventos Df Beta 2 Molestias Df Beta 3 Apoyo Df Beta 0 Intercept Df Beta 1 Eventos Df Beta 2 Molestias Df Beta 3 Apoyo 5.160.03-0.360.160.190.26-0.740.62 Caso 3 El caso 3 no tiene influencia (la diferencia es pequeña) Valor de corte: El caso 3 sí tiene influencia (la diferencia es > el valor de corte)

32 Estadísticos de influencia Diferencia entre DfAjuste / DfAjuste estandarizada el valor predicho del caso cuando es incluido en el modelo y el valor predicho del caso cuando es excluido en el modelo Evalúa el cambio en el ajuste del modelo.

33 Estadísticos de influencia Modelo Coeficientes no estandarizados Coeficientes estandarizados tSig. BError estándarBeta 1(Constante) 97.76929.980 3.261.002 Eventos de la vida.286.138.3552.081.045 Molestias -.050.536-.015-.093.927 Apoyo social -.380.292-.210-1.298.202 a. Variable dependiente: Depresión Modelo con el caso 3 Modelo Coeficientes no estandarizados Coeficientes estandarizados tSig. BError estándarBeta 1(Constante) 92.60926.973 3.433.002 Eventos de la vida.255.124.3302.054.048 Molestias.309.495.096.624.537 Apoyo social -.541.268-.305-2.023.051 a. Variable dependiente: Depresión Modelo sin el caso 3 Valor predicho para el caso 3: 133.9 Valor predicho para el caso 3: 144.8

34 Estadísticos de influencia Df Ajuste No estandarizadoDf Ajuste Estandarizado -9.97-1.23 Caso 3 Valor de corte: DfAjuste / DfAjuste estandarizada El caso 3 sí tiene influencia (la diferencia es > el valor de corte)

35 Supuesto 2. HOMOSCEDASTICIDAD En cada nivel de los valores de la VI la varianza de los residuales es igual. Homo: igual Cedastitis: dispersión

36 Homocedasticidad Homoscedasticidad ¿Cómo examinar? Observar el patrón general de los residuales en el dispersigrama con valores residuales y predichos. Constancia en la varianza de los residuales a lo largo de la línea de regresión.

37 Heteroscedasticidad : Patrones inconsistentes formados por los residuales. Las varianzas en cada nivel de los valores predichos no son iguales. Homocedasticidad

38  En términos estadísticos, su efecto no es tan serio, ya que es similar al de la curtosis: hace que los errores estándar de los estimados sean inexactos. Por tanto, el cálculo de la significancia será erróneo.  En términos teóricos, su efecto será mayor, ya que el modelo resultará mal especificado. No cumplimiento de la homocedasticidad Implicaciones:

39 Homoscedasticidad Ejemplo Salario Importancia que se otorga a la caridad Cantidad donada Resumen del modelo ModeloR R2R2 R 2 ajustado Error estándar 1.793 a.629.609 0.035 a. Variable dependiente: Cantidad donada

40 Modelo Coeficientes no estandarizados Coeficientes estandarizados tSig. BError estándarBeta 1(Constante) 0.2396.833 0.035.972 Salario 2.2830.3290.7126.943.000 Importancia otorgada a la caridad 1.2650.5650.2292.238.031 a. Variable dependiente: Cantidad donada Homoscedasticidad Varianza alta Varianza baja

41  Teóricamente, significa que existe una relación más compleja entre las variables que se han modelado.  Probablemente, existe un efecto de interacción entre las diferentes variables. Ejemplo: La cantidad de dinero que done una persona dependerá: de (1) su salario y (2) de la importancia que otorgue a la caridad. No cumplimiento de la homocedasticidad Implicaciones:

42 El efecto del salario como predictor dependerá del nivel de importancia otorgada a la donación. Se requiere un tercer predictor: la interacción entre (1) y (2). No cumplimiento de la homocedasticidad Implicaciones: G. H. McClelland: “Diferentes pendientes para diferentes grupos”. A mayor importancia, más dinero se dona. Buen ajuste A mayor importancia, menos dinero se dona. Ajuste pobre

43 Supuesto 3. LINEALIDAD En cada valor posible de la VD la media esperada de los residuales es igual a cero.

44 Lineal No lineal Si la línea no es recta: los valores de la VI se corresponden con distintos valores de la VD; inclusive valores contradictorios entre sí. Supuesto 3. Linealidad

45 Existe una relación consistente entre X y Y, pero no es lineal. Si se usa un modelo de relación lineal, la predicción será errónea. Supuesto 3. Linealidad

46  El incremento predicho en y cuando x incrementa en una unidad permanece constante a lo largo del rango de valores de x. Los incrementos no son constantes.  El valor esperado de los residuales (es decir, la media de los residuales) en cada punto a lo largo del rango de la VD no es igual a cero: En el extremo más bajo y en el más alto de los valores de los residuales están arriba de cero y en los valores centrales están debajo de cero. No cumplimiento de la linealidad Implicaciones:

47 Ocurre una violación de este supuesto cuando:  Hay un efecto de techo. Ejemplo: no es posible obtener una calificación mayor de 10, se lea el número de libros que se lea.  Hay un efecto no lineal: se tiene un efecto diferente en los diferentes valores. Ejemplo: mientras más dinero se tenga, menos se aceptará hacer cosas por poca paga. No cumplimiento de la linealidad

48 Linealidad Ejemplo Tamaño (área) de una casa Precio de la casa Resumen b del modelo ModeloR R2R2 R 2 ajustado Error estándar 1.862 a.743.736 69.522 a.Predictores: (Constante), Tamaño (área) b.Variable dependiente: Precio de la casa Modelo Coeficientes no estandarizados Coeficientes estandarizados tSig. BError estándarBeta 1(Constante) -124.72337.366 -3.338.002 Tamaño (área) 3.9660.3790.86210.471.000 a. Variable dependiente: Precio de la casa

49 Linealidad Los datos parecer mostrar homoscedasticidad. Pero el valor promedio de los residuales en cada valor de la VD no es igual a cero. Valores de los residuales > 0 en los extremos Valores de los residuales < 0 en el centro

50 Linealidad En casas grandes, agregar área implica mayor diferencia en el precio. En casas pequeñas, agregar área implica menor diferencia en el precio. Relación no lineal Alternativa: Modelos de regresión no lineal

51 Supuesto 4. INDEPENDENCIA Para cualquier par de casos la correlación esperada entre los residuales debe ser igual a cero (carencia de autocorrelación).

52  Es el supuesto cuya violación es más difícil detectar.  Es el que más se ignora.  Es el más difícil de enfrentar (con mediadores o moderadores).  Propósito: LA PREVENCIÓN Independencia

53 Si los casos se autocorrelacionan, entonces se correlacionan unos con otros; por tanto, no son independientes. Ocasiones en las que ocurre:  Autocorrelación: En un diseño de series de tiempo : se evalúan medidas múltiples de la misma entidad.  No-independencia Las unidades de análisis se agrupan en conglomerados o clusters, por ejemplo, por área geográfica. Independencia

54 Diseños de series de tiempo Los participantes son medidos repetidas veces en el tiempo. Ejemplo: Independencia Comida Peso (en kg) Semanas 12 3456 78 4950 5152 ….. Más relaciónMenos relación Se autocorrelacionan

55 Ejemplo: ● Regiones ● Ciudades ● Distritos escolares ● Escuelas ● Grupos escolares Independencia Diseños de muestreo por racimos o clusters Los participantes se encuentran relacionados, por lo general, geográficamente. No son independientes

56 Independencia Datos jerárquicos o multinivel En realidad, dentro de cada cluster la relación es negativa, no positiva Línea de mejor ajuste Cluster W Cluster X Cluster Y Si no se considera la estructura de los datos, los resultados se interpretan inversamente.


Descargar ppt "Supuestos en el análisis de regresión Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage."

Presentaciones similares


Anuncios Google