Supuestos en el análisis de regresión Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage.

Slides:



Advertisements
Presentaciones similares
9 Regresión Lineal Simple
Advertisements

Construcción de modelos con regresión y correlación
Regresión lineal simple Nazira Calleja
Supuestos en el análisis de regresión
Supuestos en el análisis de regresión Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage.
CAPÍTULO 6 REGRESIÓN NO LINEAL Nazira Calleja Miles, J. & Shevlin, M. (2011). Applying regression & correlation. A guide for students and researchers.
REGRESIÓN LINEAL MÚLTIPLE TEMA INTRODUCCIÓN 2 x1x1 Y x2x2 x3x3 xKxK.
LEONARDO LÓPEZ C. ECONOMIA ESTADISTICA COMPUTARIZADA PARALELO: 261.
ESTADÍSTICA II Ing. Danmelys Perozo MSc. Blog:
Curso de posgrado: ANÁLISIS DE REGRESIÓN Universidad Nacional del Sur Nélida Winzer y Ricardo Camina 2012.
PPTCEG049EM32-A16V1 Distribución normal EM-32. Recordemos… -¿Cómo se calcula el valor esperado para una determinada variable aleatoria? -¿Cómo es posible.
Free and Quick Translation of Anderson's slides1 Modelo de Regresión Lineal Simple y =  0 +  1 x + u.
REGRESIÓN Y CORRELACIÓN  REGRESIÓN Es un Proceso estadístico que consiste en predecir una variable a partir de otra utilizando datos anteriores. INGA.
1 Pronósticos, Series de Tiempo y Regresión Capítulo 3: Regresión Lineal Simple.
Ing. VITELIO ASENCIOS TARAZONA. Dentro de los modelos causales o asociativos encontramos el análisis de regresión o regresión lineal, que es un método.
Procedimiento completo de regresión múltiple
Puntajes estándar y curva normal
Instituto Nacional de Estadística y Geografía
Curso de Elaboración de Pruebas Prof. Gerardo A. Valderrama M
Facultad de Ciencias Sociales
Capítulo 7 Análisis de Mediación
Procedimiento completo de regresión múltiple
Pedro Letelier Patricio Contreras
Continuación DE MCO.
MEP- II.
Análisis de varianza Paramétricos vs. No Paramétricos
El modelo simple de regresión
CORRELACIÓN PARCIAL Y CORRELACIÓN SEMIPARCIAL
ESTADÍSTICA II Ing. Danmelys Perozo MSc.
Capítulo 6 Regresión no lineal
Modelamiento Multinivel
Temas Estimador de Efectos Fijos: utiliza una transformación para eliminar el efecto inobservable ai antes de la estimación Estimador de Efectos Aleatorios:
CAPÍTULO 5 CUESTIONES PROBLEMÁTICAS EN EL ANÁLISIS DE REGRESIÓN Causalidad Nazira Calleja Miles, J. & Shevlin, M. (2011). Applying regression & correlation.
Correlación Lineal de Pearson y Regresión Lineal Simple
RELACIÓN ENTRE UNA VARIABLE DEPENDIENTE Y UNA O MAS INDEPENDIENTES.
Análisis descriptivo y presentación de datos bivariables
PREDICCIÓN Y ESTIMACIÓN
Estadística Básica Curso de Estadística Básica MCC. Manuel Uribe Saldaña MCC. José Gonzalo Lugo Pérez SESION 3 MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE.
REGRESÍON LINEAL SIMPLE
ECONOMETRIA I 3. MODELO LINEAL DE TRES VARIABLES
REGRESIÓN LINEAL SIMPLE
“Formulación de Hipótesis Estadística”
Kriging Consideremos información de determinada propiedad en el yacimiento y puntos en los cuales se tiene la estimación dea partir de los puntos.
ANÁLISIS DE REGRESIÓN SIMPLE
Modelo de regresión lineal múltiple. Estimación de parámetros. Evaluación de la recta estimada. Diagnóstico del modelo. Detección, evaluación de puntos.
Análisis de Regresión Lineal Curso de Verano ENCUP: Introducción al análisis cuantitativo en ciencias sociales Javier Aparicio División de Estudios Políticos,
ANALISIS DE VARIANZA
Correlación Relación no lineal Relación lineal positiva Relación
Analisis de Regresion Para dos Variables.
Ecuación Explícita de la Recta
ICPM050 – ECONOMETRÍA tema 03: ESTIMACIÓN MODELO LINEAL SIMPLE
Analisis de Regresion Para dos Variables.
Correlación Relación no lineal Relación lineal positiva Relación
Tema 6: Regresión lineal. 1. Introducción. 2. La ecuación de la recta. 3. El criterio de mínimos cuadrados. 4. Representación gráfica. 5. Coeficientes.
UNIVERSIDAD DE LOS ANDES CENTRO DE INVESTIGACIONES PSICOLÓGICAS
Presentación de datos e interpretación de resultados.
Regresión Lineal Simple
SERIES DE TIEMPO. Concepto Una serie de tiempo es un conjunto de observaciones de un fenómeno tomadas en tiempos específicos, generalmente a intervalos.
URBINA GUADARRAMA GILBERTO MORENO CONTRERAS TANGANXOAN ZUANGUA
Modelo de Regresión Lineal Simple
Correlación de Variables
Analisis de Regresion Multiple
¿Por qué se emplea el supuesto de normalidad? Se derivan con facilidad las distribuciones de probabilidad de los estimadores de MCO. Los estimadores de.
Regresión lineal Electivo Estadística IV°Medio 2019.
ESTADÍSTICA DESCRIPTIVA Mg. JHON FREDY SABI ROJAS.
Presentación de datos e interpretación de resultados.
ANALISIS DE REGRESION SIMPLE
ESTUDIO DE MERCADO. MÉTODOS DE PROYECCIÓN ¿Qué es una proyección? Es una estimación del comportamiento de una variable en el futuro. Específicamente, se.
REGRESION LINEAL SIMPLE
VARIANZA Y Y COVARIANZA DE VARIABLES ALEATORIAS Estadística II MI. MARTHA PAMELA RAMÍREZ VELA ITESM CAMPUS SALTILLO 1.
Transcripción de la presentación:

Supuestos en el análisis de regresión Miles, J. & Shervin, M. (2011). Applyng regression & correlation. A guide for students and researchers. London: Sage. Chap. 4. Parte 2. Supuestos para distribuciones multivariadas

Distribuciones multivariadas  Distribuciones conjuntas.  Contienen más de una variable.  Son más complejas que las univariadas.  Están regidas por los mismos principios.

Residuales  Diferencia entre los puntajes predichos por el modelo y los puntajes reales.  Error.

Residuales Distribución de los puntajes brutos = Distribución de los residuales Modelo de un parámetro: Media Residuales: Puntaje - media Todo se aplica de igual manera a las distribuciones de residuales. Puntajes brutos Residuales

Estimadores de mínimos cuadrados Media Beta o pendiente

Cuatro supuestos básicos 1. Normalidad en la distribución de los residuales En cada valor de la VD, la distribución de los residuales debe ser normal. 2. HomocedasticidadLa varianza de los residuales en cada grupo de valores de la VI debe ser igual. 3. Linealidad En cada valor posible de la VD, el valor esperado (la media) de los residuales debe ser igual a cero. 4. IndependenciaEl correlación esperada entre los residuales para cualquier par de casos debe ser igual a cero

Supuesto 1. NORMALIDAD En cada valor de la VD la distribución de los residuales es normal

 Puntajes extremos (outliers)  Tipos de residuales  Residuales no estandarizados (RESID)  Residuales estandarizados (Z-RESID)  Residuales studentizados (S-RESID)  Residuales eliminados (deleted) (D-RESID)  Comparación de los residuales  Interpretación de los outliers que influyen  Estadísticos de distancia  Apalancamiento (Leverage)  Distancia de Mahalanobis  Distancia de Cook (D de Cook)  Comparación de los estadísticos de distancia  Estadísticos de influencia  Diferencias de betas (Df-Beta) y Diferencias de betas estandarizados (Df-Beta tipificada)  Diferencias de ajuste (Df Ajuste) y Diferencias de ajuste estandarizado (Df Ajuste tipificado) Supuesto 1. NORMALIDAD

Supuesto 1. Normalidad de los residuales En cada valor de la VD, la distribución de los residuales debe ser normal. Examinar:  A) Outliers  B) Sesgo y curtosis

Outliers No outlier Outlier ¿Por qué? ¿Error o real? Distribución conjunta o multivariadas Distribuciones univariadas

Outliers Complicado con 1VI Muy difícil con 2VIs Imposible con >2VIs ¿Cómo examinar si hay outliers? Método gráfico Dispersigrama Métodos con residuales 1º Calcular una ecuación de regresión. 2º Ver qué tan lejos se encuentra el puntaje de su valor predicho.

Outliers ¿Cómo examinar si hay outliers? Modelo Coeficientes no estandarizados Error estándar de Beta Coeficientes estandarizados tSig. Constante IQ de la Mujer a. Variable dependiente: IQ del Hombre IQ del Hombre = X IQ de la Mujer º Cálculo de la ecuación de regresión. 3º. Cálculo de las diferencias entre los valores predichos y los reales (residuales) 2º Cálculo de los valores predichos para cada par de puntajes (IQ de cada Hombre X IQ de la Mujer). Distribución conjunta o multivariada

Outliers ¿Cómo examinar si hay outliers? IQ del Hombre = X IQ de la Mujer Línea de regresión Línea de mejor ajuste Residuales Dispersigrama con residuales Desventaja : Limitado a una VI.

Outliers ¿Cómo examinar si hay outliers? Histograma de residuales Outlier

Outliers ¿Cómo examinar si hay outliers? Dispersigrama con valores predichos y residuales Outlier Ventaja : Es posible usarlo cuando la regresión incluye muchas VIs.

Outliers Ejemplo Eventos de la vida Molestias Apoyo social Depresión

Outliers Eventos de la vida Molestias Apoyo social Depresión Distribución normal Dispersigramas bivariados sin outliers Distribución normal Eventos de la vida Molestias Eventos de la vida Apoyo social Eventos de la vida Depresión Molestias Eventos de la vida Molestias Apoyo social Molestias Depresión

Outliers Modelo Coeficientes no estandarizados Coeficientes estandarizados tSig. BError estándarBeta 1(Constante) Eventos de la vida Molestias Apoyo social a. Variable dependiente: Depresión Pero, ¿hay outlier multivariado? Analizar Estadísticos descriptivos Descriptivos Guardar valores estandarizados como variables

Outliers Analizar Estadísticos descriptivos Descriptivos Guardar valores estandarizados como variables Caso Eventos Z EventosMolestias Z MolestiasApoyo Z ApoyoDepresión Z Depresión Z RESID Aparece un outlier cuando se considera todos los puntajes con los residuales.

Outliers Analizar Regresión Lineal Guardar Valores pronosticados / Residuos Estandarizados [ZPRED / ZRESID] Outlier Dispersigrama con puntajes predichos y residuales

Tipos de residuales Analizar Regresión Lineal Guardar Residuos

Comparación de los residuales Caso 3

Estadísticos de detección de outliers Los outliers no siempre influyen los resultados del análisis de regresión. Los que sí influyen se denominan: casos de influencia. Para detectarlos se calculan: Estadísticos de Influencia Influyen sobre las correlaciones Estadísticos de Distancia Dirigen la línea en alguna dirección

Estadísticos de distancia  Apalancamiento (Valor de influencia)  Mahalanobis  D de Cook Analizar Regresión Lineales Guardar Distancias

Estadísticos de distancia h i = [1 / N ] + [ (x i –  ) / ∑ x²] Outlier Línea de regresión Se calcula sólo con los valores de la(s) VI(s), por lo que es posible que no detecte el outlier de influencia. Apalancamiento (Valor de influencia) hi : Estadístico de apalancamiento para el caso i. xi : La VI. K : Número de Vis N : Número de participantes Cualesquier par de casos que compartan el mismo valor de X (VI), tendrán el mismo valor de apalancamiento. Valor máximo posible: 1 Valor de corte: 2(k + 1 ) / N

Estadísticos de distancia Prasanta Chandra Mahalanobis (1936) Distancia Mahalanobis Ventaja: Es posible usar las distancias como un valor con una distribución conocida, cuya significancia puede examinarse, al encontrar su probabilidad asociada.

Estadísticos de distancia D de Cook

Comparación de los estadísticos de distancia Estadísticos de distancia a Caso 3 MínimoMáximoMediaDE Apalancamiento (Valor de influencia) Distancia de Mahalanobis Distancia de Cook a. Variable dependiente: Depresión No están cerca del máximo Está cercano al máximo Toma en cuenta la VD No toman en cuenta el puntaje de ese caso en la VD)

Estadísticos de influencia Detectan el efecto que el outlier tiene sobre el modelo. Si un puntaje altera drásticamente el modelo al que se llegó, ese caso tiene una influencia indebida.  DfBeta/ DfBeta estandarizada  DfAjuste / DfAjuste estandarizada Analizar Regresión Lineal Guardar Estadísticos de influencia

Diferencia entre DfBeta / DfBeta estandarizada el valor de beta cuando el caso es incluido y el valor de beta cuando el caso es excluido Habrá un valor de Df Beta por cada beta (VIs) y por el intercepto: Df beta ij i : Número de caso j : Estimado del parámetro Df beta 0 : Intercepto

Estadísticos de influencia DfBeta / DfBeta estandarizada Df BETA No estandarizadosDF Beta Estandarizados Df Beta 0 Intercept Df Beta 1 Eventos Df Beta 2 Molestias Df Beta 3 Apoyo Df Beta 0 Intercept Df Beta 1 Eventos Df Beta 2 Molestias Df Beta 3 Apoyo Caso 3 El caso 3 no tiene influencia (la diferencia es pequeña) Valor de corte: El caso 3 sí tiene influencia (la diferencia es > el valor de corte)

Estadísticos de influencia Diferencia entre DfAjuste / DfAjuste estandarizada el valor predicho del caso cuando es incluido en el modelo y el valor predicho del caso cuando es excluido en el modelo Evalúa el cambio en el ajuste del modelo.

Estadísticos de influencia Modelo Coeficientes no estandarizados Coeficientes estandarizados tSig. BError estándarBeta 1(Constante) Eventos de la vida Molestias Apoyo social a. Variable dependiente: Depresión Modelo con el caso 3 Modelo Coeficientes no estandarizados Coeficientes estandarizados tSig. BError estándarBeta 1(Constante) Eventos de la vida Molestias Apoyo social a. Variable dependiente: Depresión Modelo sin el caso 3 Valor predicho para el caso 3: Valor predicho para el caso 3: 144.8

Estadísticos de influencia Df Ajuste No estandarizadoDf Ajuste Estandarizado Caso 3 Valor de corte: DfAjuste / DfAjuste estandarizada El caso 3 sí tiene influencia (la diferencia es > el valor de corte)

Supuesto 2. HOMOSCEDASTICIDAD En cada nivel de los valores de la VI la varianza de los residuales es igual. Homo: igual Cedastitis: dispersión

Homocedasticidad Homoscedasticidad ¿Cómo examinar? Observar el patrón general de los residuales en el dispersigrama con valores residuales y predichos. Constancia en la varianza de los residuales a lo largo de la línea de regresión.

Heteroscedasticidad : Patrones inconsistentes formados por los residuales. Las varianzas en cada nivel de los valores predichos no son iguales. Homocedasticidad

 En términos estadísticos, su efecto no es tan serio, ya que es similar al de la curtosis: hace que los errores estándar de los estimados sean inexactos. Por tanto, el cálculo de la significancia será erróneo.  En términos teóricos, su efecto será mayor, ya que el modelo resultará mal especificado. No cumplimiento de la homocedasticidad Implicaciones:

Homoscedasticidad Ejemplo Salario Importancia que se otorga a la caridad Cantidad donada Resumen del modelo ModeloR R2R2 R 2 ajustado Error estándar a a. Variable dependiente: Cantidad donada

Modelo Coeficientes no estandarizados Coeficientes estandarizados tSig. BError estándarBeta 1(Constante) Salario Importancia otorgada a la caridad a. Variable dependiente: Cantidad donada Homoscedasticidad Varianza alta Varianza baja

 Teóricamente, significa que existe una relación más compleja entre las variables que se han modelado.  Probablemente, existe un efecto de interacción entre las diferentes variables. Ejemplo: La cantidad de dinero que done una persona dependerá: de (1) su salario y (2) de la importancia que otorgue a la caridad. No cumplimiento de la homocedasticidad Implicaciones:

El efecto del salario como predictor dependerá del nivel de importancia otorgada a la donación. Se requiere un tercer predictor: la interacción entre (1) y (2). No cumplimiento de la homocedasticidad Implicaciones: G. H. McClelland: “Diferentes pendientes para diferentes grupos”. A mayor importancia, más dinero se dona. Buen ajuste A mayor importancia, menos dinero se dona. Ajuste pobre

Supuesto 3. LINEALIDAD En cada valor posible de la VD la media esperada de los residuales es igual a cero.

Lineal No lineal Si la línea no es recta: los valores de la VI se corresponden con distintos valores de la VD; inclusive valores contradictorios entre sí. Supuesto 3. Linealidad

Existe una relación consistente entre X y Y, pero no es lineal. Si se usa un modelo de relación lineal, la predicción será errónea. Supuesto 3. Linealidad

 El incremento predicho en y cuando x incrementa en una unidad permanece constante a lo largo del rango de valores de x. Los incrementos no son constantes.  El valor esperado de los residuales (es decir, la media de los residuales) en cada punto a lo largo del rango de la VD no es igual a cero: En el extremo más bajo y en el más alto de los valores de los residuales están arriba de cero y en los valores centrales están debajo de cero. No cumplimiento de la linealidad Implicaciones:

Ocurre una violación de este supuesto cuando:  Hay un efecto de techo. Ejemplo: no es posible obtener una calificación mayor de 10, se lea el número de libros que se lea.  Hay un efecto no lineal: se tiene un efecto diferente en los diferentes valores. Ejemplo: mientras más dinero se tenga, menos se aceptará hacer cosas por poca paga. No cumplimiento de la linealidad

Linealidad Ejemplo Tamaño (área) de una casa Precio de la casa Resumen b del modelo ModeloR R2R2 R 2 ajustado Error estándar a a.Predictores: (Constante), Tamaño (área) b.Variable dependiente: Precio de la casa Modelo Coeficientes no estandarizados Coeficientes estandarizados tSig. BError estándarBeta 1(Constante) Tamaño (área) a. Variable dependiente: Precio de la casa

Linealidad Los datos parecer mostrar homoscedasticidad. Pero el valor promedio de los residuales en cada valor de la VD no es igual a cero. Valores de los residuales > 0 en los extremos Valores de los residuales < 0 en el centro

Linealidad En casas grandes, agregar área implica mayor diferencia en el precio. En casas pequeñas, agregar área implica menor diferencia en el precio. Relación no lineal Alternativa: Modelos de regresión no lineal

Supuesto 4. INDEPENDENCIA Para cualquier par de casos la correlación esperada entre los residuales debe ser igual a cero (carencia de autocorrelación).

 Es el supuesto cuya violación es más difícil detectar.  Es el que más se ignora.  Es el más difícil de enfrentar (con mediadores o moderadores).  Propósito: LA PREVENCIÓN Independencia

Si los casos se autocorrelacionan, entonces se correlacionan unos con otros; por tanto, no son independientes. Ocasiones en las que ocurre:  Autocorrelación: En un diseño de series de tiempo : se evalúan medidas múltiples de la misma entidad.  No-independencia Las unidades de análisis se agrupan en conglomerados o clusters, por ejemplo, por área geográfica. Independencia

Diseños de series de tiempo Los participantes son medidos repetidas veces en el tiempo. Ejemplo: Independencia Comida Peso (en kg) Semanas ….. Más relaciónMenos relación Se autocorrelacionan

Ejemplo: ● Regiones ● Ciudades ● Distritos escolares ● Escuelas ● Grupos escolares Independencia Diseños de muestreo por racimos o clusters Los participantes se encuentran relacionados, por lo general, geográficamente. No son independientes

Independencia Datos jerárquicos o multinivel En realidad, dentro de cada cluster la relación es negativa, no positiva Línea de mejor ajuste Cluster W Cluster X Cluster Y Si no se considera la estructura de los datos, los resultados se interpretan inversamente.