Metodología de Ajuste y Análisis de Diagnóstico en Modelos Lineales Generalizados Diciembre 2009 MPDíaz.

Slides:



Advertisements
Presentaciones similares
Regresión Lineal Verificación de Supuestos
Advertisements

CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
Error Estándar de la Media
Ejemplo Grafico.
Modelos de Variable Dependiente Binaria -Logit y Probit-
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Variable Aleatoria Continua. Principales Distribuciones
Pronósticos, Series de Tiempo y Regresión
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Capitulo 10: La metodología Box-Jenkins
Regresión y correlación
Giancarlo Vivanco Juan Pablo Villarroel
CURSO DE ESTADÍSTICA BÁSICA
CONTRASTE Y VALIDACIÓN DE UN MODELO
Estadística Descriptiva: 4. Correlación y Regresión Lineal
Tema 1- Regresión lineal simple.
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
9 Regresión Lineal Simple
División de Estudios Políticos, CIDE
Facultad: Turismo Y Hotelería
Distribuciones bidimensionales. Tablas de contingencia
Control estadístico de Proceso
Inferencia Estadística
Unidad VI: PRUEBAS DE HIPOTESIS
15 Análisis de Regresión Múltiple
MODELOS GENERALIZADOS
Unidad V: Estimación de
Importancia de las aplicaciones de estadística en el control de procesos Guatemala 2010.
Pronósticos, Series de Tiempo y Regresión
VARIABLE ALEATORIA Y DISTRIBUCION DE PROBABILIDAD
Modelo de regresión con dos variables: Estimación
1 M. en C. Gal Vargas Neri. 2 Planeación del curso TEMACAP.TITULODÍASSEMFEC FIN TEMA 00MOTIVACION Y PLANEACION1111/01 TEMA I1-2ESTADISTICA Y MEDICION2115/01.
Coeficiente de Variación
Departamento de Informática Universidad Técnica Federico Santa María
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
Inferencia Estadística
Análisis y diseño de experimentos
Diseño Completamente Aleatorizado: ejemplo
Capítulo 1. Conceptos básicos de la Estadística
Regresión lineal simple
Índice: Introducción Conceptos básicos Procesos elementales
Regresión lineal múltiple
Diseño de EXPERIMENTOS
Pruebas de hipótesis.
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
ANÁLISIS DE REGRESIÓN SIMPLE
(Validez de un estudio)
Estimación Diferencia de dos medias
Estimación y contraste de hipótesis
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
Aplicaciones Estadísticas a las Finanzas Clase 1
ESTIMACIÓN DE PARÁMETROS
Construcción de modelos con regresión y correlación
Regresión lineal simple Nazira Calleja
Unidad 4 Análisis de los Datos.
ANÁLISIS DE LA INFORMACIÓN La relación entre variables.
Supuestos en el análisis de regresión
INFERENCIA ESTADÍSTICA
Aplicaciones Estadísticas a las Finanzas Clase 1
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Introducción a la Estadística Inferencial con SPSS Juan José Igartua Perosanz Universidad de Salamanca
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
REGRESIÓN LINEAL SIMPLE TEMA INTRODUCCIÓN Determinar la ecuación de regresión sirve para: – Describir de manera concisa la relación entre variables.
Estimación estadística
Free and Quick translation of Prof. Anderson's slides1 Analisis de Regresion Multiple y =  0 +  1 x 1 +  2 x  k x k + u 1. Estimacion.
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
ANALISIS DE VARIANZA.
Transcripción de la presentación:

Metodología de Ajuste y Análisis de Diagnóstico en Modelos Lineales Generalizados Diciembre 2009 MPDíaz

METODOLOGÍA Cómo trabajar con MLG´s? (i) Formulación de modelos (ii) Ajustes de modelos (iii) Inferencia MLG´sflexibles en (i) cómputos simples en (ii) criterios razonables en (iii) secuencialmente secuencialmente 3 ETAPAS CARACTERÍSTICAS DATOS IND. (NO CORREL.) ÚNICA ESTRUCTURA ERROR

(i) FORMULACIÓN DE MODELOS: Analizar datos asimetría Analizar datos asimetría ptos. críticos naturaleza ptos. críticos naturaleza intervalo variación intervalo variación TRINOMIO Por ejemplo: Y v.a. fdp continua asimétrica, Gama, Normal Inversa [ 0, ) intervalo variación Normalcontinua y IV =  C. V. constante Gamma conteos; análisis datos continuos (n grande),  Poisson Binomial datos en forma proporciones continuos con subdispersión ( <1)  V (  b¨(   Gama, Binomial Negativa Normal Inversa C. Aleatorio: C. Aleatorio:

* SuperdispersiónCuál elijo? DEPENDE DISPERSIÓN DE LOS DATOS B.N.V (  ) =  +  2 /k  POISSON Modelo básico para conteos con superdispersión * Sub - dispersión V (  ) <  POISSON + <1 BINOMIAL POSITIVA

Tabla de combinación distribución / enlace para casos especiales de MLG´s. Propiedades, interpretación. Función de enlace: Función de enlace: Predictor lineal : X v´s continuas v´s cualitativas v´s mixtas Predictor lineal : X v´s continuas v´s cualitativas v´s mixtas criterios para incluir / sacar COVARIABLES Un MLG es bueno si consigue explicar la relación media-varianza satisfactoriamente y si produce efectos ADITIVOS en la escala del ¨enlace¨. Parsimonioso

(ii) AJUSTE DE MODELOS: Estimar  desconocidos MMVsimple+ usado Algoritmo (Nelder & Wedderburn, 1972) Robustez (convergencia)Problemas (iii) INFERENCIA: Analizar Adecuación ¨como un todo¨. Realizar estudio detallado de discrepancias locales. » Análisis de la Precisión e Interdependencia estimaciones de  i » Construcción regiones de confianza  » Tests de hipótesis (simples y compuestas) sobre  » Análisis estadístico de residuos » Realizar prediccionescuán buenas? Depende ADECUACIÓN

DIAGNÓSTICO. GRÁFICOS USUALES: Residuos estandarizados vs valores ajustados OK Media / Varianza propuesta es OK Residuos vs covariables no incluidas (otros…) Residuos vs número índice (otros…) Tests: - Criterio Razón MV en relación al modelo saturado. - Estadístico de Pearson (X 2 ) Generalizado.

MODELO MAL AJUSTADO? Pregibon (1979) (PhD Tesis) (i) Inclusión de p covariables, p grande (ii) Contrario ( no refleja mecanismo de generación de los datos) (iii) Datos no suficientes para detectar fallas debido a mala selección de la relación Error / Enlace.

SELECCIÓN DEL MODELO: FUNCIÓN DE ENLACE CRÍTICO  ij ’s  CORDEIRO (1996): Se deben a priori eliminar modelos mediocres observando la estructura de los datos. En la selección del modelo SIEMPRE será realizado un balance entre el grado de complejidad y la bondad del ajuste del modelo. TIPOS DE MODELOS INSTANCIAS

DIAGNÓSTICO en MLG Técnicas para verificación del ajuste Formales Informales Tipos de Discrepancias SISTEMÁTICAS AISLADAS Causas de la falta de Ajuste: predictor lineal puntos discrepantes función de enlace función de varianza

MATERIAL BÁSICO 1) valores ajustados i estimados 2) varianza o discrepancia residual: (muestral) S 2 3) leverage: h (<2 p/m) H = W 1/2 X (X’ W X) -1 X’ W 1/2 4) RESIDUOS: R i = h i (Y i,  i ) función adecuada (fácil de interpretar) r i = h i (Y i,  i ) residuo verdadero Modelo Adecuado:* modelar bien relación media varianza * producir efectos aditivos en una escala apropiada (link)

TÉCNICAS FORMALES Para discrepancias sistemáticas (Se basa en parámetros extras) covariables adicionales covariables construidas Discrepancias aisladas?Variables dummy para puntos TODAS OBSERVAN CAMBIO DE DEVIANCE

RESIDUOS absolutos estandarizados delection Se usa H = W 1/2 X (X’ W X) -1 X’ W 1/2 Se muestra que V 1/2 (  -  )  H V 1/2 (y -  ) V = diag {V(  i )}H mide la influencia, en unidades estud., de cambios en Y sobre  i Residuos PearsonResiduos de Deviance Desventaja: r p tiene distribución asimétrica, no así los de deviance. Ventajas:  observación, cómputos simples, mayor simetría con r p. r p = r D =

Residuos Pearson estudentizados internamente Residuos Deviance estudentizados exter e internamente (WILLIAMS, 1987). Residuos de Anscombe

CUÁL ES MEJOR? 1) Deviance 2) Anscombe 3) Pearson PARA QUÉ? Desvíos sistemáticos (propiedades preferidas) 1 r D vs, información cte. PATRÓN NULO r D vs (normal), vs 2log (gama) r D vs (Poisson) r D vs(Binomial), vs –{ } -1/2 (NInv)

Patrón nulo indica r D  N  0,   constante) c.c.apariencia curvatura en la media un cambio sistemático de rango * mal enlace * mala escala para x’s * más covariables * omisión términos cuadráticos

2 r D vs X, covariable en  PATRÓN NULO si Э patrón sistemático: a) mal enlace b) escala incorrecta de X’s c) mala escala de Z 3 Gráfico Residuos Parciales (variable u omitida)  =X β  ’ = X β + γ u obtener residuos Graficar esos residuos vs u Para evaluar:- estructura omitida - heterocedasticidad (1)

4 Gráfico usuales de índices; res. abs. vs residuos vs X fuera modelo residuos vs X dentro modelo FUNCIÓN DE VARIANZA Plot residuos vsPATRÓN NULO tendencia > 0la ν (μ) elegida crece con μ tendencia < 0precisa menos potencia necesita incrementar su potencia

FUNCIÓN DE ENLACE Informal: plot vsRECTA (buen link) Enlance en flia. potencia curvatura indica mal exponente BONDAD DE AJUSTE DE LA FUNCIÓN ENLACE Asumimos  = g (μ) g* (μ) verdadera.. g (μ) = g {g * -1 (  )} = h (  ) g* -1 (  ) = μ {H o : h (  ) = , vs H A : no lineal} Expansión Taylor : g (μ) = h (  )  h (o) +  h ’ (o) + (  2 /2) h ‘‘ (o)  X β + γ  2  ajustar MLG con nueva covariable, el  2 estimado.

Verificar escala de covariables : Verificar escala de covariables : -usar residuos parciales para indagar si βx’ puede ser mejorado por βh(x’, λ), donde h(., λ) monótona. -MLG ajustado más residuo parcial: Plot de u versus x  debe ser lineal, si la escala de X es buena. (observa escala del predictor adicionándole la variable de interés).

Discrepancias Aisladas Discrepancias Aisladas, E(Y)=μ. a)Excluir punto  Deviance menor (poco afecta al estimador – pendiente). b) incluir punto  Mejora precisión de las estimaciones, sin mucho cambio. (punto consistente con el resto de datos)

c) El punto determina la estimación de la pendiente!, cambia deviance. (punto influyente) Necesitamos de estadísticos para establecer criterios: 1)Leverage (si modifica ) 2)Distancia de Cook (consist.) 3)Residuos jackknife (influencia) MEDIDAS DE INFLUENCIA

Medidas de Influencia Si h >2p/n  alto leverage (punto que tiene gran influencia en la magnitud de las estimaciones), Si h >2p/n  alto leverage (punto que tiene gran influencia en la magnitud de las estimaciones), Consistencia: un punto es inconsistente si tiene alto residuo en el modelo que NO lo incluye  usar residuos “delection” (si son pequeños, los puntos son consistentes). Consistencia: un punto es inconsistente si tiene alto residuo en el modelo que NO lo incluye  usar residuos “delection” (si son pequeños, los puntos son consistentes). Influencia: distancia de Cook  medida de la diferencia Influencia: distancia de Cook  medida de la diferencia Depende del número de parámetros.

Evaluación informal Gráficos de {h, r*, c i } versus índices Gráficos de {h, r*, c i } versus índices Estadísticos con comportamiento (asintótico) normal. Estadísticos con comportamiento (asintótico) normal. Normal y “Half Normal” plot (incluye en tamaño muestral) Observar cuánto se aleja de la recta de pendiente 1. No sirve si n es pequeño