MODELOS GENERALIZADOS

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

DSITRIBUCION T DE STUDENT.
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
Modelos de Variable Dependiente Binaria -Logit y Probit-
Pronósticos, Series de Tiempo y Regresión
Bivariadas y Multivariadas
KRIGING.
INFERENCIA ESTADISTICA
MODELO DE REGRESIÓN MÚLTIPLE
Regresión Lineal y Regresión Polinomial
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Econometria 2. Modelo de Regresión Lineal Simple
Capitulo 10: La metodología Box-Jenkins
Regresión y correlación
ANÁLISIS DISCRIMINANTE
Nombre: Israel Espinosa Jiménez Matricula: Carrera: TIC Cuatrimestre: 4 Página 1 de 5.
Estadística Descriptiva: 4. Correlación y Regresión Lineal
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
Regresión Lineal Simple
9 Regresión Lineal Simple
Tema 2: Métodos de ajuste
MEDIDAS DE CORRELACIÓN
Tests de hipótesis Los tres pasos básicos para testear hipótesis son
Estadística 2010 Maestría en Finanzas Universidad del CEMA Profesor: Alberto Landro Asistente: Julián R. Siri.
Análisis de supervivencia Tema 5 Itziar Aretxaga.
3er Encuentro de Usuarios de Stata en México
Técnicas estadísticas paramétricas univariantes: regresión
Inferencia Estadística
Clases 4 Pruebas de Hipótesis
MODELOS DE ELECCIÓN BINARIA: ANÁLISIS LOGIT
Pronósticos, Series de Tiempo y Regresión
Pronósticos, Series de Tiempo y Regresión
REGRESION LINEAL III Mario Briones L. MV, MSc 2005.
Distribuciones derivadas del muestreo
ESTADÍSTICA BÁSICA EN ECOLOGÍA EVOLUTIVA Juan J. Soler Cruz Estación Experimental de Zonas Áridas Almería.
DISTRIBUCIONES DE MUESTREO
Unidad V: Estimación de
ESTIMACION En varios pasajes de este libro hemos planteado la dificultad que se confronta en las investigaciones, de llegar a conclusiones sobre una población.
ANALISIS DE FRECUENCIA EN HIDROLOGIA (3)
Métodos de calibración: regresión y correlación
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Capítulo 7 Estimación de Parámetros Estadística Computacional
REGRESION LINEAL MULTIPLE: Introducción
Titular: Agustín Salvia
Normalidad, Variabilidad y estimación del Modelo de Regresión
Introducción a la Inferencia Estadística
Inferencia Estadística
Unidad V: Estimación de
Capítulo 1. Conceptos básicos de la Estadística
Teoría de Probabilidad Dr. Salvador García Lumbreras
Si comparamos este intervalo con (10.5), vemos que el intervalo de confianza para la Y 0 individual es más amplio que el intervalo para el valor medio.
Estimación y contraste de hipótesis
Análisis de los Datos Cuantitativos
Regresión Lineal Simple
BASES PARA EL RAZONAMIENTO EN ESTADÍSTICA INFERENCIAL
ESTIMACIÓN DE PARÁMETROS
Regresión lineal simple Nazira Calleja
UNIVERSIDAD CENTRAL DEL ECUADOR FACULTAD DE CIENCIAS ECONOMICAS INFERENCIA ESTADISTICA TEMA: ESTIMACION PUNTUAL, PROPIEDADES DE LAS ESTIMACIONES;
Departamento de Informática Universidad Técnica Federico Santa María EconometríaEconometría Capitulo II.
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
Intervalos de Confianza M. C. José Juan Rincón Pasaye UMSNH – FIE Mayo de 2003.
Estimación estadística
Metodología de Ajuste y Análisis de Diagnóstico en Modelos Lineales Generalizados Diciembre 2009 MPDíaz.
TAMAÑO DE LA MUESTRA Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia.
Regresión logística binomial
PRUEBA DE SIGNIFICANCIA
Regresión logística Tema 6c. En la regresión lineal la variable dependiente es continua En regresión logística se utiliza cuando la variable dependiente.
Transcripción de la presentación:

MODELOS GENERALIZADOS Luis M. Carrascal Los modelos Generalizados Lineales tienen tres propiedades: 1) la estructura del error 2) el predictor lineal 3) la función de vínculo

ESTRUCTURA DEL ERROR En modelos Generales Lineales la variable dependiente y sus residuos debían ajustarse a una normal. Sin embargo, hay numerosas situaciones en las que esto no ocurre: 1) errores fuertemente sesgados o con mucha kurtosis 2) los datos están acotados (proporciones; no mayores que 1/1) 3) no existen valores menores que cero (conteos). Ante estos hechos en GLM nos ‘aproximábamos’ transformando para conseguir la normalidad de los errores (residuos)

ESTRUCTURA DEL ERROR (2) Si generalizamos la definición de la distribución de los errores, entonces podemos trabajar con otras distribuciones de los mismos: 1) distribuciones Poisson (útiles con conteos) 2) distribuciones Binomiales (útiles con proporciones) 3) distribuciones Gamma (datos con CV homogéneo) 4) ...

Variable Poisson

PREDICTOR LINEAL Se relacionan valores observados con aquellos predichos por el modelo El valor predicho se obtiene a partir de un predictor lineal (‘eta’). Si el predictor lineal no mantiene una asociación lineal con los valores originales, entonces debe ser transformado. La estructura lineal viene definida por: Para i observaciones (casos) y p variables predictoras. xij son los valores del caso i en la variable j betaj es el coeficeinte de regresión que define una asociación lineal con los valores xij.

g(xi) = α + β1·x1i + ... + βp·xpi FUNCIÓN DE VÍNCULO Para determinar la estructura lineal del predictor, el procedimiento GzLM evalua diferentes configuraciones del predictor lineal que incluye los coeficientes betaj, comparando los valores predichos ‘etai’ con los valores observados en la variable respuesta (dependiente). En estas comparaciones entre valores observados y valores predichos ‘etai’, debe ocurrir que la asociación sea lineal. Por ello necesitamos definir una función que establezca este vínculo lineal (g). g(x) es la función predictora. g(xi) = α + β1·x1i + ... + βp·xpi etai = g(xi)

E[Yi] = inverso de la función g(xi) FUNCIÓN DE VINCULO (2) El valor predicho para y (E[Yi]) se obtiene efectuando el inverso de la función de vínculo con los valores ‘eta’. E[Yi] = inverso de la función g(xi) La mejor función de vínculo es aquella que consigue que los valores observados y predichos estén bastante próximos a lo largo de todo el espectro de variación de la variable dependiente.

FUNCIÓN DE VINCULO (3)

PROCEDIMINETOS DE ESTIMA En GLM, trabajando con distribuciones normales, el procedimiento OLS es adecuado. Sin embargo, para otras distribuciones de errores que no se ajusten a la normal, el procedimiento OLS proporciona estimas sesgadas de los valores de los parámetros betaj. El procedimiento utilizado en esta ocasión es el de ‘maximum likelihood’. Supone una búsqueda iterativa de soluciones (no existe una solución única que pueda obtenerse por álgebra matricial).

PROCEDIMINETOS DE ESTIMA (2) Maximum likelihood es un procedimiento laborioso de búsqueda de soluciones. Se busca el modelo más adecuado que mejor describa los datos observados (variación de la variable dependiente). El modelo se ajusta a los datos, no a la inversa. El mejor modelo es aquel que produce la mínima variabilidad residual, bajo la premisa de que todos los parámetros en el modelo son estadísticamente significativos.

maximizan la probabilidad de predecir correctamente PROCEDMINETOS DE ESTIMA (3) Se asumen los siguientes hechos: 1) dado que los datos son correctos 2) dado que tenemos un modelo que describe los datos 3) ¿cuáles son los parámetros del modelo que maximizan la probabilidad de predecir correctamente los datos observados? Si el modelo es apropiado, y los parámetros obtenidos son buenos, entonces ... es muy probable que los datos observados en la variable dependiente se deriven de los procesos implícitos en el modelo

‘iterative, weighted least squares’ PROCEDIMINETOS DE ESTIMA (4) El algoritmo de cálculo se denomina: ‘iterative, weighted least squares’ La magnitud de discrepancia entre el modelo (aproximación a la realidad y sus mecanismos) y los datos es una medida de lo inadecuado del modelo. Se denomina DEVIANZA. Comparando la devianza del modelo seleccionado con la devianza del ‘modelo completo’ se tiene una medida de cuan adecuado es el modelo.

PROCEDIMINETOS DE ESTIMA (5) ‘mu’ es la media

PROCEDIMINETOS DE ESTIMA (6) La discrepancia (devianza; S) del ajuste es proporcional a dos veces la diferencia entre el ‘maximum likelihood’ (l) obtenible y el ‘maximum likelihood’ retenido por el modelo. S(modelo,máxima) = - 2 · ln (lmodelo/lmáxima) con g.l.máxima - g.l.modelo grados de libertad

PROCEDIMINETOS DE ESTIMA (7) Tipos de modelos: NULO: sólo la gran media COMPLETO: (‘full’): tantos parámetros como observaciones (dev=0) MAXIMO: el que contiene todos los efectos identificados como ‘potencialmente’ relevantes. SELECCIONADO MINIMO ADECUADO: con el mínimo número de efectos (parámetros estimados), siendo estos significativos.

PROCEDIMINETOS DE ESTIMA (8) A la hora de efectuar la selección del modelo adecuado (o el mínimo adecuado) debemos seguir procesos ‘stepwise’. Esta aproximación no supone un problema si los efectos (i.e., variables independientes) son ortogonales, esto es, efectivamente independientes entre si. Si este no es el caso (dependencia entre variables independientes), entonces el orden de salida de las variables independientes afectará a la devianza de los sucesivos modelos (en backward stepwise). Por tanto, la significación de efectos dependerá principalmente de la secuencia de la salida de las variables y no de su magnitud de efecto real. Este problema se agrava en ‘forward stepwise’. Por tanto reducción por AIC.

SIGNIFICACIÓN DE EFECTOS Excepto en el caso de los errores normales y la función de vínculo identidad, no podemos asignar probabilidades exactas en el examen de la significación de los efectos. Para tamaños muestrales grandes (>30) las probabilidades son asintóticamente correctas si no ha habido apreciables desvíos de los supuestos canónicos (las probabilidades reales serán parecidas a las estimadas). Dos modos de estimar probabilidades: 1) mediante los parámetros y sus errores estándar obteniendo t-Student 2) comparando el modelo con sus efectos con otros que no incluyen cada uno de ellos (estimar los cambios en devianza) -----> LA MEJOR APROXIMACIÓN

SIGNIFICACIÓN DE EFECTOS (2) 1) Introducimos todos los efectos anotamos devianza, grados de libertad (modelo 1) 2) Eliminamos un efecto; estimamos su modelo (modelo 2) 3) Contribución del efecto eliminado: DEVIANZA MOD 1 - DEVIANZA MOD 2 Grados de libertad del efecto: GRADOS LIB MOD 1 - GRADOS LIB MOD 2 4) Estima de significación: Chi2 = diferencia de devianzas con grados de libertad = diferencia de los gardos de libertad

SIGNIFICACIÓN DE EFECTOS (3) 5) También podemos aproximarnos a una F de Fisher comparando dos modelos (1 vs nulo (n)) y el coeficiente de sobredispersión (ρ) devianza residual (D1) y grados de libertad (p) del modelo 1 devianza residual (Dn) y grados de libertad (q) del modelo 2 F ≈ (Dn – D1) / (ρ · (p – q)) 6) Estima de significación: F con grados de libertad = diferencia de los grados de libertad

REVISIÓN DE LA VALIDEZ DEL MODELO SOBREDISPERSIÓN (OVERDISPERSION) Es un problema importante al trabajar con errores binomiales, multinomiales o poisson. La devianza escalada, o la Chi2 de Pearson escalada deben aproximarse a UNO. Si no se aproximan a 1: 1) los supuestos canónicos acerca de la distribución de los errores y la función de vínculo establecida son inadecuados 2) no se han considerado otras variables independientes que son importantes en el sistema Si ρ > 1 contribuye a inflar el error de tipo I ρ < 1 contribuye a inflar el error de tipo II

REVISIÓN DE LA VALIDEZ DEL MODELO (2) SOBREDISPERSIÓN (2) Si el parámetro sobredispersión se desvía “sustancialmente” de UNO: 1) corregimos las estimas de significación con la devianza escalada (no cambian los parámetros de regresión, pero SÍ las p’s) 2) transformamos los valores de las variables independientes 3) rehacemos el modelo con otras distribuciones o funciones de vínculo canónicas.

REVISIÓN DE LA VALIDEZ DEL MODELO (3) EXPLORACIÓN DE RESIDUOS ‘Residual plots’: representación de los residuos frente a las predicciones del modelo. Deben producir ‘patrones de cielo estrellados’ ADEMÁS: 1) Leverage 2) Distancias de Cook Y