Modelos Lineales Generalizados Mixtos Bayesianos Semiparamétricos Sesión 4
Modelos Marginales vs GLMM Recordemos nuestro ejemplo: p c 2 ¾ + 1 = : 5 9 8 GEE GLMM Estimación (EE) Estimación (EE) Razón (Intercept) -0.7396 (0.1664) -1.6183 (0.5707) 2.188075 trt 0.0373 (0.2467) -0.1608 (0.7274) -4.310992 times -0.1319 (0.0263) -0.3910 (0.0329) 2.964367 trt:times -0.0896 (0.0484) -0.1368 (0.0451) 1.526786
GLMM Bayesianos semiparamétrico ( y i j b ) = ¹ h ( ¹ i ) = X ¯ + Z b b i d » N ( ; § )
GLMM Bayesianos semiparamétrico ( y i j b ) = ¹ h ( ¹ i ) = X ¯ + Z b b i d » N ( ; § ) ¿Porqué normal?
GLMM Bayesiano semiparamétrico ( y i j b ) = ¹ h ( ¹ i ) = X ¯ + Z b b i j G d » Medida de Probabilidad Aleatoria
GLMM Bayesiano semiparamétrico Modelos de probabilidad en el espacio de distribuciones de probabilidad Dirichlet Process (DP) y variaciones: Mixtures of DP DP Mixture Models Polya Trees (PT) y variaciones: Mixtures of PT
Procesos de Dirichlet G j M ; » D P ( ) Introducidos por Ferguson (1973, The Annals of Statistics, 1: 209-230). Diferentes caracterizaciones: Distribución de realizaciones finito-dimensionales. Urnas de Polya (Blackwell y MacQueen, 1973, The Annals of Statistics, 1: 353-355) Stick-Breaking (Sethuraman, 1994, Statistica Sinica, 4: 639-650; Rolin, 1993) Notación: G j M ; » D P ( )
Procesos de Dirichlet: Caracterización constructiva G0 es una medida de probabilidad en el espacio de interés y M > 0 Trajectorias en el espacio de la distribuciones de probabilidad discretas: Donde, G ( ¢ ) = P 1 i ! ; ± µ µ 1 ; 2 : i d » G ! l = V Q ¡ 1 j ( ) V 1 ; 2 : i d » B e t a ( M )
Procesos de Dirichlet: Caracterización constructiva Q l ¡ 1 j = ( V ) V l ! l 0.4 0.6 0.5 0.3 0.3 0.8 0.24 G0
µ ; : j G » G j M ; » D P ( ) Procesos de Dirichlet E ( G j M ; ) = V Principales propiedades: Si y E ( G j M ; ) = V a r ( G j M ; ) = 1 ¡ + µ 1 ; : n j G i d » G j M ; » D P ( ) G j µ 1 ; : n M » D P Ã + X i = ± !
Procesos de Dirichlet M=1 M=100
Mezclas de procesos de Dirichlet En la práctica puede ser difícil especificar G0 para centrar el DP. Una alternativa es centrar el DP en una familia paramétrica y considerar una distribución a priori Esto se conoce con el nombre de mezcla de procesos de Dirichlet. f G ª : 2 © g P ( d ª )
Mezclas inducidas por DP (Dirichlet process mixtures) La naturaleza discreta de los DP es molesto en algunas aplicaciones (e.g., modelamiento de densidades). Una alternativa es considerar la convolución F ( x ) = Z f j µ G d M ; » D P :
Árboles de Polya
Árboles de Polya
µ ; : j G » G j ¦ ; A » P T ( ) Árboles de Polya ® = + ² 2 E G j µ ; : Principales propiedades: Si para todo , entonces G distribuye DP. Si y ® ² = + 1 ² 2 E ¤ µ 1 ; : n j G i d » G j ¦ ; A » P T ( ) G j µ 1 ; : n » P T ( ¦ A ¤ ) A ¤ = f ® ² : 2 E g ; ® ¤ ² = + n
Árboles de Polya Principales propiedades: Es posible centrar el árbol de Polya en torno a un G0, i.e., E(G)=G0. asegura que G es absolutamente continua con probabilidad 1. ® ² 1 ¢ m = c 2
Árboles de Polya c=5 c=2000
Mezclas de árboles de Polya
GLMM Bayesiano semiparamétrico R package DPpackage Disponible desde: http://www.r-project.org/
GLMM Bayesiano semiparamétrico Modelo condicional: y i j ´ ; ¾ 2 n d : » N ( ) y i j ´ n d : » P o s ( e x p f g ) y i j ´ n d : » B ( e x p f g = 1 + ) y i j ´ n d : » B ( © ) y i j ´ ; º n d : » ¡ ( l o g ) y i j ´ ; ° n d : » M u l t ( K f © k + ) = 1 g
GLMM Bayesiano semiparamétrico Modelos noparamétricos: DP/MDP (versión actual). Mezclas de normales inducidas por un DP (DP mixtures of normals) (versión actual). PT/MPT (disponible desde el autor).
Ejemplo: Datos de colesterol Estudio Framingham: 200 sujetos muestreados en forma aleatoria. Los datos incluyen el nivel de colesterol medido al inicio del estudio y cada 2 años por 10 años, la edad al inicio del estudio, y el género. Modelo: Y i j = ¯ + 1 s e x 2 a g 3 t b ²
Ejemplo: Datos de colesterol
Ejemplo: Datos de colesterol Bayesian semiparametric linear mixed effect model Call: PTlmm.default(fixed = y ~ sex + age, random = ~time | newid, prior = prior, mcmc = mcmc, typep = 1, state = state, status = TRUE) Posterior Inference of Parameters: (Intercept) time sex age residual mu-(Intercept) 1.71841 0.28138 -0.04530 0.01530 0.04287 1.90133 mu-time sigma-(Intercept)-time sigma-time alpha 0.25536 0.03770 0.08916 1.00000 Acceptance Rate for Metropolis Steps = 0.4368853 0.3886319 0.3425111 Number of Observations: 1044 Number of Groups: 200
Ejemplo: Datos de colesterol I C L P N r m a - 6 3 . 4 5 1 2 ( = ) » ¡ ; : 7 9 T U 8 ¤
Ejemplo: Datos de colesterol
Ejemplo: Datos de colesterol
Ejemplo: Datos de colesterol
Ejemplo: Datos de Infección de la Uña
GLMM Bayesiano semiparamétrico