La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

X ENCUENTRO DE MATEMÁTICAS Y SUS APLICACIONES IMPUTACIÓN DE DATOS ¿CUÁNTO AYUDAN LOS PAQUETES ESTADÍSTICOS? Dr. Holger Capa Santos Departamento de Matemática.

Presentaciones similares


Presentación del tema: "X ENCUENTRO DE MATEMÁTICAS Y SUS APLICACIONES IMPUTACIÓN DE DATOS ¿CUÁNTO AYUDAN LOS PAQUETES ESTADÍSTICOS? Dr. Holger Capa Santos Departamento de Matemática."— Transcripción de la presentación:

1 X ENCUENTRO DE MATEMÁTICAS Y SUS APLICACIONES IMPUTACIÓN DE DATOS ¿CUÁNTO AYUDAN LOS PAQUETES ESTADÍSTICOS? Dr. Holger Capa Santos Departamento de Matemática Escuela Politécnica Nacional Quito, julio, 2006

2 CONTENIDO LA NO RESPUESTA PROBLEMAS CON IMPUTACIÓN SIMPLE LA IMPUTACIÓN MÚLTIPLE (IM) SOFTWARE PARA IM CONCLUSIONES

3 LA NO RESPUESTA ¿POR QUÉ SE PRODUCE LA NO RESPUESTA? Al realizar la recolección de datos, a través de encuestas o de procesos administrativos, en general ocurren dos situaciones: 1.No respuesta por unidad: hay unidades que no han respondido o de las cuales no se tiene información. 2.No respuesta por ítem: no respuesta en ciertas preguntas del formulario.

4 LA NO RESPUESTA LA SOLUCIÓN INICIAL: No respuesta por unidad: trabajar solamente con los datos entregados (se ignora a quienes no tienen información). No respuesta por ítem: eliminar los registros con datos incompletos y se trabaja solamente con aquellos que están completos.

5 LA NO RESPUESTA PREGUNTAS FUNDAMENTALES: ¿Para qué análisis estadístico se van a utilizar los datos? ¿Cuál es el tamaño de la muestra y cuántos los datos faltantes?

6 LA NO RESPUESTA REQUERIMIENTO DE DATOS COMPLETOS Regresión lineal, ACP, Análisis de varianza, etc. requieren de datos completos. Producir algoritmos para estos modelos con datos faltantes puede ser demasiado complicado y costoso. Las bases de datos producidas por instituciones estatales serán utilizadas por especialistas en diferentes campos. Dejar la imputación de datos al libre albedrío puede ser muy peligroso.

7 LA NO RESPUESTA ¿CUÁNDO SE PUEDEN UTLIZAR DATOS INCOMPLETOS? Si se requiere calcular solamente ciertos resúmenes de las variables (medias, varianzas). En general si las no respuestas se pueden considerar unidades seleccionadas completamente al azar. En este caso, también los estimadores continuarán siendo insesgados. Si el tamaño de la muestra retenida es lo suficientemente grande para que no afecte demasiado la precisión. No es lo mismo que falten 25% de los datos en una muestra objetivo de 400 datos que en una de

8 PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE Al remplazar un valor a través de la imputación simple: media, regresión, etc., se están generando estimadores sesgados. En general, quienes no responden pueden tener razones sistemáticas para ello (preguntas sensibles como ingresos, consumo de drogas, aprovechamiento académico, etc.).

9 PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE ¿CÓMO SE EVALÚA EL SESGO? Es muy difícil, pues no se conocen las causas precisas de la no respuesta. Se deberían realizar seguimientos posteriores para tratar de estudiar el comportamiento de las variables de interés en quienes no responden. Más adelante se presentarán algunos resultados al respecto.

10 PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE ¿CÓMO AFECTA A LA VARIANZA? EFECTOS EN LA VARIANZA DE LA MEDIA MUESTRAL Considérese el caso de imputación por la media Población de tamaño: N Muestra de tamaño: n Media poblacional: µ Media muestral: Varianza muestral: s 2

11 PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE Se puede demostrar que aproximadamente: (1) Si solamente se han observado de los elementos de la muestra (por no respuesta aleatoria); entonces, aproximadamente: (2)

12 PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE Supóngase que en lugar de utilizar (2), se utiliza (1) sin distinguir entre registros observados e imputados. Entonces, la media muestral para los n valores es: cuya varianza muestral:

13 PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE Por tanto, para los n valores, utilizando la imputación igual a la media muestral, la varianza muestral será: (3) Si se realiza el cociente entre (3) y (1) se obtiene

14 PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE Así, para n 1 y N/n 1 grandes y n 1

15 PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE CONSECUENCIA DE LA SUBESTIMACIÓN DE LA VARIANZA: Ganancia en precisión ficticia en la estimación de µ La hipótesis µ=0, será rechazada con mayor frecuencia de lo que debería. NOTA: Otros mecanismos de imputación simple comúnmente utilizados también conducen a subestimar la varianza; por ejemplo:

16 PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE – Hot deck (selección aleatoria entre los datos observados). – Dato emparejado. – Arrastre de la última observación disponible. – Arrastre de la peor observación disponible o valor mínimo. – Regresión simple o múltiple.

17 PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE ¿HAY OTRAS CONSECUENCIAS MÁS GRAVES? LAMENTABLEMENTE SI MECANISMOS DE AUSENCIA DE DATOS: Ausencia no aleatoria o no ignorable (NMAR): la ausencia depende de los valores observados y de los faltantes. Ausencia aleatoria (MAR): la ausencia depende solo de los datos observados. Ausencia completamente aleatoria (MCAR): la ausencia no depende de los datos observados ni de los datos ausentes.

18 Se consideran los siguientes mecanismos para ausencia de datos para X: MCAR: Un valor de X está ausente con probabilidad 0,5. MAR: Un valor de X está ausente si Y<0. NMAR: Un valor de X está ausente si X<0. EJEMPLO: Considérese un vector aleatorio normal (X,Y) tal que:

19 LA IMPUTACIÓN MÚLTIPLE UNA ALTERNATIVA Rubin (1986, 2004), propone un mecanismo de imputación múltiple (para mecanismo de ausencia MAR). La estrategia básica consiste en generar m opciones distintas de valores para cada dato ausente, para tratar de incorporar la variabilidad de la medida objetivo y la incertidumbre de valores ausentes (en realidad se estaría considerando una distribución de valores ausentes para cada dato). La justificación teórica y la bondad de este método se justifican en el contexto bayesiano.

20 LA IMPUTACIÓN MÚLTIPLE El procedimiento se resume en los cuatro pasos siguientes: Selección del método de imputación (explícito o implícito). Generación de conjuntos de valores a imputar (generalmente entre 5 y 20). Análisis de los diferentes conjuntos de valores imputados. Combinación de estos resultados para obtener una estimación promedio.

21 El siguiente gráfico resume el procedimiento señalado: LA IMPUTACIÓN MÚLTIPLE DATO FALTANTE DATO IMPUTADOANÁLISISCOMBINACIÓN RESULTADOS FINALES

22 LA IMPUTACIÓN MÚLTIPLE Para comprender mejor las ideas planteadas por Rubín, se considera el siguiente ejemplo (Rubin, 2004): En una encuesta sobre una población de elementos, se elige una muestra aleatoria de 10 unidades. Se conoce la información para la variable X en 1970, sobre toda la población, y se trata de obtener información de la variable Y sobre la muestra; sin embargo, dos elementos no respondieron. Con datos completos, se propone estimar la media poblacional de Y, µ Y, con el estimador de la razón: µ X ; además, un intervalo de confianza de nivel 95% se obtiene con la fórmula µ X ±1,96*SD/n ½, donde se supone que la media poblacional de X, µ X =12. En este caso:

23 LA IMPUTACIÓN MÚLTIPLE En este caso:

24 TABLA 1: Ejemplo artificial de datos con imputación múltiple

25

26 TABLA 2: Análisis de los datos con imputación múltiple

27 LA IMPUTACIÓN MÚLTIPLE A continuación, se combinan las dos respuestas obtenidas sobre el mismo modelo (réplicas) para obtener inferencias para µ Y en cada modelo considerado. Se considera como centro del intervalo resultante al promedio de las estimaciones. La varianza asociada con estas estimaciones tiene dos componentes: Varianza total = promedio de varianzas con imputación + (1+1/m)*varianza entre imputaciones

28 LA IMPUTACIÓN MÚLTIPLE Para el modelo 1: Estimación de µ Y = (13,38+13,57)/2 = 13,48 Varianza total = (2,96+3,19)/2 + (1+1/2)[(13,38- 13,48)2+(13,57-13,48)2]

29 LA IMPUTACIÓN MÚLTIPLE GENERACIÓN DE DATOS A IMPUTAR Inicialmente, Rubin había propuesto generalizar las técnicas de imputación simple para generar los valores a imputar. Sin embargo, los métodos más utilizados en la actualidad son: Aproximación bayesiana bootstrap. Montecarlo para cadenas de Markov (MCMC)

30 LA IMPUTACIÓN MÚLTIPLE UN EJEMPLO COMPARATIVO (GÓMEZ J., PALAREA J., 2003) Se considera una matriz de datos completos 20*3, de un vector normal (Y,X1,X2)en los cuales se ha generado un 35% de faltantes con un mecanismo MAR. Se considera el problema de la regresión de Y sobre X1 y X2. La siguiente tabla recoge las estimaciones obtenidas, en donde se observa que la IM-MCMC se destaca, en general, con respecto a los otros métodos.

31 Tabla 3: Inferencia basada en imputación en problemas con información incompleta

32 SOFTWARE EN IM: Windows: WinMICE, NORM SPLUS o R: MICE, L. Schafer. SAS: IVEWARE, PROCMI, PROC MIANALIZE STATA: ICE DOS, GAUSS: AMELIA (series de tiempo) L. Schafer (gratuito): NORM, CAT, MIX, PAN (sobre S-PLUS) CARACTERÍSTICA GENERAL: no interactivo; se requiere algo de programación.

33 La imputación de datos es una tarea necesaria, pero muy delicada. Existe un gran desarrollo para el mecanismo MAR. La imputación simple, en general, no es adecuada. IM es el camino correcto. Se deben aprovechar las nuevas técnicas de simulación (MCM, por ejemplo). Se requiere mucho cuidado para elegir el software apropiado; no todo lo existente es útil. CONCLUSIONES

34 BIBLIOGRAFÍA Gómez J., Palarea J., Inferencia basada en imputación múltiple en problemas con información incompleta, IX Conferencia Española de Biometría, La Coruña, Rubin D., Multiple imputation for nonresponse in surveys, Wiley Classics Library, Von Hippel P., Biases in SPSS 12.0 Missing Value Analysis, The American Statistician, Vol. 58, No. 2,


Descargar ppt "X ENCUENTRO DE MATEMÁTICAS Y SUS APLICACIONES IMPUTACIÓN DE DATOS ¿CUÁNTO AYUDAN LOS PAQUETES ESTADÍSTICOS? Dr. Holger Capa Santos Departamento de Matemática."

Presentaciones similares


Anuncios Google