X ENCUENTRO DE MATEMÁTICAS Y SUS APLICACIONES

Slides:



Advertisements
Presentaciones similares
ANOVA DE UN FACTOR.
Advertisements

Intervalos de Confianza para la Varianza de la Población
TEORÍA DE MUESTRAS.
Franco Huertas, Joel Francisco
Curso para la Producción de Estadísticas sobre la Economía de la Información Módulo 4: Implementación de una encuesta sobre el uso de las TIC en las empresas.
Tema 13. Inferencia estadística Principales conceptos. Muestreo
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
TALLER REGIONAL DE LAS NACIONES UNIDAS SOBRE EL PROGRAMA MUNDIAL DE CENSOS DE POBLACIÓN Y VIVIENDA 2010: EVALUACIÓN CENSAL Y ENCUESTAS POST EMPADRONAMIENTO.
Inferencia estadística
} LISSET BÁRCENAS MONTERROZA
FORMULACION DEL DISEÑO DE LA INVESTIGACION
DESARROLLO DE LA INVESTIGACION
KRIGING.
DELGADO DIAZ MINERVA PEREZ MUÑOZ ROMUALDA
Paso 1: Definición del Problema
DISEÑO DE LA MUESTRA ¿Para qué necesitamos recolectar datos?
Estimación por Intervalos de confianza
CONCEPTOS BÁSICOS DE ESTADÍSTICA
DR. GLENN LOZANO ZANELLY
Estadística computacional
HERRAMIENTAS PARA EL CONTROL ESTADÍSTICO DE CALIDAD.
Seleccionar una muestra
Proceso de la Investigación
Análisis de varianza Análisis de varianza de un factor
UNIVERSIDAD CATÓLICA DEL MAULE FACULTAD DE CIENCIAS DE LA INGENIERÍA ESCUELA DE INGENIERÍA CIVIL INFORMÁTICA PROFESOR GUÍA: HUGO ARAYA CARRASCO. ALUMNO.
UNIVERSIDAD NACIONAL DEL SANTA
Curso: Muestreo Básico (Resumen)
1 Planteamiento del problema ¿Tenemos los humanos la capacidad de percibir si nos miran desde atrás? O, más exactamente: ¿Es defendible que existen otras.
Población y Muestra.
Unidad V: Estimación de
Estadística Administrativa I
(Organización y Manejo de Archivos)
Distribuciones derivadas del muestreo
SESGOS.
INTRODUCCIÓN A LA TEORÍA DE MUESTRAS Estadística E.S.O.
1 M. en C. Gal Vargas Neri. 2 Planeación del curso TEMACAP.TITULODÍASSEMFEC FIN TEMA 00MOTIVACION Y PLANEACION1111/01 TEMA I1-2ESTADISTICA Y MEDICION2115/01.
ESTADISTICA I CSH M. en C. Gal Vargas Neri.
Titular: Agustín Salvia
Inferencia Estadística
Estadística para administradores
Unidad V: Estimación de
I UNIDAD “DISTRIBUCIONES MUESTRALES”
Sesión 13: Distribuciones Muestrales y Tamaño de Muestra

Protocolo de Investigación
Métodos de muestreo.
INTRODUCCIÓN A LOS MÉTODOS DE MUESTREO
Estadísticas de seguimiento de egresados de nivel medio superior Dirección de Egresados y Servicio Social 2011.
(Validez de un estudio)
MUESTREO Y TAMAÑO DE LA MUESTRA
I NSTITUTO P OLITÉCNICO N ACIONAL Estudios de seguimiento de egresados politécnicos de educación media superior y superior. “La Técnica al Servicio de.
ESTIMACIÓN DE PARÁMETROS
INTERVALO DE CONFIANZA
PROYECTO DE NORMA OFICIAL MEXICANA PROY–NOM-026- SEMARNAT-2005 SOBRE EL APROVECHAMIENTO COMERCIAL DE RESINA DE PINO RESULTADOS DE LA PRÁCTICA REALIZADA.
Estrategia de análisis Con introducción al análisis multivariante.
MODELOS DE PRONOSTICOS Primer semestre 2010 Modelo de Regresión con dos variables.
NORMA INTERNACIONAL DE AUDITORÍA 530
Muestreo Probabilístico
Aspectos generales de la investigación educativa en el SNIT
UNIVERSIDAD CENTRAL DEL ECUADOR FACULTAD DE CIENCIAS ECONOMICAS INFERENCIA ESTADISTICA TEMA: ESTIMACION PUNTUAL, PROPIEDADES DE LAS ESTIMACIONES;
León Darío Bello Parias UNIVERSIDAD DE ANTIOQUIA FACULTAD NACIONAL DE SLAUD PUBLICA “HECTOR ABAD GOMEZ”
1 Recolección de Datos.
BIOESTADÍSTICA Y ESTADÍSTICA BÁSICA CHILLÁN, SEGUNDO SEMESTRE PROF. SOC. M© KEVIN VILLEGAS.
CONCEPTOS BÁSICOS, TABULACIÓN, GRÁFICOS
MUESTREO Parte 1: Generalidades Una vez definido el problema a investigar, formulados los objetivos y delimitadas las variables se hace necesario determinar.
Estimación Estadística Tares # 3. Estimación Estadística Conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a.
EJERCICIOS DE PROPUESTOS 1.Un importador va a recibir un lote de 10,000 artículos que vienen encajonados (cada caja tiene 20 artículos) antes de recibir.
Estimación estadística
ESTIMACION DEL TAMAÑO DE LA MUESTRA. La primera pregunta que un estadístico debe contestar al planear una investigación de muestreo es, casi siempre, el.
Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia METODOS ALEATORIOS.
Transcripción de la presentación:

X ENCUENTRO DE MATEMÁTICAS Y SUS APLICACIONES IMPUTACIÓN DE DATOS ¿CUÁNTO AYUDAN LOS PAQUETES ESTADÍSTICOS? Dr. Holger Capa Santos Departamento de Matemática Escuela Politécnica Nacional Quito, julio, 2006

CONTENIDO LA NO RESPUESTA PROBLEMAS CON IMPUTACIÓN SIMPLE LA IMPUTACIÓN MÚLTIPLE (IM) SOFTWARE PARA IM CONCLUSIONES

LA NO RESPUESTA ¿POR QUÉ SE PRODUCE LA NO RESPUESTA? Al realizar la recolección de datos, a través de encuestas o de procesos administrativos, en general ocurren dos situaciones: 1. No respuesta por unidad: hay unidades que no han respondido o de las cuales no se tiene información. 2. No respuesta por ítem: no respuesta en ciertas preguntas del formulario.

LA NO RESPUESTA LA “SOLUCIÓN” INICIAL: • No respuesta por unidad: trabajar solamente con los datos entregados (se ignora a quienes no tienen información). • No respuesta por ítem: eliminar los registros con datos incompletos y se trabaja solamente con aquellos que están completos.

LA NO RESPUESTA PREGUNTAS FUNDAMENTALES: ¿Para qué análisis estadístico se van a utilizar los datos? ¿Cuál es el tamaño de la muestra y cuántos los datos faltantes?

LA NO RESPUESTA REQUERIMIENTO DE DATOS COMPLETOS Regresión lineal, ACP, Análisis de varianza, etc. requieren de datos completos. Producir algoritmos para estos modelos con datos faltantes puede ser demasiado complicado y costoso. Las bases de datos producidas por instituciones estatales serán utilizadas por especialistas en diferentes campos. Dejar la imputación de datos al libre albedrío puede ser muy peligroso.

LA NO RESPUESTA ¿CUÁNDO SE PUEDEN UTLIZAR DATOS INCOMPLETOS? Si se requiere calcular solamente ciertos resúmenes de las variables (medias, varianzas). En general si las no respuestas se pueden considerar unidades seleccionadas completamente al azar. En este caso, también los estimadores continuarán siendo insesgados. Si el tamaño de la muestra retenida es lo suficientemente grande para que no afecte demasiado la precisión. No es lo mismo que falten 25% de los datos en una muestra objetivo de 400 datos que en una de 20.000.

PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE Al remplazar un valor a través de la imputación simple: media, regresión, etc., se están generando estimadores sesgados. En general, quienes no responden pueden tener razones sistemáticas para ello (preguntas sensibles como ingresos, consumo de drogas, aprovechamiento académico, etc.).

PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE ¿CÓMO SE EVALÚA EL SESGO? • Es muy difícil, pues no se conocen las causas precisas de la no respuesta. • Se deberían realizar seguimientos posteriores para tratar de estudiar el comportamiento de las variables de interés en quienes no responden. • Más adelante se presentarán algunos resultados al respecto.

PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE ¿CÓMO AFECTA A LA VARIANZA? EFECTOS EN LA VARIANZA DE LA MEDIA MUESTRAL Considérese el caso de imputación por la media Población de tamaño: N Muestra de tamaño: n Media poblacional: µ Media muestral: Varianza muestral: s2

PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE Se puede demostrar que aproximadamente: (1) Si solamente se han observado de los elementos de la muestra (por no respuesta aleatoria); entonces, aproximadamente: (2)

PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE Supóngase que en lugar de utilizar (2), se utiliza (1) sin distinguir entre registros observados e imputados. Entonces, la media muestral para los n valores es: cuya varianza muestral:

PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE Por tanto, para los n valores, utilizando la imputación igual a la media muestral, la varianza muestral será: (3) Si se realiza el cociente entre (3) y (1) se obtiene

PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE Así, para n1 y N/n1 grandes y n1<n, se obtiene que la varianza de dada en (1) es menor que la varianza dada en (2) por un factor aproximado de (n1 /n)2. Cimacyt cia. ltda

PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE CONSECUENCIA DE LA SUBESTIMACIÓN DE LA VARIANZA: • Ganancia en precisión ficticia en la estimación de µ • La hipótesis µ=0, será rechazada con mayor frecuencia de lo que debería. NOTA: Otros mecanismos de imputación simple comúnmente utilizados también conducen a subestimar la varianza; por ejemplo:

PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE “Hot deck” (selección aleatoria entre los datos observados). Dato emparejado. Arrastre de la última observación disponible. Arrastre de la peor observación disponible o valor mínimo. Regresión simple o múltiple.

PROBLEMA GENERAL CON LA IMPUTACIÓN SIMPLE ¿HAY OTRAS CONSECUENCIAS MÁS GRAVES? LAMENTABLEMENTE SI MECANISMOS DE AUSENCIA DE DATOS: • Ausencia no aleatoria o no ignorable (NMAR): la ausencia depende de los valores observados y de los faltantes. • Ausencia aleatoria (MAR): la ausencia depende solo de los datos observados. • Ausencia completamente aleatoria (MCAR): la ausencia no depende de los datos observados ni de los datos ausentes.

EJEMPLO: Considérese un vector aleatorio normal (X,Y)’ tal que: Se consideran los siguientes mecanismos para ausencia de datos para X: • MCAR: Un valor de X está ausente con probabilidad 0,5. • MAR: Un valor de X está ausente si Y<0. • NMAR: Un valor de X está ausente si X<0.

LA IMPUTACIÓN MÚLTIPLE UNA ALTERNATIVA Rubin (1986, 2004), propone un mecanismo de imputación múltiple (para mecanismo de ausencia MAR). La estrategia básica consiste en generar m opciones distintas de valores para cada dato ausente, para tratar de incorporar la variabilidad de la medida objetivo y la incertidumbre de valores ausentes (en realidad se estaría considerando una distribución de valores ausentes para cada dato). La justificación teórica y la bondad de este método se justifican en el contexto bayesiano.

LA IMPUTACIÓN MÚLTIPLE El procedimiento se resume en los cuatro pasos siguientes: • Selección del método de imputación (explícito o implícito). • Generación de conjuntos de valores a imputar (generalmente entre 5 y 20). • Análisis de los diferentes conjuntos de valores imputados. • Combinación de estos resultados para obtener una estimación promedio.

LA IMPUTACIÓN MÚLTIPLE El siguiente gráfico resume el procedimiento señalado: DATO IMPUTADO ANÁLISIS COMBINACIÓN DATO FALTANTE RESULTADOS FINALES

LA IMPUTACIÓN MÚLTIPLE Para comprender mejor las ideas planteadas por Rubín, se considera el siguiente ejemplo (Rubin, 2004): En una encuesta sobre una población de 1.000 elementos, se elige una muestra aleatoria de 10 unidades. Se conoce la información para la variable X en 1970, sobre toda la población, y se trata de obtener información de la variable Y sobre la muestra; sin embargo, dos elementos no respondieron. Con datos completos, se propone estimar la media poblacional de Y, µY, con el estimador de la razón: µX ; además, un intervalo de confianza de nivel 95% se obtiene con la fórmula µX ±1,96*SD/n½, donde se supone que la media poblacional de X, µX=12. En este caso:

LA IMPUTACIÓN MÚLTIPLE En este caso:

TABLA 1: Ejemplo artificial de datos con imputación múltiple

TABLA 2: Análisis de los datos con imputación múltiple

LA IMPUTACIÓN MÚLTIPLE A continuación, se combinan las dos respuestas obtenidas sobre el mismo modelo (réplicas) para obtener inferencias para µY en cada modelo considerado. Se considera como centro del intervalo resultante al promedio de las estimaciones. La varianza asociada con estas estimaciones tiene dos componentes: Varianza total = promedio de varianzas con imputación + (1+1/m)*varianza entre imputaciones

LA IMPUTACIÓN MÚLTIPLE Para el modelo 1: Estimación de µY = (13,38+13,57)/2 = 13,48 Varianza total = (2,96+3,19)/2 + (1+1/2)[(13,38-13,48)2+(13,57-13,48)2]

LA IMPUTACIÓN MÚLTIPLE GENERACIÓN DE DATOS A IMPUTAR Inicialmente, Rubin había propuesto generalizar las técnicas de imputación simple para generar los valores a imputar. Sin embargo, los métodos más utilizados en la actualidad son: • Aproximación bayesiana “bootstrap”. • Montecarlo para cadenas de Markov (MCMC)

LA IMPUTACIÓN MÚLTIPLE UN EJEMPLO COMPARATIVO (GÓMEZ J., PALAREA J., 2003) Se considera una matriz de datos completos 20*3, de un vector normal (Y,X1,X2)’en los cuales se ha generado un 35% de faltantes con un mecanismo MAR. Se considera el problema de la regresión de Y sobre X1 y X2. La siguiente tabla recoge las estimaciones obtenidas, en donde se observa que la IM-MCMC se destaca, en general, con respecto a los otros métodos.

Tabla 3: Inferencia basada en imputación en problemas con información incompleta

SOFTWARE EN IM: • Windows: WinMICE, NORM • SPLUS o R: MICE, L. Schafer. • SAS: IVEWARE, PROCMI, PROC MIANALIZE • STATA: ICE • DOS, GAUSS: AMELIA (series de tiempo) • L. Schafer (gratuito): NORM, CAT, MIX, PAN (sobre S-PLUS) CARACTERÍSTICA GENERAL: no interactivo; se requiere algo de programación.

CONCLUSIONES La imputación de datos es una tarea necesaria, pero muy delicada. Existe un gran desarrollo para el mecanismo MAR. La imputación simple, en general, no es adecuada. IM es el camino correcto. Se deben aprovechar las nuevas técnicas de simulación (MCM, por ejemplo). Se requiere mucho cuidado para elegir el software apropiado; no todo lo existente es útil.

BIBLIOGRAFÍA • Gómez J., Palarea J., Inferencia basada en imputación múltiple en problemas con información incompleta, IX Conferencia Española de Biometría, La Coruña, 2003. • Rubin D., Multiple imputation for nonresponse in surveys, Wiley Classics Library, 2004. • Von Hippel P., Biases in SPSS 12.0 Missing Value Analysis, The American Statistician, Vol. 58, No. 2, 2004. • http://www.multiple-imputation.com/