Análisis de valores perdidos

Slides:



Advertisements
Presentaciones similares
DISEÑOS DE ESTUDIO EN EPIDEMIOLOGIA
Advertisements

T.10. EVALUACIÓN DE PROGRAMAS DE INTERVENCIÓN PSICOLÓGICA
Curso de Bioestadística Parte 2 Tipos de estudios en epidemiología
METODOS, TECNICAS E INSTRUMENTOS DE RECOLECCION DE DATOS
Estudios de Cohorte Dra. Pilar Jiménez M..
Técnicas para el análisis de datos en el enfoque cuantitativo
DISEÑOS Y CONTROLES EXPERIMENTALES
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
Análisis previos de los datos
Introducción En toda investigación, y antes de extraer conclusiones acerca de los objetivos e hipótesis planteados, es necesario llevar a cabo un análisis.
CONCEPTOS BÁSICOS DE DISEÑO DE ESTUDIOS EPIDEMIOLÓGICOS
SEGUIMIENTO Y EVALUACIÓN Instituto de Estudios Fiscales
CONCEPTOS BÁSICOS DE DISEÑO EXPERIMENTAL
Master en Recursos Humanos
Estimación de los Errores de Muestreo Encuestas de Salud Reproductiva   RHS Usando SPSS 19.
ANÁLISIS EXPLORATORIO DE DATOS
ANÁLISIS PREELIMINAR DE LOS DATOS
TIPOS DE ESTUDIOS CLINICO EPIDEMIOLOGICOS
X ENCUENTRO DE MATEMÁTICAS Y SUS APLICACIONES
León Darío Bello Parias
CUESTIONARIO El Cuestionario es un instrumento de investigación. Esta constituido por un conjunto de preguntas orientadas a obtener información específica.
DELGADO DIAZ MINERVA PEREZ MUÑOZ ROMUALDA
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Tests de permutaciones y tests de aleatorización
Muestra: Recolección de Datos: Análisis de Datos:
El trabajo de campo El Cuestionario Objetivos Diseño Reglas Tipos
Tema 6. La investigación cuasi experimental
MUESTRA Implica DEFINIR la unidad de análisis (personas, situaciones, individuos, eventos, fenómeno, ensayo)
ESTUDIOS EPIDEMIOLÓGICOS
Proceso de la Investigación
UNIVERSIDAD NACIONAL DEL SANTA
INTRODUCCIÓN GENERAL Causalidad e inferencia causal
Sesión 2: Métodos Probabilísticos Básicos
INTELIGENCIA ARTIFICIAL.
Población y Muestra.
Lección Magistral Pedro M. Valero Mora Facultat de Psicologia Universitat de València Datos Faltantes Multivariantes.
Investigación Experimental
DISTRIBUCIONES DE MUESTREO
Diseños experimentales de caso único
Métodos de calibración: regresión y correlación
VII Congreso de Metodología de las Ciencias Sociales y de la Salud EVALUACIÓN DE LA CALIDAD DE LOS DATOS ESTADÍSTICOS DE ACCIDENTES DE TRÁFICO EN LA CIUDAD.
DISEÑOS EPIDEMIOLOGICOS
DISEÑO DE INVESTIGACIÓN.
PRUEBAS ESTADISTICAS NO PARAMETRICAS
Diseños de investigación cuantitativa: Diseños No experimentales
Protocolo de Investigación
INTRODUCCIÓN A LOS MÉTODOS DE MUESTREO
APLICADOS EN LA PSICOLOGIA. Hace referencia al proceso de investigación, adoptando una estrategia que condiciona las posibilidades del desarrollo de la.
Estimación y contraste de hipótesis
Diseños Generales. 2 Propósito implícito del diseño experimental El propósito implícito de todo diseño experimental consiste en imponer restricciones.
Fundamentos Básicos de Estadística
Conceptos básicos: Población Muestra Variable Datos Estadístico
MARCO METODOLÓGICO METODOLOGIA PARTE 2.1.
Tomando decisiones sobre las unidades de análisis
Septiembre  Responde a quienes y cuantas personas se aplicará el instrumento de recolección de datos.
“AÑO DE LA INTEGRACIÓN NACIONAL Y RECONOCIMIENTO DE NUESTRA
Métodos de investigación en la psicología clínica
Diseños clásicos de Investigación utilizados en Psicología
Diseño de Caso Único Profesora: Carolina Mora UCV- Caracas.
La investigación científica en psicología
Escaneo de los datos.
EL CUESTIONARIO Y la entrevista
RELACIÓN ENTRE UNA VARIABLE DEPENDIENTE Y UNA O MAS INDEPENDIENTES.
Muestreos probabilísticos y no probabilísticos
1 Recolección de Datos.
Tarea # 4 PRUEBAS DE HIPÓTESIS ESTADÍSTICAS. PRUEBA DE HIPÓTESIS Hipótesis es una aseveración de una población elaborado con el propósito de poner a prueba,
RECHAZO DE DATOS DE UNA SERIE
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
1 INTRODUCCIÓN AL DISEÑO Y EVALUACIÓN DE PROGRAMAS SOCIALES, EDUCATIVOS Y DE LA SALUD Tema 7. Diseños evaluativos de intervención media (cuasi-experimentos)
 Clara Espino. Pruebas de Hipótesis.. En esta estadística clásica el promedio poblacional es un parámetro fijo y por lo tanto no tienes ningún tipo de.
Transcripción de la presentación:

Análisis de valores perdidos Ana María López Departamento de Psicología Experimental

Introducción La presencia de valores perdidos (información ausente o faltante) es un problema común a cualquier investigación y no puede ser ignorado en el análisis de datos. Ignorar los datos ausentes puede tener repercusiones graves que van desde la perdida de potencia del estudio hasta la aparición de sesgos inaceptables. La eliminación de sujetos con características especiales limita la representatividad o validez externa de los resultados del estudio. Las razones para la ausencia de datos pueden ser diversas: fallos en los instrumentos de medida, los sujetos no asisten a la entrevista (en diseños longitudinales pueden abandonar el estudio en una oleada concreta), no contestan a una serie de preguntas o responden con la opción no sabe/no contesta incorporada en el cuestionario, etc. Por todas estas razones y muchas otras los datos perdidos son ubicuos en la investigación en ciencias sociales y de la salud (Allison, 2002).

Introducción Hay una solución fácil para el tratamiento de bases de datos con valores perdidos y consiste en analizar sólo los casos con Información completa en el conjunto de variables. Esta solución, es la opción por defecto de la mayoría de los paquetes estadísticos, se conoce como análisis de casos completos (Casewise, Listwise). El análisis de casos completos tiene la ventaja de su simplicidad pero el inconveniente de que se pueden excluir a muchos casos y perder potencia en los análisis estadísticos.

Patrones de pérdida de información La forma o patrón para la pérdida de datos puede ser muy variada. En la figura siguiente aparecen representada tres posibles matrices de datos con perdida de información univariante, monótona y aleatoria. 1 2 3 . N ? b) X1 X2 X3 ..…Yp ? ? Y1 Y2 Y3 ……Yp Y1 Y2 Y3....Yp Figura 1. Patrones de pedida de información: a) univariado, b) monótono, y c) arbitrario a) c)

Mecanismos de perdida de datos Se distinguen tres mecanismos de perdida de datos: Datos perdidos completamente al azar (MCAR = missing completely at random) Datos perdidos al azar (MAR= missing completely at random) Datos perdidos no ignorables o no debidos al azar (MNI=missing non-ignorable, o MNAR=missing not at random). El problema de los datos perdidos no es tanto la cantidad sino el mecanismo por el que se han producido los valores perdidos. Imaginemos que preguntamos sobre la ley de matrimonios homosexuales en una escala de 1 (muy desfavorable) hasta 7 (muy favorable) y que relacionamos la opinión con la clase social medida por el salario. Supongamos que un 40% de los sujetos no nos proporcionan información acerca de su salario. ¿Cómo afectaría a la opinión si sólo analizamos los sujetos con información completa?, ¿Los datos perdidos en salario corresponden a sujetos con opiniones distribuidas aleatoriamente en el rango completo de la escala de opinión?, ¿los datos perdidos corresponden a las opiniones más desfavorables?, ¿son ignorables?. Todas estas preguntas son objeto del análisis de valores perdidos.

Mecanismos de perdida de datos Se considera que los datos perdidos son MCAR cuando las características de los sujetos con información son las mismas que las de los sujetos sin información. Dicho de otra manera la probabilidad de que un sujeto presente un valor ausente en una variable no depende ni de otras variables del cuestionario ni de los valores de la propia variable con valores perdidos. Las observaciones con datos perdidos son una muestra aleatoria del conjunto de observaciones. Ejemplo de MCAR: 1. Las personas que no nos proporcionan su salario tienen, en promedio, el mismo salario que las personas que nos lo proporcionan. 2. Las características estadísticas (media, porcentajes) del resto de las variables son las misma para los sujetos que nos proporcionan su salario y para los que no lo proporcionan.

Mecanismos de perdida de datos La perdida de datos es MAR cuando los sujetos con datos incompletos son diferentes significativamente de los que presentan datos completos en alguna variable, y el patrón de ausencia de datos puede ser predecible a partir de variables con datos observados en la base de datos del estudio que no muestran ausencia de datos. La probabilidad de que se produzca la ausencia de una observación depende de otras variables pero no de los valores de la variable con el valor ausente. Es imposible probar si la condición MAR es satisfecha y la razón es que dado que no conocemos la información faltante no podemos comparar los valores de aquellos sujetos que tienen información con los que no la tienen. Un ejemplo de MAR La pérdida de valores en la variable sueldo es MAR si depende del estado civil pero dentro de cada categoría, la probabilidad de missing no está relacionada con el sueldo. MAR: sólo se podría probar a posteriori consiguiendo la información que falta.

Mecanismos de perdida de datos La perdida de datos es MNAR cuando la probabilidad de los datos perdidos sobre una variable Y depende de los valores de dicha variable una vez que se han controlado el resto de las variables. Ejemplo: Si son los hogares de renta mayor los que con menos probabilidad nos proporcionan el salario, una vez controladas el resto de las variables, entonces la perdida de datos no es aleatoria ni ignorable. En los siguientes archivos se simula el mecanismo MAR y MNAR para una variable y para dos variables. En este último ejemplo tomado de Schafer y Graham, 2002 se simulan los tres mecanismos de pérdida con dos variables. MAR: sólo se podría probar a posteriori consiguiendo la información que falta.

Análisis de Valores perdidos con SPSS

Análisis de Valores perdidos con SPSS Archivo: opinion.sav

Análisis de valores perdidos

Análisis de valores perdidos Tablas de contingencia de variables indicador frente a categóricas

Análisis de valores perdidos

Análisis de valores perdidos Estadísticos según lista Estadísticos según pareja

Análisis de valores perdidos Estadísticos de EM estimados Estadísticos de regresión estimados

Métodos para tratar valores perdidos Análisis de casos completos: para el conjunto de variables (Listwise, Complete case) Análisis de casos completos: por pares de variables (Pairwise) Pairwise: utiliza muestras de tamaño distinto para diferentes parámetros. La principal virtud de los métodos basados en la eliminación de casos es su simplicidad y, en el caso de listwise proporciona estimaciones insesgadas cuando el número de valores perdidos no es grande y el mecanismo es mcar. Los principales inconvenientes de listwise es que ignora posibles diferencias entre casos completos e incompletos. Los errores estándar generalmente serán menores en la muestra analizada con listwise. Proporciona estimaciones sesgadas si la muestra reducida no es una submuestra aleatoria de la original. Requiere el supuesto de MCAR.

Métodos para tratar valores perdidos Métodos de imputación de datos Imputación simple Sustitución por la media de las observaciones con información. Imputación mediante regresión múltiple. Asigna a los valores missing los valores predichos por una ecuación de regresión estimada a partir de los sujetos con información completa. Algoritmo EM 2. Imputación múltiple Media: Este método tiene la desventaja de que reduce la varianza y errores estándar se infraestiman y altera las covarianzas y correlaciones entre las variables. Regresión: no es un método recomendado porque sobreestima las correlaciones entre Y y las variables predictoras incluidas en la regresión estimada para realizar la imputación. En general la desventaja fundamental de los métodos de imputación simple es que tienden a infraestimar la varianza, dado que reemplazan los valores ausentes por valores ya existentes en la base de datos o, en el caso de la regresión, por valores estimados a partir de covariables que pueden disminuir la variabilidad espontánea de las observaciones en caso de haberse llevado a cabo.

Referencias bibliográficas: Allison, P.D. (2002). Missing values. Sage Little, R. J. A. y Rubin, D. B. (1989) “The Analysis of Social Science Data with Missing Values.” Sociological Methods and Research 18: 292-326. Little, R. J. A. y Rubin, D.B. Statistical Analysis with Missing Data, 2nd edition. New York: Wiley. Rejas, J. Imputación de datos ausentes en estudios de calidad de vida relacionados con la salud: patrones de pérdida de datos y métodos de imputación. Investig. Clín. Farm. 2005, Vol. 2 (1): 23-29 Schafer, J.L. y Graham, J.W. (2002). Missing Data: Our View of the State of the Art. Psychological Methods, Vol. 7, No. 2, 147–77 Tutorial sobre análisis de valores perdidos con SPSS 13. http://www2.chass.ncsu.edu/garson/pa765/missing.htm La imputación múltiple resuelve el problema de la infraestimación de la varianza de la muestra. Requiere que el mecanismo de pérdida sea MAR o MCAR.