Descargar la presentación
La descarga está en progreso. Por favor, espere
1
Análisis de valores perdidos
Ana María López Departamento de Psicología Experimental
2
Introducción La presencia de valores perdidos (información ausente o faltante) es un problema común a cualquier investigación y no puede ser ignorado en el análisis de datos. Ignorar los datos ausentes puede tener repercusiones graves que van desde la perdida de potencia del estudio hasta la aparición de sesgos inaceptables. La eliminación de sujetos con características especiales limita la representatividad o validez externa de los resultados del estudio. Las razones para la ausencia de datos pueden ser diversas: fallos en los instrumentos de medida, los sujetos no asisten a la entrevista (en diseños longitudinales pueden abandonar el estudio en una oleada concreta), no contestan a una serie de preguntas o responden con la opción no sabe/no contesta incorporada en el cuestionario, etc. Por todas estas razones y muchas otras los datos perdidos son ubicuos en la investigación en ciencias sociales y de la salud (Allison, 2002).
3
Introducción Hay una solución fácil para el tratamiento de bases de datos con valores perdidos y consiste en analizar sólo los casos con Información completa en el conjunto de variables. Esta solución, es la opción por defecto de la mayoría de los paquetes estadísticos, se conoce como análisis de casos completos (Casewise, Listwise). El análisis de casos completos tiene la ventaja de su simplicidad pero el inconveniente de que se pueden excluir a muchos casos y perder potencia en los análisis estadísticos.
4
Patrones de pérdida de información
La forma o patrón para la pérdida de datos puede ser muy variada. En la figura siguiente aparecen representada tres posibles matrices de datos con perdida de información univariante, monótona y aleatoria. 1 2 3 . N ? b) X1 X2 X3 ..…Yp ? ? Y Y2 Y3 ……Yp Y1 Y2 Y3....Yp Figura 1. Patrones de pedida de información: a) univariado, b) monótono, y c) arbitrario a) c)
5
Mecanismos de perdida de datos
Se distinguen tres mecanismos de perdida de datos: Datos perdidos completamente al azar (MCAR = missing completely at random) Datos perdidos al azar (MAR= missing completely at random) Datos perdidos no ignorables o no debidos al azar (MNI=missing non-ignorable, o MNAR=missing not at random). El problema de los datos perdidos no es tanto la cantidad sino el mecanismo por el que se han producido los valores perdidos. Imaginemos que preguntamos sobre la ley de matrimonios homosexuales en una escala de 1 (muy desfavorable) hasta 7 (muy favorable) y que relacionamos la opinión con la clase social medida por el salario. Supongamos que un 40% de los sujetos no nos proporcionan información acerca de su salario. ¿Cómo afectaría a la opinión si sólo analizamos los sujetos con información completa?, ¿Los datos perdidos en salario corresponden a sujetos con opiniones distribuidas aleatoriamente en el rango completo de la escala de opinión?, ¿los datos perdidos corresponden a las opiniones más desfavorables?, ¿son ignorables?. Todas estas preguntas son objeto del análisis de valores perdidos.
6
Mecanismos de perdida de datos
Se considera que los datos perdidos son MCAR cuando las características de los sujetos con información son las mismas que las de los sujetos sin información. Dicho de otra manera la probabilidad de que un sujeto presente un valor ausente en una variable no depende ni de otras variables del cuestionario ni de los valores de la propia variable con valores perdidos. Las observaciones con datos perdidos son una muestra aleatoria del conjunto de observaciones. Ejemplo de MCAR: 1. Las personas que no nos proporcionan su salario tienen, en promedio, el mismo salario que las personas que nos lo proporcionan. 2. Las características estadísticas (media, porcentajes) del resto de las variables son las misma para los sujetos que nos proporcionan su salario y para los que no lo proporcionan.
7
Mecanismos de perdida de datos
La perdida de datos es MAR cuando los sujetos con datos incompletos son diferentes significativamente de los que presentan datos completos en alguna variable, y el patrón de ausencia de datos puede ser predecible a partir de variables con datos observados en la base de datos del estudio que no muestran ausencia de datos. La probabilidad de que se produzca la ausencia de una observación depende de otras variables pero no de los valores de la variable con el valor ausente. Es imposible probar si la condición MAR es satisfecha y la razón es que dado que no conocemos la información faltante no podemos comparar los valores de aquellos sujetos que tienen información con los que no la tienen. Un ejemplo de MAR La pérdida de valores en la variable sueldo es MAR si depende del estado civil pero dentro de cada categoría, la probabilidad de missing no está relacionada con el sueldo. MAR: sólo se podría probar a posteriori consiguiendo la información que falta.
8
Mecanismos de perdida de datos
La perdida de datos es MNAR cuando la probabilidad de los datos perdidos sobre una variable Y depende de los valores de dicha variable una vez que se han controlado el resto de las variables. Ejemplo: Si son los hogares de renta mayor los que con menos probabilidad nos proporcionan el salario, una vez controladas el resto de las variables, entonces la perdida de datos no es aleatoria ni ignorable. En los siguientes archivos se simula el mecanismo MAR y MNAR para una variable y para dos variables. En este último ejemplo tomado de Schafer y Graham, 2002 se simulan los tres mecanismos de pérdida con dos variables. MAR: sólo se podría probar a posteriori consiguiendo la información que falta.
9
Análisis de Valores perdidos con SPSS
10
Análisis de Valores perdidos con SPSS
Archivo: opinion.sav
11
Análisis de valores perdidos
12
Análisis de valores perdidos
Tablas de contingencia de variables indicador frente a categóricas
13
Análisis de valores perdidos
14
Análisis de valores perdidos
Estadísticos según lista Estadísticos según pareja
15
Análisis de valores perdidos
Estadísticos de EM estimados Estadísticos de regresión estimados
16
Métodos para tratar valores perdidos
Análisis de casos completos: para el conjunto de variables (Listwise, Complete case) Análisis de casos completos: por pares de variables (Pairwise) Pairwise: utiliza muestras de tamaño distinto para diferentes parámetros. La principal virtud de los métodos basados en la eliminación de casos es su simplicidad y, en el caso de listwise proporciona estimaciones insesgadas cuando el número de valores perdidos no es grande y el mecanismo es mcar. Los principales inconvenientes de listwise es que ignora posibles diferencias entre casos completos e incompletos. Los errores estándar generalmente serán menores en la muestra analizada con listwise. Proporciona estimaciones sesgadas si la muestra reducida no es una submuestra aleatoria de la original. Requiere el supuesto de MCAR.
17
Métodos para tratar valores perdidos
Métodos de imputación de datos Imputación simple Sustitución por la media de las observaciones con información. Imputación mediante regresión múltiple. Asigna a los valores missing los valores predichos por una ecuación de regresión estimada a partir de los sujetos con información completa. Algoritmo EM 2. Imputación múltiple Media: Este método tiene la desventaja de que reduce la varianza y errores estándar se infraestiman y altera las covarianzas y correlaciones entre las variables. Regresión: no es un método recomendado porque sobreestima las correlaciones entre Y y las variables predictoras incluidas en la regresión estimada para realizar la imputación. En general la desventaja fundamental de los métodos de imputación simple es que tienden a infraestimar la varianza, dado que reemplazan los valores ausentes por valores ya existentes en la base de datos o, en el caso de la regresión, por valores estimados a partir de covariables que pueden disminuir la variabilidad espontánea de las observaciones en caso de haberse llevado a cabo.
18
Referencias bibliográficas:
Allison, P.D. (2002). Missing values. Sage Little, R. J. A. y Rubin, D. B. (1989) “The Analysis of Social Science Data with Missing Values.” Sociological Methods and Research 18: Little, R. J. A. y Rubin, D.B. Statistical Analysis with Missing Data, 2nd edition. New York: Wiley. Rejas, J. Imputación de datos ausentes en estudios de calidad de vida relacionados con la salud: patrones de pérdida de datos y métodos de imputación. Investig. Clín. Farm. 2005, Vol. 2 (1): 23-29 Schafer, J.L. y Graham, J.W. (2002). Missing Data: Our View of the State of the Art. Psychological Methods, Vol. 7, No. 2, 147–77 Tutorial sobre análisis de valores perdidos con SPSS 13. La imputación múltiple resuelve el problema de la infraestimación de la varianza de la muestra. Requiere que el mecanismo de pérdida sea MAR o MCAR.
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.