La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Análisis de datos.

Presentaciones similares


Presentación del tema: "Análisis de datos."— Transcripción de la presentación:

1 Análisis de datos

2 Descripción de Métodos
Objetivos Metodología Evaluación Bibliografía Programación

3 Objetivos del análisis
Un estudio es un ejercicio de medición Estimación del efecto Validez de la estimación Precisión de la estimación No, prueba de hipótesis Análisis debe ser cuantitativo más que cualitativo

4 Pasos en el análisis de datos
Editar los datos para evaluar su validez, consistencia y cobertura Resumir los datos en tablas o gráficas (análisis descriptivo) Estimar las medidas epidemiológicas de interés para el estudio: ocurrencia o efecto con sus respectivos intérvalos de confianza. Interpretar los resultados del análisis descriptivo y la estimación

5 Edición: aspectos generales
Revisión de los datos recién digitados Identificación y corrección de errores, siempre que sea posible Predefinir naturaleza de las variables que serán usadas en el análisis Disminuir al máximo el número de veces que la información debe ser digitada y codificada

6 Edición: aspectos básicos
Revisión de cada variable buscando valores “atipicos” o diferentes a lo esperado. Confrontar con la fuente primaria de la información. Tener cuidado en la codificación de ciertas respuestas, i.e uso del “0” como código. Examinar la distribución completa de cada variable y confrontar con lo esperado

7 Edición: otros aspectos
Consistencia en los patrones de respuesta de variables que están relacionadas. Usar software especializado en la entrada de datos para optimizar la edición de los mismos.

8 Resumir y describir los datos
Examinar y mostrar la distribución de las principales variables: Exposición Evento Confusores? Modificadores de la medida de efecto? No utilizar estadísticas ni nada que permita hacer inferencias más allá de los datos del estudio

9 Para que las estadísticas descriptivas?
Sirve para identificar valores “atipicos” Permite validar supuestos requeridos por las pruebas de estadística inferencial.

10 Tabulación de datos Las tablas de contingencia (n x n) pueden ser lo único que el investigador necesita para realizar sus estimaciones. Muy útil cuando no hay confusores o modificadores de la medida de efecto.

11 Elección de categorías
Hay que decidir como colapsar los datos en pocas categorías para construir las tablas de contingencia, especialmente para las variables continuas. Número de categorías depende del tamaño de la muestra En muestras grandes para el control de confusión, 5 categorías son suficientes, lo mismo que para evaluar el efecto dosis-respuesta de una exposición.

12 Elección de categorías
Utilizar categorías que sean propias de la variable Incluir categorías extremas en el análisis, especialmente para la exposición principal. Tener cuidado con el uso de quintiles y categorías definidas a partir de la distribución de la variable. Las categorías abiertas, en los extremos de la distribución de la variable, pueden ser una fuente de confusión importante.

13 Clasificación de sujetos y del tiempo-persona
Para clasificar adecuadamente el aporte de cada sujeto a las categorías de expuesto y no expuesto, se debe asumir un modelo de periodo de inducción para la relación exposición-evento que estamos estudiando. Tiempo que aporta el sujeto durante el periodo de inducción hace parte del periodo de “no expuesto”. Eventos previos al cumplimiento del periodo de inducción promedio, no pueden ser atribuidos a la exposición que esta bajo estudio.

14 Manejo de datos faltantes
Excluir completamente los sujetos: análisis de sujetos completos Métodos de imputación o predicción del valor de los datos faltantes Métodos de asignación de pesos a los sujetos con datos faltantes Nunca deben ser interpretados los datos faltantes como una “categoría” más de la variable en cuestión o identificados con una variable nueva que indique la presencia o no del dato faltante (missing indicator).

15 Otras reflexiones sobre el análisis de los datos...

16 Prueba de hipótesis No debe ser el objetivo del análisis
No es necesaria, ni para publicar los resultados No aporta al análisis Sin embargo es un concepto muy arraigado

17 Medición Proceso más complejo que el de toma de decisiones
Definir cual es el parámetro objeto Estimarlo en el estudio Calcular el estimativo puntual Múltiples factores pueden afectar el valor de dicho estimativo puntual

18 Error aleatorio en la estimación
Estimación de un rango o intervalo de estimativos puntuales posibles a partir de los datos Intervalo de confianza Límites de confianza Nivel de confianza del intervalo (1- alfa) es un porcentaje (i.e. 95%)

19 Temas importantes en el análisis de los datos
Diseño del estudio Descripción de los datos en tablas y figuras, pero sin el uso de estadísticas. Análisis estratificado (confusión y modificación de la medida de efecto) Métodos multivariados

20 Buenas prácticas en análisis de datos
Elaborar y seguir un plan de análisis Familiarizarse temática, estudio y datos Documentar las actividades y decisiones tomadas (i.e. en un diario o bitácora) Hacer los análisis mediante programas (code) y dejar documentación. No modificar la base de datos original y hacer copias de seguridad

21 Ajuste de variables de confusión

22 La identificación de asociaciones no causales: confusión
Confusión: es una asociación no causal entre una exposición y un desenlace, que ocurre como consecuencia de una tercera variables, variable confusora o confusor. La variable confusora tiene que estar asociada causalmente o no a la supuesta variable de exposición y está asociada al desenlace. Esto puede dar como resultado una aparición o intensificación de una asociación que no es debida a un efecto causal, también puede desaparecer o diluir una asociación causal.

23 La confusión no es un sesgo, por que la relación no es causal pero es real.
La confusión está asociada a la definición de exposiciones

24 Las tasas de mortalidad bruta general para seís países en las Américas en un tiempo X
Costa Rica: 3,8 por 1.000 Venezuela: 4,4 por 1.000 México: ,9 por 1.000 Cuba: ,7 por 1.000 Canadá: ,3 por 1.000 Estados Unidos: 8,7 por 1.000 Las altas tasas de mortalidad en Estados Unidos y Canadá reflejan que hay una alta proporción de individuos viejos en la población, por ello la edad es un factor de riesgo importante para mortalidad

25 Al ajustar las tasas de mortalidad
Costa Rica: 3,7 por 1.000 Venezuela: 4,6 por 1.000 México: por 1.000 Cuba: por 1.000 Canadá: ,2 por 1.000 Estados Unidos: 3,6 por 1.000

26 Al valorar la confusión se requiere establecer si la asociación entre la exposición y un desenlace dado es inducida, fortalecida, debilitada o eliminada una tercera variable o grupo de variables (confusores)

27 La variable confusora se asocia causalmente con el desenlace
y esta asociada causalmente o no con la exposición pero no es una variable intermediaria en el camino causal entre la exposición y desenlace

28 E ? C Y

29 País ? Distribución por edad Mortalidad

30 Actividad sexual ? Salud general Mortalidad

31 Actividad sexual Mortalidad Salud general
Es una variable intermedia en la cadena causal entre la exposición y el desenlace

32 Obesidad Mortalidad Hipertensión
Es una variable intermedia en la cadena causal entre la exposición y el desenlace

33 Hábito de fumar de la madre
Bajo peso al nacer El hábito de fumar es el causante de la muerte perinatal mediante otros mecanismos diferentes al bajo peso al nacer? En este caso el bajo peso al nacer se presenta como confusor (al menos en el sentido de que se garantiza su control) la presencia de un efecto residual (peso ajustado) del hábito de fumar sobre la muerte perinatal indicaria que, adicionalmente al efecto negativo del bajo peso al nacer, el hábito tabaquico puede tener un efecto tóxico directo Muerte perinatal El confusor es una variable intermedia en la cadena causal entre la exposición y el desenlace

34 Hábito de fumar de la madre
¿Otros mecanismos? Bajo peso al nacer El hábito de fumar es el causante de la muerte perinatal mediante otros mecanismos diferentes al bajo peso al nacer? En este caso el bajo peso al nacer se presenta como confusor (al menos en el sentido de que se garantiza su control) la presencia de un efecto residual (peso ajustado) del hábito de fumar sobre la muerte perinatal indicaria que, adicionalmente al efecto negativo del bajo peso al nacer, el hábito tabaquico puede tener un efecto tóxico directo Muerte perinatal

35 Falta de validez: Sesgo

36

37

38

39

40 Sesgo Este error sistemático se deriva de deficiencias en la selección de participantes del estudio o en los procedimientos de recolección de información relevante sobre la exposición, o el desenlace. Los resultados observados del estudio tienden a ser diferentes de los verdaderos. Esa tendencia es la que se denomina Sesgo

41 El error sistemático (sesgo) debe distinguirse del error debido a variabilidad aleatoria (error de muestreo). El sesgo se relaciona con el proceso, es decir, con el diseño y los procedimientos del estudio y no con los resultados de estudio particular alguno

42 Si el diseño y los procedimientos de un estudio son insesgados, el estudio se considera válido porque sus resultados serán en promedio correctos. Un diseño deficiente se considera sesgado (o no válido) porque producirá un resultados erróneo en promedio.

43 Distribución hipotética de resultados procedentes de un diseño sesgado
Estudios que se acercan a la verdad Resultados de los estudios sesgo Verdad Promedio de los resultados

44 Sesgo de selección Cuando los individuos tienen diferentes probabilidades de ser incluido en la muestra dependiendo de sus características relevantes; es decir, la exposición y el desenlace de interés. Un ejemplo es el sesgo de vigilancia médica .

45 Sesgo de selección: un grupo relevante en la población (casos expuestos en el ejemplo) tiene una probabilidad más alta de estar incluido en la muestra Población de referencia Enfermos expuestos Sanos expuestos Enfermos no expuestos Sanos no expuestos Muestra del estudio

46 El sesgo de información
Resulta de una tendencia sistemática de los individuos seleccionados para su inclusión en el estudio de ser colocados erróneamente en categorías diferentes de exposición/desenlace, lo que conduce a un error de clasificación. Ej es el sesgo del recuerdo que acaece cuando la capacidad para recordar exposiciones pasadas difiere en dependencia de que se trate de un caso o de un control.

47 Sesgo de mala clasificación (información) se produce cierto grado de mala clasificación en la información sobre la exposición tanto en caso como en controles, pero los casos no expuestos en este ejemplo tienden a comunicar un grado de exposición pasada en mayor medida que los controles. E (expuesto); NE (no expuestos) Población de referencia Enfermos expuestos Sanos expuestos Enfermos no expuestos Sanos no expuestos Casos Control E NE Muestras del estudio

48 Sesgo de selección Este sesgo ocurre cuando existe un error sistemático en la asignación de los sujetos, a la condición de casos o de controles en los estudios de casos y controles, o a la condición de expuestos o no expuestos en los estudios de cohorte. Contribuye a distorsionar nuestra apreciación de la verdadera asociación entre la exposición y el desenlace. Ej es el sesgo Berksoniano que ocurre en estudios de Ca y Co con pacientes hospitalizados.

49 Factor de riesgo A Población total casos No casos (controles) Presente
Tabla 4.1 Estudio hipotético de casos y controles que incluye todos los casos y los no casos de una población definida; se supone que no hay confusión ni sesgos de información Factor de riesgo A Población total casos No casos (controles) Presente 500 1800 Ausente 7200 Total 1000 9000 Odds de exposición 500:500= 1,0 1800:7200=1:4 OR (500/500)/(1800/7200) = 4

50 Tabla 4.2 Estudio hipotético de casos y controles conformado por una muestra insesgada del 50% de los casos y 10% de los controles procedentes de una población de referencia que se muestra en esta tabla Factor de riesgo A Población total casos No casos (controles) Presente 250 180 Ausente 720 Total 1000*0,5=500 9000*0.1=900 Odds de exposición 500:500= 1,0 1800:7200=1:4 OR (250/250)/(180/720) = 4 Una muestra insesgada tal como esta produce un odds de exposición insesgados en los casos y controles y por ende también un odds ratio insesgado. Sin embargo, a medida que la fracción de muestreo dentro del grupo de casos y dentro del grupo de controles no está afectada por al exposición, no se presenta sesgo de selección. Consecuencias: El odds de exposición insesgado en casos y controles OR insesgado

51 Tabla 4.3 Ejemplo de sesgo de selección al escoger los casos en un estudio hipotético de casos y controles que incluye en la muestra al 50% de los casos y al 10% de los no casos de la población de referencia como se muestra a continuación Factor de riesgo A Población total casos No casos (controles) Presente 500*0,6= 300 180 Ausente 500*0,4= 200 720 Total 1000*0,5= 500 9000*0,1= 900 Odds de exposición 300:200= 1,5:1 180:720= 1.0/4.0 OR (300/200)/(180/720) = 6 Aquí hay un ejemplo de sesgo de selección sin que el investigador se de cuenta, la selección de casos, pero no la de controles esta sesgada por que varía de acuerdo al grado de exposición. La selección de casos no es independiente de la exposición. Como consecuencia, aún cuando la fracción de muestreo total para los casos es 50%, a los casos expuestos se aplica una fracción de muestreo mayor que a los casos no expuestos, lo que sesga el odds de exposición en los casos pero no en los controles, lo cual produce un odds ratio sesgado. Debido al sesgo diferencial como este, se distorsiona la magnitud de una asociación. Los investigadores intentan igualar el sesgo entre los grupos objeto de comparación. En os estudios retrospectivos, suelen procurarse muestras de casos y controles que estén bajo el mismo proceso de selección. Consecuencias: El odds de exposición sesgado en casos y odds de exposición insesgado en controles OR sesgado Fracciones de muestreo diferenciales ajenas a la intención del investigador y desconocidas para él

52 Tabla 4.4 Ejemplo del mismo sesgo de selección de casos y controles en un estudio hipotético de casos y controles que incluye en la muestra al 50% de los casos y al 10% de los no casos de la población de referencia como se muestra a continuación Factor de riesgo A Población total casos No casos (controles) Presente 500*0,6= 300 1800*0,136= 245 Ausente 500*0,4= 200 7200*0.091 = 655 Total 1000*0,5= 500 9000*0,1= 900 Odds de exposición 300:200= 1,5:1 180:720= 1.0/2.67 OR (300/200)/(245/655) = 4 En esta tabla un sesgo de igual magnitud resultó en la inclusión de proporciones mayores de sujetos expuestos en el grupo de casos y en el grupo de controles. Como consecuencia, aunque el odss de exposición está sesgado tanto en casos como en controles, como se aprecia al compararlos con los verdaderos odds de exposición incluidos, el odds ratio es insesgado. Consecuencias: El odds de exposición sesgado en igual grado en casos y controles. OR insesgado

53 En los estudios de cohorte la pérdida diferencial en el seguimiento pueden tener diferentes probabilidades en el desenlace respecto a los que se mantienen en la cohorte. Un riesgo relativo es sesgado si las pérdidas del seguimiento son sesgadas de acuerdo a la exposición o al desenlace

54 Sesgo de información Aparece como resultado de definiciones imperfectas de las variables de estudio o como consecuencia del empleo de procedimientos inapropiados para coleccionar los datos. Esto puede generar errores de clasificación de la exposición y/o del desenlace para una proporción significativa de participantes en el estudio.

55 VALIDEZ capacidad de una prueba de distinguir entre aquellos individuos que tienen la enfermedad (u otra característica) y aquellos que no la tienen. SENSIBILIDAD capacidad de una prueba para identificar correctamente a aquellos individuos que tienen la enfermedad (o característica de interés) ESPECIFICIDAD capacidad de una prueba para identificar correctamente a aquellos individuos que no tienen la enfermedad (o característica de interés) FIABILIDAD (REPLICABILIDAD) grado en que los resultados obtenidos por una prueba son ratificados cuando se repite. La sensibilidad y especificidad también pueden referirse a la exposición

56 Un estudio válido es equivalente a un estudio insesgado un estudio que basado en su diseño, método y procedimiento producirá (en promedio) resultados globales cercanos a la verdad. La sensibilidad y la especificidad como los dos componentes principales de la validez.

57 Sesgos en la identificación de la exposición
Sesgo del recuerdo, este sesgo dimana de un recuerdo inexacto de la exposición pasada. Si el sesgo del recuerdo difiere entre casos y controles, el error de clasificación es diferencial; cuando el error del recuerdo es de igual magnitud se dice que el error es no diferencial.

58 Los métodos usados para prevenir este sesgo se hallan en la verificación de la respuesta que dan los individuos, el uso de controles enfermos en el caso de casos y controles, el empleo de marcadores objetivos de la exposición y realización de anidados de casos y controles al interior de una cohorte

59 La verificación de la información obtenida de los participantes se hace a través de la evaluación de registros. En el caso de los estudios de casos y controles como los casos han estado rumiando en torno a las causas de la enfermedad, en alguna se selecciono como control a otros enfermos en un intento por introducir un sesgo similar en el odds de exposición de los controles

60 Los marcadores objetivos de la exposición o a la susceptibilidad son menos propensos al sesgo del recuerdo que las respuestas directas de los sujetos de estudio.

61 Sesgo del entrevistador
Cuando la recolección de los datos en un estudio de casos y controles no está enmascarada con respecto al estado de la enfermedad de los participantes en el estudio puede producirse tanto el sesgo del observador al evaluar la exposición, como el del entrevistador.

62 El sesgo del entrevistador puede producirse como consecuencia del afán por aclarar las preguntas cuando tales aclaraciones no son parte del protocolo de estudio, cuando se violan las reglas de la prueba o se pasan por alto las especificaciones del cuestionario. Desviaciones mas sutiles pueden ser por algunos énfasis en algunas palabras.

63 Para disminuir este sesgo se incluye cuidadosos controles de calidad, desarrollo de manuales de operación, entrenamiento de grupos, estándarización de procesos. Medidas de confiabilidad y validez, en submuestras, enmascaramiento de entrevistadores

64 Sesgo de identificación del desenlace
Sesgo del observador, ocurre cuando la evaluación del desenlace no es independiente del conocimiento que se tenga acerca de la exposición. Enmascarar la situación en términos de exposición ante los observadores a cargo de decidir si el desenlace está presente o no podrían teóricamente prevenir este sesgo.

65 Cuando el enmascaramiento no es práctico el sesgo del observador puede evaluarse estratificando según la certeza del diagnóstico o los niveles de exposición. Otra estrategia es realizar la clasificación diagnóstica con múltiples observadores

66 Sesgo del que responde Los sesgos del recuerdo atribuibles al informante están usualmente asociados con la identificación de la exposición en los estudios de casos y controles. El sesgo puede ocurrir durante el seguimiento de una cohorte cuando la información del desenlace se obtiene a través de la información de un participante.

67 Siempre que sea posible la información de un participante sobre la posible ocurrencia de un desenlace de interés debería confirmarse por medios más objetivos como la revisión de otros instrumentos.

68 El sesgo de información el error de clasificación
Error de clasificación no diferencial Ocurre cuando el error de clasificación de la exposición es independiente de que se trate de un caso o de un control Error de clasificación no diferencial cuando hay dos categorías.

69 Ejemplo hipotético del efecto del error de clasificación no diferencial de dos categorías de exposición, con el 30% de casos expuestos y 30% de controles expuestos clasificados erróneamente Sin error de clasificación Exposición Casos Controles Si 50 20 No 80 OR= (50/50)/(20/80)= 4,0 30% de error de clasificación de la exposición en cada grupo 50-15=35 20-6=14 50+15=65 80+6=86 OR=(35/65)/(14/86)=3,3 Efecto del error de clasificación no diferencial con dos categorías de exposición: sesgar el OR hacia el valor nulo (con lo cual se diluye la asociación En este ejemplo el error de clasificación ocurre en una sola dirección. Los individuos expuestos se clasifican erróneamente como no expuestos. Sin embargo a veces el sesgo ocurre en ambas direcciones, esto es, parte de los sujetos expuestos se clasifican como no expuestos o falsos negativos, es decir, la clasificación correcta de los verdaderamente expuestos o sensibilidad es menor a 100% y parte de los sujetos no expuestos se clasifican como expuestos o falsos positivos es decir, la clasificación correcta de los no expuestos o especificidad es menor del 100% En negritas los individuos mal clasificados

70 En un estudio de casos y controles el error de clasificación no diferencial aparece siempre que la sensibilidad o especificidad de la clasificación de la exposición es la misma para los casos que para los controles, aunque menor al 100%.

71 Aplicación de los conceptos de sensibilidad y especificidad en el error de clasificación de la exposición Casos Controles Exp (Pos) No exp (Neg) OR verdadero Resultados verdaderos A C B D (A/C)/(B/D) Resultados del estudio OR mal clasificado Exp VP FP VP+FP= a VP+FP= b No exp FN VN FN+VN= c FN+VN= d (a/c)/(b/d)


Descargar ppt "Análisis de datos."

Presentaciones similares


Anuncios Google