… de la semana pasada.

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

PRUEBAS DE HIPOTESIS. I.S.C. Rosa E. Valdez V.. Dentro del estudio de la inferencia estadística, se describe como se puede tomar una muestra aleatoria.
Monitoreo y detección temprana. Parte II Bases epidemiológicas para el control de la enfermedad – Otoño 2001 Joel L. Weissfeld, M.D. M.P.H.
Una Breve Introducción a la Epidemiología - III (Estadística básica y medidas epidemiológicas comunes) Betty C. Jung RN, MPH, CHES ¿Quién es Betty C. Jung?
Estudios casos y controles
Monitoreo Dona Schneider, PhD, MPH, FACE
Estudios de Cohorte Dra. Pilar Jiménez M..
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
De la muestra a la población
Estimación de parámetros poblacionales
Introducción al tema El único método científico para validar conclusiones sobre un grupo de individuos a partir de la información que nos proporciona un.
FRANCISCO JAVIER RODRÍGUEZ
Estimación por intervalos de confianza.
Estimación por Intervalos de confianza
GRADO DE CONFIANZA DE LA INFERENCIA
INFERENCIA ESTADÍSTICA
Distribución muestral de la Media
Control estadístico de Proceso
Inferencia Estadística
Unidad VI: PRUEBAS DE HIPOTESIS
E Experimentos aleatorios. Espacio muestral
MODELOS DE ELECCIÓN BINARIA: ANÁLISIS LOGIT
Unidad V: Estimación de
Importancia de las aplicaciones de estadística en el control de procesos Guatemala 2010.
Análisis de datos El diseño estadístico.
VARIABLE ALEATORIA Y DISTRIBUCION DE PROBABILIDAD
Mt. Martín Moreyra Navarrete.
Distribuciones derivadas del muestreo
El teorema de Bayes Supongamos que sobre el espacio muestral S tenemos una partición Ai, con i = 1, ..., n. Esto significa que cualquier resultado de S.
DISTRIBUCIONES DE MUESTREO
UNIVERSIDAD DE GUAYAQUIL.
Estadística Descriptiva para variables continuas
El promedio como variable aleatoria: error estándar e intervalo de confianza para la media de la muestra Mario Briones L. MV, MSc 2005.
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
MUESTREO Enseñar no garantiza el "aprender"....
Bioestadística PROGRAMA DE DOCTORADO EN SALUD PÚBLICA.
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Inferencia Estadística
Estadística para administradores
Análisis y diseño de experimentos
Herramientas básicas.
MEDIDAS DE PRECISIÓN Fijación de complemento = FC Sensibilidad = Se
INFERENCIA ESTADISTICA
Analisis exploratorio INGRID TATIANA RODRIGUEZ GUZMAN DIANA COSTANZA BERMUDEZ GORDILLO.
Capítulo 1. Conceptos básicos de la Estadística
Estadística Descriptiva: 2. Medidas de Tendencia y Dispersión
Normalidad Preparado por: Dr. Juan José García García.
Teoría de Probabilidad Dr. Salvador García Lumbreras
Pruebas de hipótesis.
Métodos Cuantitativos
Estadística Descriptiva
(Validez de un estudio)
METODOLOGÍA Y TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES
Estimación y contraste de hipótesis
Tomando decisiones sobre las unidades de análisis
BASES PARA EL RAZONAMIENTO EN ESTADÍSTICA INFERENCIAL
ESTIMACIÓN DE PARÁMETROS
Bioestadística Aplicada I NMRCD – Programa GEIS UPCH – FASPA ABE Perú.
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Aspectos generales de la investigación educativa en el SNIT
INFERENCIA ESTADÍSTICA
DIPLOMADO DE POSTGRADO
Estadística descriptiva
León Darío Bello Parias UNIVERSIDAD DE ANTIOQUIA FACULTAD NACIONAL DE SLAUD PUBLICA “HECTOR ABAD GOMEZ”
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
Intervalos de Confianza M. C. José Juan Rincón Pasaye UMSNH – FIE Mayo de 2003.
Estadística Inferencial
Bioestadística Inferencia estadística y tamaño de muestra
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, Decana de América) FACULTAD DE MEDICINA - UPG MAESTRÍA EN NEUROCIENCIAS Curso: Bioestadística.
INTERVALO DE CONFIANZA
Transcripción de la presentación:

… de la semana pasada

El comando ‘histogram’ en STATA

Histogram inf_edad, bin(12) kdensity

Box Plot (Gráfico de cajas) Se muestra gráficamente los datos utilizando 5 números (estadísticas de resumen) X Q Mediana Q X Mínimo 1 3 Máximo 4 6 8 10 12

Relación entre el perfil de la distribución y el Box Plot Sesgada izquierda Simétrica Sesgada derecha Q Mediana Q Q Mediana Q Q Mediana Q 1 3 1 3 1 3

El comando ‘Graph’ en STATA

graph box inf_edad

Box plot

Los gráficos ‘box-plot’ permiten realizar comparaciones

Gráficos ‘tallo y hoja’ comando ‘stem’ de STATA

Scatter-plots y Ejemplos de Relaciones No-lineales

Representación gráfica y problemas éticos Last year, 25 percent of our sales dollar was profits. Depending on whether we present it to our stockholders or the unions, we don’t want to give it the same emphasis. Ganancias 25% . That’s easy. For our stockholders, we’ll show it in our annual report as a coin in perspective and take the 25 percent profits from the front … Ganancias 25% Ganancias 25% Whereas for the union, we’ll show it from the back where it won’t look anywhere as impressive.

Representación gráfica y problemas éticos Labor Costs Oops, we certainly don’t want to advertise that sharp increase in administrative costs, it may raise questions by our stockholders. Administrative Costs Administrative Costs No sweat. We’ll switch the two components around. This way, by placing the administrative costs at the top, it doesn’t look so damning. As a matter of fact, it looks like it’s going down. Labor Costs

Representación gráfica y problemas éticos 100 Now, if you could only show this declining sales picture as going up, all my problems would be solved. 75 50 25 ‘87 ‘88 ‘89 ‘90 ‘91 ‘92 100 Sure thing; no problem. A bit of perspective here, a bit of fore-shortening there, and now the line looks like it’s going up. 75 50 25 ‘87 ‘88 ‘89 ‘90 ‘91 ‘92

Manejo de datos fuera de rango (outliers) Los Outliers son valores que se consideran “No Pertenecen” al conjunto de datos. Razones para darse: 1. Errores de medición 2. Resultados atípicos La recomendación es corregir los errores (si es posible) y remover las observaciones atípicas. PERO! Y si así es la ciencia ?! Mejor hacer doble análisis: con y sin ‘outliers’

Análisis de OUTLIERS: Datos Simétricos Valores que se exceden en 3 DS de la media outlier region outlier region -3s + 3s

Análisis de OUTLIERS: Datos sesgados: Valores que se exceden de 3 rangos intercuartiles por debajo del primer cuartil Q1 o por encima del tercer cuartil (Q3) (percentiles 25 y 75 respectivamente) Sesgada izquierda Sesgada Positiva outlier region outlier region Q1 Q3 Q1 Q3 Q1 – 3(Q3 – Q1) Q3 + 3(Q3 – Q1)

Tratamientos TB MDR

Probabilidad de Conversión en Bk y Cultivo durante el tratamiento Estandarizado

Proporción acumulada de casos Bk y cultivo negativos a lo largo del tratamiento dentro de los que fueron positivos

Semana 4. Estadística descriptiva. Prevalencia e incidencia. Sensibilidad y especificidad. Manejo de proporciones, razones y tasas provenientes de datos nominales en estudios epidemiológicos. Análisis exploratorio con variables continuas. Exploración gráfica y tabular bivariada. Estimación puntual e intervalos de confianza. Relación entre la sensibilidad, valor predictivo positivo y prevalencia de la enfermedad. Teorema de Bayes.

Universo “real”: marco muestral Sujetos bajo estudio: muestra Proceso: Universo teórico DELIMITACION Universo “real”: marco muestral Cualquier persona con malaria en el norte del Perú Casos de malaria en Sullana Casos enero-marzo 2004 MUESTREO GENERALIZACION Sujetos bajo estudio: muestra

Tipos de inferencia estadística: Estimación: Cálculo numérico de un cierto parámetro en la población En forma puntual y con intervalo de variabilidad Prueba de hipótesis: Respuesta a una hipótesis o pregunta sobre el valor de un parámetro en la población No se logra tener certeza: la respuesta se da como una probabilidad

Manejo de proporciones, razones y tasas

Prevalencia e incidencia

Tasa o densidad de incidencia: Numero de eventos / Tiempo en riesgo, varía de 0 a infinito Expresa “velocidad” de ocurrencia, no la probabilidad de ocurrencia Resume el riesgo en un sólo indicador Unidades de tiempo definidas por el analista Supuestos: - exposición no tiene efecto acumulativo - riesgo es uniforme en el tiempo

¿Cuando se cumplen estos supuestos? Eventos “aleatorios” a través del tiempo, el riesgo no cambia en el tiempo El riesgo no tiene “memoria”, no depende de la última vez que hubo un evento

Algunos ejemplos: Picaduras de animales ponzoñosos Accidentes de tránsito Algunas enfermedades infecciosas en las que el riesgo no se acumula en el tiempo (TB, HIV) No se aplica a la mayoría de enfermedades crónicas o degenerativas

Ejemplo: 15 30+ 15+ 25 20+ 20 20+ 10 15+ 15 0 10 20 30 0 10 20 30 Lima Iquitos (1+1+1) / (15+30+15+25+20+20) 3 / 125 = 0.024 (riesgo anual 2.4%) (1+1) / (20+10+20+20+15+15) 2 / 100 = 0.020 (riesgo anual 2.0%) Cuando llega a haber un evento, el tiempo en riesgo (denominador) sólo se cuenta hasta que ocurre el evento

Describiendo las tasas: . cii 125 3, poisson -- Poisson Exact -- Variable | Exposure Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------------------- | 125 .024 .0138564 .0049501 .070122 . cii 100 2, poisson | 100 .02 .0141421 .0024267 .0722176

Comparando las tasas: . iri 3 2 125 100 | Exposed Unexposed | Total -----------------+------------------------+---------- Cases | 3 2 | 5 Person-time | 125 100 | 225 | | Incidence Rate | .024 .02 | .0222222 | Point estimate | [95% Conf. Interval] |------------------------+---------------------- Inc. rate diff. | .004 | -.0348053 .0428053 Inc. rate ratio | 1.2 | .1374607 14.37037 (exact) Attr. frac. ex. | .1666667 | -6.274809 .9304124 (exact) Attr. frac. pop | .1 | +----------------------------------------------- (midp) Pr(k>=3) = 0.4340 (exact) (midp) 2*Pr(k>=3) = 0.8679 (exact)

Preparando los datos: tiempoevento es una variable que es igual a la edad a la que fumó por primer vez (si fumó) o a la edad actual si es que nunca fumo. Hay que tener cuidado con los valores perdidos generate tiempoevento= p59 if p59!=88 replace tiempoevento= inf_edad if (p58==4) fumo es una variable que toma el valor 0 si la persona nunca fumó en su vida ó 1 si fumó alguna vez generate fumo= (p58!=4) if p58!=.

Aplicando a nuestro ejemplo:

Tasas de incidencia estratificadas:

Sensibilidad y especificidad

Principios en programas de monitoreo Validez – la habilidad para predecir quien tiene la no la tiene Sensibilidad – la habilidad de un test para correctamente identificar a los que tienen la enfermedad Una prueba con alta densibilidad tendrá pocos falsos negativos Especificidad – la habilidad de una prueba para correctamente identificar aquellos quienes no tienen la enfermedad Una prueba con alta especificidad tendrá pocos falsos positivos

Principios en programas de monitoreo (cont.) Una prueba ideal de monitoreo deberá tener 100% de sensibilidad y 100% de especificidad -no debería tener falsas negativas ni falsos positivos En la práctica, esos están inversamente relacionados Es posible variar la sensibilidad y la especificidad, variando el nivel en el cual la prueba se considera positiva

Calculando mediciones de validez Diagnóstico verdadero Resultado de la prueba Enfermedad No enfermedad Total Positivo a b a+b Negativo c d c+d Total a+c b+d a+b+c+d Sensibilidad = a/(a+c); la probabilidad de tener una prueba positiva si es realmente positivo Especificidad = d/(b+d); la probabilidad de tener una prueba negativa, si realmente es negativa Valor predictivo positivo = a/(a+b); la probabilida de tener la enfermedad si la prueba es positiva Valor predictivo negativo = d/(c+d); la probabilidad de no tener la enfermedad si la prueba es negativa Prevalencia = (a+c)/(a+b+c+d) Precisión (eficiencia de la prueba) = (a+d)/(a+b+c+d)

Note las relaciones en monitoreo Especificidad + tasa de falsos positivos = 1 d/(b+d) + b/(b+d) = 1 Si la especificidad está incrementada, la tasa de falsos positivos está disminuida Si la especificidad está disminuida, la tasa de falsos positivos está incrementada. Sensibilidad + tasa de falsos negativos = 1 a/(a+c) + c/(a+c) = 1 Si la sensibilidad está incrementada, la tasa de falsos negativos está disminuida Si la sensibilidad está disminuida, la tasa de falsos negativos está incrementada

Probabilidad de enfermedad Probabilidad de enfermedad pre-prueba = prevalencia de la enfermedad Probabilidad de enfermedad post-prueba = Si normal, c/(c+d) Si positiva, a/(a+b)

Relación entre Sensibilidad y Especificidad Normals= normales Diseased= enfermos

Sensibilidad y especificidad del nivel de glucosa en sangre Sensibilidad y especificidad del nivel de glucosa en sangre de 110 mg/100 ml para determinación del status diabético Nivel sanguíneo de glucosa (mg/100 ml) Diabéticos (%) No diabéticos (%) Aquellos con niveles arriba de 110 mg/100 ml son clasificados como diabéticos 92.9 (verdaderos positivos) 51.6 (Falsos positivos) Aquellos con niveles inferiores a 110 mg/100 ml son clasificados como no diabéticos 7.1 (falsos negativos) 48.4 (verdaderos negativos) 100.0 100.0

¿Qué debe preferirse: alta sensibilidad o alta especificidad? Si se tiene una enfermedad fatal sin tratamiento (como casos tempranos de SIDA), prefiera alta especificidad Si está monitoreando para la prevención de la transmisión de una enfermedad transmisible (como el monitoreo de VIH en donadores de sangre), prefiera sensibilidad

Recuerde…. Sensibilidad y especificidad son funciones de la prueba de monitoreo Si usas una prueba de monitoreo en una población de baja prevalencia, tendrás un valor predictivo positivo bajo y potencialmente muchos falsos positivos

Trasladado a la vida real….. Elisa tiene casi 90% de sensibilidad y 99% de especificidad Población Prevalencia de VIH Valor predictivo+ Valor predictivo- 58% NJ (7 million) 1.5% 99.8% Si enfermedad No enfermedad Total Prueba + 94,500 68,950 163,450 Prueba - 10,500 6,826,050 6,836,550 7 millones Total 105,000 6,895,000 Eficiencia de la prueba = (P+ + P-)/Total probados = 98.9% Pero, 10,500 personas que son VIH+ creen que no tienen la enfermedad Otros 68,950 están asustados creyendo que tienen la enfermedad y requieren más pruebas

Teorema de Bayes

La falacia del interrogador El problema de la confesión Sea A el suceso “el acusado es culpable” Sea C el suceso “el acusado ha confesado” Consideremos P(A) como la probabilidad de culpabilidad del acusado, antes de “las nuevas pruebas” de su autoconfesión P(C / A) : probabilidad de que ha confesado el delito dado que es realmente culpable. P(C / A ): probabilidad de que ha confesado el delito dado que no es culpable c Entonces P(A/C) = P(C / A) P(A) P(C / A) P(A) + P(C/A ) P(A ) c

Relación entre la sensibilidad, valor predictivo positivo y prevalencia de la enfermedad

Estimación puntual e intervalos de confianza

Estimación: Puntual: determina que posible valor del parámetro de la población es mas consistente con los datos observados en la muestra. Ejemplo: ell cálculo de una tasa de incidencia, un RR o un promedio Por intervalo: cuantifica la incertidumbre o variabilidad que tiene una estimación. Ejemplo: el cálculo de un intervalo de confianza

Estimación puntual e intervalos de confianza Los parámetros de una población tienen un valor fijo, (es un número exacto) Usualmente estos parámetros no se conocen, por que es complicado medir a ‘toda la población’ Ante esto, los parámetros se ‘estiman’ a partir de una ‘muestra’ de la población. La estimación puede ser ‘puntual’ o en un ‘intervalo de confianza’

Intervalo de confianza: Intervalo construido bajo condiciones tales que con una cierta probabilidad (usualmente 95%) contenga al parámetro deseado Intervalo calculado de acuerdo a principios tales que 95 de cada 100 intervalos similarmente construidos contendrán el valor del parámetro Uno puede tener 95% de confianza en afirmar que ese intervalo contiene el valor real del parámetro

Conceptualmente: Intervalo calculado con LA UNICA muestra obtenida Intervalos de confianza de varias muestras (solo teórico) Rango de valores valores del parámetro Verdadero valor del parámetro

Es mejor estimar el intervalo de confianza de un parámetro antes que su estimación puntual… El intervalo de confianza es una ‘variable aleatoria’ El 95% Intervalo de Confianza, es un intervalo que tiene un 95% de probabilidad de cubrir el verdadero valor del parámetro estimado

El Teorema del Límite Central da validez a los intervalos de confianza La media de una muestra “grande” de datos de cualquier tipo sigue una distribución normal Esto aún se cumple para datos binomiales (sexo, prevalencia, sensibilidad, etc) Qué es una muestra grande? Eso varía según cada tipo de dato (entre otras cosas) A medida que el tamaño de muestra crece, la distribución de la media muestral se hace más normal

n=2 n=5 n=30 n=3 n=15 n=60

Efectos del ‘muestreo’ en la estimación de un parámetro

En resumen: Un intervalo de confianza tiene una cierta probabilidad (usualmente 95%) de contener al parámetro deseado El TLC da validez a esta afirmación en muestras grandes para todo tipo de datos En datos binomiales, el IC tiene una probabilidad de 95% de incluir a la prevalencia o proporción de interés

Comandos en STATA para los Intervalos de Confianza: ci

Intervalos de confianza de variables normales Std.Err. = Std.Dev / sqrt(N)

Ci varlist, level( )

Intervalos de confianza de proporciones

Usando los menues de STATA 8