Curso de Bioestadística Parte 7 Introducción a estadística inferencial

Slides:



Advertisements
Presentaciones similares
MOVIMIENTO JOVENES DE LA CALLE CIUDAD DE GUATEMALA chi siamo quienes-somos qui sommes-nous who we are attività actividades activités activities scuola.
Advertisements

Estudio diagnóstico de la Opinión Pública Ciudad de Buenos Aires
UNIVERSIDAD NACIONAL DE EDUCACIÓN Alma Máter del Magisterio Nacional
ESTIMACIÓN DE DENSIDAD
Página 1 Encuesta sobre conducción y seguridad viaria Diciembre 2004 Presentación.
ESTIMACION DE PARAMETRO
Conocimiento, Uso y Evaluación de Medicamentos Genéricos
Los números del 0 al cero uno dos tres cuatro cinco 6 7 8
La mediana La mediana es el valor tal que el 50 % de las observaciones son menores y 50 % de ellas son mayores a dicho valor. En otra palabras, la mediana.
1 ESTUDIO DE OPINIÓN PÚBLICA: LA SEXUALIDAD DE LOS CHILENOS ABRIL 2006 ¿Informados o desinformados? Principal fuente de información Las enseñanzas durante.
Noviembre 2007Estudio Rostros de Noticias 2007Collect-GfKWikén Estudio Rostros de Noticias de la TV Chilena Desarrollados para Revista Wikén El Mercurio.
Curso de Bioestadística Parte 4 Probabilidad
Curso de Bioestadística Parte 10 Inferencias de una proporción
Curso de Bioestadística Parte 9 Comparación de dos medias
Curso de Bioestadística Parte 11 Comparación de dos proporciones
Curso de Bioestadística Parte 8 Inferencias acerca de una media
Curso de Bioestadística Parte 13 Medidas de efecto en tablas 2 x 2
Curso de Bioestadística Parte 2 Tipos de estudios en epidemiología
Curso de Bioestadística Parte 16 Regresión lineal
Curso de Bioestadística Parte 14 Análisis de datos binarios pareados
Curso de Bioestadística Parte 1 ¿Qué es estadística?
Curso de Bioestadística Parte 5 Distribución binominal
Curso de Bioestadística Parte 15 Correlación
1 LA UTILIZACION DE LAS TIC EN LAS MICROEMPRESAS GALLEGAS. AÑO mayo 2005.
1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO de Junio de 2005.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN EL COMERCIO GALLEGO (Resumen COMERCIO AL DETALLE) Noviembre de 2004.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS ( Resumen PYMES ) Noviembre de 2004.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS (MICROEMPRESAS, resultados provisionales) 29 de julio de 2004.
Tema 13. Inferencia estadística Principales conceptos. Muestreo
TEMA 2 MÚLTIPLOS Y DIVISORES
02- Plan Organización Docente v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
01- OFERTA FORMATIVA v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
Aladdín-respuestas 1.Vivía 2.Era 3.Amaba 4.Quería 5.Gustaban 6.Se sentía 7.Salía 8.Tenía 9.Decidió 10.escapó 11. Se vistió 12. Conoció 13. Vio 14. Pensó
Respuestas Buscando a Nemo.
SIMULACIÓN DE MONTECARLO
Dr.. Roy Martin Angulo Reyes
MUESTREO (NAGA´s) BOLETÍN 5020
Descripción de los datos: medidas de ubicación
Descripción de los datos: medidas de dispersión
Mulán /75 puntos. 1.Querían 2.Gustaban 3.Escuchó 4.Dijo 5.Tenía 6.Ayudaron 7.Maquillaron 8.Arreglaron 9.Dio 10.Estaba 11.Iba 12.Quería 13.Salió 14.Gritó
Ejemplo A continuación aparecen las tasas de retorno de dos fondos de inversión durante los últimos 10 años. 1. ¿Cuál es más riesgoso? 2. ¿En cuál invertiría.
Unidad de competencia II Estadística descriptiva:
Objetivos: Al terminar este capítulo podrá:
Capítulo 3 Descripción de datos, medidas de tendencia central
MOVIMIENTO JOVENES DE LA CALLE CIUDAD DE GUATEMALA chi siamo quienes-somos qui sommes-nous who we are attività actividades activités activities alimentazione.
Distribuciones de probabilidad bidimensionales o conjuntas
Estimación de parámetros poblacionales
1 Conversatorio con Consumidores que compran en Supermercados de la ciudad de Barranquilla Análisis Estadístico Desarrollado por: Andrés Muñoz 2006.
Vocabulario querer comerlo -paja por supuesto - madera
-Presentación- Estudio de la Mujer
FUNCIONES DE UNA VARIABLE REAL
EL OSO APRENDIZ Y SUS AMIGOS
AACS Correcto muestreo de suelos Ing. Agr. Pablo Marasas
1 PROYECTO DE PRESUPUESTO DE EGRESOS DE LA FEDERACION 2002 COORDINACIÓN DE POLITICA ECONOMICA GP-PRD.
Ecuaciones Cuadráticas
¡Primero mira fijo a la bruja!
Introducción a las Señales Aleatorias ISAL
¿Qué es un conjunto? Un conjunto es una colección de objetos considerada como un todo. Los objetos de un conjunto son llamados elementos o miembros del.
Estimación por intervalos de confianza.
Estadística Administrativa I
Curso de Bioestadística Parte 6 Distribución Normal
Clase 3 Universo y Muestra
ESTADÍSTICA INFERENCIAL I
Décimo Estudio Nacional de Drogas en Población Escolar
ESTADIGRAFOS DE DISPERSION
Estadística Administrativa II
Herramienta FRAX Expositor: Boris Inturias.
Estadística Administrativa I
ESTADISTICA I CSH M. en C. Gal Vargas Neri.
Curso de Bioestadística Parte 11 Comparación de dos proporciones Dr. en C. Nicolás Padilla Raygoza Departamento de Enfermería y Obstetricia División Ciencias.
Transcripción de la presentación:

Curso de Bioestadística Parte 7 Introducción a estadística inferencial Dr. en C. Nicolás Padilla Raygoza Facultad de Enfermería y Obstetricia de Celaya Universidad de Guanajuato México

Presentación Médico Cirujano por la Universidad Autónoma de Guadalajara. Pediatra por el Consejo Mexicano de Certificación en Pediatría. Diplomado en Epidemiología, Escuela de Higiene y Medicina Tropical de Londres, Universidad de Londres. Master en Ciencias con enfoque en Epidemiología, Atlantic International University. Doctorado en Ciencias con enfoque en Epidemiología, Atlantic International University. Profesor Asociado B, Facultad de Enfermería y Obstetricia de Celaya, Universidad de Guanajuato. padillawarm@gmail.com

Competencias Definirá qué es estadística inferencial. Conocerá qué es distribución de muestreo. Conocerá y definirá las propiedades de la distribución de muestreo. Analizará las implicaciones de la distribución de muestreo para trabajar con muestras.

Población y muestra Queremos medir la prevalencia de Entamoeba histolytica en la República Mexicana. No podemos medirla en toda la población mexicana, por razones prácticas y financieras. Se mide la prevalencia en una subpoblación mexicana, llamada muestra

¿Cómo elegimos una muestra? Sería más fácil obtener una muestra de la ciudad de México, pero es muy probable que la prevalencia de Entamoeba histolytica difiera del resto del país, dando una prevalencia sesgada de toda la población mexicana. Si elegimos una muestra al azar, es muy probable que evitemos sesgos. La muestra aleatoria (al azar) es cuando, sólo este decide quien es incluido y quien no.

Ejemplo de dos muestras El Jefe de la Jurisdicción Sanitaria decide investigar la prevalencia de E. histolytica entre escolares de su Jurisdicción. Le encarga el proyecto al epidemiólogo y se asignan pocos recursos al proyecto. Un médico de la comunidad, quería conocer la prevalencia de amebiasis entre escolares. Contrató a dos personas para reunir los datos.

Ejemplo de dos muestras El epidemiólogo obtuvo una muestra del 10% de los escolares registrados en Escuelas de la Jurisdicción. De los 500 escolares seleccionados se obtuvieron datos de edad y sexo y se les realizó una detección de antígeno de E. histolytica en heces. Edad (años) Amebiasis + Amebiasis – Total M F M F __________________________________________ 6 7 12 22 28 69 7 10 9 25 19 63 8 5 13 24 17 59 9 9 9 20 24 62 10 7 9 18 23 57 11 11 9 27 17 64 12 4 15 21 21 61 13 12 8 23 22 65 _________________________________________ Total 65 84 180 171 500

Ejemplo de dos muestras Con una muestra del 10% se obtuvo una prevalencia de amebiasis del 29.8%. 26.5% en hombres y 32.9% en mujeres.

Ejemplo de dos muestras El médico realizó una encuesta en dos escuelas de la ciudad, que estaban cerca de su casa. Entrevistaron y realizaron la detección de antígeno de E. histolytica en 500 alumnos de esas escuelas. Edad (años) Amebiasis + Amebiasis – Total M F M F __________________________________________ 6 5 7 52 50 114 7 10 9 71 34 124 8 2 1 41 37 81 9 6 10 2 1 19 10 7 3 13 19 42 11 10 9 5 12 36 12 4 7 7 18 36 13 9 8 12 19 48 _________________________________________ Total 53 54 203 190 500

Ejemplo de dos muestras Con una muestra del 10% se obtuvo una prevalencia de amebiasis del 21.4%. 20.7% en hombres y 37.5% en mujeres.

Ejemplo de dos muestras ¿Por qué dieron resultados tan diferentes las dos muestras? Primero, debemos revisar la distribución de las muestras. Edad Muestra Jurisdicción Muestra Médico Masculino Femenino Masculino Femenino % % % % _______________________________________________________ 6 5.8 8.0 11.4 11.4 7 7.0 5.6 16.2 8.6 8 5.8 6.0 8.6 7.6 9 5.8 6.6 1.6 2.2 10 5.0 6.4 4.0 4.4 11 7.6 5.2 3.0 4.2 12 5.0 7.2 2.2 5.0 13 7.0 6.0 4.0 5.6 ______________________________________________________ El epidemiólogo de la jurisdicción tomó una muestra aleatoria de todos los niños registrados en escuelas de la jurisdicción, por lo tanto la distribución por edad y sexo es más homogénea que en la muestra del médico, que no fue tomada aleatoriamente. Conclusión. Esto demuestra la importancia de tomar muestras aleatorias. No obstante el número de participantes en cada muestra fue el mismo (500) los resultados son diferentes, debido a que la muestra del médico está con mayor número de niños de edad inferior (casi 45% tienen entre 6 y 7 años) y no son representativos de la población entera.

Población objetivo y población muestreada Es importante distinguir entre población objetivo y población muestreada. La población objetivo es la población de la cual queremos información. La población de la muestra es la población de la cual podemos obtener información. Los dos estudios tienen la misma población objetivo, pero son diferentes ya que no tienen la misma población muestreada. Si las características de la población objetivo son diferentes a las de la población muestreada los resultados serán sesgados.

Estimados de muestras y distribución de muestras Seleccionamos una muestra debido a que queremos información sobre un hecho en particular de la población objetivo; por ejemplo, la prevalencia de E. histolytica entre Escolares. Ya que no podemos tener este resultado en forma directa, debemos reunir información sobre una muestra aleatoria, tomada de la población objetivo y usarla para obtener nuestro mejor estimado del valor del resultado en la población. Para distinguir entre los valores de la población y de la muestra, usamos letras griegas para los valores de la población y letras latinas para los valores de la muestra.

Estimados de muestras y distribución de muestras Es poco probable que la proporción de escolares con amebiasis encontrada en la muestra aleatoria de 500 alumnos del 29.8%, sea exactamente la misma que la verdadera prevalencia del total de la población de escolares de la jurisdicción. ¿Pero qué tan cercano es el estimado p, del verdadero valor de π de la población? En general, no conocemos π, así que necesitamos encontrar otra forma de evaluar cuán seguro es p como un estimado de π. Una forma es estar concientes que la muestra aleatoria que estamos usando es una de muchas que podrían haber sido extraídas.

Estimados de muestras y distribución de muestras Así, si muchas muestras alternativas podrían haber sido reunidas en lugar de la única que hemos reunido: ¿Qué tan diferentes resultados podríamos haber encontrado, si usamos varias muestras? Para resolver esta pregunta, debemos ver algunas simulaciones: Tenemos una población de 5000 escolares cuya prevalencia de amebiasis se asume es del 29.8%. Tomamos mil muestras independientes de esta población; el tamaño de la muestra fue fijado en 500 (10%). Calculamos el porcentaje de escolares con amebiasis en cada muestra. El porcentaje de escolares con amebiasis encontrados en las primeras 20 muestras (estimados de muestras) son mostrados. Note que cada una de ellas representa un estimado de la verdadera prevalencia de la población y que generamos 1,000 muestras.

Estimados de muestras y distribución de muestras Muestra Prevalencia (%) Muestra Prevalencia (%) 1 29.8 8 28.4 2 32.1 9 30.7 3 28.0 10 33.1 4 32.0 11 28.8 5 27.3 12 29.5 6 25.4 13 30.5 7 31.1 14 29.4 Esta distribución es llamada la distribución de muestreo o de muestras. Note que: la mayoría de los estimados de las muestras están cercanos a la verdadera prevalencia, p=30% Su distribución va de 25 al 35%. Su distribución es casi simétrica

Distribución de muestreo

Distribución de muestreo Se ha ilustrado la idea de que, en teoría, podemos obtener muchas muestras de una población y obtener diferentes estimaciones de las muestras. Sin embargo, en la práctica, sólo tenemos una muestra de la población de interés. Así que nunca podremos observar una distribución de las estimaciones de las muestras. La idea de la distribución de muestreo es fundamental en las inferencias estadísticas, debido a que nos permite relacionar la muestra de la población que tenemos, de donde obtuvimos nuestra información, con el valor verdadero de la población.

Propiedades de la distribución de muestreo Todas las distribuciones de muestreo tienen las mismas características. De la misma población de 5000 escolares, tomamos muestras de diferente tamaño, veremos que sus características son similares. Entre las gráficas ¿nota algo, en cuanto a la media, sus rangos de valores y sus formas? Las medias de las tres distribuciones es 30%, ya que es el verdadero valor de la población. Los rangos de los valores varían un poco, encontrando más extremos valores cuando el tamaño de la muestra es más pequeño. Entre más grande el tamaño de muestra, más parecida la distribución de muestreo con la distribución Normal.

Propiedades de la distribución de muestreo Las distribuciones de muestreo obtenidas de muestras de diferente tamaño, obtenidas de la misma población, muestran las tres propiedades de las distribuciones de muestreo: La media La desviación estándar Su forma MEDIA La media de un gran número de estimaciones obtenidas de muestras de tamaño idéntico es igual al valor de la población. Aunque las estimaciones obtenidas de muestras individuales varían, su media conjunta será siempre igual al valor de la población. DESVIACION ESTANDAR La desviación estándar de una distribución de muestreo, disminuirá si el tamaño de muestra se incrementa. La desviación estándar de una distribución de muestreo toma el nombre de error estándar, ES. Recuerde que la desviación estándar representa la variabilidad en los datos individuales. El error estándar representa la variabilidad en las estimaciones de las muestras. El error estándar depende directamente de la raíz cuadrada del tamaño de muestra utilizado. Por ejemplo, el ES de la distribución de las estimaciones de la muestra, p, de la proporción de la población es: π (1-π) ES(p)= ---------------- √n Esta relación entre ES y √n se demuestra al comparar gráficas con diferentes tamaño de muestra; a menor tamaño de muestra mayor ES; a mayor tamaño de muestra menor SE. FORMA La forma de la distribución de muestreo es aproximadamente Normal cuando el tamaño de muestra es grande. Esta propiedad toma el nombre de Teorema del Límite Central. Es la más importante de las tres propiedades. Dice que cuando el tamaño de muestra es grande, la distribución de las estimaciones de la muestra es siempre Normal. Esto sucede, aún si la distribución de los datos originales no es Normal, ya que al incrementar el tamaño de muestra se acerca a la distribución Normal.

Inferencias Las tres propiedades de las distribuciones de muestreo nos permiten inferir resultados en cuanto a la población general de los datos obtenidos de una sola muestra. Volvamos al ejemplo de prevalencia de amebiasis, donde el 29.8% de los escolares la presentaron. Si relacionamos nuestros resultados con muchos otros resultados, que pudieran ser obtenidos, podemos establecer un rango de valores que es probable que incluyan la verdadera prevalencia de amebiasis entre los escolares. .

Inferencias π (1-π) ES(p)= ---------------- n El proceso de inferencia, se efectúa a través de 7 pasos: La estimación de muestra de 0.298 obtenido es uno de muchos que se podrían haber obtenido de otras muestras aleatorias del mismo tamaño. La propiedad uno de la distribución de muestreo dice que la media de la distribución de muestreo es el valor verdadero de la población La propiedad dos de la distribución de muestreo, dice que el error estándar de la distribución de muestreo es: π (1-π) ES(p)= ---------------- n

Inferencias La propiedad tres de la distribución de muestreo dice que la distribución de muestreo es Normal cuando el tamaño de muestra es grande. Así, el 95% de las estimaciones de la muestra que pudieran ser obtenidas con tamaño de muestras de 500 estarán dentro de 2 ES desde la media, esto es la prevalencia de la población, π. Si embargo, nosotros sólo tenemos una muestra, y no conocemos la media (π) de la distribución de muestreo. Por la misma razón, no podemos calcular ES debido a que requerimos π.

Inferencias Sin embargo, podemos usar la proporción de la muestra como nuestra mejor estimación de π y usarla para calcular el ES. De nuevo, usando las propiedades de la distribución Normal podemos decir que estamos 95% confiados de que la verdadera prevalencia de la población, π, está dentro de 2 ES de la proporción de la muestra, 0.289. Son los intervalos de confianza al 95%.

Inferencias Conclusión Así, colocando todos estos resultados juntos, podemos estimar la distribución de muestreo de la cual la estimación que tenemos es derivada.

Bibliografía 1.- Last JM. A dictionary of epidemiology. New York, 4ª ed. Oxford University Press, 2001:173. 2.- Kirkwood BR. Essentials of medical ststistics. Oxford, Blackwell Science, 1988: 1-4. 3.- Altman DG. Practical statistics for medical research. Boca Ratón, Chapman & Hall/ CRC; 1991: 1-9.