DISTRIBUCION BINOMIAL

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

ANOVA DE UN FACTOR.
ESTIMACION DE PARAMETRO
Demostración de Asociación
De la muestra a la población
La prueba U DE MANN-WHITNEY
Universidad de Chile Facultad de Ciencias Químicas y Farmacéuticas
Contraste de Hipótesis ETSITGC Madrid Unidad Docente de Matemáticas.
ESTIMACION DEL TAMAÑO DE LA MUESTRA.
METODOLOGÍA DE INVESTIGACIÓN Titular: Agustín Salvia
Uso de pruebas estadísticas paramétricas y no paramétricas
GRADO DE CONFIANZA DE LA INFERENCIA
Nombre: Israel Espinosa Jiménez Matricula: Carrera: TIC Cuatrimestre: 4 Página 1 de 5.
MUESTREO DE ACEPTACIÓN DE LOTES POR VARIABLES
Prueba de hipótesis Equivalencia entre la prueba de hipótesis y los intervalos de confianza Valor de probabilidad Valor de probabilidad unilateral Prueba.
UNIVERSIDAD INCA GARCILASO DE LA VEGA
Clases 3 Pruebas de Hipótesis
CHI-CUADRADO Y DISTRIBUCION NORMAL
Clases 4 Pruebas de Hipótesis
Diseño Estadístico y Herramientas para la Calidad
HAWKES LEARNING SYSTEMS math courseware specialists Copyright © 2010 by Hawkes Learning Systems/Quant Systems, Inc. All rights reserved. Capítulo 12 Más.
VARIABLE ALEATORIA Y DISTRIBUCION DE PROBABILIDAD
Tema 17: Contraste paramétrico de hipótesis I: Pruebas de contraste para un grupo. Pruebas de contraste para dos grupos: independientes o relacionados.
Universidad de Chile Facultad de Ciencias Químicas y Farmacéuticas
Distribuciones derivadas del muestreo
Inferencias con datos categóricos
DISTRIBUCIONES DE MUESTREO
Unidad V: Estimación de
ESTADISTICA TEMA y 223.
ESTIMACION En varios pasajes de este libro hemos planteado la dificultad que se confronta en las investigaciones, de llegar a conclusiones sobre una población.
Datos: Estadística.
DISTRIBUCION NORMAL Mario Briones L. MV, MSc 2005.
ESTADÍSTICAS DESCRIPTIVA
El promedio como variable aleatoria: error estándar e intervalo de confianza para la media de la muestra Mario Briones L. MV, MSc 2005.
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Estimación e intervalos de confianza
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Inferencia Estadística
@ Angel Prieto BenitoMatemáticas 2º Bachillerato CS1 TEMA 14 * INFERENCIA ESTADÍSTICA MATEMÁTICAS A. CS II.
Intervalo de Confianza para una proporción con muestra grande
TAMAÑO MINIMO DE MUESTRA PARA COMPARACIONES DE PROMEDIOS Mario Briones L. MV, MSc 2005.
Capítulo 1. Conceptos básicos de la Estadística
Teoría de Probabilidad Dr. Salvador García Lumbreras
Pruebas de hipótesis.
PRUEBAS ESTADISTICAS NO PARAMETRICAS
COMPROBACION DE HIPOTESIS SOBRE DOS PROMEDIOS Mario Briones L. MV, MSc 2005.
Estimación y contraste de hipótesis
Análisis de los Datos Cuantitativos
BASES PARA EL RAZONAMIENTO EN ESTADÍSTICA INFERENCIAL
ESTIMACIÓN DE PARÁMETROS
INTERVALO DE CONFIANZA
Prueba de Hipótesis Una hipótesis estadística es un supuesto que se establece sobre las características de una distribución poblacional El estudio se plantea.
Distribuciones de Probabilidad
INFERENCIA ESTADÍSTICA
Laboratorio de Estadística administrativa Distribuciones de Muestreo Teorema del límite central Tamaño de muestra Marzo de 2007.
Pruebas paramétricas y no paramétricas
UNIDAD I.- Analisis 3.4 Prueba de Hipotesis.
INTRODUCCIÓN AL ANÁLISIS DE DATOS CATEGÓRICOS. Temas Carácterísticas de la distribución Chi-cuadrada Prueba de bondad de ajustes Prueba de homogeneidad.
CAPACITACIÓN, INVESTIGACIÓN, ESTADÍSTICA Y MERCADEO
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
DISTRIBUCIÓN “t” DE STUDENT
POBLACIÓN Y MUESTRA CÁLCULO DEL TAMAÑO MUESTRAL. Descripción e inferencia Población Muestra Muestreo Inferencia Resultado.
RESUMEN DE LA DISTRIBUCION MUESTRAL PARA LA MEDIA MUESTRAL X INTERVALOS DE CONFIANZA PARA LA MEDIA POBLACIONAL  TIPO DE PROBLEMA ESPERANZA Y VARIANZA.
Estadística Inferencial
Bioestadística Inferencia estadística y tamaño de muestra
Yulieth ariza Villarreal Estadística II. Historia La distribución de Student fue descrita en 1908 por William Sealy Gosset. Gosset trabajaba en una fábrica.
ESTIMACION DEL TAMAÑO DE LA MUESTRA. La primera pregunta que un estadístico debe contestar al planear una investigación de muestreo es, casi siempre, el.
Viviana Acosta Estadística II. Que es Es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida.
PRUEBA DE SIGNIFICANCIA
INTERVALO DE CONFIANZA
Transcripción de la presentación:

DISTRIBUCION BINOMIAL Mario Briones L. MV, MSc 2005

DISTRIBUCION BINOMIAL Muchas poblaciones consisten sólo de dos tipos de elementos: par-impar aprueba-reprueba vivo-muerto preñada-seca presente-ausente positivo-negativo hembra-macho El investigador se interesa en la proporción, porcentaje o número de individuos en cada una de las dos clases.

Ejemplos: Porcentaje de caiquenes machos con presecia de parásitos gastrointestinales Porcentaje de perros que presentan displacia acetabular Porcentaje de peces que mueron por una enfermedad Porcentaje de individuos que presenta un gen determinado

p + q = 1 p q Al muestrear, a cada observación que cae en la clase de interés primario se le llama éxito. En una muestra de tamaño n la probabilidad de obtener 0, 1, 2, 3..., n éxitos se calcula fácilmente a través de la distribución llamada binomial o de Bernoulli

Si r miembros de una muestra de tamaño n poseen un determinado atributo, el estimador muestreal de la proporción de la población que posee este atributo es p= r/n.

RECUERDE QUE UNA VARIABLE ES UN ATRIBUTO QUE PUEDE SER DIFERENTE ENTRE INDIVIDUOS

MEDIA Y DESVIACION ESTANDAR DE UNA VARIABLE BINOMIAL El propósito de recolectar este tipo de datos es generalmente estimar la proporción de unidades de la población que pertenecen a una de las clases, generalmente la primera de ellas (ej. Proporción o porcentaje de individuos positivos a una enfermedad).

MEDIA Y DESVIACION ESTANDAR DE UNA VARIABLE BINOMIAL Para determinar la media y la desviación supongamos que se construye una variable que toma el valor 1 para cada unidad de la población que pertenece a la clase A y el valor 0 para cada unidad que pertenece a la clase B.

m es la proporción en la población que MEDIA Y DESVIACION ESTANDAR DE UNA VARIABLE BINOMIAL m es la proporción en la población que pertenece a la clase A En un problema de dos clases, se representa la proporción en la primera clase por p y en la segunda por q y q = 1 - p

La media poblacional es m = SPX= q(0) + p(1) = p MEDIA Y DESVIACION ESTANDAR DE UNA VARIABLE BINOMIAL En la población, X sigue una distribución de probabilidad de Valor de X Probabilidad, P(X) X - m 0 q - p 1 p 1 - p= q La media poblacional es m = SPX= q(0) + p(1) = p Para la varianza:s2= SPX2 - m2 = p - p2 =pq La desviación estándar: s = pq

MEDIA Y DESVIACION ESTANDAR DE UNA VARIABLE BINOMIAL p q s2 s Relación entre frecuencia y desviación estándar en una distribución binomial

VARIANZA Y DESVIACION ESTANDAR DE UNA VARIABLE BINOMIAL Estimación a partir de una muestra binomial de tamaño n Caso 1: para el número de éxitos, r: m= np s2 = npq s =  npq Caso 2: para la proporción de éxitos, p= r/n: m= p s2= pq/n s =  pq/n

Ejemplo Asumiendo que los éxitos son la presencia de ovejas blancas De un total de 74 (n) ovejas en un rebaño, 34 son blancas y 40 son negras. ESTIMADORES DE TENDENCIA CENTRAL PARA LA PROPORCIÓN DE EXITOS Proporción p= 34/74 = 0,4595 Proporción q= 40/74 = 0,5405 Asumiendo que los éxitos son la presencia de ovejas blancas

Ejemplo ESTIMADORES DE DISPERSION PARA EL NUMERO DE EXITOS VARIANZA= npq = 74 x 0,4595 x 0,5405 = 18,38 DESVIACION ESTANDAR= 18,38 = 4,29 ESTIMADORES DE DISPERSION PARA LA PROPORCION DE EXITOS VARIANZA= pq/n = (0,4595 x 0,5405) / 74 = 0.00336 DESVIACION ESTANDAR= 0,00336 = 0,0579

p - 1.96 pq/n y p + 1.96 pq/n LIMITES DE CONFIANZA PARA UNA DISTRIBUCION BINOMIAL En muestras de gran tamaño el estimador binomial p tiene una distribuciónaproximadamente normal distribuida alrededor de la proporción poblacional p con desviación estándar  pq/n. La probabilidad es aproximadamente 0.95 de que p caiga entre los límites p - 1.96 pq/n y p + 1.96 pq/n

Ejemplo Supongamos que 200 individuos en una muestra de 1000 poseen un atributo, los límites de confianza de 95% son: 0.2 1.96 (0.2)(0.8)/1000= 0.2  0.025 El intervalo de confianza para p se extiende desde 0.175 hasta 0.225 en porcentaje: desde 17.5% hasta 22.5% para los límites de 99% se reemplaza 1.96 por 2.576

COMPARACION DE PROPORCIONES EN MUESTRAS INDEPENDIENTES: Ej. Los datos provienen de un estudio canadiense en gran escala acerca de la relación entre el hábito de fumar y la mortalidad. A partir de un cuestionario inicial en 1956, varones pensionados de guerra se clasificaron de acuerdo a sus hábitos de fumar.

COMPARACION DE PROPORCIONES EN MUESTRAS INDEPENDIENTES Consideraremos dos clases: a)no fumadores y b) fumadores de pipa. Se obtuvo luego un informe acerca de la muerte de cualquiera de los individuos en los siguientes seis años. Por lo tanto los pensionados fueron clasificados de acuerdo a su estatus (vivo, muerto) al final del período.

COMPARACION DE PROPORCIONES EN MUESTRAS INDEPENDIENTES Ya que la probabilidad de muerte depende en gran medida de la edad, la comparación hecha aquí se circunscribe a personas que tenían entre 60 a 64 años al inicio del estudio. La siguiente es la Tabla de Contingencia que agrupa los individuos en las cuatro clases:

Muestra 1 Muestra 2 no fumadores fumadores Total Muerto 117 54 171 Vivo 950 348 1298 Total n1=1067 n2= 402 1469 Proporción muertos p1=0.1097 p2=0.1343 p=0.1164 Al observar la diferencia entre los porcentajes de mortalidad de los grupos de fumadores y no fumadores... Es una diferencia real o surge de error de muestreo?

COMPROBACION DE HIPÓTESIS: HIPOTESIS NULA: Las proporciones de mortalidad, 117/1067 y 54/402 son estimadores de la misma cantidad. HIPOTESIS ALTERNA: Las proporciones de mortalidad son diferentes

COMPROBACION DE HIPÓTESIS: Ya que p1 y p2 se distribuyen de modo aproximadamente normal, su diferencia, p1 - p2 también se distribuye normalmente. La varianza de ésta diferencia es la suma de las dos varianzas. V(p1-p2)= s2p1 + s2p2= p1q1/n1 + p2q2/n2 bajo la hipótesis nula p1=p2= p

EE= pq/n1 + pq/n2 COMPROBACION DE HIPÓTESIS: y el error estándar de la diferencia se distribuye normalmente con media 0 y es igual a EE= pq/n1 + pq/n2 la hipótesis nula no especifica el valor de p. Como estimador podemos sugerir p= 0.1164

COMPROBACION DE HIPÓTESIS: La desviación normal z es: p1 - p2 z=  pq (1/n1 +1/n2) 0.1097 - 0.1343 - 0.0246 z= = = - 1.311 (0.1164)(0.9936)(1/1067 + 1/402) 0.01877

REGLA DE DECISIÓN, DECISIÓN ESTADISTICA Y CONCLUSIÓN En la tabla de z, independientemente del signo, 1,311 es menor que el valor de z (1,96) que cubre un área de 95% bajo la curva. Por lo tanto, se acepta la hipótesis nula. La diferencia observada en la proporción de fumadores y no fumadores muertos al cabo del periodo de observación, se debe al azar, por ej. Por error de muestreo. Puede considerarse que la proporción es una sola: 0,1164.

PRUEBA DE X2 (CHI CUADRADO) H0: no existe diferencias en la mortalidad de personas fumadoras y no fumadoras, en un periodo determinado de tiempo. HA: la proporción de personas muertas es mayor en el grupo de fumadores, en un periodo de tiempo.

PRUEBA DE X2 (CHI CUADRADO) Tabla de contingencia de 2x2 Fumadores no fumadores Total Observado Observado Esperado Muertos 117 54 171 Vivos 950 348 1298 124.2 Observado Observado Total 1067 402 1469

PRUEBA DE X2 (CHI CUADRADO) Tabla de contingencia de 2x2 Fumadores no fumadores Total Observado Observado Esperado Esperado Muertos 117 54 171 Vivos 950 348 1298 124.2 46.8 Observado Observado Total 1067 402 1469

PRUEBA DE X2 (CHI CUADRADO) Tabla de contingencia de 2x2 Fumadores no fumadores Total Observado Observado Esperado Esperado Muertos 117 54 171 Vivos 950 348 1298 124.2 46.8 Observado Observado Esperado 942.8 Total 1067 402 1469

PRUEBA DE X2 (CHI CUADRADO) Tabla de contingencia de 2x2 Fumadores no fumadores Total Observado Observado Esperado Esperado Muertos 117 54 171 Vivos 950 348 1298 124.2 46.8 Observado Observado Esperado Esperado 942.8 355.2 Total 1067 402 1469

ESTADISTICO DE PRUEBA Grados de libertad, en general= filas-1 x columnas-1

Tabla de Chi cuadrado

En el ejemplo: Regla de decisión (Alfa= 0.05, gl= 1)= 3,84 Estadígrafo de prueba calculado: X2= (117-124.2)2/124.2 + (54-46.8)2/46.8 + (950-942.8)2/942.8 + (348-355.2)2/355.2 =51.84/124.2 + 51.84/46.8 +51.84/942.8 + 51.84/355.2 =0.4174 + 1.1077 + 0.0550 + 0.1459 =1.726

En el ejemplo: Conclusión: Con los datos disponibles no es posible afirmar que los fumadores de pipa tienen una menor sobrevida que los no fumadores.

OTRO EJEMPLO: En un estudio hecho para determinar si existe una tendencia familiar en el cáncer de mamas, se investigo la frecuencia de cáncer de mamas encontrado en parientes de i) mujeres con cáncer y ii) mujeres sin cáncer. Los datos tabulados a continuación se refieren a las madres de los sujetos.

PRUEBA DE X2, TABLA DE CONTINGENCIA Cáncer mamario en el sujeto Si No Total Cáncer mamario Si 7 (5) 3 (5) 10 en la madre No 193 (195) 197 (195) 390 Total 200 200 400

X2= (7-5)2/5 + (3-5)2/5 + (193-195)2/195 + (197-195)2/195 ESTADIGRAFO DE PRUEBA CALCULADO X2= (7-5)2/5 + (3-5)2/5 + (193-195)2/195 + (197-195)2/195 = 4/5 + 4/5 + 4/195 + 4/195 = 0.8 + 0.8 + 0.0205 + 0.0205 = 1.641

Tamaño de muestra para describir una variable binomial Al igual que en el caso de una variable cuantitativa, el tamaño apropiado para describir una proporción depende de: La variabilidad de la característica. Del grado de error admisible para el estimador.

Tamaño de muestra para describir una variable binomial Al igual que en una variable cuantitativa, el tamaño apropiado se deriva de la magnitud deseada para el intervalo de confianza, con una probabilidad determinada, y se despeja n p 1.96 pq/n (Intervalo de confianza de 95%)

Tamaño de muestra para describir una variable binomial El tamaño apropiado para un intervalo de confianza determinado es: donde L es el error admisible Para una población de gran tamaño

Tamaño de muestra para describir una variable binomial Se debe tener una ´”aproximación” a lo que son los valores de p y q en la población, de modo de tener un valor de pxq que es la varianza.

Tamaño de muestra para describir una variable binomial Si la población disponible es pequeña, entonces la fórmula se corrige y se ajusta n0

Ejemplo: ¿Cuál será el tamaño mínimo de muestra para describir el porcentaje de perros de la raza ovejero alemán, afectados por displasia de cadera en Chile?

Pasos: 1: Estimación previa del porcentaje esperado. Antecedentes de literatura Estudios previos del mismo equipo de investigación, etc. Supongamos que por los puntos anteriores se puede establecer que el porcentaje será de un 30%

Pasos 2: Determinación de la magnitud del error admisible Depende de los objetivos del estudio Ej. Error admisible, 5%

Pasos 3: Cálculo del tamaño mínimo n0= (4 x 0.3 x 0.7)/0.05 n0= 336 perros

Pasos: 4: Ajuste para población finita: suponiendo que la población de perros Ovejero Alemán en Chile es de 5000 ejemplares (N): n=336/(1+(336/5000)) n=336/(1+0.0672) n=314.8 = 315 perros

Debido a que la expresión en el denominador de la fórmula para ajuste del tamaño será más parecida a 1 en la medida que el tamaño de la población se hace más grande, el mayor efecto en el ajuste se produce cuando el tamaño de la población disponible es pequeño.

Tamaño mínimo de la muestra para comparar dos proporciones Se aplican los mismos principios que en la comparación de dos promedios. Es decir, el tamaño depende de la diferencia buscada entre los porcentajes y la probabilidad de encontrar esa diferencia en el experimento (poder de la prueba)

Tamaño mínimo de la muestra para comparar dos proporciones Para dos muestras independientes: Donde Za= desviación normal para el nivel de significancia utilizado b= 2(1-P´) Zb= desviación normal correspondiente a la probabilidad de dos colas de b Usar la mejor estimación de p1q1+ p2q2

Ejemplo: Suponga que existe un antibiótico estándar que proteje a alrededor del 50% de los animales experimentales contra una infección. Se obtiene un nuevo antibiótico que parece ser superior.

Ejemplo: Al comparar el nuevo antibiótico con el estándar los investigadores desearía una probabilidad P´ de 0.9 de encontrar una diferencia, en una prueba de una cola al nivel de significancia de 0.05, si el nuevo antibiótico proteje al 80% de los animales en la población.

colas a b n=(8.6)[(0.5)(0.5)+(0.8)(0.2)]/0.32= 39.2 P1 q1 p2 q2 p2-p1

Observaciones Unos cuantos cálculos de este tipo nos harán ver rápidamente la triste realidad: se necesitan grandes tamaños de muestra para detectar diferencias pequeñas entre dos porcentajes.

Ejemplo2: El tamaño de muestra fue crítico en la planificación de la prueba de la vacuna de Salk contra la poliomielitis, ya que era muy improbable poder repetir la prueba y porque sería obviamente necesaria una muestra de gran tamaño

Ejemplo 2: Un supuesto utilizado fue: Probabilidad de contraer polio en un niño no vacunado= 0.0003 (0.03%) Efectividad estimada de la vacuna= 50% (disminución de la probabilidad a 0.00015 (0.015%) P´= 0.9 a= 0.05 ¿cuántos niños serían necesarios en cada grupo de prueba, con dos colas en la Ha? Resp.: 210.000 niños.