Pruebas de hipótesis
CONTENIDO Introducción Pruebas de hipótesis estadísticas Pruebas para parámetros de una población Pruebas para parámetros de dos poblaciones
INTRODUCCION En ciencia se denomina hipótesis a una declaración cuya veracidad no ha podido comprobarse en forma definitiva. El método científico proporciona una herramienta para la comprobación tentativa de las hipótesis. En la misma forma, los métodos estadísticos proporcionan un mecanismo científico de prueba de las hipótesis.
INTRODUCCION Al igual que el método científico, del cual es derivado, el método estadístico no prueba la veracidad absoluta de las hipótesis. El método estadístico proporciona un procedimiento y una conclusión de la prueba, la cual está sujeta a cierta probabilidad de error.
EJERCICIO ¿Cómo se diferencia una hipótesis cualquiera de una hipótesis científica, y de una hipótesis estadística? Suponga las siguientes aseveraciones: Prefiero usar el equipo de microKjeldhal a otros equipos para medir contenido de proteína en alimentos. Los fenómenos solares son más frecuentes cuando la tierra está en la parte más lejana de la órbita solar.
EJERCICIO De las aseveraciones mencionadas señale cuales son hipótesis científicas y cuales no lo son. Las que son hipótesis científicas, ¿Cómo se pueden probar? En las siguientes diapositivas se verán las hipótesis estadísticas. Guarde los ejemplos para plantear las hipótesis estadísticas correspondientes.
INTRODUCCION Una hipótesis se define como una aseveración que se acepta provisionalmente para explicar ciertos hechos. Una hipótesis estadística es una declaración matemática acerca de parámetros de la distribución poblacional sobre la cual se va a hacer inferencia estadística. Las hipótesis estadísticas constan de dos declaraciones: Una hipótesis llamada “nula” (H0), y una hipótesis llamada “alternativa” (Ha).
INTRODUCCION La hipótesis nula comprende las declaraciones sobre los parámetros o propiedades que sujetaremos a prueba. La hipótesis alternativa comprende declaraciones sobre los parámetros o propiedades que aceptaremos eventualmente, en el caso de rechazar la hipótesis nula.
INTRODUCCION Las hipótesis pueden ser sobre la forma de la distribución de los datos de la población, o sobre los parámetros que caracterizan esta distribución. Si se puede suponer "a priori" que la función de distribución de la población es conocida, se pueden plantear hipótesis sobre los parámetros de esa función de distribución.
INTRODUCCION Las hipótesis sobre parámetros de una población se denominan hipótesis paramétricas. Estas hipótesis son las que veremos en el resto de esta unidad. Recuerde que los principios de prueba de hipótesis son semejantes para todas las hipótesis estadísticas.
HIPOTESIS ESTADISTICAS La hipótesis estadística llamada “nula” es la negación de lo que queremos probar. Si queremos probar que a los estudiantes les gustan los chocolates, la hipótesis nula será: H0 : A los estudiantes no les gustan los chocolates De esta forma, cuando se rechaza la hipótesis nula, se prueba la hipótesis de trabajo. Algunas dudas: ¿Cuánto es la mayoría? ¿Cómo se plantea una hipótesis estadística para este caso?
HIPOTESIS ESTADISTICAS Hipótesis simple sobre una proporción Hipótesis compuestas sobre una proporción
HIPOTESIS ESTADISTICAS Hipótesis simple sobre la media i Hipótesis compuestas sobre la media
PRUEBAS DE HIPOTESIS Una vez planteada la hipótesis, se procede a realizar la prueba mediante procedimientos estadísticos y se toma una decisión. Las decisiones pueden ser de dos tipos: Se rechaza H0, o no se rechaza H0. En las pruebas de hipótesis estadísticas se corre cierto riesgo de tomar una decisión equivocada. Si se toma una decisión equivocada se dice que se cometió un error. Como no se conoce la verdadera situación (recordar que se tiene una muestra, no toda la población), se establece de antemano una probabilidad de cometer errores.
PRUEBAS DE HIPOTESIS Hay cierta probabilidad de cometer los errores tipo I y tipo II. Se comete el error tipo I cuando se concluye que algo es diferente, cuando en realidad no lo es. Se comete el error tipo II cuando se concluye que no hay diferencias, cuando en realidad si las hay. Sólo se puede establecer de antemano la probabilidad de cometer el error tipo I.
En el siguiente cuadro se resumen las situaciones PRUEBAS DE HIPOTESIS En el siguiente cuadro se resumen las situaciones DECISION SITUACION REAL H0 Cierta H0 Falsa Rechazar H0 Error tipo I Decisión Correcta No rechazar H0 Decisión correcta Error tipo II
PRUEBAS DE HIPOTESIS A la máxima probabilidad de cometer el error tipo I se le llama “nivel de significancia”, y se denota por la letra griega . La probabilidad de cometer el error tipo II (se denota por la letra griega β) se puede reducir o aumentar, pero no se puede fijar, ya que depende de la hipótesis alternativa.
PRUEBAS DE HIPOTESIS Se puede establecer de antemano la probabilidad de cometer el error tipo I (). Se puede reducir la probabilidad de cometer el error tipo II (), por medio de: Aumentar la probabilidad de cometer el error tipo I () Aumentar el tamaño de la muestra
P{Rechazar Ho / Ho es falsa} = 1- POTENCIA DE LA PRUEBA El rechazo de la hipótesis nula depende de qué tan “lejos” está el verdadero parámetro, y del nivel de significancia elegido. A la probabilidad de rechazar una hipótesis nula que realmente es falsa se le llama Potencia de la Prueba de Hipótesis. Esto se puede expresar como: P{Rechazar Ho / Ho es falsa} = 1- Es lógico que para cualquier prueba de hipótesis que hacemos, quisiéramos tener la máxima potencia de la prueba.
POTENCIA DE LA PRUEBA La potencia de la prueba aumenta con: La reducción de la probabilidad de cometer el error tipo II, la cual es . El tamaño de la muestra. La distancia del valor del parámetro en la hipótesis y el verdadero valor en la población.
Qué tan lejos está el verdadero parámetro: PRUEBAS DE HIPOTESIS Qué tan lejos está el verdadero parámetro: 0 tc A = 0.05 Parámetro está lejos Parámetro está cerca
Importancia del nivel de significancia α es más grande PRUEBAS DE HIPOTESIS Importancia del nivel de significancia 0 A tc p = 0.05 p = 0.01 α es más grande α es más chica
EJEMPLO Se desea probar si un nuevo producto alimenticio tiene mejores características que productos similares que ya están en el mercado. La hipótesis estadística será: H0: El producto nuevo es igual o peor que los demás Ha: El producto nuevo es mejor que los demás Si se rechaza H0, se concluye que el producto nuevo es mejor. Si no se rechaza H0 , la conclusión será que no hay suficiente evidencia para decir que el producto nuevo es mejor.
EJEMPLO Si se rechaza H0, y el producto realmente no era mejor que los demás (Error tipo I), se está engañando al consumidor. Si no se rechaza H0, y el producto nuevo es realmente mejor que los demás (Error tipo II), se está negando al consumidor un producto mejor. ¿Cuál error se debe considerar más importante para reducir la probabilidad de cometerlo?
Ejercicio En un estudio para determinar el envenenamiento por cloro de los peces de cierto río, se capturaron 20 peces recién nacidos y se les crió en un acuario con una concentración de 20 microgramos de cloro por litro de agua. Se midió la longitud de los peces después de 10 semanas. La longitud promedio de peces normales de la misma especie y en las mismas condiciones, es de 29 mm.
Ejercicio Cuál es mi hipótesis de trabajo? ¿Cuál será mi hipótesis estadística? ¿Cuál tipo de error puede ser más grave en la decisión estadística para esta prueba? ¿Cuál será el nivel de significancia de la prueba?
PRUEBA DE HIPOTESIS PARA MEDIA Caso 1 Caso 2 Caso 3 Fijar Nivel de significancia . Calcular estadísticos muestrales: media de la muestra, y n. Calcular Zc : Se rechaza si:
PRUEBA DE HIPOTESIS PARA MEDIA No se conoce la varianza de la población Caso 1 Caso 2 Caso 3 Fijar Nivel de significancia . Calcular estadísticos muestrales: media y varianza de la muestra, y n. Calcular tc : Se rechaza si:
EJEMPLO En un estudio para determinar el envenenamiento por cloro de los peces de cierto río, se capturaron 20 peces recién nacidos y se les crió en un acuario con una concentración de 20 microgramos de cloro por litro de agua. Después de 10 semanas, la longitud promedio de los peces era de 27.5 milímetros, con una desviación estándar de 2.6 milímetros. Si la longitud para la especie ha sido determinada con anterioridad en 28.8 milímetros, ¿Qué concluiría Usted del estudio, usando un nivel de significancia del 5%? Suponga que la longitud de los peces tiene una distribución aproximadamente normal.
EJEMPLO Datos: Media de la muestra= 27.5 Desviación estándar de la muestra=2.60 n=20 tc = (27.5-28.8)(20)/(2.60) =-2.23 Regla de Decisión: Como –2.23 < -1.73 {valor de t[0.05,(n-1)] }, rechazamos la hipótesis nula, y concluimos que los peces tienen una longitud menor. ¿Cuál es la conclusión de trabajo?
PRUEBA DE HIPOTESIS PARA PROPORCION Caso 1 Caso 2 Caso 3 Fijar Nivel de significancia . Calcular estadísticos muestrales: proporción de la muestra, y n. Calcular Zc : Se rechaza si:
EJEMPLO En un lote de harina envasada en paquetes de un kilo, se encontró que de 50 paquetes revisados 7 contenían gorgojos. La norma es que si hay más de 2% de paquetes con gorgojos, el lote se desecha por estar fuera de normas. La hipótesis estadística a plantear es:
EJEMPLO (Cont) Fijar Nivel de significancia =0.05. Calcular estadísticos muestrales: proporción de la muestra: p = 7/50 = 0.14; n=50. Calcular Zc : Se rechaza si:
PRUEBA DE HIPOTESIS PARA VARIANZA Caso 1 Caso 2 Caso 3 Fijar Nivel de significancia . Calcular estadísticos muestrales: media y varianza de la muestra, y n. Calcular 2c : Se rechaza si:
PRUEBA DE HIPOTESIS PARA DOS MEDIAS Caso 1 Caso 2 Caso 3 Fijar Nivel de significancia . Calcular estadísticos muestrales: medias de las muestras, n1, n2, varianzas de las muestras y varianza conjunta. Calcular tc : Se rechaza si:
PRUEBA PARA DOS MEDIAS Si las dos medias están suficientemente lejos una de otra, su diferencia será estadísticamente significativa. Cuando el nivel de significancia () es pequeño, la diferencia entre las medias deberá ser más grande para que haya una diferencia estadísticamente significativa. 1 tc 2 = 0.05 t
PRUEBA PARA DOS PROPORCIONES Caso 1 Caso 2 Caso 3 Fijar Nivel de significancia . Calcular estadísticos muestrales: p1, p2, n1, n2 y n (n= n1 + n2). Calcular Zc : Se rechaza si:
Ejercicio Se está estudiando si el estrés es un factor importante en los niveles de colesterol en sangre. Se tiene un grupo control (sin estrés), y un grupo con estrés. En el grupo control, formado por 20 personas se encuentran 3 personas con colesterol alto. En el grupo con estrés formado por 35 personas se encuentran 10 personas con colesterol alto. Probar si el estrés es un factor que incide en la elevación del colesterol en sangre.
PRUEBA PARA DOS VARIANZAS Fijar Nivel de significancia . Calcular estadísticos muestrales: medias, varianzas, n1 y n2. Calcular Fc : Caso 1 Caso 2 Caso 3
Pruebas de hipótesis en Excel En el menú de análisis de datos del Excel se pueden hallar las pruebas de una media (está en “Estadísticas descriptivas), de dos medias con varianza conocida, de dos medias con varianza desconocida y la prueba de dos varianzas. Las pruebas de una proporción y de dos proporciones con aproximación por el teorema central del límite, se pueden hacer usando las anteriores. (Ver en clase, con los ejemplos expuestos)
Pruebas de hipótesis en Infostat El Infostat tiene en el menú de análisis estadísticos las pruebas vistas en esta sección con los mismos nombres.
Pruebas de hipótesis en Infostat
Ejercicio Use el Excel y el Infostat para realizar las pruebas de hipótesis de los ejemplos y de los ejercicios.
Estadística no-paramétrica
CONTENIDO Introducción Estadísticos de orden de los datos Prueba de la mediana de una población Prueba para dos medianas Prueba de Wilcoxon para muestras pareadas Pruebas de independencia y de homogeneidad
OBJETIVOS Introducir los conceptos de propiedades poblacionales que no son parámetros. Describir la estimación de los estadísticos no-paramétricos. Describir las pruebas de hipótesis para una muestra. Describir las pruebas de hipótesis para dos muestras. Describir las pruebas de hipótesis de homogeneidad y de independencia. OBJETIVOS Introducir los conceptos de propiedades poblacionales que no son parámetros. Describir la estimación de los estadísticos no-paramétricos. Describir las pruebas de hipótesis para una muestra. Describir las pruebas de hipótesis para dos muestras. Describir las pruebas de hipótesis de homogeneidad y de independencia.
INTRODUCCION En las unidades anteriores se estudiaron los procedimientos para calcular intervalos de confianza y realizar pruebas de hipótesis, a partir de una muestra de la población en estudio. Se partió de la suposición de que se conoce el modelo de distribución de frecuencias de la variable estudiada. Además, se estaban haciendo inferencias sobre un parámetro de dicha distribución. INTRODUCCION En las unidades anteriores se estudiaron los procedimientos para calcular intervalos de confianza y realizar pruebas de hipótesis a partir de una muestra de la población en estudio. Uno de los supuestos fundamentales que se hace en estos casos, es el que se conoce el modelo de distribución de frecuencias de la variable estudiada, y lo que se desea estudiar es un parámetro de dicha distribución. Muchas veces el tamaño de la muestra es pequeño, o la distribución de frecuencias de la variable en estudio no se aproxima a la normal, o no es simétrica. En otros casos el interés del estudio es estimar alguna característica poblacional que no es un parámetro del modelo de distribución de frecuencias de la población, como es el caso de la mediana, el rango, o el grado de asociación de dos criterios.
INTRODUCCION Muchas veces el tamaño de la muestra es pequeño, o la distribución de frecuencias de la variable en estudio no se conoce, o no se aproxima a la normal, o la distribución es altamente asimétrica. INTRODUCCION En las unidades anteriores se estudiaron los procedimientos para calcular intervalos de confianza y realizar pruebas de hipótesis a partir de una muestra de la población en estudio. Uno de los supuestos fundamentales que se hace en estos casos, es el que se conoce el modelo de distribución de frecuencias de la variable estudiada, y lo que se desea estudiar es un parámetro de dicha distribución. Muchas veces el tamaño de la muestra es pequeño, o la distribución de frecuencias de la variable en estudio no se aproxima a la normal, o no es simétrica. En otros casos el interés del estudio es estimar alguna característica poblacional que no es un parámetro del modelo de distribución de frecuencias de la población, como es el caso de la mediana, el rango, o el grado de asociación de dos criterios.
INTRODUCCION En otros casos, el interés del estudio es estimar alguna característica poblacional que no es un parámetro del modelo de distribución de frecuencias de la población, como es el caso de la mediana, el rango, o el grado de asociación de dos criterios de clasificación de los datos. INTRODUCCION En las unidades anteriores se estudiaron los procedimientos para calcular intervalos de confianza y realizar pruebas de hipótesis a partir de una muestra de la población en estudio. Uno de los supuestos fundamentales que se hace en estos casos, es el que se conoce el modelo de distribución de frecuencias de la variable estudiada, y lo que se desea estudiar es un parámetro de dicha distribución. Muchas veces el tamaño de la muestra es pequeño, o la distribución de frecuencias de la variable en estudio no se aproxima a la normal, o no es simétrica. En otros casos el interés del estudio es estimar alguna característica poblacional que no es un parámetro del modelo de distribución de frecuencias de la población, como es el caso de la mediana, el rango, o el grado de asociación de dos criterios.
INTRODUCCION Sea porque la muestra es pequeña, o porque se desea estudiar alguna propiedad que no es un parámetro, o porque la distribución de los datos es asimétrica, las estadísticas que podemos emplear en esos casos son las estadísticas llamadas no-paramétricas. INTRODUCCION En las unidades anteriores se estudiaron los procedimientos para calcular intervalos de confianza y realizar pruebas de hipótesis a partir de una muestra de la población en estudio. Uno de los supuestos fundamentales que se hace en estos casos, es el que se conoce el modelo de distribución de frecuencias de la variable estudiada, y lo que se desea estudiar es un parámetro de dicha distribución. Muchas veces el tamaño de la muestra es pequeño, o la distribución de frecuencias de la variable en estudio no se aproxima a la normal, o no es simétrica. En otros casos el interés del estudio es estimar alguna característica poblacional que no es un parámetro del modelo de distribución de frecuencias de la población, como es el caso de la mediana, el rango, o el grado de asociación de dos criterios.
INTRODUCCION Las estadísticas no-paramétricas no tienen una distribución conocida “a priori”, por lo que los métodos de estimación son algo diferentes de los vistos en estadística paramétrica. INTRODUCCION En las unidades anteriores se estudiaron los procedimientos para calcular intervalos de confianza y realizar pruebas de hipótesis a partir de una muestra de la población en estudio. Uno de los supuestos fundamentales que se hace en estos casos, es el que se conoce el modelo de distribución de frecuencias de la variable estudiada, y lo que se desea estudiar es un parámetro de dicha distribución. Muchas veces el tamaño de la muestra es pequeño, o la distribución de frecuencias de la variable en estudio no se aproxima a la normal, o no es simétrica. En otros casos el interés del estudio es estimar alguna característica poblacional que no es un parámetro del modelo de distribución de frecuencias de la población, como es el caso de la mediana, el rango, o el grado de asociación de dos criterios.
CONCEPTOS Los métodos de estadística no-paramétrica tienen la ventaja de que algunos cálculos son fáciles y rápidos. Cuando los datos están en una escala nominal o de orden, éstos métodos son los únicos disponibles. Las desventajas de dichos métodos son su menor eficiencia frente a los métodos paramétricos equivalentes; además, los cálculos manuales de algunas pruebas son largos y tediosos. CONCEPTOS Los métodos de estadística no-paramétrica tienen la ventaja de que algunos cálculos son fáciles y rápidos. Cuando los datos están en una escala nominal o de orden éstos métodos son los únicos disponibles. Las desventajas de dichos métodos son su menor eficiencia frente a los métodos paramétricos equivalentes; además, los cálculos manuales de algunas pruebas son largos y tediosos.
EJEMPLOS Si se quiere hacer una prueba de hipótesis sobre el valor de la mediana del contenido de aflatoxinas en un alimento, es conveniente emplear la estadística no-paramétrica. El contenido de aflatoxinas es una variable que tiene una distribución altamente sesgada, siendo la mediana una mejor medida del centro de los datos, que el promedio aritmético o media. Por otra parte, cuando los datos están medidos en una escala de clasificación, o de orden, o los datos son conteos, y tenemos tamaños de muestra pequeños, es más adecuado hacer estimaciones y pruebas no-paramétricas.
EJEMPLOS Un ejemplo de este caso es cuando se quiere estimar el número de insectos presentes en lotes de grano, y el tamaño de la muestra (o sea, el número de lotes de granos) es menor que 20. Si queremos probar que diferentes condiciones de mantenimiento afectan la proporción de camarones con una cierta característica (la cual se mide por su presencia o ausencia), lo más adecuado es realizar una prueba de homogeneidad de proporciones; este es un método no-paramétrico.
DETERMINACION DEL ORDEN El orden es un estadístico que corresponde a la magnitud relativa de un valor en un conjunto de valores. El cálculo de los órdenes de una muestra es un procedimiento usual al realizar pruebas no-paramétricas. Sea una muestra de n observaciones: X1,X2,.....,Xn. Si ordenamos los valores de X de menor a mayor, el valor más pequeño de X tendrá orden 1.
DETERMINACION DEL ORDEN El valor siguiente tendrá orden 2, y así sucesivamente, hasta el valor más grande de las X, que tendrá orden n. Para diferenciar los valores ordenados de la muestra, del subíndice que se usa para identificación, el orden se indica con un subíndice entre paréntesis, tal como X(3), el cual será el tercer valor de menor a mayor.
Esto se puede resumir en una tabla como la siguiente: EJEMPLO Sean los valores de pH de una muestra de 5 observaciones (n=5), los siguientes: X1 = 5 X2 = 2 X3 = 7 X4 = 7.5 X5 = 3 Los valores de orden serán: X(1)= X2 = 2; X(2)= X5 = 3; X(3)= X1 = 5; X(4)= X3 = 7; X(5)= X4 = 7.5. Esto se puede resumir en una tabla como la siguiente: Obs. X1 X2 X3 X4 X5 Valor 5 2 7 7.5 3 Orden 1 4
EJEMPLO (Cont.) Si dos o más observaciones son iguales, por ejemplo, si X3= 7 y X4 =7, entonces se calcula el orden promedio, 3.5 y se asigna a X3 y a X4,,como X(3.5) La mediana de una muestra de tamaño par será: La mediana de una muestra de tamaño impar será:
Ha: M >Mo, Ha:M < Mo, y Ha: M Mo. PRUEBA DE WILCOXON Sea la hipótesis Ho: M = Mo , donde Mo es la mediana de la población bajo estudio, y se establece como el nivel de significancia. Las hipótesis alternativas pueden ser: Ha: M >Mo, Ha:M < Mo, y Ha: M Mo. Habrá una regla de decisión para cada una de ellas. Se toma una muestra al azar de n observaciones de la población bajo estudio. Sean las observaciones de la muestra: X1, X2,......,Xn
PRUEBA DE WILCOXON Se obtiene la diferencia de cada observación Xi con la mediana bajo hipótesis (Mo): Di = Xi – Mo Se ordenan las diferencias en valor absoluto, esto es, ignorando el signo calcular el orden de cada diferencia |Di|. Así, D(1) es la diferencia más chica, y tiene orden 1, D(2) es la siguiente,....hasta D(n) la diferencia mayor, con orden n. Si se tienen empates (valores iguales, positivos o negativos) se usa el orden promedio, como se explicó antes.
PRUEBA DE WILCOXON A cada diferencia ordenada se le pone el signo (si es positiva, signo + y si es negativa, signo -). Se obtiene la suma de los órdenes con signo positivo (+); esta suma se llamará: T+. Lo mismo con los órdenes de signo negativo: T‑. Si la hipótesis alternativa es Ha: M Mo, entonces el estadístico a usar será la suma de órdenes que sea menor: Si T‑ es menor que T+, el estadístico será T‑; si T+ es menor que T‑ entonces el estadístico será T+.
PRUEBA DE WILCOXON Se rechaza Ho al nivel de significancia de , si T es menor o igual que el valor dado en tablas como "d", el cual se denota d(a,n), donde a/2 es el nivel de significancia para dos colas, y a es el nivel de significancia para una cola, siendo n el tamaño de muestra. (Tabla de Wilcoxon, en Apéndice I).
EJEMPLO En un estudio sobre la influencia de las drogas sobre el coeficiente intelectual de jóvenes, se planteó la hipótesis de que la mediana del coeficiente intelectual de jóvenes drogadictos es diferente al coeficiente intelectual normal, el cual es de 107. Para probar esta hipótesis se tomó una muestra al azar de 15 jóvenes drogadictos de diferentes colonias, y se les realizó la prueba de inteligencia. La prueba de hipótesis estadística fue: Ho: M > 107 vs. Ha: M 107 Se usó un nivel de significancia de =0.05.
EJEMPLO -8 -7 -17 -13 +28 +1 0 +4 +12 -3 +20 +2 +10 -2 +18 Valores de X 99 100 90 94 135 108 107 111 119 104 127 109 117 105 125 Xi -Mo =Di -8 -7 -17 -13 +28 +1 0 +4 +12 -3 +20 +2 +10 -2 +18 Orden de Di 7 6 11 10 14 1 5 9 4 13 2.5 8 2.5 12 Orden de Di con Signo -7 -6 -11 -10 +14 +1 +5 +9 -4 +13 +2.5 +8 -2.5 +12 T+ = 64.5; T- = 40.5
EJEMPLO Como T- es menor que T+, el estadístico de prueba será T- = 40.5. La regla de decisión será: Rechazar si T- es menor que el valor de las tablas de Wilcoxon con a=0.05, y n -1=14, el cual es 22. Como 40.5 >22, entonces no tenemos suficiente evidencia en la muestra, para rechazar la hipótesis nula.
PRUEBA DE MANN-WHITNEY Sean dos muestras independientes y aleatorias, obtenidas de dos poblaciones sobre las que se desea probar la hipótesis: Ho: Las poblaciones tienen medianas iguales Ha: Las poblaciones difieren con respecto a su mediana. Supongamos que se tienen dos muestras aleatorias de tamaños n1 y n2, respectivamente. Se combinan ambas muestras y se calculan los órdenes,(X(ij)). Se suman los órdenes de la muestra 1: S1= y los de la muestra 2: S2= separadamente.
PRUEBA DE MANN-WHITNEY Se calcula el estadístico T = S1 ‑ [n1(n1 + 1)]/2, donde S1 es la suma de los órdenes que corresponden a la muestra 1.
PRUEBA DE MANN-WHITNEY Se rechaza Ho si T es menor que wa/2 o T es mayor que w(1-a/2), donde w(1-a/2) = n1n2 – wa/2 y el valor wa/2 con (n1, y n2) es un valor límite calculado por Mann-Whitney (Tabla de Mann-Whitney en Apéndice I). Cuando los valores de T son muy grandes, se busca en la tabla con (n1n2 -T). Así, los parámetros para buscar en la tabla son: n1, n2, y T ó (n1n2 -T).
PRUEBAS DE INDEPENDENCIA Y DE HOMOGENEIDAD Cuando tenemos frecuencias o proporciones de casos en tablas clasificadas de acuerdo a dos o más criterios o factores nominales, muchas veces interesa conocer si las proporciones en las clases correspondientes a un factor, corresponden o se asocian con las proporciones observadas en las clases del segundo factor o criterio.
PRUEBAS DE INDEPENDENCIA Y DE HOMOGENEIDAD Las pruebas de este tipo se llaman pruebas de independencia. Podemos además querer comparar una clase de un factor con otra clase del mismo factor. Estas se llaman pruebas de homogeneidad.
PRUEBAS DE INDEPENDENCIA Sean n observaciones procedentes de una población que fue muestreada aleatoriamente. Las observaciones están clasificadas según dos criterios; esto es, cada observación puede pertenecer a una categoría Ai de la clasificación A y a una categoría Bj de la clasificación B. Así, tenemos una tabla de doble entrada con cierto número de observaciones para cada celda, como en el cuadro.
PRUEBAS DE INDEPENDENCIA B1 B2 . . . Bb A1 A2 . Aa n11 n21 . . .nb1 n12 n22 . . .nb2 . . . . . . . n1a n2a . . nba n.1 n.2 n.a n1. n2. . . . nb. n..
PRUEBAS DE INDEPENDENCIA Si los dos criterios de clasificación son independientes, el número de individuos en la clase BiAj, será: Eij = [ni.* n.j]/ n.. Este es el valor esperado de frecuencia de la clase (i,j). A los valores observados de nij se les denomina Oij.
PRUEBAS DE INDEPENDENCIA Sea la hipótesis nula: Ho : Los dos criterios de clasificación son independientes Ha : Los dos criterios de clasificación están relacionados El estadístico de prueba será: 2 = [(Oij ‑ Eij)2/ Eij] Si , entonces se rechaza Ho.
EJEMPLO Se desea conocer si existe asociación entre la humedad con que se almacena un grano y la presencia de grano dañado. Para ello se toma una muestra aleatoria de granos (de 56 lotes de grano), donde se observa si el contenido de humedad inicial del grano fué alto o bajo (sólo dos categorías); y si el grano después de 6 meses de almacenamiento tiene o no porcentajes de grano dañado por encima de la norma.
EJEMPLO Los resultados muestran : Humedad baja, No daño=14 Humedad Alta, No daño=6; Humedad baja, Daño= 16; Humedad alta, Daño=20. Los resultados del número de lotes esperado, si no existiera asociación son: 30*20/56, 26*20/56, 36*30/56, y 26*36/56. La hipótesis estadística será: Ho: No existe asociación entre la humedad inicial del grano y el porcentaje de lotes con grano dañado. Ha: Hay asociación entre la humedad inicial y el porcentaje de lotes con grano dañado. El estadístico de prueba será: 2 = 3.376. La decisión será no rechazar la hipótesis nula, puesto que 2 = 3.376 no es mayor que 2(1, 0.05)=3.84.
Ejercicio Construya una tabla con los datos del ejemplo anterior. ¿Qué proporción de lotes dañados se encontró? ¿Cuál es la proporción de lotes con humedad baja entre los lotes dañados? ¿Y la de lotes no dañados? ¿Son esas proporciones diferentes (estadísticamente)? En el caso de que pruebe que las proporciones son diferentes, ¿Cuáles serían sus conclusiones?
RESUMEN Diferencias entre métodos paramétricos y no-paramétricos. Cálculo de estadísticos de orden. Prueba de Wilcoxon para la mediana. Prueba de Mann-Whitney para dos medianas. Pruebas de independencia Pruebas de homogeneidad