Fundamentos del contraste de hipótesis Programa de doctorado en Estadística, Análisis de datos y Bioestadística Fundamentos de Inferencia Estadística Departament d’Estadística
Puntos a tratar: Contraste paramétrico de hipótesis Test estadístico vs. estadístico de test Error de tipo I y de tipo II Dos enfoques frecuentistas enfrentados: Fisher vs. Neyman-Pearson Extensión de un test. Nivel de significación. P-valor Uso y abuso del p-valor. Crisis del enfoque frecuentista
Contraste paramétrico de hipótesis Dado un modelo estadístico F, no estamos interesados en determinar el valor concreto de q Q sino en decidir entre dos hipótesis sobre cómo es el verdadero valor de q,
Test estadístico / estadístico de test Criterio de decisión a partir datos y: “test estadístico”, función (y) con dos valores, 0 (“no rechazamos H0”) y 1 (“rechazamos H0”) Estadístico en el que se basa el criterio de decisión: “estadístico de test”, T(y) (p.e. mide discrepancia de y respecto H0, criterio del estilo de (y) = I{T(y) ³ c})
Error de tipo I y de tipo II
Dos enfoques frecuentistas enfrentados R. Fisher: hipótesis alternativa no muy explícita, idea de credibilidad de H0 a partir de p-valor: Pr{T(Y)³T(y)|H0}, ayuda a la decisión final (+ otros criterios) J. Neyman, E.S. Pearson: considerar las probabilidades de error de tipo I y de tipo II, procurar emplear el criterio de decisión que minimice ambas
Algunos conceptos vinculados a las probabilidades de error Función de potencia: Si q Q0, bT(q) es una probabilidad de cometer el error de tipo I Si q Q1, 1-bT(q) es una probabilidad de cometer el error de tipo II y bT(q) se denomina “potencia del test”
Extensión de un test T Todas estas probabilidades dependen del valor de q concreto Extensión de un test T: máxima probabilidad de error de tipo I Medida del nivel global de probabilidad de error de tipo I Anteriores son probabilidades “a priori”
Ejemplo de función de potencia
Enfoque de Neyman-Pearson. Nivel de significación Nivel de significación: máximo nivel de probabilidad de error de tipo I aceptable, prefijado. Un valor a tal que: Para a prefijado, utilizar el test T que sea uniformemente más potente (UMP): para todo otro test, U, bU (q) £ bT (q) para todo q Q1 Mejor empezar con el enfoque de N-P aunque sea algo posterior, más que nada por razones de claridad de exposición ya que nos permitirá introducir algunos conceptos adecuados para la discusión de ambos enfoques.
Algunas objeciones al enfoque de Neyman-Pearson Conceptuales: Asimetría entre hipótesis: papel de la nula es más preponderante ¿Cómo elegir H0? Determinación del nivel de significación ¿Significado de “pequeño”? ¿porqué 0,05? Técnicas (solventables): No siempre existe test UMP (solución: condiciones adicionales para descartar tests inaceptables)
Enfoque de los usuarios (¡no de Fisher!): p-valor Nivel de significación observado o “p-valor”: dada y, mínimo nivel de significación al que se rechazaría H0: Uso de aobs muy criticado. Correcto si se rechaza H0 cuando aobs £ a, críticas a su empleo como medida de seguridad en la toma de cualquier decisión
Inferencia es inducción, cosas como L o el p-valor: deducción Estado de la naturaleza q Q Deducción: Pr{T(Y) ³T(y)|H0} Inducción: Pr{T(Y) ³T(y)|H0} ¹ Pr{H0|y} !! Datos observados y Y
Verdadero enfoque de Fisher. Crisis del enfoque frecuentista Fisher propuso emplear aobs como medida de significación (gran avance respecto de lo que se hacía antes: nada) No propuso utilizarlo como medida a posteriori de creencia en H0, utilización en la línea de verosimilitud, etc. Si requerido Pr{H0|y}, inaceptable Fisher o Neyman-Pearson ¿Aceptable si tiene en cuenta H0 y H1?¿Sólo enfoque de Bayes?
Uso erróneo de p-valores. I p-valor = P{“estadístico de test extremo” | “H0 cierta”} ...y no al contrario: p-valor = P{“H0 cierta” | “estadístico de test extremo”} Consecuencia: NO indica si hipótesis nula es muy o poco probable, es función de los datos, un “estadístico” (una variable aleatoria) con distribución dependiente de qué hipótesis es realmente cierta (¡cuestión que desconocemos!)
Uso erróneo de p-valores. II Si H0 cierta: el p-valor sigue distribución uniforme: todos los p-valores pueden darse por igual, luego... MUY INCORRECTO afirmar que hipótesis nula es “muy significativa” o “la aceptamos con mucha seguridad” si se obtuvo p-valor grande, p.e. 0,90 ¡Este valor era igual de probable que, p.e., 0,01!
Uso erróneo de p-valores. III Si H0 es falsa: Distribución de los p-valores es, en general, desconocida, luego... POCO JUSTIFICABLE afirmar “rechazamos H0 muy significativamente” si hemos obtenido p-valor “muy pequeño”. Diferencia real entre 0,02 i 0,001 depende de su verdadera distribución, normalmente desconocida “Calibración de p-valores”: metodología para tratar de comparar p-valores correctamente
Uso correcto del p-valor Fijamos un nivel de significación, a, p.e. 0,05 (probabilidad de error I aceptable) Si p-valor observado es a rechazamos H0 Si p-valor observado es > a no rechaz. H0 Manera “ortodoxa” (¡pero no la más habitual a la práctica!) de realizar un test Así: tendremos una probabilidad a priori como máximo a, de cometer error de tipo I
Utilització correcta del p-valor Es decir, a la larga, si cierta H0: de cada 100 veces que obtuviésemos los datos y aplicásemos el test, solament la rechazaríamos equivocadamente 100a veces No és vàlida cualquier otra consideración en función de que el p-valor sea grande o pequeño ...pero si uno es el investigador que ha obtenido un p-valor muy pequeño ¡duele no poder utilitzar este hecho!
El p-valor no lo es todo Supongamos que no hemos rechazado H0: error común: pensar que probabilidad de error es 1-a Ahora es P{“error de tipo II”} = P{“aceptar H0” | “H0 falsa”}= 1-Potencia del test Potencia depende, entre otras cosas, del tamaño muestral. Se debería fijar tamaño muestral adecuado para garantizar potencia aceptable Si no, demasiado fácil aceptar una H0 que nos interesa: bastaría utilizar pocos datos!