La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

P Y E 2012 Clase 17Gonzalo Perera1 Repaso de clase anterior En la clase pasada observamos en un primer ejemplo particular de test de hipótesis que: Cuando.

Presentaciones similares


Presentación del tema: "P Y E 2012 Clase 17Gonzalo Perera1 Repaso de clase anterior En la clase pasada observamos en un primer ejemplo particular de test de hipótesis que: Cuando."— Transcripción de la presentación:

1 P Y E 2012 Clase 17Gonzalo Perera1 Repaso de clase anterior En la clase pasada observamos en un primer ejemplo particular de test de hipótesis que: Cuando el tamaño de la muestra (n) tiende a infinito, pueden lograrse probabilidades de Error de tipo I y II tan pequeñas como se desee. Cuando n está fijo, ambas probabilidades de error “compiten” entre sí y no es posible reducir ambas arbitrariamente.

2 P Y E 2012 Clase 17Gonzalo Perera2 Hoy veremos que estos hechos no son ninguna casualidad, sino puntos centrales de una teoría que a continuación presentaremos de manera general, para pasar a partir de la próxima clase a estudiar problemas concretos particularmente relevantes en la Ingeniería.

3 P Y E 2012 Clase 17Gonzalo Perera3 Test de Hipótesis:Propiedades fundamentales. Un test ( o prueba, o contraste) de hipótesis, consiste en, dada una muestra de datos X 1,...., X n, decidir entre dos hipótesis, H 0 (Hipótesis nula) y H 1 (Hipótesis alternativa), que establecen distintos postulados respecto a la distribución de la muestra, como, por ejemplo:  H 0 : la muestra es iid  H 1 : la muestra no es iid, o bien, si se supone que ya se sabe que la muestra es iid, uno puede preguntarse si  H 0 : la muestra es gaussiana  H 1 : la muestra no es gaussiana,

4 P Y E 2012 Clase 17Gonzalo Perera4 o cualquier otra disyuntiva concerniente a la distribución de los datos. Observación importante: Debe siempre tenerse mucho cuidado en que los distintos tests para poder aplicarse, requieren verificar previamente ciertas hipótesis (como por ejemplo, para averiguar si los datos son gaussianos o no, se debe primero saber si los datos son iid), lo que obliga a concatenar varios tests siguiendo el orden lógico (de mayor a menor generalidad). Usar software estadístico como “cajas negras”, aplicando distintos tests sin saber qué se está haciendo, es una frecuente fuente de errores estadísticos muy relevantes.

5 P Y E 2012 Clase 17Gonzalo Perera5 Alguna terminología básica: Cuando se sabe previamente que los datos responden a una distribución de un cierto tipo (por ejemplo, Gaussiana, Cauchy, Exponencial, Poisson, etc.) y de la cual únicamente se desconoce una cantidad finita de parámetros y los tests refieren a los valores de algunos de esos parámetros, se dice que se tiene un test paramétrico. Por ejemplo, si se sabe que los datos son iid y N( ,  2 ) y se testea  H 0 :  =0  H 1 :  >0 entonces se tiene un test paramétrico. Inversamente, si no se tiene la situación anterior y sólo se suponen hipótesis generales cualitativas (que la distribución es continua, o que los datos son iid, etc.), se dice que se tiene un test no-paramétrico.

6 P Y E 2012 Clase 17Gonzalo Perera6 Por ejemplo, si se tienen datos de los cuales sólo se sabe que responden a una distribución continua y se testea  H 0 : la muestra es iid  H 1 : la muestra no es iid, se tiene entonces un test no paramétrico (los tests de este tipo se denominan tests de aleatoriedad y son los primeros que veremos). Como otro ejemplo, si se tiene una muestra de una distribución continua y que puede suponerse iid (por ejemplo, porque pasó afirmativamente los tests de aleatoriedad) y se contrasta  H 0 : la muestra es gaussiana  H 1 : la muestra no es gaussiana,se tiene un test no paramétrico (los tests de este tipo se denominan tests de ajuste o test de bondad de ajuste - del inglés goodness of fit - y los veremos en segundo término).

7 P Y E 2012 Clase 17Gonzalo Perera7 Dentro de los tests de hipótesis paramétricos, denominamos simple a una hipótesis que especifica un único valor para el parámetro sobre cuyo valor se testea y compuesta a una hipótesis que no es simple. Por ejemplo, si se tiene una muestra que es iid y N( ,  2 ), la hipótesis  H 0 :  =0 es simple, pero la alternativa  H 1 :  >0 es compuesta. Finalmente se dice que se tiene un test de hipótesis simples si se tiene un test de hipótesis paramétrico en el que ambas hipótesis son simples. Es muy importante que quede muy claro que los tests de hipótesis simples son los más sencillos de todos los tests: todo el problema se reduce a saber si el valor del parámetro es un cierto valor dado u otro valor dado.

8 P Y E 2012 Clase 17Gonzalo Perera8 El procedimiento general: En todo test de hipótesis, se utiliza el siguiente procedimiento. Cada test de hipótesis está definido por una región crítica que es un región del espacio de n coordenadas tal que : si los datos X 1,...., X n pertenecen a dicha región entonces se rechaza H 0. Dicho de otra manera, la región crítica establece la fórmula que, de satisfacerla nuestros datos, nos harán rechazar H 0. Por ejemplo, en el caso de la reconstrucción de imágenes vista en clases anteriores, se tenía que nuestros datos eran iid y N( ,  2 ) y se contrastaban las hipótesis

9 P Y E 2012 Clase 17Gonzalo Perera9  H 0 (El pixel es amarillo )  =0  H 1 (El pixel es azul)  = 1, y la región crítica era M n >1/2 Los distintos tests tendrán distintas regiones críticas, más o menos sofisticadas, pero lo que debe recordarse es que si se cumple lo que indica la región crítica, debe rechazarse H 0. Tenemos además entonces en todo test de hipótesis, dos posibles errores: Error tipo I= Rechazar H 0 equivocadamente. Error tipo II= Aceptar H 0 equivocadamente.

10 P Y E 2012 Clase 17Gonzalo Perera10 Sus respectivas probabilidades de error se llaman habitualmente   =P(Error tipo I)   =P(Error tipo II) Recordando que indicaremos por P H i (A), i=0, 1 que estamos calculando la probabilidad del suceso A suponiendo que H i es cierta y considerando el suceso R=“los datos caen en la región crítica”, se tiene que:   = P H 0 (R),   = P H 1 (R c ).

11 P Y E 2012 Clase 17Gonzalo Perera11 Observación muy importante!!!!!!!!!! Es un error muy frecuente decir que  = 1- . Eso es en general FALSO, ya que si bien los sucesos que se consideran para calcular  y  son complementarios, las probablidades con las que se calcula NO SON LAS MISMAS (son dos probabilidades distintas!!!!!). No olvidar este punto!!!!!! Como última cuestión terminológica, suele llamársele nivel de significación (o simplemente, nivel) del test a  y potencia del test a  = 1- . Obviamente, lo ideal sería poder construír tests de nivel muy bajo y potencia muy alta, pero como ya veremos, esto no es siempre posible.

12 P Y E 2012 Clase 17Gonzalo Perera12 Como resumen final de este punto, mostramos en el siguiente cuadro las distintas combinaciones posibles de lo que es cierto en la realidad y las decisiones que nosotros tomamos, indicando entre paréntesis las probabilidades de cada caso. Pasaremos ahora a un resultado fundamental de la teoría de los tests de hipótesis: el Lema de Neyman-Pearson.

13 P Y E 2012 Clase 17Gonzalo Perera13 Lema de Neyman-Pearson: El Lema de Neyman-Pearson establece que, bajo ciertas hipótesis técnicas (referimos al libro por ellas), para un test de hipótesis paramétrico de alternativas simples y para una muestra dada, dado   (0,1), existe una región crítica RNP (llamada región de Neyman-Pearson) para la cual la probabilidad de error de tipo I es  y la probabilidad de error de tipo II, , es la menor posible (lo cual no quiere decir que sea pequeña). El Lema da además una fórmula concreta que permite construír dicha región.

14 P Y E 2012 Clase 17Gonzalo Perera14 Observaciones: Si bien el Lema de Neyman-Pearson refiere a test de hipótesis paramétricos de alternativas simples, en general la situación es similar: siempre es posible construír regiones críticas de un nivel dado  ( y muchas veces con alguna propiedad de optimalidad entre todas las posibles regiones de nivel  ), pero frecuentemente no se conoce cuánto vale  o si se conoce, no es pequeño. Las dos hipótesis juegan roles muy diferentes. Mientras que el rechazar H 0 tiene probabilidad de error controlada por el  que nosotros elegimos, el aceptar H 0 no tiene probabilidad de error controlada (muchas veces no conocemos  y bien puede no ser pequeño). Las aceptaciones de H 0 son decisiones particularmente “inseguras”.

15 P Y E 2012 Clase 17Gonzalo Perera15 Esto lleva a decir que a partir de una muestra dada, un test o bien “rechaza H 0 al nivel  ” o bien “no rechaza H 0 al nivel  ”. Para realizar un test de hipótesis debemos simplemente fijar el nivel  con el que trabajaremos y luego verificar si nuestros datos satisfacen o no la fórmula de la región crítica del test; si la satisfacen debemos rechazar H 0 y la probabilidad de estarnos equivocando es  ; si no la satisface no rechazamos H 0 por ahora, pero podríamos rechazar posteriormente al aplicar otro test o recibir más datos. Veamos un ejemplo para “aterrizar” estos conceptos.

16 P Y E 2012 Clase 17Gonzalo Perera16 Ejemplo: Los siguientes datos corresponden a parte de un estudio de campo sobre incidencia de Echinococcus granulosus (Eg) en zonas rurales del departamento de Florida, Uruguay; estos datos corresponden a la incidencia de Eg (% de población afectada) según el origen del agua de consumo. (Fuente de los datos: Risk factors associates with human echinococcosis in Florida, Uruguay: Results of a Mass Screening study using ultrasound and serology ( C. Carmona, L. Yarzábal, S. Lloyd, M.Gemmel, G. Perera et al), American Journal of Tropical Medicine and Hygiene, 58(5), pp.599-605.(1998) )

17 P Y E 2012 Clase 17Gonzalo Perera17 Podemos pensar que la cantidad de casos entre los consumidores de agua de aljibe corresponde a una variable X con distribución Bin(n, p), con n=1009, X/1009=0.029, y que la cantidad de casos entre los consumidores de agua comercial es una variable Y con distribución Bin(m,q), con m=6917, Y/6917=0.014, donde p y q corresponden a la probabilidad de que un consumidor de agua de aljibe (o de origen comercial, respectivamente) resulten afectados por Eg. Podemos suponer además que X e Y son independientes entre sí.

18 P Y E 2012 Clase 17Gonzalo Perera18 Debemos testear:  H 0 : p=q  H 1 : p>q La región crítica para este test es (ver libro) R={ (X/n)- (Y/m)  z  C}, con C= {(1/n)(X/n)(1-X/n)+(1/m)(Y/m)(1-X/m)} (1/2) Llamemos “Estadístico del test” a T= [(X/n)- (Y/m)]/C, respecto al cual la región crítica se reescribe R={ T  z  }. Para nuestros datos:

19 P Y E 2012 Clase 17Gonzalo Perera19 Tomando por ejemplo  =0.05, resulta z  =1.645, por lo cual: se satisface la región crítica y se rechaza H 0, decidiéndose, con 95% de confiabilidad, que es mayor la incidencia entre los consumidores de agua de aljibe que entre los consumidores de agua comercial ( y que no “mera casualidad” la diferencia observada en nuestra muestra). Una pregunta muy razonable que nos podemos plantear es qué pasa si cambiamos el  que utilizamos. La siguiente tabla muestra la decisión que se toma al variar  para nuestros datos.

20 P Y E 2012 Clase 17Gonzalo Perera20

21 P Y E 2012 Clase 17Gonzalo Perera21 Se aprecia que a mayores valores de  se rechaza H 0 y a valores menores de  no se rechaza H 0 (es lógico:cuánto más error se permite al rechazar, más se rechaza) Más aún, la gráfica siguiente muestra que hay un valor de  que hace de “divisoria de aguas”: el valor de  donde z  iguala al valor del estadístico del test es el que separa los  “rechazadores” de los “aceptadores”. La existencia de un tal valor de  no es ninguna casualidad; es el primer ejemplo de lo que se denomina el “p-valor” del test (p-value, en inglés). La clase próxima veremos en detalles este punto;veamos para terminar la clase de hoy la referida gráfica y cuánto vale en éste caso el p-valor.

22 P Y E 2012 Clase 17Gonzalo Perera22


Descargar ppt "P Y E 2012 Clase 17Gonzalo Perera1 Repaso de clase anterior En la clase pasada observamos en un primer ejemplo particular de test de hipótesis que: Cuando."

Presentaciones similares


Anuncios Google