P Y E 2012 Clase 17Gonzalo Perera1 Repaso de clase anterior En la clase pasada observamos en un primer ejemplo particular de test de hipótesis que: Cuando.

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

PRUEBAS DE HIPÓTESIS.
BUENAS TARDES.
Tema 16: Contraste paramétrico de hipótesis I: Pruebas de contraste para un grupo. Pruebas de contraste para dos grupos: independientes o relacionados.
Introducción a la Inferencia Estadística
Tema 15. Contraste de hipótesis: Planteamiento de las hipótesis
1.1 Contraste de Bondad de Ajuste para Datos Categóricos
TEMA 6: CONTRASTES NO PARAMÉTRICOS
ESTADISTICA INFERENCIAL
Pruebas de significancia para datos cualitativos
Test de Hipótesis.
PRUEBA DE HIPOTESIS Denominada también prueba de significación, tiene como objetivo principal evaluar suposiciones o afirmaciones acerca de los valores.
Pruebas de hipótesis.
Contraste de Hipótesis
Capítulo 10 Test de Hipótesis.
PRUEBA DE HIPOTESIS LUIS FERNANDO TRUJILLO LEYDER JULIAN GOMEZ
PRUEBAS DE HIPÓTESIS Mercedes de la Oliva.
La prueba U DE MANN-WHITNEY
Hipótesis Alternativa: H1: m  50 cm/seg
PRUEBAS DE HIPOTESIS HIPOTESIS
TABLAS DE CONTINGENCIA
METODOLOGÍA DE INVESTIGACIÓN Titular: Agustín Salvia
Función Lineal.
ANOVA Modelo I: Comparación entre medias
Tema 2: Métodos de ajuste
Prueba de hipótesis Equivalencia entre la prueba de hipótesis y los intervalos de confianza Valor de probabilidad Valor de probabilidad unilateral Prueba.
Tests de hipótesis Los tres pasos básicos para testear hipótesis son
Inferencia Estadística
La Derivada. Ya vimos: los conceptos, métodos ó instrumentos necesarios para establecer el “comportamiento” de una función.  en un entorno de x o [ 
Unidad VI: PRUEBAS DE HIPOTESIS
Clases 4 Pruebas de Hipótesis
Curso Práctico de Bioestadística Con Herramientas De Excel Fabrizio Marcillo Morla MBA (593-9)
@ Angel Prieto BenitoMatemáticas 2º Bachillerato CS1 TIPOS DE ERRORES Tema 14.4 * 2º BCS.
1 Planteamiento del problema ¿Tenemos los humanos la capacidad de percibir si nos miran desde atrás? O, más exactamente: ¿Es defendible que existen otras.
Tema 17: Contraste paramétrico de hipótesis I: Pruebas de contraste para un grupo. Pruebas de contraste para dos grupos: independientes o relacionados.
Descomposición Factorial Unidad 5
Tema 7: Introducción a los contrastes de hipótesis
Fundamentos del contraste de hipótesis
Inferencias con datos categóricos
Estadística aplicada a la educación
Tema : Introducción a los contrastes de hipótesis
Unidad V: Estimación de
TEMA 15 * CONTRASTES DE HIPÓTESIS
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Prof. Rosario Martínez Verdú
Análisis Cuantitativo de Datos (Básico)
Introducción a la Inferencia Estadística
@ Angel Prieto BenitoMatemáticas 2º Bachillerato CS1 CONTRASTES DE HIPÓTESIS Tema 14 * 2º BCS.
Clase 4a Significancia Estadística y Prueba Z
Repaso de clase anterior
Capítulo 1. Conceptos básicos de la Estadística
P Y E 2012 Clase 11Gonzalo Perera1 Repaso de clase anterior Fórmula del bloqueo de Erlang. LFGN y el problema de la Robustez.
¿Dónde está enterrado El Greco? La doctora Inferencia Estadística: ¿Dónde está enterrado El Greco? Contraste de hipótesis para una proporción Imagen de.
Pruebas de hipótesis.
Pruebas de hipótesis.
P Y E 2004 Clase 19Gonzalo Perera1 Propiedades generales del p-valor Repaso de la clase anterior. Tests de aleatoriedad Estadística de datos dependientes.
Regresión Lineal Simple
Prueba de Hipótesis Una hipótesis estadística es un supuesto que se establece sobre las características de una distribución poblacional El estudio se plantea.
P y E 2012 Clase 15Gonzalo Perera1 Repaso de la clase anterior. Métodos de estimación.
Aspectos generales de la investigación educativa en el SNIT
P y E 2014 Clase 4Gonzalo Perera1 Repaso de clase anterior Probabilidad condicional, independencia de sucesos. Distribución Binomial e Hipergeométrica.
CONTRASTE DE HIPÓTESIS Dimensiones Largo275mm. 169 mm 2 Ancho175mm.49 mm 2 Alto175mm.49 mm 2 Peso16 Kg.1 Kg 2. SITUACIÓN PROBLEMA.
Metodología de la Investigación Cát. I
Pruebas paramétricas y no paramétricas
Pruebas de hipótesis para una muestra
UNIDAD I.- Analisis 3.4 Prueba de Hipotesis.
Estadística Inferencial
Viviana Acosta Estadística II. Que es Es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida.
PRUEBA DE SIGNIFICANCIA
ANALISIS DE VARIANZA.
Transcripción de la presentación:

P Y E 2012 Clase 17Gonzalo Perera1 Repaso de clase anterior En la clase pasada observamos en un primer ejemplo particular de test de hipótesis que: Cuando el tamaño de la muestra (n) tiende a infinito, pueden lograrse probabilidades de Error de tipo I y II tan pequeñas como se desee. Cuando n está fijo, ambas probabilidades de error “compiten” entre sí y no es posible reducir ambas arbitrariamente.

P Y E 2012 Clase 17Gonzalo Perera2 Hoy veremos que estos hechos no son ninguna casualidad, sino puntos centrales de una teoría que a continuación presentaremos de manera general, para pasar a partir de la próxima clase a estudiar problemas concretos particularmente relevantes en la Ingeniería.

P Y E 2012 Clase 17Gonzalo Perera3 Test de Hipótesis:Propiedades fundamentales. Un test ( o prueba, o contraste) de hipótesis, consiste en, dada una muestra de datos X 1,...., X n, decidir entre dos hipótesis, H 0 (Hipótesis nula) y H 1 (Hipótesis alternativa), que establecen distintos postulados respecto a la distribución de la muestra, como, por ejemplo:  H 0 : la muestra es iid  H 1 : la muestra no es iid, o bien, si se supone que ya se sabe que la muestra es iid, uno puede preguntarse si  H 0 : la muestra es gaussiana  H 1 : la muestra no es gaussiana,

P Y E 2012 Clase 17Gonzalo Perera4 o cualquier otra disyuntiva concerniente a la distribución de los datos. Observación importante: Debe siempre tenerse mucho cuidado en que los distintos tests para poder aplicarse, requieren verificar previamente ciertas hipótesis (como por ejemplo, para averiguar si los datos son gaussianos o no, se debe primero saber si los datos son iid), lo que obliga a concatenar varios tests siguiendo el orden lógico (de mayor a menor generalidad). Usar software estadístico como “cajas negras”, aplicando distintos tests sin saber qué se está haciendo, es una frecuente fuente de errores estadísticos muy relevantes.

P Y E 2012 Clase 17Gonzalo Perera5 Alguna terminología básica: Cuando se sabe previamente que los datos responden a una distribución de un cierto tipo (por ejemplo, Gaussiana, Cauchy, Exponencial, Poisson, etc.) y de la cual únicamente se desconoce una cantidad finita de parámetros y los tests refieren a los valores de algunos de esos parámetros, se dice que se tiene un test paramétrico. Por ejemplo, si se sabe que los datos son iid y N( ,  2 ) y se testea  H 0 :  =0  H 1 :  >0 entonces se tiene un test paramétrico. Inversamente, si no se tiene la situación anterior y sólo se suponen hipótesis generales cualitativas (que la distribución es continua, o que los datos son iid, etc.), se dice que se tiene un test no-paramétrico.

P Y E 2012 Clase 17Gonzalo Perera6 Por ejemplo, si se tienen datos de los cuales sólo se sabe que responden a una distribución continua y se testea  H 0 : la muestra es iid  H 1 : la muestra no es iid, se tiene entonces un test no paramétrico (los tests de este tipo se denominan tests de aleatoriedad y son los primeros que veremos). Como otro ejemplo, si se tiene una muestra de una distribución continua y que puede suponerse iid (por ejemplo, porque pasó afirmativamente los tests de aleatoriedad) y se contrasta  H 0 : la muestra es gaussiana  H 1 : la muestra no es gaussiana,se tiene un test no paramétrico (los tests de este tipo se denominan tests de ajuste o test de bondad de ajuste - del inglés goodness of fit - y los veremos en segundo término).

P Y E 2012 Clase 17Gonzalo Perera7 Dentro de los tests de hipótesis paramétricos, denominamos simple a una hipótesis que especifica un único valor para el parámetro sobre cuyo valor se testea y compuesta a una hipótesis que no es simple. Por ejemplo, si se tiene una muestra que es iid y N( ,  2 ), la hipótesis  H 0 :  =0 es simple, pero la alternativa  H 1 :  >0 es compuesta. Finalmente se dice que se tiene un test de hipótesis simples si se tiene un test de hipótesis paramétrico en el que ambas hipótesis son simples. Es muy importante que quede muy claro que los tests de hipótesis simples son los más sencillos de todos los tests: todo el problema se reduce a saber si el valor del parámetro es un cierto valor dado u otro valor dado.

P Y E 2012 Clase 17Gonzalo Perera8 El procedimiento general: En todo test de hipótesis, se utiliza el siguiente procedimiento. Cada test de hipótesis está definido por una región crítica que es un región del espacio de n coordenadas tal que : si los datos X 1,...., X n pertenecen a dicha región entonces se rechaza H 0. Dicho de otra manera, la región crítica establece la fórmula que, de satisfacerla nuestros datos, nos harán rechazar H 0. Por ejemplo, en el caso de la reconstrucción de imágenes vista en clases anteriores, se tenía que nuestros datos eran iid y N( ,  2 ) y se contrastaban las hipótesis

P Y E 2012 Clase 17Gonzalo Perera9  H 0 (El pixel es amarillo )  =0  H 1 (El pixel es azul)  = 1, y la región crítica era M n >1/2 Los distintos tests tendrán distintas regiones críticas, más o menos sofisticadas, pero lo que debe recordarse es que si se cumple lo que indica la región crítica, debe rechazarse H 0. Tenemos además entonces en todo test de hipótesis, dos posibles errores: Error tipo I= Rechazar H 0 equivocadamente. Error tipo II= Aceptar H 0 equivocadamente.

P Y E 2012 Clase 17Gonzalo Perera10 Sus respectivas probabilidades de error se llaman habitualmente   =P(Error tipo I)   =P(Error tipo II) Recordando que indicaremos por P H i (A), i=0, 1 que estamos calculando la probabilidad del suceso A suponiendo que H i es cierta y considerando el suceso R=“los datos caen en la región crítica”, se tiene que:   = P H 0 (R),   = P H 1 (R c ).

P Y E 2012 Clase 17Gonzalo Perera11 Observación muy importante!!!!!!!!!! Es un error muy frecuente decir que  = 1- . Eso es en general FALSO, ya que si bien los sucesos que se consideran para calcular  y  son complementarios, las probablidades con las que se calcula NO SON LAS MISMAS (son dos probabilidades distintas!!!!!). No olvidar este punto!!!!!! Como última cuestión terminológica, suele llamársele nivel de significación (o simplemente, nivel) del test a  y potencia del test a  = 1- . Obviamente, lo ideal sería poder construír tests de nivel muy bajo y potencia muy alta, pero como ya veremos, esto no es siempre posible.

P Y E 2012 Clase 17Gonzalo Perera12 Como resumen final de este punto, mostramos en el siguiente cuadro las distintas combinaciones posibles de lo que es cierto en la realidad y las decisiones que nosotros tomamos, indicando entre paréntesis las probabilidades de cada caso. Pasaremos ahora a un resultado fundamental de la teoría de los tests de hipótesis: el Lema de Neyman-Pearson.

P Y E 2012 Clase 17Gonzalo Perera13 Lema de Neyman-Pearson: El Lema de Neyman-Pearson establece que, bajo ciertas hipótesis técnicas (referimos al libro por ellas), para un test de hipótesis paramétrico de alternativas simples y para una muestra dada, dado   (0,1), existe una región crítica RNP (llamada región de Neyman-Pearson) para la cual la probabilidad de error de tipo I es  y la probabilidad de error de tipo II, , es la menor posible (lo cual no quiere decir que sea pequeña). El Lema da además una fórmula concreta que permite construír dicha región.

P Y E 2012 Clase 17Gonzalo Perera14 Observaciones: Si bien el Lema de Neyman-Pearson refiere a test de hipótesis paramétricos de alternativas simples, en general la situación es similar: siempre es posible construír regiones críticas de un nivel dado  ( y muchas veces con alguna propiedad de optimalidad entre todas las posibles regiones de nivel  ), pero frecuentemente no se conoce cuánto vale  o si se conoce, no es pequeño. Las dos hipótesis juegan roles muy diferentes. Mientras que el rechazar H 0 tiene probabilidad de error controlada por el  que nosotros elegimos, el aceptar H 0 no tiene probabilidad de error controlada (muchas veces no conocemos  y bien puede no ser pequeño). Las aceptaciones de H 0 son decisiones particularmente “inseguras”.

P Y E 2012 Clase 17Gonzalo Perera15 Esto lleva a decir que a partir de una muestra dada, un test o bien “rechaza H 0 al nivel  ” o bien “no rechaza H 0 al nivel  ”. Para realizar un test de hipótesis debemos simplemente fijar el nivel  con el que trabajaremos y luego verificar si nuestros datos satisfacen o no la fórmula de la región crítica del test; si la satisfacen debemos rechazar H 0 y la probabilidad de estarnos equivocando es  ; si no la satisface no rechazamos H 0 por ahora, pero podríamos rechazar posteriormente al aplicar otro test o recibir más datos. Veamos un ejemplo para “aterrizar” estos conceptos.

P Y E 2012 Clase 17Gonzalo Perera16 Ejemplo: Los siguientes datos corresponden a parte de un estudio de campo sobre incidencia de Echinococcus granulosus (Eg) en zonas rurales del departamento de Florida, Uruguay; estos datos corresponden a la incidencia de Eg (% de población afectada) según el origen del agua de consumo. (Fuente de los datos: Risk factors associates with human echinococcosis in Florida, Uruguay: Results of a Mass Screening study using ultrasound and serology ( C. Carmona, L. Yarzábal, S. Lloyd, M.Gemmel, G. Perera et al), American Journal of Tropical Medicine and Hygiene, 58(5), pp (1998) )

P Y E 2012 Clase 17Gonzalo Perera17 Podemos pensar que la cantidad de casos entre los consumidores de agua de aljibe corresponde a una variable X con distribución Bin(n, p), con n=1009, X/1009=0.029, y que la cantidad de casos entre los consumidores de agua comercial es una variable Y con distribución Bin(m,q), con m=6917, Y/6917=0.014, donde p y q corresponden a la probabilidad de que un consumidor de agua de aljibe (o de origen comercial, respectivamente) resulten afectados por Eg. Podemos suponer además que X e Y son independientes entre sí.

P Y E 2012 Clase 17Gonzalo Perera18 Debemos testear:  H 0 : p=q  H 1 : p>q La región crítica para este test es (ver libro) R={ (X/n)- (Y/m)  z  C}, con C= {(1/n)(X/n)(1-X/n)+(1/m)(Y/m)(1-X/m)} (1/2) Llamemos “Estadístico del test” a T= [(X/n)- (Y/m)]/C, respecto al cual la región crítica se reescribe R={ T  z  }. Para nuestros datos:

P Y E 2012 Clase 17Gonzalo Perera19 Tomando por ejemplo  =0.05, resulta z  =1.645, por lo cual: se satisface la región crítica y se rechaza H 0, decidiéndose, con 95% de confiabilidad, que es mayor la incidencia entre los consumidores de agua de aljibe que entre los consumidores de agua comercial ( y que no “mera casualidad” la diferencia observada en nuestra muestra). Una pregunta muy razonable que nos podemos plantear es qué pasa si cambiamos el  que utilizamos. La siguiente tabla muestra la decisión que se toma al variar  para nuestros datos.

P Y E 2012 Clase 17Gonzalo Perera20

P Y E 2012 Clase 17Gonzalo Perera21 Se aprecia que a mayores valores de  se rechaza H 0 y a valores menores de  no se rechaza H 0 (es lógico:cuánto más error se permite al rechazar, más se rechaza) Más aún, la gráfica siguiente muestra que hay un valor de  que hace de “divisoria de aguas”: el valor de  donde z  iguala al valor del estadístico del test es el que separa los  “rechazadores” de los “aceptadores”. La existencia de un tal valor de  no es ninguna casualidad; es el primer ejemplo de lo que se denomina el “p-valor” del test (p-value, en inglés). La clase próxima veremos en detalles este punto;veamos para terminar la clase de hoy la referida gráfica y cuánto vale en éste caso el p-valor.

P Y E 2012 Clase 17Gonzalo Perera22