La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

P y E 2012 Clase 18Gonzalo Perera1 Repaso de clase anterior Presentación, en un ejemplo, del concepto de p-valor (no llegamos a desarrollarlo completamente,

Presentaciones similares


Presentación del tema: "P y E 2012 Clase 18Gonzalo Perera1 Repaso de clase anterior Presentación, en un ejemplo, del concepto de p-valor (no llegamos a desarrollarlo completamente,"— Transcripción de la presentación:

1 P y E 2012 Clase 18Gonzalo Perera1 Repaso de clase anterior Presentación, en un ejemplo, del concepto de p-valor (no llegamos a desarrollarlo completamente, lo veremos ahora).

2 P y E 2012 Clase 18Gonzalo Perera2 El p-valor: Propiedades fundamentales. En todo test de hipótesis, dado una muestra concreta X 1,...., X n existe un valor particular de , que llamamos p-valor y denotaremos  *, para el cual se cumple que:  Si    *, se rechaza H 0 para nuestra muestra  Si  <  *, no se rechaza H 0 para nuestra muestra Suele decirse (pero puede discutirse, como veremos más adelante) que el p-valor “mide la probabilidad de rechazar erróneamente H 0 ”. Consecuentemente se utiliza el p-valor del modo siguiente :

3 P y E 2012 Clase 18Gonzalo Perera3 Si  0 es el valor de probabilidad de error de tipo I que resulta aceptable para mí (usualmente  0 =5%, 10%, 1%, aunque depende del problema; en este curso frecuentemente emplearemos  0 =10%), entonces:  Si  *  0, se rechaza H 0 para nuestra muestra.  Si  *>  0, no se rechaza H 0 para nuestra muestra. Observación: Tener presente que  *=  *( X 1,...., X n ), si cambian los datos cambia el p-valor.

4 P y E 2012 Clase 18Gonzalo Perera4 Tests de aleatoriedad. Dada una muestra X 1,...., X n con distribución continua, los test de aleatoriedad consideran las alternativas: H 0 : X 1,...., X n es iid H 1 : No H 0. Hay distintas causas por las cuales una muestra puede no ser iid : dependencias y heterogeneidades de diverso tipo, tendencias, periodicidades, break-points, etc. Veremos dos tests para este problema: el Test de Rachas de ascensos y descensos y el Test de correlación de rangos de Spearman.

5 P y E 2012 Clase 18Gonzalo Perera5 Observaciones previas: a)Es sumamente importante utilizar ambos tests conjuntamente y aceptar la hipótesis de iid sólo cuando ambos tests la aprueban. Estos se debe a que cada test es más eficiente que el otro para detectar cierto tipo de no- aleatoriedades (por ejemplo, el test de Spearman detecta mejor la presencia de una tendencia creciente o decreciente, mientras que Rachas detecta mejor periodicidades), por lo que la combinación de ambos resulta un mejor “detector” de no-aleatoriedad. NO SON ADEMAS ESTOS LOS UNICOS TESTS O UNICAS MANERAS DE VERIFICAR SI LOS DATOS SON iid; HAY MUCHAS OTRAS FORMAS DE HACERLO!!

6 P y E 2012 Clase 18Gonzalo Perera6 b) Cuando los datos no son iid veremos con más adelante cómo continuar su análisis. La mayor parte de las técnicas que veremos en este curso son para datos iid, pero veremos también como tratar algunos tipos de datos no iid. Básicamente se trata de datos donde hay dependencias “locales”, donde los datos son dependientes de los datos “vecinos”. Para ayudar a determinar si en un problema concreta estamos o no ante una situación de dependencia tratable en nuestro curso, veremos más adelante un tercer test, que aplicaremos cuando alguno de los precedentes tests de aleatoriedad rechaza H 0. c) Veremos también más adelante que suponer que son iid datos que no lo son puede dar lugar a errores garrafales; por eso es tan importante realizar siempre estos tests.

7 P y E 2012 Clase 18Gonzalo Perera7 Test de Rachas de Ascensos y Descensos (Runs up & down test): Dada una secuencia binaria (de 0´s y 1´s), llamamos una racha a una tira de datos iguales rodeados de datos distintos. Por ejemplo, en la lista 00000011011111101110011111 hay 8 rachas: 000000|11|0|111111|0|111|00|11111 Este test se basa en dos principios muy simples:

8 P y E 2012 Clase 18Gonzalo Perera8 Una secuencia de 0´s y 1´s generada al azar, no debería tener ni muy pocas rachas (pues eso reflejaría una tendencia sistemática) ni demasiadas rachas (pues eso reflejaría una periodicidad). En un muestra iid, el hecho de subir o bajar (que el dato siguiente sea mayor al dato presente) es algo que debería ocurrir “al azar”, con probabilidad ½ (no son independientes dos subidas o bajadas vecinas, pero sí cuando los datos distan al menos dos)

9 P y E 2012 Clase 18Gonzalo Perera9 El procedimiento del test de rachas es muy simple: para cada datos indicaremos con un 1 cuando el dato siguiente es mayor o igual, y con un 0 cuando es menor; es decir, consideramos U i = 1 si X i+1 >X i, 0 si no; luego contamos el número de rachas R en la secuencia resultante de 0´s y 1´s y finalmente vamos a la tabla del test, la que nos indica, según n y R, cuál es el p-valor (en la tabla se presentan separados los valores de R según sean mayores o menores que (2n-1)/3, que es la esperanza de R bajo H 0 ; esto ayuda a visualizar, en el caso que se rechace H 0, si el rechazo se debe a tener demasiadas rachas o muy pocas, con la consecuente interpretación ya indicada).

10 P y E 2012 Clase 18Gonzalo Perera10 Veamos un ejemplo “de juguete”, simplemente para visualizar la operativa. Si los datos son 0.8, 0.3, 0.7, 0.5, 0.1 se tiene entonces que Por lo que se decide que no se rechaza H 0 (La tabla fue copiada como planilla EXCEL, se abre la Planilla haciendo doble click sobre ella)

11 P y E 2012 Clase 18Gonzalo Perera11 Observación: hay distintos tests de rachas, por lo cual la precisión “de ascensos y descensos” es relevante.

12 P y E 2012 Clase 18Gonzalo Perera12 Test de Correlación de Rangos de Spearman: Este test está diseñado para detectar tendencias crecientes o decrecientes superpuestas a una variación meramente aleatoria. Dada una muestra X 1,...., X n el rango de X i (que denotaremos R(X i )) es el lugar que ocupa el dato X i en la muestra al ordenarla de menor a mayor. Por ejemplo, si X 1, X 2, X 3 = 0.55, 0.32, 0.41, entonces R(X 1 )=3.

13 P y E 2012 Clase 18Gonzalo Perera13 Este test se basa en un principio muy simple: si la muestra es iid no debería haber ninguna relación entre i y R(X i ) (por ejemplo, todas las ordenaciones de los n datos tienen probabilidad 1/n!); si hubiera una tendencia a crecer, i y R(X i ) deberían parecerse, y si hay una tendencia a decrecer, entonces n-i y R(X i ) deberían parecerse. Se calcula entonces el coeficiente de correlación de rangos de Spearman: r S = 1-[ 6(  1  i  n (R(X i )-i) 2 )/(n(n 2 -1))] (Ejercicio: si R(X i )=i para todo i, entonces resulta que r S = 1 y, si R(X i )=n-i para todo i, r S = -1; puede probarse - pero no es tan fácil - que bajo H 0, la esperanza de r S es 0)

14 P y E 2012 Clase 18Gonzalo Perera14 Finalmente se busca el valor absoluto de r S en la tabla, la que nos da el p-valor; en la caso de rechazar H 0, el signo de r S indica si hay tendencia creciente (+) o decreciente (-). Realizamos este test en el mismo ejemplo “de juguete” anterior para visualizar la operativa. Se concluye que no se rechaza H 0, y al no haberlo hecho ninguno de los dos test de aleatoriedad, no rechazamos que los datos sean iid.

15 P y E 2012 Clase 18Gonzalo Perera15 Veamos ahora un ejemplo real de aplicación de ambos tests de aleatoriedad, en el contexto de un problema de Ingeniería Ambiental. Los siguientes datos, muy similares a los que aparecen en los trabajos grupales de este curso, corresponden a los valores, en 80 puntos geográficos distintos, del máximo estival de un contaminante atmosférico (máximo valor en cada punto a lo largo de todo un verano; el contaminante se mide diariamente, por lo cual cada uno de nuestros 80 datos es el máximo de unas 100 lecturas diarias). El objetivo del estudio es conocer la distribución de éstos datos y en particular estimar la probabilidad de que el máximo estival supere el valor 50. Veamos los datos que tenemos.

16 P y E 2012 Clase 18Gonzalo Perera16

17 P y E 2012 Clase 18Gonzalo Perera17 Procedamos ahora a hacer el test de Rachas.

18 P y E 2012 Clase 18Gonzalo Perera18 El test de rachas no rechaza el que los datos sean iid. Veamos ahora Spearman:

19 P y E 2012 Clase 18Gonzalo Perera19 Tampoco se rechaza que los datos sean iid.

20 P y E 2012 Clase 18Gonzalo Perera20 Algunas consideraciones sobre datos dependientes. Dada una muestra X 1,...,X n,..., diremos que es un proceso estacionario si para todo k natural y para todo t 1 <... < t k y para todo h natural se tiene que la distribución de (X t 1,..., X t k ) y la de (X t 1 +h,..., X t k +h ) coinciden (Las distribuciones conjuntas -es decir las marginales y su inter- dependencia- son invariantes en el tiempo, es un proceso “en régimen”) Si las variables son iid, entonces se tiene un proceso estacionario, pero el recíproco no es cierto, hay procesos estacionarios con todo tipo de dependencias. Un proceso estacionario se dice m-dependiente si las variables cuyos índices distan más de m son independientes.

21 P y E 2012 Clase 18Gonzalo Perera21 El siguiente ejemplo muestra muy claramente qué tan grave puede ser creer que las variables son iid cuando en realidad son m-dependientes. El ejemplo muestra la reiteración de un control de calidad, realizado mediante un IdeC al nivel 95% para la media de 100 datos diarios, a lo largo de varios días. La verdadera media se sabe que es el valor de diseño 0.5 (en éste caso se trabajó sobre un patrón de referencia de media conocida), por lo que en éstos datos cada vez que el IdC deje afuera al valor 0.5 se tiene una “falsa alarma”, una detención innecesaria del proceso. Como el IdC es al 95%, debería haber, si el método empleado fuera correcto, un 5% de falsas alarmas. Podemos suponer en este caso que los datos tienen varianza finita, por lo que podemos usar métodos basados en el TCL. Veamos qué ocurre al utilizar el IdC para la media de datos iid.

22 P y E 2012 Clase 18Gonzalo Perera22 El resultado es catastrófico: se tienen 7 falsas alarmas en 25 días (28% de falsas alarmas!!)

23 P y E 2012 Clase 18Gonzalo Perera23 Veamos que ocurre al aplicar un IdC para datos m-dependientes que aprenderemos en un instante

24 P y E 2012 Clase 18Gonzalo Perera24 Sólo una falsa alarma en 25 días (4% de falsas alarmas!!!)

25 P y E 2012 Clase 18Gonzalo Perera25 Es interesante observar que en este caso los datos eran apenas 1-dependientes: bastó que hubiera dependencia con el vecino inmediato para que el método basado en la suposición de que los datos son iid funcionara estrepitosamente mal. Si uno sabe que los datos son estacionarios, m-dependientes, con varianza finita y se conoce el valor de m, entonces el IdeC para la media  es [M n – (n) -1/2  n z  /2, M n + (n) -1/2  n z  /2 ], donde  n 2 =  n 2 + 2  1  k  m r n (k), con r n (k) = (1/(n-k))  1  i  n-k (X i - A(1,n-k)) (X i+k - A(k+1,n)) y donde A(a,b) denota el promedio de todos los datos entre a y b, es decir A(a,b)= (1/(b-a+1))  a  i  b X i

26 P y E 2012 Clase 18Gonzalo Perera26 Remitimos a las páginas 212 - 217 para la fundamentación de este método (basado en el hecho de que para procesos estacionarios y m-dependientes vale el TCL; pero con una varianza asintótica distinta al caso iid) La pregunta clave que hay que formularse previamente a aplicar este método es cómo determinar si los datos son m-dependientes y cuánto vale m. En las páginas referidas se encuentra una explicación de un tal método, basado en la observación que si los datos son m-dependientes entonces son iid las m+1 submuestras que se obtienen al separar los datos en: datos en lugares múltiplos de m, datos en lugares múltiplo de m+1,..... Veremos aquí un método para obtener un “candidato” a m que permite aligerar sensiblemente los cálculos, sobre todo si m no es muy pequeño (Este test es en definitiva un test sobre a qué distancia los datos dejan de correlacionarse; como tal es un test de correlación y no de independencia, por lo que caben las precisiones que ya hemos repetido varias veces al respecto).

27 P y E 2012 Clase 18Gonzalo Perera27 Según este método, el m “candidato” es el menor valor entero tal que |  n (k)|  z  /2 W n (k) /  n, para todo k  m, donde  n (k) = r n (k) /  n 2 y W n (k) =  -l(n)  i  l(n) V n (i,k), Con V n (i,k) =  n (i+k) 2 -  n (i-k)  n (i+k) + 2  n (k) 2  n (i) 2 - 4  n (k)  n (i)  n (i+k), l(n) = n (1/4), y definiendo, para j negativo,  n (j) =  n (-j)

28 P y E 2012 Clase 18Gonzalo Perera28 Observación: Obviamente, es imposible verificar la desigualdad antes estipulada para todo k mayor o igual a m, por lo que en la práctica verificamos que la desigualdad se verifique para k y algunos valores siguientes. Los cálculos de este método pueden parecer difíciles, pero son muy rápidos y fáciles de implementar en una planilla EXCEL, por ejemplo.


Descargar ppt "P y E 2012 Clase 18Gonzalo Perera1 Repaso de clase anterior Presentación, en un ejemplo, del concepto de p-valor (no llegamos a desarrollarlo completamente,"

Presentaciones similares


Anuncios Google