La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

P Y E 2004 Clase 19Gonzalo Perera1 Propiedades generales del p-valor Repaso de la clase anterior. Tests de aleatoriedad Estadística de datos dependientes.

Presentaciones similares


Presentación del tema: "P Y E 2004 Clase 19Gonzalo Perera1 Propiedades generales del p-valor Repaso de la clase anterior. Tests de aleatoriedad Estadística de datos dependientes."— Transcripción de la presentación:

1 P Y E 2004 Clase 19Gonzalo Perera1 Propiedades generales del p-valor Repaso de la clase anterior. Tests de aleatoriedad Estadística de datos dependientes.

2 P Y E 2004 Clase 19Gonzalo Perera2 Tests de ajuste. Dada una muestra X 1,...,X n iid con distribución F, veremos dos tipos de test de ajuste : generales (aplicables para cualquier distribución “candidata”) y específicos (aplicables cuando la distribución candidata es de cierto tipo específico) A) Test de ajuste generales. Veremos dos tests de ajuste generales : el test de Kolmogorov-Smirnov (K-S, para abreviar) y el Test  2 (Ji-cuadrado o Chi-cuadrado). A1) El test de Kolmogorov-Smirnov. Para nuestra muestra dada, definimos su distribución empírica F n por F n (t)= #{i: 1  i  n: X i  t}/n

3 P Y E 2004 Clase 19Gonzalo Perera3 (Su gráfica es una escalera que salta 1/n en cada uno de los datos obtenidos en la muestra) Por ejemplo, si nuestra muestra es 0.3, 0.6, 0.5, 0.4 la distribución empírica es Sobre esta distribución empírica valen dos teoremas fundamentales de la Estadística que se presentan a continuación. (Referimos al lector al libro por detalles al respecto)

4 P Y E 2004 Clase 19Gonzalo Perera4 Teorema de Glivenko-Cantelli: Si X 1,...,X n iid con distribución F, cuando n tiende a infinito, sup t  R |F n (t) - F(t)| tiende a cero Para el próximo teorema, digamos previamente que llamaremos proceso estocástico de parámetro continuo a una colección de variables aleatorias indexadas por el intervalo [0,1], (X t ) t  [0,1] (X t puede pensarse de la posición una partícula que se mueve al azar en un eje unidimensional durante el intervalo de tiempo [0,1], o dicho de otro modo, como una función definida en [0,1], elegida al azar).

5 P Y E 2004 Clase 19Gonzalo Perera5 Llamamos puente browniano (Brownian bridge) al proceso estocástico de parámetro continuo caracterizado por la siguientes propiedades: a) Para cualquier cantidad finita k de valores t 1 < t 2 <... < t k en [0,1], el vector (X t1,...., X tk ) tiene distribución normal multivariada (ver capítulo 9 del libro). b) Para todo t, E(X t ) = 0. c) Para todo par s<t, E(X s X t ) = s(1-t). d) Al mirar X t como una función de t definida en [0,1], la misma es continua en todo punto con probabilidad uno.

6 P Y E 2004 Clase 19Gonzalo Perera6 La gráfica muestra “cómo luce” una trayectoria de un puente browniano. Puente difícil de cruzar, si los hay!!!

7 P Y E 2004 Clase 19Gonzalo Perera7 Una propiedad muy importante del puente browniano (que como su nombre lo indica, está relacionado con modelos para el movimiento browniano) es que la distribución de su máximo valor absoluto es conocida y le llamamos K a tal distribución (ver libro por la fórmula de K). Ahora sí podemos enunciar el Teorema de Donsker y un importante corolario del mismo.

8 P Y E 2004 Clase 19Gonzalo Perera8 Teorema de Donsker: Si X 1,...,X n iid con distribución F, cuando n tiende a infinito,  n (F n (t)-F(t)) tiende a X F(t), donde (X t ) t  [0,1] es un puente browniano. Observemos ahora que si F es continua, al variar F(t) recorre todos los valores entre 0 y 1 y que por lo tanto, llamando u = F(t) se tiene sup t  R |X F(t) |= sup u  R |Xu|, de donde se deduce que sup t  R | X F(t) | tiene distribución K. Como es posible demostrar como corolario del Teorema de Donsker que, para n grande, sup t  R  n |F n (t)-F(t)| se aproxima a sup t  R | X F(t) |

9 P Y E 2004 Clase 19Gonzalo Perera9 se deduce que: para n grande, la distribución de sup t  R  n |F n (t) - F(t)| se aproxima a K. Observación: Para F no continuas, sup t  R |X F(t) |  sup u  R | X u |, y K es un acotación de la distribución de sup t  R  n |F n (t) - F(t)| para n grande. Para completar la fundamentación teórica de K-S precisamos una última observación: Cuando F es continua, D n = sup t  R |F n (t) - F(t)|

10 P Y E 2004 Clase 19Gonzalo Perera10 Se puede calcular también del modo siguiente: D n =max{F(X 1* ), A n, B n, 1-F(X n* )}, con A n =max 1  i  n-1 |(i/n)-F(X i* )|, B n =max 1  i  n-1 |(i/n)-F(X i+1* )|. Esta manera de calcular D n, además de ser muy simple de calcular en una planilla de datos, permite probar que (usando que F(X 1 ),..., F(X n ) iid con distribución U[0,1]): D n tiene, para toda distribución F, la misma distribución que cuando F=U[0,1]!!

11 P Y E 2004 Clase 19Gonzalo Perera11 OPERATIVA DEL TEST K-S. El test de Kolmogorov-Smirnov permite en principio verificar si la muestra se ajusta a una distribución continua y completamente conocida (es decir, sin parámetros indeterminados) F 0 ( no vale decir para F 0 “ es Cauchy”, sino que hay que especificar valores de los parámetros, por ejemplo F 0 =C(1,3)) Se debe calcular primeramente D n = sup t  R |F n (t) - F 0 (t)|

12 P Y E 2004 Clase 19Gonzalo Perera12 A los efectos prácticos, suele calcularse entonces D n del modo siguiente (basado que en el intervalo [X i *, X i+1 *] la mayor diferencia entre el valor dela empírica en ese intervalo (i/n) y la función creciente F 0 debe hallarse en una de las dos puntas del intervalo

13 P Y E 2004 Clase 19Gonzalo Perera13 D n =max{F(X 1* ), A n, B n, 1-F(X n* )}, con A n =max 1  i  n-1 |(i/n)-F(X i* )|, B n =max 1  i  n-1 |(i/n)-F(X i+1* )|. Esta manera de calcular D n es muy simple de implementar en una planilla de datos. Luego se busca el p-valor en la tabla de K-S. El test de K-S es exacto y consistente frente a cualquier alternativa fija (no depende de la validez de aproximaciones y con muestras suficientemente grandes, sería capaz de rechazar cualquier ajuste en que se le presente una propuesta errónea).

14 P Y E 2004 Clase 19Gonzalo Perera14 En la práctica, como casi nunca se tiene una distribución totalmente conocida como distribución a ajustar, suele procederse de esta manera: Se divide la muestra en dos partes. Una primera parte se usa para estimar cuánto valdrían los parámetros si la distribución fuera de la forma supuesta. La segunda parte se usa para implementar K-S para la distribución propuesta con los valores de los parámetros estimados en el paso anterior. Es muy importante la separación de la muestra para no alterar las propiedades del test. Un excepción es el test de exponencialidad de Lilliefors, versión de K-S donde estima y testea con toda la muestra, pero donde se usa una tabla particular distinta a la de K-S y que puede utilizarse SOLO PARA LA NORMAL Y LA EXPONENCIAL ( SE VERA EN EL PRACTICO)


Descargar ppt "P Y E 2004 Clase 19Gonzalo Perera1 Propiedades generales del p-valor Repaso de la clase anterior. Tests de aleatoriedad Estadística de datos dependientes."

Presentaciones similares


Anuncios Google