Descargar la presentación
La descarga está en progreso. Por favor, espere
1
“Bootstrap” Jaime Mojica Cuevas
TALLER REGIONAL SOBRE EL DISEÑO ESTADÍSTICO DE ENCUESTAS DE HOGARES PARA EL ESTUDIO DEL MERCADO LABORAL “Bootstrap” Jaime Mojica Cuevas Agosto Panamá
2
INTRODUCCIÓN Efron (1979) dio a conocer una técnica para estimar la distribución acumulada de probabilidad, F, de una variable aleatoria. Al presentar el Bootstrap, como llamó al método, resalto su relación con el Jackknife, además lo considero como más general. Demostró que el Jackknife es una aproximación lineal del Bootstrap. Posteriormente, autores como Rao y Wu (1988) y Kovar, Rao y Wu (1988) incursionan en la aplicación del Bootstrap en problemas de muestreo, para obtener estimadores de varianza e intervalos de confianza.
3
Según lo descrito por Efron (1982) esta técnica consiste de lo siguiente. Supóngase que se parte de una muestra de tamaño n, y se supone que las son observaciones independientes e idénticamente distribuidas. Se trata de estimar, un parámetro de una distribución de probabilidad desconocida, F, mediante un estimador en donde es la función de distribución empírica obtenida asignando la frecuencia a cada observación; para ello se toma una muestra , de tamaño m =n -1 con reposición a partir de la muestra inicial y se obtiene así la función de distribución empírica , y partir de esta distribución, obtener el estimador
4
7.1 APLICACIÓN AL MUESTREO ALEATORIO SIMPLE
Este procedimiento se repite independientemente, un gran número de veces, por ejemplo. B veces, y así obtenemos estimadores. Esta técnica se emplea para derivar intervalos de confianza para estimadores que no son de fórmula, como los cuantiles, la mediana y algunos otros estimadores. A continuación se describen los pasos generales para estimar los errores estándar de un estimador 7.1 APLICACIÓN AL MUESTREO ALEATORIO SIMPLE En el caso de un muestreo aleatorio simple de una población finita el bootstrap se lleva a vcabo mediante los pasos siguientes:
5
A partir de una muestra ya observada, se selecciona una muestra aleatoria simple con reemplazo, se calcula el estimador Se repite el paso anterior una gran cantidad de veces, B y cada estimación de θ se denomina Se obtiene entonces la media de estas estimaciones: El estimador de la varianza esta dado por: (7.1.1)
6
7.2 APLICACIÓN AL MUESTREO ESTRATIFICADO
En muestreo estratificado se requiere muestras independientes en cada estrato, por cada iteración que se realiza (b=1,…,B). Es decir, se obtiene una muestra aleatoria con reemplazo en cada estrato, de tamaño entre las unidades que están contenidas en la muestra total. El algoritmo para estimar las varianzas se presenta a continuación. Seleccione una muestra aleatoria simple en cada estrato, de tamaño
7
Ajuste el factor Sea el factor muestral de la i-éima UPM, del h-ésimo estrato en la muestra original. Como cada réplica es el resultado de un muestreo aleatorio simple con reemplazo de tamaño , los factores deben ser ajustados. Mediante la siguiente expresión: Donde:
8
= es el número de veces que la i-ésima UPM fue seleccionada.
= es el tamaño de muestra de la réplica en el h- ésimo estrato, = es el tamaño de muestra en el h-ésimo estrato. = es el factor de expansión original en la i-ésima UPM, del h-ésimo estrato. Haciendo, , el peso Bootstrap es igual a:
9
(7.2.1) (7.2.2) (7.2.3) Evaluar cada réplica para obtener:
(7.2.1) Obtener el promedio de las B por: (7.2.2) Estimador de la varianza está dada por: (7.2.3)
10
Distribución de los resultados a nivel vivienda, UPM y Estrato
Ejemplo 7.1. Para ilustrar el funcionamiento de este método, se empleo la información del cuadro 7.1 El ejercicio es para B = 100 réplicas y el procedimiento que se empleo se describe a continuación: Distribución de los resultados a nivel vivienda, UPM y Estrato Cuadro 7.1 Est. UPM Viv. PEA PO PDA NPEA P12 PM12 PT 1 8 3 4 2 6 Total 231 81 76 5 55 136 34 170
11
La primer réplica se obtuvo seleccionando una muestra aleatoria con reemplazo de tamaño nh -1 al interior de cada estrato quedando réplicas de tamaño 12. Se ajustó el factor. El ajuste de los factores de expansión para la réplica 1 se hizo para las UPM que fueron seleccionadas, como aparecen en el cuadro 7.2, el procedimiento es el siguiente: Estrato 1 ...
12
Estrato 2 Estrato 3 Se obtuvieron las estimaciones del total por variable, sumando los totales de cada conglomerado último que cayeron en la primer réplica. La estimación del total para PEA y PDA a partir de la réplica 1 es:
13
La TDA de la réplica 1 se obtuvo como
Las otras variables se obtienen de manera similar para la réplica 1, los resultados de las restantes 99 réplicas aparecen en el cuadro 7.2. Se regresa cada UPM seleccionada a su muestra original antes de seleccionar la siguiente.
14
Se aplican los cuatro pasos anteriores en forma sucesiva hasta tener las 100 réplicas.
En este paso se suman todos los resultados obtenidos de cada replica, para luego dividir ese total resultante entre el número de réplicas y así obtener un promedio de todas ellas. La varianza se obtiene restando el promedio al total estimado de cada réplica, la diferencia que resulte se eleva al cuadrado y de esta manera vamos a tener 100 diferencias de cuadrados, los cuales se suman y se dividen entre 99 (B-1). Las fórmulas que se emplearan para este ejercicio son: (7.1.) (7.2.) y (7.3.). En en el cuadro se presentan los resultados de cada una de las 100 réplicas.
15
Cuando ya se tienen todas las 100 réplicas se calcula el promedio por:
, continuando con el ejemplo podemos ahora calcular
16
Su varianza se obtiene por:
La varianza para la PT es:
17
La varianza para la TDA es:
En el cuadro 7.2 se presenta un resumen de varias corridas de s, además de las precisiones de cada variable de interés. Valores generados de cada una de las 100 s replicas, por variable de interés y TDA.
18
Cuadro 7.2 Réplica UPM en cada réplica PEA PO PDA PEI P12 PM12 PT TDA
4,1,4,7,3,2,7,11,11,11,14,14. 478.3 442.7 35.4 450.6 929.2 203.4 1132.6 0.0740 2 3,4,8,5,4,2,8,11,10,9,15,14 383.4 369.7 13.7 299.4 683.0 206.6 889.7 0.0357 3 3,6,2,8,1,4,3,9,11,9,13,14. 434.3 414.3 20.0 266.9 701.4 178.3 879.7 0.0461 4 4,2,1,5,3,1,7,9,12,12,13,14. 461.4 427.9 23.4 244.1 695.8 184.0 0.0518 5 8,8,3,5,8,5,6,10,11,12,15,14 474.9 455.5 19.4 333.8 808.7 192.9 101.6 0.0409 6 3,1,8,5,6,2,4,10,12,11,13,15 459.4 433.7 25.7 281.4 741.0 222.6 963.6 0.0559 7 7,2,4,2,1,6,8,9,11,10,15,15. 438.9 425.1 328.6 767.7 186.8 954.6 0.0312 8 5,6,4,3,2,2,8,12,12,12,15,15 404.0 398.3 5.7 278.4 682.5 215.4 898.1 0.0141 9 2,6,8,5,1,7,8,9,11,9,14,15 475.5 456.0 349.7 825.3 133.4 958.7 0.0408 10 1,7,1,8,8,5,4,10,10,10,15,13 464.0 440.5 233.4 697.7 200.9 898.4 0.0504 Totales 45,517 43,268 2,242 28,463 74,000 19,733 93,731 4.83 Estimaciones 455 433 22 285 740 197 937 0.05
19
Cuadro 7.3 Estimaciones por variable y sus respectivas precisiones, por intento de las Bs. Variable Bs 100 500 1,000 5,000 10,000 PEA Estimación 455.17 468.53 465.98 468.48 468.23 D.E. 42.58 45.16 43.95 44.38 44.93 C.V 0.09 0.10 PO 432.68 444.48 442.74 444.11 444.35 36.88 38.99 38.61 38.40 39.00 PDA 22.42 23.97 23.16 24.28 23.79 11.76 12.18 11.33 11.88 11.95 C.V. 0.52 0.51 0.49 0.50 PEI 284.63 298.64 299.21 301.79 300.18 47.52 55.74 54.34 55.79 56.19 0.17 0.19 0.18 P12 740.00 767.36 765.38 770.45 768.58 76.44 87.25 82.25 85.74 86.82 0.11 PM12 197.33 194.42 195.58 195.69 194.87 39.32 38.72 36.47 37.85 37.67 0.20 PT 937.31 961.77 960.96 966.14 963.46 81.71 89.41 82.63 87.91 87.68 PTA 0.05 0.02 0.48 0.46 0.45
20
ESTIMACIÓN DE LA VARIANZA DE MEDIANAS, MEDIANTE BOOTSTRAP
El método usa la estimación de la función de distribución acumulada. Sea una muestra ordenada ( el más pequeño, el segundo más pequeño,…, el más grande). Se pueden seguir los siguientes pasos: Estimar la función de distribución acumulada, Donde:
21
Esta es la función de distribución empírica, la cuál es una estimación insesgada de la función de distribución acumulada. Calcular , el cuantil correspondiente a Para estimar , encontrar j( tal que, Una vez encontrado , calcular la interpolación de los pesos entre y con,
22
Para ejemplificar el procedimiento anterior se hará uso del método de Bootstrap, para generar 100 replicas. Cada replica se construirá seleccionando UPM al interior de cada estrato. El factor de expansión se ajusta por en cada estrato. Como en el estrato 1 se seleccionan 7 UPM, en el estrato 2 se seleccionan 3 y en el estrato 3 son seleccionadas 2 UPM, entonces las replicas son de tamaño 12. La variable de interés será la población total. La muestra original se presenta en la siguiente tabla.
23
UPM Estrato Factor Población Total 1 9.1 8 2 5.7 12 3 15 4 11 5 19 6 7 22 9 8.0 10 12.0 16 13 6.0 14 9.0
24
La primer réplica fue la siguiente.
De esta se selecciona una réplica de tamaño 12 mediante un muestreo aleatorio con reemplazo, al interior de los estratos. La primer réplica fue la siguiente. UPM Población Total Factor 7 22 5.7 8 9.1 4 11 3 15 2 12 16 8.0 9 14 6.0 9.0
25
La cuál fue ordenada de acuerdo a la variable PT
La cuál fue ordenada de acuerdo a la variable PT. En la siguiente tabla se muestra la información ordenada, así como el valor acumulado de los factores de expansión y por último la proporción de cada factor acumulado con respecto a la suma total de los factores. j UPM Población Total Factor Factor acumulado 1 9 4 8.0 0.09 2 8 7 9.1 17.1 0.20 3 26.2 0.31 15 9.0 35.2 0.41 5 11 5.7 40.9 0.48 6 12 46.6 0.54 14 6.0 52.6 0.61 58.3 0.68 64.0 0.75 10 16 72.0 0.84 80.0 0.93 22 85.7 1.00
26
Se busca el valor de PT tal que,
Dicho valor es el correspondiente a la UPM 4 y 2 ( j=5 ), por lo que, La mediana la calculamos por medio de la interpolación de y dada por la siguiente expresión, De aquí que, la mediana de la réplica 1 es,
27
De esta manera se calcula una mediana para cada réplica generada por el método de Bootstrap. En seguida se presenta un resumen de las medianas obtenidas para un conjunto de 100 réplicas.
28
La estimación de la mediana se calcula mediante el promedio de las medianas de cada réplica. La estimación de la mediana es: La estimación de la varianza de la mediana es:
29
COMPARACIÓN DE LOS MÉTODOS PARA LA ESTIMACIÓN DE LA VARIANZA POR VARIABLE Y PRESICIÓN
VARIANZA EXACTA DOS ETAPAS SERIES DE TAYLOR Y/O C. ÚLTIMO GRUPOS ALEATORIOS SEMIMUESTRAS EQUILIBRADAS JACKKNIFE BOOTSTRAP PEA 468.00 468.48 E.E. 54.61 44.38 65.81 54.57 46.64 C.V. 0.12 0.10 0.14 0.09 DEFF 1.326 1.233 2.700 1.800 1.232 1.360 PO 444.00 444.11 49.05 38.57 61.63 48.23 41.15 0.11 0.13 1.073 0.979 2.500 1.460 0.978 1.114 PDA 24.00 24.28 15.15 11.95 6.59 12.25 11.88 0.63 0.50 0.27 0.51 0.49 1.221 1.120 0.350 1.200 1.121 1.115 NPEA 301.00 301.79 66.39 55.84 32.87 58.11 59.53 0.22 0.18 1.66 0.59 1.55 1.662 1.88 P12 769.00 102.03 85.79 96.13 101.80 92.00 1.707 1.615 2.070 2.261 1.858 PM12 195.00 195.69 49.83 37.37 30.45 44.37 37.36 37.51 0.26 0.19 0.15 1.16 0.934 0.630 1.090 0.796 PT 964.00 108.91 86.66 106.13 110.69 90.09 0.08 1.160 1.770 1.873 1.159 1.253 TDA 0.05 0.02 0.01 0.45 0.29 0.97 0.37 1.119 1.01
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.