“Bootstrap” Jaime Mojica Cuevas

Slides:



Advertisements
Presentaciones similares
Bloque IX - Estadística. Población vs muestra Medidas de dispersión Medidas de tendencia central.
Advertisements

TEMA 2: PARÁMETROS ESTADÍSTICOS. ÍNDICE 1. Parámetros estadísticos. 2.Interpretación de la media y desviación típica. 3. Coeficiente de variación.
TEMA 3: ESTADÍSTICA BIDIMENSIONAL. ÍNDICE: 1.- Relación estadística: correlación. 2.- Diagramas de dispersión o nube de puntos. 3.- Tablas de frecuencia.
ESTADÍSTICA II Ing. Danmelys Perozo MSc. Blog:
PPTCEG049EM32-A16V1 Distribución normal EM-32. Recordemos… -¿Cómo se calcula el valor esperado para una determinada variable aleatoria? -¿Cómo es posible.
Bioestadística Muestreo. Objetivos de la estadística. n Describir cuantitativamente una serie de personas, lugares o cosas (estadística descriptiva ).
PPTCES047MT22-A16V1 Clase Medidas de dispersión y muestreo MT-22.
Bioestadística Distribuciones muestrales para variables cuantitativas.
DETERMINACION E INTERPRETACION DE LAS MEDIDAS DE TENDENCIA CENTRAL POBLACIONAL Y MUESTRAL. POR: JUDITH MARITZA JUAN CARLOS ANA MARTIN AXEL GILBERTO FÁTIMA.
REGRESIÓN Y CORRELACIÓN  REGRESIÓN Es un Proceso estadístico que consiste en predecir una variable a partir de otra utilizando datos anteriores. INGA.
ESTADÍSTICA Mercedes de la Oliva ESTADÍSTICA INFERENCIAL Teorema Central del límite Distribución de media y proporción muestral.
HERRAMIENTAS ESTADÍSTICAS PARA LA TOMA DE DECISIONES
ENCUESTA NACIONAL DE OCUPACIÓN Y EMPLEO (ENOE).
ÉSTADÍSTICAS DESCRIPTIVAS ORGANIZACIÓN DE DATOS
Capitulo 3 Análisis descriptivo inferencial: comparaciones de muestras
 Los datos que a continuación se presentan corresponden al número de llamadas telefónicas que un grupo de personas realiza durante el día. 0, 1, 2, 4,
ESTADÍSTICAS INFERENCIALES
ESTADISTICA APLICADA I UNIDAD: INFERENCIA ESTADISTICA
Instituto Nacional de Estadística y Geografía
Curso de Elaboración de Pruebas Prof. Gerardo A. Valderrama M
Análisis de Mercados Internacionales
Intervalos de Confianza
TALLER REGIONAL SOBRE EL DISEÑO ESTADÍSTICO DE ENCUESTAS DE HOGARES PARA EL ESTUDIO DEL MERCADO LABORAL “Jackknife” Jaime Mojica Cuevas Agosto Panamá.
Continuación DE MCO.
Muestreo.
UNIDAD 4: ESTADÍSTICA Y PROBABILIDAD
INFERENCIA ESTADÍSTICA
ESTADÍSTICA II Ing. Danmelys Perozo MSc.
INFERENCIA ESTADÍSTICA PARA DOS POBLACIONES
Econometría Sesión 5 7 de Junio 2010
Econometría Sesión 6 9 de Junio 2010
ESTADÍSTICA DESCRIPTIVA: OBTENCIÓN Y ORGANIZACIÓN DE LOS DATOS
TEMA 6 Introducción a la Estadística
“Estimación de la varianza basada en semimuestras equilibradas”
CHI CUADRADO  2 OBJETIVOS –Describir situaciones donde es adecuado la utilización de la prueba de Chi Cuadrado (  2 ) –Formular Hipótesis para diferentes.
¿Cuándo usar esta distribución?
“MÉTODOS PARA LA ESTIMACIÓN DE LA VARIANZA”
TEMA II. ESTUDIO DE MERCADO 2.2 El muestreo estadístico en la investigación de mercados. Métodos de pronósticos de corto plazo.
estadistica
Estadística Básica Curso de Estadística Básica MCC. Manuel Uribe Saldaña MCC. José Gonzalo Lugo Pérez SESION 3 MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE.
Estimación de parámetros: Estimación puntual y por intervalos
MUESTREO ESTRATIFICADO
Estadística Conceptos Básicos L.A. y M.C.E. Emma Linda Diez Knoth.
DISTRIBUCIÓN MUESTRAL DE UNA MEDIA.
ESTADÍSTICA INFERENCIAL
Principios de Estadística
Kriging Consideremos información de determinada propiedad en el yacimiento y puntos en los cuales se tiene la estimación dea partir de los puntos.
ANÁLISIS ESTADÍSTICO PROFESOR: PIA VEGA CODOCEO. MEDIA ARITMÉTICA Es la suma de los valores de una variable dividida por, él numero de ellos. La media.
Tamaño de muestra Ecología Marina. Una población se define como un conjunto de individuos de una especie que habita un área determinada. Los métodos disponibles.
ESTIMACIÓN (Inferencia Estadística) Intervalos de Confianza
MUESTREO ALEATORIO ESTRATIFICADO - MAE Especialista Ramiro Duran.
Ensayo de Rendimiento DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES.
AJUSTE DE CURVAS TEMA #10. AJUSTE DE CURVAS Si se necesita la versión simplificada de una función complicada. Una manera de hacerlo es calcular valores.
ANALISIS DE VARIANZA
Medidas de Tendencia Central
PANORAMA GENERAL DE LAS TÉCNICAS DE MUESTREO
INTRODUCCION A LA ESTADÍSTICA INFERENCIAL
Metodología de la Investigación
ICPM050 – ECONOMETRÍA tema 03: ESTIMACIÓN MODELO LINEAL SIMPLE
CONCEPTO DE ESTIMADOR ES UNA REGLA O MÉTODO QUE DICE COMO CALCULAR LA ESTIMACIÓN DE UN PARÁMETRO BASÁNDOSE EN LA INFORMACIÓN DE UNA MUESTRA, GENERALMENTE.
URBINA GUADARRAMA GILBERTO MORENO CONTRERAS TANGANXOAN ZUANGUA
MEDIDAS DE DISPERSIÓN “Medidas de dispersión”. Miden qué tanto se dispersan las observaciones alrededor de su media. MEDIDAS DE DISPERSIÓN.
Tamaño de muestra.
01/08/ Escuela Nacional de Estadística e Informátia Muestreo I Muestreo Aleatorio Estratificado Prof. Willer David Chanduvi Puicón.
Proceso de la investigación de mercado
PANORAMA GENERAL DE LAS TÉCNICAS DE MUESTREO
ESTADÍSTICA APLICADA  ZEUS DE JESÚS RODRÍGUEZ BUDA  GABRIELA MÁRQUEZ TORRES  MARÍA ENRIQUETA GIL CÓRDOVA  ELIÁN ANTONIO GONZALEZ GARCÍA  CRISTELL.
REGRESION LINEAL SIMPLE
Transcripción de la presentación:

“Bootstrap” Jaime Mojica Cuevas TALLER REGIONAL SOBRE EL DISEÑO ESTADÍSTICO DE ENCUESTAS DE HOGARES PARA EL ESTUDIO DEL MERCADO LABORAL “Bootstrap” Jaime Mojica Cuevas Agosto 2010. Panamá

INTRODUCCIÓN Efron (1979) dio a conocer una técnica para estimar la distribución acumulada de probabilidad, F, de una variable aleatoria. Al presentar el Bootstrap, como llamó al método, resalto su relación con el Jackknife, además lo considero como más general. Demostró que el Jackknife es una aproximación lineal del Bootstrap.   Posteriormente, autores como Rao y Wu (1988) y Kovar, Rao y Wu (1988) incursionan en la aplicación del Bootstrap en problemas de muestreo, para obtener estimadores de varianza e intervalos de confianza.

Según lo descrito por Efron (1982) esta técnica consiste de lo siguiente. Supóngase que se parte de una muestra de tamaño n, y se supone que las son observaciones independientes e idénticamente distribuidas. Se trata de estimar, un parámetro de una distribución de probabilidad desconocida, F, mediante un estimador en donde es la función de distribución empírica obtenida asignando la frecuencia a cada observación; para ello se toma una muestra , de tamaño m =n -1 con reposición a partir de la muestra inicial y se obtiene así la función de distribución empírica , y partir de esta distribución, obtener el estimador .

7.1 APLICACIÓN AL MUESTREO ALEATORIO SIMPLE Este procedimiento se repite independientemente, un gran número de veces, por ejemplo. B veces, y así obtenemos estimadores. Esta técnica se emplea para derivar intervalos de confianza para estimadores que no son de fórmula, como los cuantiles, la mediana y algunos otros estimadores. A continuación se describen los pasos generales para estimar los errores estándar de un estimador   7.1 APLICACIÓN AL MUESTREO ALEATORIO SIMPLE En el caso de un muestreo aleatorio simple de una población finita el bootstrap se lleva a vcabo mediante los pasos siguientes:

A partir de una muestra ya observada, se selecciona una muestra aleatoria simple con reemplazo, se calcula el estimador . Se repite el paso anterior una gran cantidad de veces, B y cada estimación de θ se denomina . Se obtiene entonces la media de estas estimaciones: El estimador de la varianza esta dado por: (7.1.1)

7.2 APLICACIÓN AL MUESTREO ESTRATIFICADO En muestreo estratificado se requiere muestras independientes en cada estrato, por cada iteración que se realiza (b=1,…,B). Es decir, se obtiene una muestra aleatoria con reemplazo en cada estrato, de tamaño entre las unidades que están contenidas en la muestra total.   El algoritmo para estimar las varianzas se presenta a continuación. Seleccione una muestra aleatoria simple en cada estrato, de tamaño .

Ajuste el factor   Sea el factor muestral de la i-éima UPM, del h-ésimo estrato en la muestra original. Como cada réplica es el resultado de un muestreo aleatorio simple con reemplazo de tamaño , los factores deben ser ajustados. Mediante la siguiente expresión: Donde:

= es el número de veces que la i-ésima UPM fue seleccionada. = es el tamaño de muestra de la réplica en el h- ésimo estrato, = es el tamaño de muestra en el h-ésimo estrato. = es el factor de expansión original en la i-ésima UPM, del h-ésimo estrato. Haciendo, , el peso Bootstrap es igual a:

(7.2.1) (7.2.2) (7.2.3) Evaluar cada réplica para obtener:   (7.2.1) Obtener el promedio de las B por:   (7.2.2) Estimador de la varianza está dada por: (7.2.3)

Distribución de los resultados a nivel vivienda, UPM y Estrato Ejemplo 7.1.   Para ilustrar el funcionamiento de este método, se empleo la información del cuadro 7.1 El ejercicio es para B = 100 réplicas y el procedimiento que se empleo se describe a continuación: Distribución de los resultados a nivel vivienda, UPM y Estrato Cuadro 7.1 Est. UPM Viv. PEA PO PDA NPEA P12 PM12 PT 1 8 3 4 2 6 Total 231 81 76 5 55 136 34 170

La primer réplica se obtuvo seleccionando una muestra aleatoria con reemplazo de tamaño nh -1 al interior de cada estrato quedando réplicas de tamaño 12. Se ajustó el factor. El ajuste de los factores de expansión para la réplica 1 se hizo para las UPM que fueron seleccionadas, como aparecen en el cuadro 7.2, el procedimiento es el siguiente: Estrato 1 ...

Estrato 2 Estrato 3 Se obtuvieron las estimaciones del total por variable, sumando los totales de cada conglomerado último que cayeron en la primer réplica. La estimación del total para PEA y PDA a partir de la réplica 1 es:

La TDA de la réplica 1 se obtuvo como   Las otras variables se obtienen de manera similar para la réplica 1, los resultados de las restantes 99 réplicas aparecen en el cuadro 7.2. Se regresa cada UPM seleccionada a su muestra original antes de seleccionar la siguiente.

Se aplican los cuatro pasos anteriores en forma sucesiva hasta tener las 100 réplicas. En este paso se suman todos los resultados obtenidos de cada replica, para luego dividir ese total resultante entre el número de réplicas y así obtener un promedio de todas ellas. La varianza se obtiene restando el promedio al total estimado de cada réplica, la diferencia que resulte se eleva al cuadrado y de esta manera vamos a tener 100 diferencias de cuadrados, los cuales se suman y se dividen entre 99 (B-1). Las fórmulas que se emplearan para este ejercicio son: (7.1.) (7.2.) y (7.3.). En en el cuadro 7.1. se presentan los resultados de cada una de las 100 réplicas.

Cuando ya se tienen todas las 100 réplicas se calcula el promedio por: , continuando con el ejemplo podemos ahora calcular

Su varianza se obtiene por: La varianza para la PT es:

La varianza para la TDA es: En el cuadro 7.2 se presenta un resumen de varias corridas de s, además de las precisiones de cada variable de interés. Valores generados de cada una de las 100 s replicas, por variable de interés y TDA.

Cuadro 7.2 Réplica UPM en cada réplica PEA PO PDA PEI P12 PM12 PT TDA 4,1,4,7,3,2,7,11,11,11,14,14. 478.3 442.7 35.4 450.6 929.2 203.4 1132.6 0.0740 2 3,4,8,5,4,2,8,11,10,9,15,14 383.4 369.7 13.7 299.4 683.0 206.6 889.7 0.0357 3 3,6,2,8,1,4,3,9,11,9,13,14. 434.3 414.3 20.0 266.9 701.4 178.3 879.7 0.0461 4 4,2,1,5,3,1,7,9,12,12,13,14. 461.4 427.9 23.4 244.1 695.8 184.0 0.0518 5 8,8,3,5,8,5,6,10,11,12,15,14 474.9 455.5 19.4 333.8 808.7 192.9 101.6 0.0409 6 3,1,8,5,6,2,4,10,12,11,13,15 459.4 433.7 25.7 281.4 741.0 222.6 963.6 0.0559 7 7,2,4,2,1,6,8,9,11,10,15,15. 438.9 425.1 328.6 767.7 186.8 954.6 0.0312 8 5,6,4,3,2,2,8,12,12,12,15,15 404.0 398.3 5.7 278.4 682.5 215.4 898.1 0.0141 9 2,6,8,5,1,7,8,9,11,9,14,15 475.5 456.0 349.7 825.3 133.4 958.7 0.0408 10 1,7,1,8,8,5,4,10,10,10,15,13 464.0 440.5 233.4 697.7 200.9 898.4 0.0504 Totales 45,517 43,268 2,242 28,463 74,000 19,733 93,731 4.83 Estimaciones 455 433 22 285 740 197 937 0.05

Cuadro 7.3 Estimaciones por variable y sus respectivas precisiones, por intento de las Bs. Variable Bs 100 500 1,000 5,000 10,000 PEA Estimación 455.17 468.53 465.98 468.48 468.23 D.E. 42.58 45.16 43.95 44.38 44.93 C.V 0.09 0.10 PO 432.68 444.48 442.74 444.11 444.35 36.88 38.99 38.61 38.40 39.00 PDA 22.42 23.97 23.16 24.28 23.79 11.76 12.18 11.33 11.88 11.95 C.V. 0.52 0.51 0.49 0.50 PEI 284.63 298.64 299.21 301.79 300.18 47.52 55.74 54.34 55.79 56.19 0.17 0.19 0.18 P12 740.00 767.36 765.38 770.45 768.58 76.44 87.25 82.25 85.74 86.82 0.11 PM12 197.33 194.42 195.58 195.69 194.87 39.32 38.72 36.47 37.85 37.67 0.20 PT 937.31 961.77 960.96 966.14 963.46 81.71 89.41 82.63 87.91 87.68 PTA 0.05 0.02 0.48 0.46 0.45

ESTIMACIÓN DE LA VARIANZA DE MEDIANAS, MEDIANTE BOOTSTRAP El método usa la estimación de la función de distribución acumulada. Sea una muestra ordenada ( el más pequeño, el segundo más pequeño,…, el más grande). Se pueden seguir los siguientes pasos:     Estimar la función de distribución acumulada, Donde:

Esta es la función de distribución empírica, la cuál es una estimación insesgada de la función de distribución acumulada. Calcular , el cuantil correspondiente a . Para estimar , encontrar j( tal que, Una vez encontrado , calcular la interpolación de los pesos entre y con,

Para ejemplificar el procedimiento anterior se hará uso del método de Bootstrap, para generar 100 replicas. Cada replica se construirá seleccionando UPM al interior de cada estrato. El factor de expansión se ajusta por en cada estrato. Como en el estrato 1 se seleccionan 7 UPM, en el estrato 2 se seleccionan 3 y en el estrato 3 son seleccionadas 2 UPM, entonces las replicas son de tamaño 12. La variable de interés será la población total. La muestra original se presenta en la siguiente tabla.

UPM Estrato Factor Población Total 1 9.1 8 2 5.7 12 3 15 4 11 5 19 6 7 22 9 8.0 10 12.0 16 13 6.0 14 9.0

La primer réplica fue la siguiente. De esta se selecciona una réplica de tamaño 12 mediante un muestreo aleatorio con reemplazo, al interior de los estratos. La primer réplica fue la siguiente. UPM Población Total Factor 7 22 5.7 8 9.1 4 11 3 15 2 12 16 8.0 9 14 6.0 9.0

La cuál fue ordenada de acuerdo a la variable PT La cuál fue ordenada de acuerdo a la variable PT. En la siguiente tabla se muestra la información ordenada, así como el valor acumulado de los factores de expansión y por último la proporción de cada factor acumulado con respecto a la suma total de los factores. j UPM Población Total Factor Factor acumulado 1 9 4 8.0 0.09 2 8 7 9.1 17.1 0.20 3 26.2 0.31 15 9.0 35.2 0.41 5 11 5.7 40.9 0.48 6 12 46.6 0.54 14 6.0 52.6 0.61 58.3 0.68 64.0 0.75 10 16 72.0 0.84 80.0 0.93 22 85.7 1.00

Se busca el valor de PT tal que, Dicho valor es el correspondiente a la UPM 4 y 2 ( j=5 ), por lo que, La mediana la calculamos por medio de la interpolación de y dada por la siguiente expresión, De aquí que, la mediana de la réplica 1 es,

De esta manera se calcula una mediana para cada réplica generada por el método de Bootstrap. En seguida se presenta un resumen de las medianas obtenidas para un conjunto de 100 réplicas.

La estimación de la mediana se calcula mediante el promedio de las medianas de cada réplica. La estimación de la mediana es: La estimación de la varianza de la mediana es:

COMPARACIÓN DE LOS MÉTODOS PARA LA ESTIMACIÓN DE LA VARIANZA POR VARIABLE Y PRESICIÓN   VARIANZA EXACTA DOS ETAPAS SERIES DE TAYLOR Y/O C. ÚLTIMO GRUPOS ALEATORIOS SEMIMUESTRAS EQUILIBRADAS JACKKNIFE BOOTSTRAP PEA 468.00 468.48 E.E. 54.61 44.38 65.81 54.57 46.64 C.V. 0.12 0.10 0.14 0.09 DEFF 1.326 1.233 2.700 1.800 1.232 1.360 PO 444.00 444.11 49.05 38.57 61.63 48.23 41.15 0.11 0.13 1.073 0.979 2.500 1.460 0.978 1.114 PDA 24.00 24.28 15.15 11.95 6.59 12.25 11.88 0.63 0.50 0.27 0.51 0.49 1.221 1.120 0.350 1.200 1.121 1.115 NPEA 301.00 301.79 66.39 55.84 32.87 58.11 59.53 0.22 0.18 1.66 0.59 1.55 1.662 1.88 P12 769.00 102.03 85.79 96.13 101.80 92.00 1.707 1.615 2.070 2.261 1.858 PM12 195.00 195.69 49.83 37.37 30.45 44.37 37.36 37.51 0.26 0.19 0.15 1.16 0.934 0.630 1.090 0.796 PT 964.00 108.91 86.66 106.13 110.69 90.09 0.08 1.160 1.770 1.873 1.159 1.253 TDA 0.05 0.02 0.01 0.02458125 0.45 0.29 0.49463977 0.97 0.37 1.119 1.01