“Estimación de la varianza basada en semimuestras equilibradas”

Slides:



Advertisements
Presentaciones similares
Sesión 13: Distribuciones Muestrales y Tamaño de Muestra
Advertisements

Presentado por: Yuli Dominguez. Portal Educa Panamá. Sistema de numeración.
TEMA 1: TEMA 1: INTRODUCCIÓN A LA ESTADÍSTICA Por: Denise Muñoz Belmonte Claudia Morales Cerezuela.
T – Student teoria de las muestras pequeñas Paola Andrea Palacio Montero Estadística.
Estimación e intervalos de confianza. Estimaciones puntuales e intervalos de confianza Estimación puntual: Estadístico calculado a partir de la información.
República Bolivariana de Venezuela Instituto Universitario Politécnico “Santiago Mariño" Estadísticas I - OV Estadística Profesor : Bachiller: Pedro Beltrán.
ESTADÍSTICA Mercedes de la Oliva ESTADÍSTICA INFERENCIAL Teorema Central del límite Distribución de media y proporción muestral.
ENCUESTA NACIONAL DE OCUPACIÓN Y EMPLEO (ENOE).
Encuesta Nacional de Empleo e Ingresos
Capitulo 3 Análisis descriptivo inferencial: comparaciones de muestras
ESTADÍSTICAS INFERENCIALES
METODOLOGÍA Y TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES
DISTRIBUCION F DE FISHER.
Instituto Nacional de Estadística y Geografía
Curso de Elaboración de Pruebas Prof. Gerardo A. Valderrama M
PRUEBAS DE BONDAD DE AJUSTE estas pruebas permiten verificar que la población de la cual proviene una muestra tiene una distribución especificada o supuesta.
Evolución del Mercado Laboral
TALLER REGIONAL SOBRE EL DISEÑO ESTADÍSTICO DE ENCUESTAS DE HOGARES PARA EL ESTUDIO DEL MERCADO LABORAL “Jackknife” Jaime Mojica Cuevas Agosto Panamá.
DISTRIBUCIONES EN EL MUESTREO
“Bootstrap” Jaime Mojica Cuevas
Muestreo.
Unidad 5. Capítulo VI. Sistemas lineales no homogéneos.
Análisis de Varianza Permite probar la significancia de las diferencias entre más de dos medias muestrales. Usando el análisis de varianza, se puede hacer.
METODOLOGÍA Y TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES
MATRICES.
ESTADÍSTICA INFERENCIAL
MUESTREO ALEATORIO CON REPOSICIÓN
ESTIMACION DEL TAMAÑO DE LA MUESTRA.
ANÁLISIS E INTERPRETACIÓN DE DATOS
“MÉTODOS PARA LA ESTIMACIÓN DE LA VARIANZA”
Economía Tema 7: El mercado de trabajo. Pau Rausell
Descripción e interpretación de la estadística
MEDIDAS DE POSICION NO CENTRALES
Distribuciones muestrales e Intervalos de Confianza
Muestreo.
NOTAS TECNICAS 1 METODO DE NEWTON-RAPHSON
MUESTREO ESTRATIFICADO
Métodos de muestreo.
INTERVALO DE CONFIANZA
Introducción ACTIVIDAD: magnitudes Conceptos:
DISTRIBUCIÓN MUESTRAL DE UNA MEDIA.
Conceptos y Procedimiento
Conceptos básicos de MUESTREO
CONTENIDO Teoría del muestreo ¿Cómo seleccionar una muestra?
Gilberto Hernández Djamel Toudert
Aplicaciones Estadísticas a las Finanzas
ESTADÍSTICA BÁSICA.
Tamaño de muestra Ecología Marina. Una población se define como un conjunto de individuos de una especie que habita un área determinada. Los métodos disponibles.
ESTIMACIÓN (Inferencia Estadística) Intervalos de Confianza
DISEÑO Y ANALISIS DE EXPERIMENTOS
PROBABILIDAD Y ESTADISTICA APLICADA A LOS NEGOCIOS
TEMA 1.- INTRODUCCIÓN A LA INFERENCIA
“Guión explicativo para el empleo del material”
Muestreo y Estimación de Parámetros
METODOS PARA ANALISIS DE TALUDES
Dr. Carlomagno Araya Alpízar
DESEMPLEO En Argentina se estima la tasa de desocupación a partir de la Encuesta Permanente de Hogares (EPH) que releva información sobre los principales.
Compendio por Eugenio Skerrett
“Medidas de dispersión”
Evaluación de Proyectos con riesgo
AVANCES NUEVA ENCUESTA NACIONAL DEL EMPLEO
Estadística Asignatura obligatoria 5 créditos CBU 2015 Sexto semestre Módulo II. Medidas de tendencia central y de posición Universidad Autónoma del.
ESTADISTICOS Y DISTRIBUCIONES MUESTRALES
MEDIDAS DE DISPERSIÓN “Medidas de dispersión”. Miden qué tanto se dispersan las observaciones alrededor de su media. MEDIDAS DE DISPERSIÓN.
01/08/ Escuela Nacional de Estadística e Informátia Muestreo I Muestreo Aleatorio Estratificado Prof. Willer David Chanduvi Puicón.
ANALISIS DE REGRESION SIMPLE
MUESTREO SISTEMATICO.
DISEÑO Y ANALISIS DE EXPERIMENTOS
REGRESION LINEAL SIMPLE
Transcripción de la presentación:

“Estimación de la varianza basada en semimuestras equilibradas” TALLER REGIONAL SOBRE EL DISEÑO ESTADÍSTICO DE ENCUESTAS DE HOGARES PARA EL ESTUDIO DEL MERCADO LABORAL “Estimación de la varianza basada en semimuestras equilibradas” Jaime Mojica Cuevas Agosto 2010. Panamá

ESTIMACIÓN DE LA VARIANZA BASADA EN SEMIMUESTRAS EQUILIBRADAS   Las ideas básicas de la replicación de semimuestras surgieron por primera vez en la Oficina del Censo a través del trabajo de W. N. Hurwitz, M. Gurney y otros. A fines de la década de 1950 y a principios de la de 1960 se usó el método para estimar la varianza de estimaciones tanto sin ajustes como con ajustes estacionales derivados de la Encuesta de Población Actual. En seguida Plackett y Burman (1946), McCarthy (1966, 1969a, 1969b) introdujeron y desarrollaron las matemáticas del equilibrio de semimuestras. Los términos semimuestras equilibradas, muestras fraccionadas equilibradas, pseudoréplicas y Réplicas Repetidas Equilibradas (RRE) tienen desde entonces uso común y todos se refieren al método de McCarthy.

DEFINICIONES BASICAS   Supongamos que se desea estimar una media poblacional a partir de un diseño estratificado con dos unidades por estrato, en donde las unidades seleccionadas en cada estrato constituyen una muestra aleatoria simple con reemplazo (ASCR). Sea L el número de estratos,

Ejemplo 5.1   En el cuadro 5.2, se presentan los resultados de una encuesta realizada en hogares, el diseño que se empleo es el que contempla la selección de dos unidades primarias (UPM) por estrato, la selección de primer etapa se hizo con probabilidad proporcional al tamaño y en la segunda etapa se seleccionaron viviendas con igual probabilidad, las variables que se presentan son el ingreso diario por vivienda en dólares, la población económicamente activa (PEA) y la población desocupada abierta (PDA). El tamaño de la muestra contempla 6 UPM y 23 viviendas repartidas en 3 estratos, el factor de expansión se identifica con una w y sus respectivos subíndices de estratos (h) y UPM (i).

Distribución de la muestra para las Variables Ingreso, PEA Y PDA con su factor de expansión por Estrato, UPM y Viviendas Cuadro 5.2 Estrato UPM Viviendas Ingreso PEA PDA 1 23 6 11 2 28 4 3 19 30 16 36 34 22 29 60 64 14 20 92 5 32 15 43 69 12 39

Estimador Ingreso PEA PDA Los totales y las medias de cada variable se presentan enseguida: Estimador Ingreso PEA PDA 12,609 1,102 111 38.68 3.38 0.34

Paso 1.   En este paso le hemos asignado un (1) a la primer UPM del estrato 1 y un (-1) a la UPM dos del estrato 1, en el estrato 2 a la UPM 3 se le asigno un (1) y (-1) a la UPM 4, en el estrato 3 a la UPM 5 se le asigno un 1 y a la UPM 6 un (-1), esto es para saber identificar quien es la primera UPM de cada estrato y quien es la segunda UPM, cuando se formen las semimuestras, en el cuadro 5.3 esta identificación aparece en la columna nivel.

Paso 1.   En este paso le hemos asignado un (1) a la primer UPM del estrato 1 y un (-1) a la UPM dos del estrato 1, en el estrato 2 a la UPM 3 se le asigno un (1) y (-1) a la UPM 4, en el estrato 3 a la UPM 5 se le asigno un 1 y a la UPM 6 un (-1), esto es para saber identificar quien es la primera UPM de cada estrato y quien es la segunda UPM, cuando se formen las semimuestras, en el cuadro 5.3 esta identificación aparece en la columna nivel.

Distribución de la muestra para las Variables Ingreso, PEA Y PDA con su factor de expansión por Estrato, UPM, Viviendas y Nivel de asignación de réplica Cuadro 5.3 Estrato Nivel UPM Viviendas Ingreso PEA PDA 1 23 6 11 2 28 4 3 19 30 1- 16 36 34 22 29 60 64 14 20 92 5 32 15 43 69 12 39

Paso 2.   Una vez identificadas las UPM con un 1 y -1 en el cuadro 5.3, procedemos a identificar la matriz que se debe emplear, es una de 4 x 4, ya que solo necesitamos cuatro réplicas (k > L), tal como se expuso en la sección 5.1. La matriz elegida es la que se presento en el cuadro 5.1, en este caso solo necesitamos tres columnas y hemos elegido la columna 1, 2 y 3 como se aprecia en seguida. El diseño es completamente equilibrado ya que L=3 estratos y k=4 y además cumple con la propiedad (5.1.3) y (5.1.4), la multiplicación de pares de columnas da cero, también si se suman los 1 y -1 da cero.

Paso 3.   Se procede a asignar a cada UPM en la réplica que le corresponde de acuerdo al cuadro 5.4, por ejemplo para la primer réplica se forma con la segunda UPM del estrato 1, la cuarta UPM del estrato 2 y por último con la UPM 6 del estrato 3, las réplicas 2,3 y 4 se forman de manera similar. Los factores de expansión se ajustan para poder generar estimaciones de cada una de las réplicas, este ajuste se lleva a cabo de la manera siguiente: En el cuadro 5.5 aparecen las 4 réplicas en forma de columna, los factores ya aparecen ajustados para las UPM en la réplica y aparecen con cero las UPM que no pertenecen.

Distribución de la muestra por variable y las replicas con su factor de expansión ajustado Cuadro 5.5 Estrato Nivel UPM Viviendas Ingreso PEA PDA REP1 REP2 REP3 REP4 1 23 6 11 22 2 28 4 3 19 30 1- 16 36 34 44 29 60 64 14 20 92 5 32 15 43 69 12 24 39  Total 326 268 292 360 384

Paso 4.   Debido a que se han obtenido nuevos factores ajustados para las k réplicas, estableceremos las expresiones de los siguientes estimadores, así como la expresión de la varianza.

Paso 5.   Obtener los totales, medias y sus varianzas por variable. Totales El total de la réplica 1 se obtuvo para la variable ingreso. Los totales para las réplicas 2 y 3 se obtienen de la misma forma, en el siguiente cuadro se presenta un resumen por réplica para cada variable.

Total por réplica Cuadro 5.6 Réplicas Ingreso PEA PDA 1 11,142 860 148 10,392 1,040 130 3 14,628 1,164 92 4 14,274 1,344 74 Suma 50,436 4,408 444

La varianza del ingreso se calculó mediante la siguiente expresión:

Medias por réplica y la media promedio da todas las réplicas. Del cuadro 5.5 obtenemos los valores a nivel vivienda de cada réplica para la variable ingreso. y se obtienen de forma similar para la variable ingreso.

En el cuadro 5.7 se presentan las medias replicadas de cada variable. Medias por réplicas promedio de ingreso por vivienda. promedio de PEA por vivienda. promedio de PDA por vivienda Cuadro 5.7 Réplicas Ingreso PEA PDA 1 41.57 3.21 0.55 2 35.59 3.56 0.45 3 40.63 3.23 0.26 4 37.17 3.50 0.19 Suma 154.97 13.50 1.45

La expresión de la varianza está dada de la siguiente manera:

El estimador de la tasa de desempleo (TDA) se obtiene considerando los totales de la variable PDA y PEA en el cuadro 5.6, se emplean para calcular las tasas por réplica de la siguiente manera.

Y el estimador de la muestra completa lo cual resulta que El estimador de la varianza para el estimador de las k réplicas es:

Estimación de la mediana de la variable Ingreso   Inicialmente se cuenta con la información mínima necesaria para aplicar el método de réplicas repetidas equilibradas (RRE). En este ejemplo el estimador con el que se trabaja es la mediana de la variable “ingresos” , la información que se emplea es la del cuadro 5.2, para ilustrar el procedimiento del cálculo de la mediana y su varianza se hace por pasos.

Paso 1.   Como primer paso se obtiene la estimación de la mediana de la variable “ingresos” en la muestra completa, ordenando la información de la variable ingresos de menor a mayor, luego acumulando el factor de expansión (acum_factor) para después obtener la distribución relativa de cada factor y finalmente considerar aquellos dos registros consecutivos cuyos valores acumulados relativos “atrapen” al valor 0.5 para aplicar la formula de interpolación, tal como se presenta en el cuadro 5.8. Los valores deben cumplir la condición: .

Distribución de la muestra para la variable Ingreso con su factor de expansión, su factor acumulado y su distribución relativa

Cálculo de la mediana de la variable ingresos para la muestra completa.

Paso 2.   Obtener la estimación de mediana de la variable “ingresos” en cada réplica. La información de cada réplica se ordena de menor a mayor por la variable ingresos, luego se acumula el factor de expansión para después obtener la distribución relativa y finalmente considerar aquellos dos registros consecutivos cuyos valores en esta distribución relativa “atrapen” al valor 0.5, para aplicar la formula de interpolación.

Los valores deben cumplir la condición:   Si se llegara a presentar el caso exacto entonces no sería necesario la interpolación y la mediana se obtiene directamente .

Distribución de la muestra de la variable ingresos para la primera réplica con su factor de expansión, su acumulado y su distribución relativa Cuadro 5.9 Consecutivo UPM Viviendas Ingreso PEA PDA Acum_factor x1 2 1 16 22 0.082 x2 4 20 28 50 0.187 x3 78 0.291 x4 23 6 100 0.373 x5 3 34 122 0.455 x6 36 144 0.537 x7 24 168 0.627 x8 39 192 0.716 x9 64 216 0.806 x10 69 240 0.896 x11 92 268 1.000

Paso 3.   Obtener la suma y el promedio de las medianas de la variable “ingresos” para las 4 réplicas. Suma: Promedio:

Intervalo de confianza al 90% de confianza Cálculo de las precisiones de la mediana de ingresos Cuadro 5.10 Réplica Medianas 1 35.09 14.12 2 30.00 1.778 3 31.00 0.111 4 32.00 0.444 SUMA 128.09 16.45 PROMEDIO 32.02 4.11 E.E   2.03 C.V% 6.47 Cuadro 5.11 Mediana de ingreso 31.33 INTERVALO DE CONFIANZA AL 90% LI LS 27.997 34.670

En el cuadro 5.12 se presenta un resumen de las estimaciones y sus precisiones estadísticas   Precisiones Estadísticas Cuadro 5.12 Estimador Ingreso PEA PDA TDA Total 12609.00 1102.00 111.00 0.108 E.E 1865.19 176.65 29.41 0.04 C.V(%) 14.79 16.03 26.50 41.59 Media 38.74 3.38 0.36   2.45 0.16 0.15 6.32 4.64 40.32 Mediana 31.33 2.03 12.33

VENTAJAS   Proporciona una estimación de la varianza asintóticamente equivalente a la correspondiente varianza al método de linealización para funciones suaves de los totales de la población y para cuantiles. Requieren relativamente pocos cálculos, en comparación con el Jackniffe y el Bootstrap. DESVENTAJAS Según lo definido en el tema se requieren dos unidades primarias por estrato, sin embargo, en la práctica, se puede extender a otros diseños de muestreo mediante esquemas de equilibrio más complejos.