MUESTREO ESTRATIFICADO

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA Y MÉTODOS DE MUESTREO
Conceptos y Procedimiento
Inferencia estadística
} LISSET BÁRCENAS MONTERROZA
Estimación por Intervalos de confianza
Métodos de muestreo.
GRADO DE CONFIANZA DE LA INFERENCIA
Escuela Nacional de Estadística e Informátia Muestreo I
CONCEPTOS BÁSICOS DE ESTADÍSTICA
DR. GLENN LOZANO ZANELLY
Nombre: Israel Espinosa Jiménez Matricula: Carrera: TIC Cuatrimestre: 4 Página 1 de 5.
Seleccionar una muestra
Tema 2: Métodos de ajuste
Población y Muestra.
TIPOS DE MODELOS DE REGRESIÓN Y SUPUESTOS PARA EL MODELO A
Estadística Administrativa I
VARIABLE ALEATORIA Y DISTRIBUCION DE PROBABILIDAD
Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE Julio 2009
Distribuciones derivadas del muestreo
INTRODUCCIÓN A LA TEORÍA DE MUESTRAS Estadística E.S.O.
ESTADISTICA TEMA 12.
Unidad V: Estimación de
ESTADISTICA TEMA y 223.
ESTIMACION En varios pasajes de este libro hemos planteado la dificultad que se confronta en las investigaciones, de llegar a conclusiones sobre una población.
Gerenciamiento Técnico de Proyectos
ANALISIS DE FRECUENCIA EN HIDROLOGIA (2)
Distribución Normal o gaussiana
Estimación Sea una característica, un parámetro poblacional cuyo valor se desea conocer a partir de una muestra. Sea un estadístico ( función.
FACILITADOR JOSE HERIBERTO CRUZ GARCÍA
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
ESTADISTICA I CSH M. en C. Gal Vargas Neri.
MUESTREO ESTRATIFICADO
ESTIMACION POR INTERVALOS
Análisis Cuantitativo de Datos (Básico)
Capacidad de Proceso.
Inferencia Estadística
ESTADÍSTICA DESCRIPTIVA
Unidad V: Estimación de
Capítulo 1. Conceptos básicos de la Estadística
Sesión 13: Distribuciones Muestrales y Tamaño de Muestra
MARCO TEÓRICO DEL MUESTREO FORESTAL

INTRODUCCIÓN A LOS MÉTODOS DE MUESTREO
Investigación de mercados “Muestreo”
METODOLOGÍA Y TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES
Estimación y contraste de hipótesis
Septiembre  Responde a quienes y cuantas personas se aplicará el instrumento de recolección de datos.
LA SELECCIÓN DE LAS MUESTRAS EN EL PROCESO DE INVESTIGACIÓN
ESTIMACIÓN DE PARÁMETROS
MUESTREO ALEATORIO SIMPLE SIN REEMPLAZO (“mas”)
INTERVALO DE CONFIANZA
MUESTREO : Generalidades
Muestreo Probabilístico
INFERENCIA ESTADÍSTICA
UNIVERSIDAD CENTRAL DEL ECUADOR FACULTAD DE CIENCIAS ECONOMICAS INFERENCIA ESTADISTICA TEMA: ESTIMACION PUNTUAL, PROPIEDADES DE LAS ESTIMACIONES;
Muestreo Tomado de: Investigación de mercados. Naresh K. Malhotra
León Darío Bello Parias UNIVERSIDAD DE ANTIOQUIA FACULTAD NACIONAL DE SLAUD PUBLICA “HECTOR ABAD GOMEZ”
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
BIOESTADÍSTICA Y ESTADÍSTICA BÁSICA CHILLÁN, SEGUNDO SEMESTRE PROF. SOC. M© KEVIN VILLEGAS.
PROCEDIMIENTO DE MUESTREO
MUESTREO Parte 1: Generalidades Una vez definido el problema a investigar, formulados los objetivos y delimitadas las variables se hace necesario determinar.
Estimación Estadística Tares # 3. Estimación Estadística Conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a.
Intervalos de Confianza M. C. José Juan Rincón Pasaye UMSNH – FIE Mayo de 2003.
Estimación estadística
ESTIMACION DEL TAMAÑO DE LA MUESTRA. La primera pregunta que un estadístico debe contestar al planear una investigación de muestreo es, casi siempre, el.
TAMAÑO DE LA MUESTRA Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia.
Alvaro Alfredo Bravo Dpto. de Matemáticas y Estadística Universidad de Nariño - Colombia METODOS ALEATORIOS.
INTERVALO DE CONFIANZA
Transcripción de la presentación:

MUESTREO ESTRATIFICADO El muestreo estratificado consiste en dividir la población en L subconjuntos o estratos, y de cada uno de ellos seleccionar una muestra probabilística; de manera independiente de un estrato a otro. Existen tres razones importantes para utilizar este tipo de muestreo: estadísticas, marcos; y de costos.

MUESTREO ESTRATIFICADO La razón estadística ocurre cuando la población está constituida por unidades heterogéneas y podemos tener una idea previa de los grupos de unidades más homogéneas entre sí, entonces es conveniente formar estratos. Los estratos son subconjuntos de la población que agrupan unidades homogéneas, aunque sean heterogéneas entre estratos. Cada estrato se muestrea por separado y se obtienen los estimadores de parámetros (totales, medias, proporciones) para cada estrato.

MUESTREO ESTRATIFICADO Se supone que se conoce el número de unidades en cada estrato (Nh). Aunque esto se verá después, es importante señalar que si se usan estimadores de razón o de regresión o si el muestreo se hace con probabilidad proporcional al tamaño, los estratos se forman con subconjuntos de unidades donde sea constante la proporcionalidad de Y a X, aunque esa proporcionalidad cambie de estrato a estrato.

MUESTREO ESTRATIFICADO Como ejemplos de la razón estadística para usar estratos, considérense: (a) En un muestreo donde interesa conocer alguna característica de los hogares en la Ciudad de México (por ejemplo: gastos en alimentos, ropa, ingresos, tipo de casa habitación, años de escolaridad del padre, número de hijos, etcétera). Se sabe que esas características dependen fuertemente del nivel socioeconómico de las familias, por lo tanto conviene hacer estratos considerando áreas de la ciudad con niveles socioeconómicos semejantes.

MUESTREO ESTRATIFICADO Así, las colonias se pueden clasificar a priori con relación al nivel socioeconómico como: muy alto, alto, medio, medio bajo y bajo, formando de esta manera cinco estratos. La encuesta se planea para cada estrato por separado. El efecto de formación de estratos es reducir la variabilidad de los estimadores. La variabilidad de se puede reducir mucho si los estratos son muy homogéneos dentro de cada uno de ellos y heterogéneos entre los mismos.

MUESTREO ESTRATIFICADO (b) En un muestreo para estimar la cosecha total de café en México, se conocía que el estado fisiológico, edad y estado de sanidad de los árboles influye mucho en su producción. Entonces, se tomaron como estratos, categorías de árboles bien definidas y homogéneas en lo que respecta a edad, estados fisiológicos y de sanidad. Además, los predios se agruparon en estratos de acuerdo a la región ecológica donde estaban ubicados. Esto es porque la productividad del café varía según las condiciones ecológicas como altura sobre el nivel del mar, vientos, temperaturas extremas, etcétera.

MUESTREO ESTRATIFICADO (c) En una encuesta para estimar el consumo de energía eléctrica es conveniente agrupar las fábricas en estratos, así quedarían agrupadas en: fábricas grandes, fábricas pequeñas, empresas de producción familiar y un estrato final constituido por casa-habitación. Esto, porque sabemos que el consumo de electricidad va a ser muy variable entre estratos, y esperamos que sea menor dentro de estos.

Poblaciones de Macroalgas Para la estimación de la biomasa superficial de los mantos del alga gigante Macrocystis pyrifera, se encontró que los distintos mantos a lo largo de la distribución presenta una biomasa diferente.

Por lo tanto se decidió a priori separar tres tipos de densidades: Alta, Media y Baja, y todas las áreas con un mismo tipo de densidad se agruparon en un estrato diferente.

MUESTREO ESTRATIFICADO Otra razón poderosa para formar estratos es la disponibilidad de marcos. Si para una parte de la población se tiene un buen marco, éste se usa para el muestreo de esa parte y la o las otras partes de la población se muestrean usando otros marcos más imprecisos y, posiblemente distintos esquemas (diseños) de muestra.

MUESTREO ESTRATIFICADO Por ejemplo, en encuesta de hogares se cuenta con un buen marco para la zona urbana de construcción antigua; pero las zonas rurales y las urbanas de construcción reciente no tienen un marco adecuado. Entonces se utilizan planos catastrales para las zonas urbanas antiguas (un estrato), se usan fotografías aéreas para zonas rurales (otro estrato) y las áreas de posible nueva urbanización (otro estrato) se delimitan como otro marco; se muestrean áreas y se investigan las nuevas urbanizaciones (muestreo en etapas o conglomerados).

MUESTREO ESTRATIFICADO Otra razón más para construir estratos puede ser el costo de localizar y levantar la información de las unidades, por ejemplo: si en una encuesta de predios agrícolas hay una región cuyo acceso es difícil (por avión o a caballo únicamente), esa región puede constituir un estrato, que será muestreado con un tamaño de muestra pequeño.

MUESTREO ESTRATIFICADO Lo más frecuente es que los tres criterios para formación de estratos coincidan, de modo que los estratos formen unidades homogéneas con un mismo tipo de marco y con costos de localización y captación de información semejantes.

MUESTREO ESTRATIFICADO Se pueden utilizar diferentes formas de muestreo en los diferentes estratos, sin embargo, se considerará en este escrito como una introducción al tema, aquel en el cual cada estrato se muestrea usando “mas”. Más adelante se consideran las muestras complejas, donde se amplia el uso de estratos.

MUESTREO ESTRATIFICADO Considérese la siguiente notación: Nh= número de unidades en estrato h-ésimo; h=1,2,...,L; L= número de estratos.

MUESTREO ESTRATIFICADO Valores Poblacionales valor de la medición en el elemento i-ésimo del estrato h-ésimo. total de unidades en la población. media poblacional del estrato h-ésimo.

MUESTREO ESTRATIFICADO total poblacional del estrato h-ésimo. varianzas poblacionales del estrato h-ésimo.

MUESTREO ESTRATIFICADO total de toda la población. media de los valores Yhi en toda la población.

MUESTREO ESTRATIFICADO proporción del tamaño del estrato h-ésimo.

MUESTREO ESTRATIFICADO Valores muestrales   En esta parte se considera cualquier estrategia de muestreo probabilístico en cada estrado, incluso pueden ser diferentes de un estrato a otro.

MUESTREO ESTRATIFICADO Supóngase que de manera independiente se toman muestras de cada estrato. Sea nh el tamaño de muestra en el estrato h-ésimo. La muestra total es

MUESTREO ESTRATIFICADO Supóngase que se quiere estimar el total de la población, esto es Para esto con la muestra de cada estrato se estima el total, sea el estimador insesgado o con sesgo despreciable para el caso de estimadores de razón o de regresión, su varianza , además, sea un estimador de esa varianza.

MUESTREO ESTRATIFICADO El estimador del total es la suma de los estimadores de los totales de los estratos (es un estimador insesgado). Esto es válido con cualquier diseño de muestra y estimadores por estrato, los que pueden ser distintos en los diferentes estratos.

MUESTREO ESTRATIFICADO La varianza del estimador del total es , que es la suma de las varianzas de los estimadores de los totales de estratos. Esto es por tener muestras independientes en los estratos.

MUESTREO ESTRATIFICADO Además el estimador de la varianza del estimador del total es:

MUESTREO ESTRATIFICADO Suponiendo distribución normal de se tiene:

MUESTREO ESTRATIFICADO Si no se puede suponer normalidad úsese el valor 4.4 en lugar de 1.96 (T. Tchebycheff). Estas expresiones para son válidas para cualquier forma de muestrear estratos.

MUESTREO ESTRATIFICADO La primera aproximación al uso de estratos es considerar que se usa “mas” en cada estrato entonces: donde yhi son los valores observados en la unidad i-ésima de la muestra (tamaño nh) del estrato h-ésimo.

MUESTREO ESTRATIFICADO El estimador del total poblacional es: (6.1) donde corresponde al factor de ponderación, de las unidades obtenidas en cada estrato.

MUESTREO ESTRATIFICADO Su varianza teórica es: (6.2) Esta varianza se estima al sustituir S2h por su estimador en cada estrato.

MUESTREO ESTRATIFICADO El estimador insesgado de S2h es . Nótese que es la misma expresión que S2h, pero la primera es con valores de la muestra y la segunda con los valores de todo el estrato h-ésimo. ( ) - 2 Ù 2 n yy å h S = hih h n - 1 i = 1 h

MUESTREO ESTRATIFICADO Recurriendo al Teorema central del límite, para cada estrato , se tendrá que . Esto es mucho más factible aunque cada no tenga distribución normal, si se tienen muchos estratos. Se puede decir que los errores de estimación tienden a cancelarse de un estrato a otro.

MUESTREO ESTRATIFICADO Si se estima , se puede construir un intervalo de confianza aproximado para el total de la población: Al dividir cada término de (6.3) entre , tenemos el intervalo de confianza para , la media de la población. (6.3)

MUESTREO ESTRATIFICADO Si se considera que la muestra es grande en cada estrato, la muestra total será mayor aún. Esto justifica el uso del valor 1.96 en lugar del valor de las tablas de t. Nótese que: (6.4)

MUESTREO ESTRATIFICADO Si lo que se quiere estimar es , se tendrá que, (6.5) donde proporción del tamaño de estrato h-ésimo.

MUESTREO ESTRATIFICADO Nótese que (6.5) es un promedio ponderado de los promedios muestrales y su varianza es: (6.6) la que se estima con: (6.6a)

MUESTREO ESTRATIFICADO De manera semejante, el intervalo de confianza aproximado para es el siguiente: Aún con muestras chicas en cada estrato (nh = 2,3,4) si se tienen mas de 10 estratos se puede tener normalidad para , esto en virtud de la compensación de errores.

MUESTREO ESTRATIFICADO Proporciones   Si lo que se requiere estimar es P, la proporción de elementos de la población que tienen una característica determinada, se usan las equivalencias dadas por

MUESTREO ESTRATIFICADO Estas equivalencias surgen al considerar que   1 Si la unidad i-ésima del estrato h Yhi= tiene la característica 0 De otro modo

MUESTREO ESTRATIFICADO Sólo si las Ph son muy diferentes de estrato a estrato, vale la pena estratificar. Si , no conviene usar los estratos.

Distribución (afijación) de la Muestra a los Estratos Antes de considerar el problema de la determinación del tamaño de muestra, se discute la forma de distribuir el tamaño de muestra total, n, a los diferentes estratos.

Distribución Proporcional Un criterio es lo que se le llama distribución (afijación) proporcional, donde la muestra se divide de manera proporcional a los tamaños de los estratos Nh.

Distribución Proporcional Se busca que se cumpla la relación: De esta relación se tiene: (6.7)

Distribución Proporcional Esta distribución de la muestra total se usa cuando no se tiene información sobre la magnitud de las S2h, o que esas S2h sean semejantes; se usa además cuando los costos de muestrear las unidades en los diferentes estratos son semejantes.

Distribución Proporcional También se emplea cuando el muestreo o encuesta va a determinar varias características (varias mediciones) en cada unidad de la población, incluso cuando se quiere que sea “autoponderado”, es decir, todos los elementos de la muestra tienen un mismo factor de expansión

Distribución Proporcional Con esta distribución proporcional se tiene: donde

Distribución Óptima Cuando se tienen costos muy diferentes para el muestreo de unidades en los diferentes estratos, se usa la distribución (afijación) óptima. Si el costo para obtener información de una unidad en el estrato h-ésimo es Ch, el costo total será:   (6.8) C0 es costo administrativo, de instalación, etcétera, general.

Distribución Óptima La minimización (variando las nh, sin cambiar otras condiciones), de la varianza del estimador (6.2) con costo fijo (6.8) o viceversa, produce la distribución óptima que es: (6.9) Esto es para muestreo “mas” en todos los estratos.

Distribución Óptima Para cualquier diseño de muestreo en los estratos, la varianza del estimador del total se podrá expresar como: Entonces la distribución óptima es:

Tamaño de Muestra Total Si lo que se quiere es encontrar aquel valor de n que produce la mínima varianza para un costo total fijo C0, se deberá usar la expresión (6.9) y sustituir en (6.8).

Tamaño de Muestra Total Entonces tenemos: Esto es usando la distribución óptima. Los valores de Sh se deberán obtener con base en muestras piloto de cada estrato, o bien por conocimiento previo de la forma de la distribución en cada estrato y el rango de variación. (6.10)

Tamaño de Muestra Total Si lo que se quiere es encontrar el valor de n que produce el costo mínimo para un error de estimación d determinado, entre el estimador del total y el verdadero total, entonces se tiene . Si se sustituye la varianza de la expresión (6.2) con distribución óptima, se obtiene: (6.11)

Tamaño de Muestra Total Las expresiones (6.10) y (6.11) se refieren a la estimación del total. Para estimar un promedio, , la expresión (6.10) sigue siendo válida pero la (6.11) debe modificarse:

Tamaño de Muestra Total Sustituyendo la varianza por la expresión (6.6) y con nh óptimo se tiene: (6.11´) Donde ahora d es el error máximo permisible, con confianza del 95%, entre el estimador del promedio , y el promedio poblacional . Nótese que las d en expresiones (6.11) y (6.11’) son muy diferentes.

Tamaño de Muestra Total Las expresiones (6.10), (6.11) y (6.11’) se usan cuando se quiere optimizar algo que involucra el costo. Si el costo no es determinante y si se usa la distribución óptima para Ch constante, (6.10) no deberá usarse. Es importante enfatizar que en (6.10), (6.11) y (6.11’) se usa la distribución óptima.

Distribución Proporcional Si se va a usar la distribución proporcional se puede recurrir a la expresión de la varianza que es: Si se sustituye se tiene: (6.12) (6.12)´

Distribución Proporcional Con este valor en lugar de las S2, se pueden usar las expresiones (5.3) y (5.4) para obtener n. Si se quiere tener un coeficiente de variación fijo (CVo), sin tomar en cuenta el tipo de distribución del estimador , se tendrá :

Distribución Proporcional de donde: (6.13)

Distribución Proporcional Si se considera que y se desea tener: de aquí se tiene que

Distribución Proporcional de donde a partir de se obtiene que n debe de ser: (6.14)

Distribución Proporcional Es relativamente sencillo modificar las expresiones (6.13) y (6.14) para considerar la estimación de . El cambio fundamental está en que se debe sustituir por que es , entonces:

Conclusiones Si se considera que el costo es importante, esto es, hay costos diferenciales en los estratos, conviene usar la distribución óptima (6.9) y determinar el tamaño de muestra con expresiones (6.10), (6.11) o (6.11’). Si no hay costos diferenciales muy marcados y se decide usar la distribución proporcional (6.7) para determinar el tamaño de muestra total, se usará (6.13), si se quiere fijar el coeficiente de variación, sin consideraciones sobre la distribución de los estimadores.

Conclusiones Si se quiere fijar la precisión ( ) y la confiabilidad (1-) considerando distribución normal para el estimador, se usará la expresión (6.14). Debe tenerse cuidado al señalar que todas las expresiones anteriores determinan el tamaño de muestra para estimadores globales de toda la población. Las inferencias no son para cada estrato con esas muestras.

Conclusiones Si lo que se desea es estimar media o totales en cada estrato, las expresiones anteriores no se deben usar, lo que se debe emplear son fórmulas (5.3) y (5.4) para cada estrato por separado y así determinar las nh a usarse en cada uno de ellos. Por supuesto que en este último caso la muestra total n es mucho más grande. Esto es de esperarse, puesto que ahora se están haciendo inferencias por separado para L poblaciones.

Construcción de estratos Cual es la mejor característica para la construcción de estratos Como se determinan los límites de los estratos Cuantos estratos debería haber

Para una sola característica o variable y, la mejor característica es, por supuesto, la distribución de frecuencias de y. La siguiente mejor es probablemente la distribución de frecuencia de alguna otra cantidad altamente correlacionada con y El problema es encontrar límites intermedios entre estratos tales que la varianza de la media estratificada sea mínima.

Construcción de estratos Igualación de los productos de los tamaños o pesos de cada estrato por alguna medida d su variabilidad (generalmente S2. Criterio de Ekman-Dalenius. Criterio de equpartición: División en partes iguales de la suma de las raíces de las frecuencias de alguna variable de estratificación (regla de CUM √ f )

Construcción de estratos Igualación de los totales conjeturados para los diferentes estratos, o sea, de los productos de los tamaños relativos de los estratos por su valor medio. Aplicación a la población en estudio de los puntos de estratificación (límite) correspondientes a la distribución teórica que se ajuste satisfactoriamente a la distribución de frecuencia poblacional.

Si deseamos 5 estratos: 389.5/5 = 77.9 Intervalo de Longitudes f (y) CUM √f (y) 0-5 3467 58.9 5-10 2516 109.1 10-15 2157 155.5 15-20 1581 195.3 20-25 1142 229.1 25-30 746 256.4 30-45 265 314.7 45-50 207 329.1 50-55 126 340.3 55-60 107 350.6 60-65 82 359.7 65-70 50 366.8 70-75 39 373.0 75-80 25 378.0 80-85 16 282.0 85-90 19 386.4 90-95 2 387.8 95-100 3 389.5 Ejemplo: Regla de CUM Si deseamos 5 estratos: 389.5/5 = 77.9 De aquí 155.8, 233.7, 311.6, 389.5 Los límites se encuentran entre los valores mas cercanos:

Resumen de las ecuaciones básicas La función de costo: C = L Cs + n Cn + Co Donde: L = Numero de estratos n = Numero de muestras Cs y Cn = Constantes asociadas con el numero de estaciones y el numero de estratos Co = Costo inicial

Media estratificada L å WhYh = Y st h = 1

=å å Wh2 Sh2 S2 (yst) - nh N Varianza [V (yst) ] Termino de cpf L

Límites de confianza Media de la población: Yst + t S ( yst) Total de la población: NYst + t N S ( yst)

Ejemplo Mediante fotografía aérea y muestreo de campo se ha obtenido la siguiente información para los mantos de algas gigantes en la zona de la Isla de Cedros. Calcule la biomasa total con su intervalo de confianza al 95% Densidad alta (Kg/m2): 7.5, 10.5, 11, 12, 8.5, 7.5, 6.5, 5.5, 10, 11.5, 3.5, 6.5, 13.5, 12, 12, 10, 4, 5, 12.5, 13.5. N = 2,201,732 m2 Densidad media: (Kg/m2): 8, 6, 7.5, 4, 6, 5, 6.75, 7.5, 8, 9, 8.5, 7.5, 7, 3.5, 7. N = 557,915 m2 Densidad baja: (Kg/m2): 3.75, 5, 4.5, 3.25, 4, 3, 3.5, 3, 4, 2.5. N = 537,414 m2