La descarga está en progreso. Por favor, espere

# Opinión Pública y Análisis de Encuestas

## Presentación del tema: "Opinión Pública y Análisis de Encuestas"— Transcripción de la presentación:

Opinión Pública y Análisis de Encuestas
Módulo IV: Teoría y práctica de muestreo miércoles 7 de julio de 2010 David Crow, Associate Director UC Riverside, Survey Research Center

Populations and Samples
Define the group of people to be studied Characteristics: geography? age? gender? Should be population suited to study of research question Samples: Representative Subset of Population Who should be interviewed? Population or sample? How many interviews are necessary? Larger is more representative and gives a more precise estimate, but costs more Are subgroups important?  oversampling Depends on research question: elections  900 to 1,500 drug trials  often as few as 200 Modes of contact: 1) face-to-face; 2) SAQ (pencil and paper or on Web); 3) telephone

A Closer Look at Sampling (Weisberg, Chap. 3)
Sampling: estimating a population quantity based on a subset of that population Sampling Frame: list of population elements (or units) Coverage: the degree of correspondence between the population to be studied and the sampling frame Coverage error: when not all population elements are in the sampling frame, or when the sampling frame includes some units not in the population

Probability vs. Non-Probability
Probability sample: when every element in the population has a known probability of being selected into the sample Equal probability (equiprobable, epsem) sample: every element in the population has an equal chance of being sampled Non-equal probability: some elements might have a greater chance than others, e.g., “dual frame” samples where there is overlap between the two frames Non-probability sample: methods in which it is difficult or impossible to know a unit’s probability of being sampled  less scientific

Non-Probability Sample
“Typical”: sample of units that the researcher considers especially representative, according to census data  no guarantee that these people’s attitudes are representative Purposive: deliberately selecting sample based on possession of characteristic under study; not necessarily representative, but important people  e.g., elite decision-makers Volunteer (Convenience): people choose to participate in study  possibility of “selection bias”; people who are interested or have strong opinions choose to participate Haphazard: Based on ease of contact, e.g., “intercept-point” sampling (contacting people at places where they work, shop, etc.)  useful for sampling rare populations, but no guarantee of representativeness Quota: interviewers are assigned numerical targets based on demographic proportions

Probability Sample Simple Random Sample (SRS): choose randomly from a listeasiest, most straightforward, but need a good list Systematic: define interval n, choose random seed and select every nth person on list problems: 1) list might not correspond to population; 2) periodicity; 3) no sampling of adjacent units  could omit important units Stratified: divide sample into subgroups (strata), sample randomly (or systematically from subgroups) not always possible to obtain lists for subgroups or to classify list elements into strata; advantage: increases accuracy Cluster Sample: multi-stage sampling; define primary sampling units (PSUs); first stage is sampling PSUs, then sample from within PSUs probability proportional to size (PPS): probability of PSU appearing in sample is proportional to the number of units in the first-stage units; advantage: decreases cost

Phone Surveys Random Digit Dialing (RDD): PSU is “phone exchange” (six digit combination of area code and prefix)  select exchanges known to have working numbers, plus one or two digits OF “suffix” (last four numbers), then randomly sample from remaining digits (Waksberg method, “100” RDD: last two digits, “1000” RDD: last three digits). Call Dispositions: list of predefined outcomes (completed interview, busy, no answer, refusal, hang-up)  interviewer records call disposition on answer sheet Computer-Aided Telephone Interview (CATI): software that manages sample, releases it to callers, and provides template for interviewing respondents Cell Phone Only Challenge: land line subscriptions are declining, people increasingly using cell phones as only method of phone contact (15% - 20%)

Problems & Challenges Rare Populations: “needle in a haystack” problem; expensive to reach  solutions: 1) two-phase sampling (broad sample to screen for population, follow-up with people identified); 2) network, snowball, or chain referral sampling, interviewees recommend other people; 3) targeted cluster sampling of census tracts with high proportions of rare population Exit Polls:  interview people leaving polling place, usually combination of quota and systematic sample  “gold standard”, but there are problems; e.g., absentee ballots, self-selection bias Wrong Population Sampled: Population sampled from does not correspond to population under study  e.g., college students vs. “college-age” people, probable voters vs. adult citizens

Muestreo simple aleatorio (Simple Random Sample, SRS)
Marco muestral: enumeración de todos los elementos de la población que se quiere estudiar Tamaño de la población: N Tamaño de la muestra: n SRS: Como colocar papelitos para cada uno los N elementos de la población y sacar de ellas los n elementos que saldrán en la muestra Formalmente, una muestra aleatoria simple es aquella en la que todos los posibles subconjuntos de n elementos distintos tienen una probabilidad igual de seleccionarse  implica que cada elemento n tiene una probabilidad igual de resultar seleccionado Epsem: métodos en los que todos los elementos tienen una probabilidad igual de selección se conocen como “epsem” (equal probability selection method)

Estimadores para media y varianza bajo SRS
Media: promedio aritmético Varianza (Var o V, variance): el cuadrado de la distancia promedio de un elemento típico de la media Desviación típica (sd, standard deviation): la distancia promedio de un elemento “típico” de la media; raíz cuadrada de varianza

Error estándar Error estándar: la raíz cuadrada de la varianza de medias arrojadas por muestras repetidas alrededor de la media de la población: donde f = n/N (la fracción de muestreo) y (1 – f) es un factor de corrección para poblaciones finitas.

Margin de error Margin de error (intervalo de confianza): intervalo alrededor de la media de la población dentro del cual el x% (p.e., 95% o 99%) de las medias estimadas por una muestra caerán ¿Por qué 1.96? Este número corresponde a un nivel de confianza del 95% porque el 95% de la distribución normal (curva de campana) se ubica dentro de 1.96 desviaciones típicas alrededor de la media. Es decir, tenemos una confianza del 95% que la media de la población cae dentro del intervalo de confianza. Si el nivel de confianza deseado fuera 99%, el factor de multiplicación sería 2.58.

Ejemplo de margin de error
media = 5.2 sd = 1.2 Var = 1.44

Muestreo sistemático Muestra sistemática: se selecciona cada ko elemento después de un arranque aleatorio Intervalo de muestreo: se divide el tamaño de la población entre el tamaño de la muestra; el resultado es el intervalo de muestreo Arranque aleatorio: número seleccionado aleatoriamente entre 1 y el intervalo de muestreo p.e. N = 2,000, n=200 intervalo = 10 arranque aleatorio = 7 muestra = 7, 17, 27 … Ventajas: es fácil, garantiza que elementos contiguos no se seleccionarán, es epsem (aunque una vez seleccionado el primer elemento, no todos los conjuntos tienen la misma probabilidad de selección)

Fracción de muestreo Fracción de muestreo: la proporción de cada estrato que será seleccionada donde h indexa el estrato Muestreo estratificado proporcional: la fracción de muestreo es igual entre todos los estratos Muestreo estratificado desproporcional: la fracción de muestreo no es igual entre todos los estratos; p.e., un sobremuestreo de una subpoblación pequeña que deseamos estudiar más a fondo

Estimadores para media y varianza bajo muestreo estratificado
Media: suma ponderada de medias de cada estrato donde y , o sea, el ponderador W es la proporción de la población en cada estrato h y los ponderadores suman 1. Varianza: suma de varianza ponderada de cada estrato

Muestreo por conglomerados (multietápico) (Multi-stage Cluster Sampling)
Intuición: Así como en muestras estratificadas, se divide la población en grupos. A diferencia, los grupos usualmente son demarcaciones geográficas y se hace una selección de grupos además de una selección dentro de cada grupo Conglomerado (cluster): un grupo de personas que comparten cierta característica—en muestreo, ésa es que casi siempre viven en la misma área geográfica Unidad primaria de muestreo (UPM) (primary sampling unit, PSU): tipo de área geográfica que se selecciona en la primera etapa del muestreo Unidad última de muestreo (final sampling unit): elemento de muestra que se selecciona en la última etapa Probabilidad de selección: Pr(B|A)*Pr(A), donde B es, p.e., una persona y A es una sección electoral.

Aspectos de muestreo por conglomerados

Coeficiente de correlación intraclase (Intra-class Correlation Coefficient)
Mide la variabilidad entre los conglomerados como proporción de la variabilidad total (esto es, variabilidad donde σ es la desviación típica de medias de los conglomerados de la media global y τ es la desviación típica de y en torno a las medias de los conglomerados p.e., 1.2 / = 0.8 = 80% o sea, el 80% de la variabilidad es entre conglomerados

Media y varianza bajo muestreo por conglomerados
del conglomerado: donde i indexa el sujeto y j, el conglomerado y nj es el numero de sujetos en conglomerado j global: , que para conglomerados de tamaño igual se simplifica a: donde J es el número de conglomerados. Varianza para conglomerados de tamaño igual: donde

Efecto de diseño (Design Effect)
Muestreo por conglomerado aumenta la varianza, relativo a un diseño SRS. Efecto de diseño:

Muestreo probabilidad proporcional al tamaño (PPT) (Probabilidad Proportional to Size, PPS)