La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,

Presentaciones similares


Presentación del tema: "Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,"— Transcripción de la presentación:

1 Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre, 2004 IIMAS Técnicas de Muestreo M. Patricia Romero

2 ÍNDICE 1. Origen de la No Respuesta 2. Métodos para tratarla: (en el Diseño, en el levantamiento y en el Procesamiento de la Información) 3. Implicaciones 4. Ejercicios 5. Bibliografía

3 1. ORIGEN DE LA NO RESPUESTA

4 La No-respuesta o falta de respuesta se ubica dentro de los errores ajenos al muestreo. Este tipo de errores se pueden presentar tanto en las encuestas por muestreo como en los censos (considerados como encuestas exhaustivas). El problema consiste en la existencia de cuestionarios para los que no ha sido posible recoger la información por diversos motivos, distinguiéndose entre las negativas a responder y las ausencias del hogar.

5 La No-respuesta o falta de respuesta puede referirse a la totalidad de un cuestionario o a ciertas preguntas (en este caso se habla de respuesta parcial) Contrario a los errores de muestreo, en los errores ajenos al muestreo no decrecen al aumentar el tamaño de muestra, al contrario, en general crecen. La falta de respuesta total suele medirse por el porcentaje de unidades muestrales elegibles que no respondieron, respecto al número de unidades elegibles de la muestra.

6 FACTORES QUE INFLUYEN EN LA FALTA DE RESPUESTA (Ejemplos) Organismo patrocinador de la encuesta Oportunidad de ejecución de la encuesta Índole de las preguntas Adiestramiento de entrevistadores Extensión del cuestionario (CARGA DE RESPUESTA) Interés de las preguntas

7 Falta de credibilidad en la promesa de confidencialidad Recelo a establecer contacto con extraños Falta de tiempo para cooperar El miedo a aparecer en archivos electrónicos públicos

8 ¿POR QUÉ YO Y NO MI VECINO? En la Encuesta Nacional por Muestreo en la India, se utiliza el principio de Propósitos Múltiples: que consiste en la investigación simultánea de varios temas pero con diferentes muestras de hogares para distintos cuestionarios a fin de reducir la carga de respuesta. Las tasas de negativas suelen ser mucho menores en los países en vías de desarrollo que en los desarrollados.

9 La falta de respuesta introduce sesgos cuando las unidades no respondientes difieren sustancialmente de las respondientes, por lo que la utilización de sustitutos no necesariamente elimina el sesgo. Un indicador del sesgo puede obtenerse al comparar los valores de la(s) variable(s) de interés correspondientes a unidades que responden al primer intento contra los que contestaron después de varios intentos.

10 La falta de respuesta es considerada a veces como el ÍNDICE MÁS VISIBLE DE LA CALIDAD DE LA ENCUESTA, con respecto a su recibimiento en la población, su oportunidad, capacitación y control de los entrevistadores, carga de respuesta y en general al control del proceso operativo. La entrega de incentivos a los respondientes puede ser eficaz.

11 Aunque existen variaciones en la tasa de respuesta, con respecto a la técnica de entrevista (cara a cara, por teléfono, por correo, etc.) y el perfil de los entrevistados, el rango identificado varía de 46% a 76%, y los que más responden suelen tener mayor nivel socioeconómico.

12 FLUJO DE DATOS DE UNA ENCUESTA POSIBLES ERRORES DE RESPUESTA (no detectables)

13 Supongamos que las unidades de población (N) pueden ser dividas en dos estratos: N 1 : Número de unidades que si responden N 2 : Número de unidades que no responden Entonces: N = N 1 + N 2 y W 1 =N 1 /N, W 2 =N 2 /N siendo W 2 la proporción de no-respuesta en la población. EFECTOS DE LA NO-RESPUESTA

14 Por lo que el sesgo que se obtiene al utilizar estimar a la media poblacional es: Al utilizar a de la población: Finalmente, si se utiliza a proporción de la población:

15 Como la muestra no provee información sobre el estrato de no respondientes, los tamaños de sesgos son desconocidos lo que dificulta el calcular intervalos de confianza para los estimadores de las características de interés. Sin embargo, para el caso de estimar proporciones el intervalo de confianza estará dado de la siguiente manera: Además, Birnbaum y Sirken muestran que un valor de n que garantiza un error menor que es:

16 2. TRATAMIENTOS EN EL DISEÑO

17 Técnica de Hansen y Hurwitz Esta técnica se utiliza principalmente para el diseño de encuestas por correo: 1.Se selecciona una muestra, a la cual se le envía el cuestionario 2.Se selecciona una submuestra de aquellas personas que no respondieron el cuestionario 3.A esta submuestra se aplicará el cuestionario de manera personal 4.Los datos obtenidos de las dos partes de la muestra son combinadas para obtener los estimadores de interés.

18 Asimismo esta técnica propone un tamaño de muestra de acuerdo a los costos en que se incurrirían al llevar a cabo una encuesta de ese tipo: donde: c 0 : costo de incluir una unidad muestral en la primera etapa. c 1 : costo de procesar la información obtenida c 2 : costo de obtener y procesar la información del grupo de no-respuesta

19 Modelo de Deming Deming en 1953 propuso un modelo que muestra cómo las visitas adicionales ayudan a disminuir el sesgo y propuso un modelo para determinar el número óptimo de visitas adicionales para tener una precisión dada. Suponga que la población puede ser divida en r grupos de acuerdo a la probabilidad de que la persona esté en casa.

20 Ahora se toma una muestra sin reemplazo de tamaño n 0. Después de i visitas, la muestra es dividida en (r+1) grupos. Sea n ij el número de unidades en la muestra que corresponden al grupo j y responden en o antes de la i-ésima visita. Así, el grupo (r+1) contendrá a todas las unidades que aún no han sido entrevistadas. De esta forma se puede ver que E[n i ] (número esperado de personas que han sido entrevistadas en el curso de i visitas) es:

21 Técnica de Politz & Simmons Con esta técnica se pretende evitar por completo las visitas adicionales mediante la recolección de las primeras visitas solamente, que a continuación se corrigen con información acerca de la probabilidad de encontrar al entrevistado. Se le pregunta en qué cantidad de k periodos similares habría estado disponible para entrevista; si la respuesta es r, se pondera la entrevista con (k+1)/(r+1). Por lo regular se utiliza k=5.

22 Por ejemplo, si el entrevistado dice que ha estado disponible en r=1 periodos similares, obtiene la ponderación 6/2. Así, de 600 sujetos, cada uno de los cuales tiene la probabilidad 1/3 de ser encontrado en su casa, se encontrará a 200; al dar la respuesta r=1 y obtener la ponderación 6/2, toman el lugar de los 400 que se han encontrado en sus casas.

23 EJERCICIO

24 Efectos de las Revisitas. Aplicación Se trabaja con una población dividida en tres clases (j). En la cual se encuesta a un adulto al azar. Clase (j)123 pj pj: proporción de la población que cae en la j-ésima clase A su vez la población se encuentra dividida en dos grupos, cuyas mj se muestran a continuación. media I media II j: es la media de la característica de para la j-ésima clase

25 NO VISITAS wij El número de entrevistas obtenidas en i-ésima visita se obtiene por medio de: n o Spjwij Donde n o es el tamaño inicial de la muestra. wij: es la probabilidad de que se encuentre un entrevistado de la j-ésima clase antes de k i- ésima visita. Es una probabilidad condicionada al del número de visitas =P(OE1a ò OE2a ó … óOEi-ésima)

26 # Requerido de visitas # Entrevistas obtenidas Costo promedio por entrevista 10.43no no no no no114 Como se puede apreciar en la tabla, el número de entrevistas obtenidas aumenta conforme aumenta el número de revistas lo cual permite obtener mejores estimaciones de los parámetros poblacionales. Por otro lado el costo promedio de la entrevista y el tiempo de obtención de la información aumentan, lo cual significa una fuerte restricción. Con el fin de observar los beneficios de las revisitas, se calculó el sesgo para la estimación de la y barra para las dos poblaciones. En ambos casos se aprecia un menor sesgo cuando aumentan las visitas a las unidades muestrales que no contestaron.

27 Media Verdadera Grupo 152 Grupo II54 NO VISITAS i Grupo I i Grupo II La media verdadera de la población para la característica esta dada por: mbara =Spimj Bajo el supuesto de las mj de los datos iniciales La media de la muestra obtenida después de i visitas, es también una esperanza condicional de yi barra dado el numero de visitas. E (y ibarra dado ni) = Swij pi mj / Swijpj = m ibarra

28 # VISITAS sesgo Isesgo II Los sesgos que se obtuvieron en ambos grupos son los siguientes. Una política que requiere tres visitas, por ejemplo reduce el sesgo de manera considerable. Pero la restricción monetaria, por la cual no es posible hacer un número elevado de revisitas; por lo tanto se desea encontrar el estimador con menor ECM dado el número inicial de la muestra (no) que determino el presupuesto disponible.

29 no=1000no=2000 # VISIT AS ECM IECM IIECM IECM II En la siguiente tabla se muestran los ECMde los estimadores con diferentes tamaños de muestras iniciales para cada uno de los grupos. Con no=1000 se obtiene el mejor estimador con 3 visitas, en el grupo 2 esto pasa con 4 visitas, pues mayores resisitas resultan innecesarias e incluso perjudiciales ya que aumenta el ECM

30 Con n o =2000 el número de visitas que necesarias para obtener la información que proporcione los estimados de menor ECM es 4 visitas en el grupo I y cinco en el grupo II La mayor virtud del modelo yace en su capacidad de establecer políticas económicas para buscar el número de revisitas para obtener información que proporciones los estimadores con mejor ECM para cualquier tipo de encuesta.

31 3. MÉTODOS EN EL LEVANTAMIENTO

32 Encuestas repetidas (callbacks) La no-respuesta se puede reducir mediante esfuerzos persistentes de los entrevistadores y motivando a los que no responden. Encuesta delegada (Proxy) Una técnica importante es elegir datos de una unidad alternativa. Por ejemplo las instrucciones de la encuesta pueden indicar que se puede encuestar, en el caso de que no sea posible hacerlo a la persona indicada, a cualquier otro miembro de la familia que tenga más de 20 años.

33 Rechazos-seguimiento Siempre que sea posible debe hacerse un seguimiento de los hogares que rechazan la encuesta. En la mayoría de los casos esto significará que un entrevistador experimentado habrá de efectuar una visita personal. Teléfono 1.Permite que se realice la entrevista en su momento sean cuales sean las condiciones climatológicas.

34 2. Está especialmente indicada para personas solas, familias pequeñas e inquilinos de apartamentos a los que suele ser difícil de localizar en casa y a los que se suele encontrar por la noche. 3. Permite realizar la entrevista de la manera que más convenga al entrevistado. 4. Da más oportunidades y tiempo para la reiteración de la encuesta.

35 Cuota En el muestreo por cuotas, se estratifica la población según unas variables que se espere estén muy relacionadas con la respuesta. Sustitución en el campo Hay dos tipos básicos de sustituciones a usar: a)Selección al azar Se selecciona probabilísticamente unidades adicionales a partir de una población restringida o subgrupo, bajo el supuesto de que sus características serán muy parecidas a las de las unidades que no responden.

36 Sin embargo, no elimina el sesgo debido a la no-respuesta inicial, sólo sustituye de manera insesgada una unidad por otra que falló en responder, pudiendo tener o no las mismas características. b)Selección de un sustituto específicamente designado. Identifica a una o más unidades que se encuentren próximas a las unidades que no responden, esto es debido a la tendencia de las unidades vecinas a tener características similares en comparación con unidades seleccionadas al azar.

37 Uso de incentivos Un incentivo puede ser menos costoso que una llamada adicional. La planificación de incentivo se basa en el coste de las llamadas o visitas adicionales que habrían de efectuarse en un esfuerzo por completar la entrevista.

38 Respuesta aleatorizada Este modelo debido a Warner permite eliminar o reducir los sesgos introducidos cuando en vez de negativas se obtienen contestaciones deliberadamente falsas. Se ha utilizado este método en encuestas con preguntas de carácter íntimo, por ejemplo: alcoholismo, drogadicción, aborto, conducta sexual, conductas de carácter delictivo, etc. Suponga un grupo A el cual está formado por personas con una característica inaceptable y estamos interesados en calcular la proporción A de personas que pertenecen a ese grupo.

39 El método de Warner indica que a cada persona entrevistada (de una m.a. de tamaño n seleccionada de la población), pro ejemplo, se le da una moneda marcada en un lado con A y el otro lado con B. Donde los lados indican: A: Pertenezco al grupo A B: No pertenezco al grupo A Además se sabe que: P(A)=p w y P(B)=1-p w

40 Al entrevistado se le pide que lance la moneda (el entrevistador no observa el resultado del lanzamiento) y que solamente diga sí o no pertenece al grupo que le indica la moneda (sin mencionar en qué lado cayó la moneda). Se asume que la persona respondió sinceramente. Ahora suponga que n 1 respondieron sí. Entonces un estimador insesgado de w, la probabilidad de una respuesta afirmativa está dada por:

41 Como p w es conocida, un estimador insesgado de A es: y la varianza del estimador será:

42 3. MÉTODOS PARA TRATARLA EN EL PROCESAMIENTO DE LA INFORMACIÓN

43 Levantamiento de Datos Depuración Previa Unidades que NO Responden No válidos Blancos o Entradas Inconsistentes Completo y Consistente Imputación Estimación Tabulación Unidades que Responden

44 MÉTODOS DE LLENADO (IMPUTACIÓN) La imputación es el proceso de asignar valores a datos faltantes para producir un conjunto de datos completos, ésto con la finalidad de reducir el sesgo debido a la No Respuesta. Existen diversos métodos y aquí se describen algunos: 1.Imputación Deductiva. Se usa cuando las respuestas que faltan se pueden deducir del resto de la información.

45 2. Fichero Caliente (Hot Deck). Generalmente es un procedimiento de duplicación. Cuando falta un valor, se duplica un valor ya existente en la muestra para reemplazarlo. 3. Fichero Caliente Modificado. Su esencia es la clasificación y empate de donantes potenciales y receptores utilizando muchas variables. El empate se hace sobre bases jerárquicas donde el nivel más bajo es aquel en el que se encuentra un donante.

46 4. Regresión. Se toman los datos en los que si hay respuesta. Esta Imputación, produce valores más cercanos al verdadero que otros métodos pero es costoso y lleva mucho tiempo realizarlo para todas las preguntas con datos faltantes. 5. Ponderación. Se inflan las ponderaciones mediante la inversa de la tasa de respuesta. En un área de balance b, una estimación del total de una característica viene dada por:

47 Si solo responden m b unidades entonces, la ponderación П i -1 es inflada por la inversa de la tasa de respuesta m b /n b o sea, n b /m b. 6. Duplicación. Duplica un número de unidades suficientes m b entre los que no responden y de esta forma alcanzar el nivel original de n b unidades. X i /П i i=1 nbnb

48 7. Sustitución. Se sustituye la no respuesta por datos históricos o por datos provenientes de una fuente externa.En lugar de áreas de balance, se usan clases de ponderación (características de las unidades últimas). 8. Tasa RAD (Ranking Ratio) Se usa como una forma de ajuste cuando las clases a ponderar se definen en términos de tablas de contingencia de ciertas características. Lo que se busca es hacer que las distribuciones marginales ponderadas se comporten igual en la población.

49 Edad de la Población Edad de la muestra 1 2 … kTotal 1 2 … k Total 1w11 w12…w1k w1. 1 q11 q12… q1k q1. 2 w21 w22…w2k w2. 2 q21 q22… q2k q2. w.1 w.2… w.k 1 q.1 q.2… q.k 1 Las ponderaciones marginales de la muestra, se igualan a las de la población mediante un proceso iterativo. El sesgo en este método depende de la proximidad de las distribuciones de las células entre dos poblaciones y de la diferencia en las medias entre los que responden y no responden en una célula.

50 IMPLICACIONES DE LA NO RESPUESTA

51 ETAPAS DE LA ENCUESTA. PLANEACIÓN ENTRENAMIENTO DE LOS ENCUESTADORES RECOLECCIÓN DE LOS DATOS ETAPA DE PROCESAMIENTO Y ESTIMACIÓN

52 PLANEACIÓN TRATAMIENTO 1.Tasas de no respuesta prevista a partir de la experiencia obtenida en encuestas similares respecto al método de recogida de datos. IMPLICACIONES 1.Se determinan diversas estrategias en la etapa de campo y procesamiento (encuestas repetidas, imputación, etc.).

53 TRATAMIENTO 2. Se incrementa la muestra para permitir la no- respuesta (sobre muestreo). 3. Estudios piloto para contrastar el cuestionario y los trabajos de campo. IMPLICACIONES 2. La varianza muestral se comportará como se esperaba; sin embargo sigue habiendo sesgo debido a la no-respuesta. 3. Se intenta reducir el error en las respuestas así como las no-respuestas a una pregunta.

54 ENTRENAMIENTO DE LOS ENCUESTADORES TRATAMIENTO 1. Prueba de aptitud, guión de la encuesta, asignación agrupada que les permite encuestas repetidas. IMPLICACIONES 1.Los entrevistadores experimentados podrán minimizar la no- respuesta y por tanto el sesgo sobre todo encuestas continuas. En encuestas ad hoc poco puede uno hacer excepto visitas repetidas que aumentan los costos por unidad seleccionada.

55 RECOLECCIÓN DE DATOS TRATAMIENTO 1.Intentos de encuestas repetidas hasta que se obtienen las máximas respuestas posibles; intentos de evitar los rechazos por medio de diplomacia y medios de comunicación. IMPLICACIONES 1.Más encuestas repetidas incrementan el costo por unidad, especialmente si no se puede determinar el momento propicio a través de los vecinos; al reducir el nivel de no-respuesta se reduce la varianza muestral y el sesgo debido a la no- respuesta.

56 TRATAMIENTO 2. Sustitución por otras unidades de campo no seleccionadas originalmente. IMPLICACIONES 2. Reducen la varianza muestral pero pueden existir sesgos muestrales y de no- respuesta. 3. Sustitución por otras unidades de un grupo de unidades reservadas (incremento de la muestra para compensar la no- respuesta). 3.Reduce la varianza muestral y el sesgo no muestral pero puede seguir habiendo sesgo debido a la no- respuesta.

57 IMPLICACIONES 4. Se incrementa el costo debido al esfuerzo extra que se requiere y se reduce el sesgo de no- respuesta aunque no se elimina por completo. 5. Se reduce la varianza muestral, posibles subestimaciones de los totales a menos que se ajusten las ponderaciones en la fase de procesamiento. TRATAMIENTO 4. Submuestreo entre los que no responden. 5. Se ignora la no- respuesta en el campo

58 ETAPA DE PROCESAMIENTO Y ESTIMACIÓN TRATAMIENTO 1.Imputación de la no-respuesta. 2.Formación de las células de ajuste. IMPLICACIONES 1.Reducción del error de no-respuesta, no su eliminación mediante un método apropiado de imputación. 2.Reducción en la varianza muestral a través de un estimador de la razón o usando fuentes de datos independientes para la imputación.

59 TRATAMIENTO 3.Ajuste de ponderaciones o sustitución explicita de los datos que falten IMPLICACIONES 3.Incremento ligero en el coste del proceso debido a un procesamiento posiblemente complejo para tratar los datos que faltan.

60 TRATAMIENTOIMPLICACIONES 4.Dificultades en el análisis de los datos de una encuesta compleja más allá de lo que proviene de la muestra SRS, debido a datos que faltan y a las imputaciones realizadas por ellos. 5.Dificultad de avisar a los usuarios si hay datos faltantes cuando éstos son analizados.

61 BILIOGRAFÍA

62 Libros 1.Cochran, W.G.(1979). Sampling Techniques. Third Edition. John Wiley & Sons, N.Y. 2.Sukhatme, P.V., Sukhatme, B.V. Asok,C.(1984). Sampling Theory of surveys with applications. Iowa State Univ. Press. 3.Leslie Kish. Muestreo de Encuestas. Edit. Trillas, ª reimpresión.

63 Páginas Web Metodología y tratamiento de la No Respuesta. Seminario Internacional de Estadística Euskadi, España.www.eustat.es/prodserv/datos/vol0010.pdf Curso básico intensivo de Muestreo. José Luis Sánchez Crespo.(Universidad Autónoma de Madrid), 1985.


Descargar ppt "Verónica De Jesús Romo Enrique Gómez Bernal Claudia Irene Larracilla Camacho Martha Patricia Ordóñez Reyes Marcos Sebastián Pineda Espinosa Diciembre,"

Presentaciones similares


Anuncios Google