La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Impact Evaluation 4 Peace

Presentaciones similares


Presentación del tema: "Impact Evaluation 4 Peace"— Transcripción de la presentación:

1 Impact Evaluation 4 Peace
Muestreo para evaluación de impacto… en la practica Latin America and the Caribbean’s Citizen Security Team Vincenzo Di Maro Banco Mundial 25 de marzo de 2014 Impact Evaluation 4 Peace 24-27 March 2014, Lisbon, Portugal

2 Índice Efecto mínimo detectable Potencia estadística
1. Componentes para determinar el tamaño de la muestra Efecto mínimo detectable Potencia estadística Variabilidad de los resultados Muestreo por conglomerados (clustering) 2. Complicaciones Múltiples grupos de tratamiento Estratificación 3. Problemas Adicionales Adopción del programa Calidad de los datos Sample size: Will spend bulk of the presentation on this topic b/c this is one of the most important things to consider when planning an IE. In particular: (a) why it is so important to think about this and (b) how do we determine what is an appropriate sample size.

3 Determinar el tamaño de la muestra
Piensa en el tamaño de la muestra como la precisión de un “dispositivo de medición”. Entre más observaciones, más preciso será tu “dispositivo de medición”. Mayor precisión significa que estás seguro de las conclusiones de tu evaluación Ejemplo: ¿Cuál es la frase de abajo si sólo puedes ver dos letras? El número de letras reveladas es análogo al número de observaciones Donde cada letra, por ejemplo, cuesta 100,000 dólares Tu presupuesto es de US $ 1.3 millones. Si usas todo tu presupuesto, podrás revelar todas las letras Si tu predicción es incorrecta, perderás toda la inversión  a a e You do not want to spend all your budget purchasing the letters, but you want to make sure that if/when you guess, you guess right: you want to have some confidence when you guess. So you want enough information

4 Determinar el tamaño de la muestra
Si incrementas el número de “observaciones” (en este caso letras)  a m  o e a u i  ó  i Más observaciones Más precisión Más confianza

5 Muestreo para evaluación de impacto
En evaluación de impacto: el objetivo es tener una muestra suficientemente grande para estimar el impacto con validez estadística. Los conceptos estadísticos son similares (al muestreo en general), pero existen algunas consideraciones específicas para la evaluación de impacto. En general, el tamaño de la muestra requerido para estimar un impacto es mayor al que se requiere para estimar promedios.

6 Componentes para determinar el tamaño de la muestra en IE
Lo siguiente aplica a experimentos (asignación aleatoria) Efecto mínimo detectable Potencia estadística Varianza de los resultados Muestreo por conglomerados (clustering)

7 Efecto mínimo detectable Detectar pequeñas diferencias es más difícil
¿Quién es más alto? Cuanto más grande sea la muestra, más preciso será el dispositivo de medición es más fácil detectar efectos más pequeños Muestra más grande ≈ mayor precisión (del dispositivo de medición) An intuitive way to explain why it’s harder to distinguish between groups that are very similar: Who is taller? Very easy to tell things apart when the difference is large.

8 Efecto mínimo detectable ¿Cómo elegimos?
¿Cómo elegir el tamaño del efecto mínimo deseado? Efecto mínimo para un cambio de política Efecto mínimo para concluir que la intervención no fue un fracaso Este programa aumentó las ventas en 40% y este efecto es significativo desde el punto de vista estadístico ¡Muy bien! Vamos a pensar en cómo expandir el programa Este programa aumentó las ventas en 10% y el efecto es significativo desde el punto de vista estadístico ¡Muy bien ! .... ¡Uy! espera un minuto, ¿gastamos todo este dinero y las ventas sólo aumentaron 10%?

9 Potencia estadística (poder estadístico)
Error tipo 2: Se concluye que un programa no ha tenido impacto cuando realmente tuvo un impacto Relacionado al error tipo 1: Concluir que un programa ha tenido un impacto a pesar de que el programa no ha tenido impacto en realidad (típicamente 1% ó 5%) En la práctica: Los niveles más habituales de potencia son 80% o 90% Es decir, 20% o 10% es la probabilidad de que no seamos capaces de detectar un impacto cuando este impacto realmente existe Muestra más grande Mayor potencia

10 Varianza de los indicadores del resultado
¿Cómo afecta la variabilidad de un indicador de resultado nuestra habilidad para detectar un impacto? Ejemplo: ¿Qué patos son más grandes? ¿Cuántas observaciones en cada círculo se necesitan para responder?

11 Varianza de los indicadores del resultado
La comparación es más complicada; es decir, necesitamos más información (una muestra más grande) La respuesta puede depender de qué animal escojas en el círculo azul o el círculo rojo

12 Varianza de los indicadores del resultado
En resumen: Más varianza (heterogeneidad) Más difícil detectar diferencias Necesitamos una muestra más grande Complicación: ¿Cómo podemos saber sobre la variabilidad antes de decidir el tamaño de la muestra y recolectar los datos? Ideal: Datos pre-existentes ... pero a menudo inexistentes Puede utilizar los datos ya existentes de una población similar Sentido común

13 Muestreo por conglomerados (clusters)
En muchos casos prácticos, la aleatorización se realiza a nivel de los conglomerados (escuelas o centros de salud). El problema radica en que las unidades dentro del mismo cluster suelen ser similares: Unidad adicional (estudiante) de un cluster diferente (la escuela) te da más información. Unidad adicional (estudiante) en el mismo cluster le dará menos información. Conclusión: Cuando la correlación es muy alta dentro del cluster, se necesita una muestra más grande (porque se necesitan más clusters).

14 Otras consideraciones
Múltiples grupos de tratamiento Estratificación Adopción del programa Calidad de los Datos Four further issues that affect sample size.

15 Otras consideraciones
Múltiples grupos de tratamiento Cada grupo de tratamiento se compara al grupo de control Comparar grupos de tratamiento requiere muestras muy grandes Especialmente si los tratamientos son similares, las diferencias en el impacto esperado entre los grupos de tratamiento serán probablemente pequeñas. Resultados desagregados por grupos ¿Los efectos son diferentes para hombres y mujeres? ¿Qué tal para diferentes industrias? Si se espera que el género/ industrias reaccionen de una manera similar (similar impacto), entonces estimar las diferencias en el efecto del tratamiento también requiere muestras más grandes In both of these cases, you may need very large sample sizes. It all depends on what you want to learn.

16 Otras consideraciones
Estratificación para obtener balance Para asegurar el balance entre los grupos de tratamiento y de control, es deseable estratificar la muestra antes de la asignación al grupo de tratamiento Estratos Sub-poblaciones Estratos comunes: ubicación, género, industria, los valores de base (iniciales) de los resultados de interés La asignación al grupo de tratamiento (o muestra) se lleva a cabo dentro de estos grupos If you are interested in learning if there are group differences, you should consider strata unless you have very large samples.

17 ¿Por qué necesitamos estratificar?
Ejemplo de estratos con base en la región = T = C Say this circular shape represents the total área where the project is being implemented. Notice how the treatment group is not evenly distributed across regions. This could happen even with random assignment…especially if we are not working with terribly large samples.

18 ¿Por qué necesitamos estratificar?
¿Cuál es el impacto en una región en particular? Es difícil decir con confianza Say this circular shape represents the total área where the project is being implemented. Notice how the treatment group is not evenly distributed across regions. This could happen even with random assignment…especially if we are not working with terribly large samples.

19 ¿Por qué necesitamos estratificar?
Asignación aleatoria dentro de cada estrato (región) Dentro de cada región, ½ a el grupo de tratamiento y ½ al grupo de control. Lógica similar para género, industria, tamaño de la empresa, etc.

20 Otras consideraciones Adopción del programa
Una baja adopción del programa en el grupo de tratamiento aumenta el tamaño del efecto detectable mínimo. En la práctica, baja adopción del programa equivale una reducción en el tamaño de la muestra Sólo se podrá detectar un efecto si éste es realmente grande Ejemplo: Ofrecer subsidios a las PYMEs en forma de servicios de apoyo al desarrollo empresarial Ofrecer a 5,000 empresas Sólo 50 participantes Probablemente sólo se puede decir con seguridad que hay un efecto en las ventas si se convierten en parte de las empresas de la lista de Fortune 500!

21 Otras cuestiones Calidad de los datos
Datos de poca calidad en la práctica, incrementan el tamaño requerido de la muestra Muchas observaciones faltantes (necesitan remplazo) Aumento del error aleatorio. Un punto importante es tener un buen coordinador de campo supervisando la recolección de datos

22 Otras cuestiones Métodos no experimentales en la práctica
Todo esto aplicó a las evaluaciones experimentales (asignación aleatoria): En general, los métodos no experimentales requieren muestras más grandes. Por ejemplo, Diseño de Regresión Discontinua require muestras 3 o 4 veces más grandes) ¿Qué hacer en la práctica? Pregunta a los especialistas en muestreo Software: Optimal Design (complejo pero hay muchas opciones) Stata (más simple pero hay menos opciones)

23 Resumen final Muestra más grande Efecto pequeño Mayor variabilidad
Más precisión (potencia estadítica) Unidades en cada grupo son muy similares (Clustering) Adopción del programa y calidad de los datos Múltiples grupos de tratamiento y estratos


Descargar ppt "Impact Evaluation 4 Peace"

Presentaciones similares


Anuncios Google