La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

1 Módulo 4: Imputando ausencias Carlos López Vázquez

Presentaciones similares


Presentación del tema: "1 Módulo 4: Imputando ausencias Carlos López Vázquez"— Transcripción de la presentación:

1 1 Módulo 4: Imputando ausencias Carlos López Vázquez

2 2 Plan 4 Introducción 4 Revisión de herramientas estadísticas 4 Detectando problemas 4 Imputando valores ausentes 4 Ejemplos

3 3 Recordemos: ¿Porqué imputar? n Detectado un error… n Modelos que no toleran ausencias n Bajar costo al medir menos n Típicamente métodos de Interpolación ä Medidas escasas, de alta exactitud n Actualmente más y más Aproximación ä Más automatismo, menos control humano ä Medidas abundantes, de menor exactitud

4 4 Enfoque es función del dato… n Datos puramente espaciales ä Caso más familiar para la audiencia ä Métodos de Interpolación: –TIN, Splines, Kriging, Cressman, etc. ä Ej.: MDE, tipo de suelo, etc. n Datos espacio-temporales ä Correlación espacial + temporal ä Ciencias de la Tierra, pero no Agrimensura ä Ej.: Meteorológicos, uso el suelo, etc. n Formulación sensiblemente específica

5 5 Datos puramente espaciales n En la gran mayoría son Métodos lineales n Coeficientes son función de punto n Toleran ausencias n A veces son lineales pero complicados ä Cokriging n Hay también métodos no lineales ä Redes neuronales ä Ecuaciones constitutivas (EDP)

6 6 Datos espacio-temporales n Típicamente equi-muestreados en el tiempo n Problema no resuelto: covarianza cruzada tiempo-espacio n Muy usual en las Ciencias de la Tierra ä Ej.: Meteorología, Hidrología, etc. n Habitual en las aplicaciones GIS ä Ej.: Tráfico/Tránsito, uso del suelo (!) n Poco o mal manejado en GIS comerciales

7 7 Muchos métodos…

8 8 Procedimiento sugerido… n Repita un número grande de veces ä Generar ausencias al azar ä Imputar con método1, método2, etc. ä Calcular estadísticos de ajuste (distancias) n Comparar estadísticos, y luego elija… n Ventajas: ä Tiene base estadística ä Lo puede hacer el productor o el usuario ä ¡No requiere ir al campo a medir! n ¿Y las desventajas?

9 9 Desventajas o problemas… n No todos los métodos están en los GIS n ¿Cómo generar ausencias? ä Al azar (MCAR) ä En rachas (usual en datos meteorológicos) n Hay que caracterizar primero SUS ausencias n Otro tema: los estadísticos de éxito ä Datos cuantitativos ä Datos categóricos ä Considerar o no el impacto en el modelo n Un detalle más: el tiempo de cálculo

10 10 ¿Cómo generar ausencias? n Es más fácil que generar errores n Hipótesis inicial: MCAR ä Test descrito en Little (1988) n En la práctica también había rachas ä Rotura de instrumento ä Pérdida de documento original en papel n Quizá parezca excesivo detalle, pero…

11 11 Estadísticos de éxito n Métricas usuales: ä RMSE: Da mucho peso a errores groseros ä MAD (Promedio): ídem RMSE ä Percentiles: quizá más apropiado n Asumiendo que existe un dato verdadero existe un Método Óptimo que lo asigna n No existe en cambio un Peor Método ä Podría usarse un Naive como referencia

12 12 Más sobre Estadísticos n Podría considerarse el modelo ä Errores sistemáticos pueden ser peores que errores groseros ä Groseros son detectables; sistemáticos no ä Ej.: errores en una factura: –Sesgados: ¡el cliente se queja dependiendo del signo! n Otro problema: RMSE vs. Exactitud original ä Ej.: RMSE lluvia ~7 mm/día; Exactitud 5 mm/día, pero ¡¡precisión 0.1 mm/día!!

13 13 Vamos ahora otra vez con los Ejemplos…

14 14 Caso del Viento horario Problema: n Completar un banco de datos de viento de superficie horario n Comparar diferentes métodos, en dos diferentes casos: é Ausencias al azar é Ausencias planificadas Fuente: Proyecto CONICYT/BID 51/94 (1999)

15 15 Diseño de la metodología n Seleccionar un banco apropiado, lo más completo posible n Ocultar temporalmente los valores a ser imputados (elegidos al azar o no) n Para cada método é imputar todos los valores ausentes é calcular RMSE y MAD de las discrepancias entre el valor real y el imputado

16 16 El banco de datos n Cinco estaciones meteorológicas, separadas no más de 400 km, en terreno suave n Aproximadamente 25 meses de registros horarios

17 17 Descripción de los métodos n Interpolación Óptima (equivalente a Krigeado Ordinario) n Métodos basados en el Análisis de Componentes Principales: ä T emporal I nterpolation of P rincipal S cores (TIPS) ä P enalty O f the P rincipal S cores (POPS)

18 18 Decorrelación espacio-temporal Scores 1 & 2 Scores 9 & 10 Tiene que ver con el ciclo diurno

19 19 Resultados preliminares obtenidos a) Ausencias sistemáticas n Se asumieron tres lecturas diarias (8, 14 y 21 hs.), en cuatro de cinco estaciones n Con TIPS se logra un RMSE de 2.05 m/s n Con POPS se logra RMSE de 2.84 m/s n La Interpolación Óptima produce 2.84 m/s n Asignando simplemente la media histórica el RMSE es de 3.24 m/s

20 20 Resultados preliminares obtenidos b) Ausencias al azar n Se ocultó aleatoriamente un 20% de los datos, criterio MCAR n Con TIPS se logra un RMSE de 1.67 m/s n Con POPS se logra RMSE de 2.33 m/s n La Interpolación Óptima produce 2.37 m/s n Asignando la media histórica el RMSE es de 2.76 m/s

21 21 Conclusiones n El uso de la información temporal da resultados más precisos, sugiriendo un muestreo excesivo para esta zona n Los resultados deben ser corroborados en ensayos más extensos, para darle validez estadística n Otros métodos deben ser incluídos en la comparación Ver informe final de 1999

22 22 Caso de la lluvia diaria n Nuevamente, un problema tabular n 10 estaciones, registros diarios (mm/día) n Correlación espacial pero no temporal ä TIPS falla miserablemente n Problema difícil ä RMSE del Mejor vs. Peor método evaluado difieren en 30% n Mejor RMSE: 7 mm/día; según los expertos, la Exactitud~5 mm/día (¡!)

23 23 Sugerencias para lectura… n Informe CONICYT/BID 51/94 (1999) ä Análisis comparativo de ~30 métodos –Imputación –Detección de outliers ä Lluvia, viento, evapotranspiración y serie de caudales ä Descripción de métodos, referencias, etc. ä Paradójicamente no orientado a meteorología ä Único estudio sistemático conocido

24 24 Módulo 4: Imputando ausencias Carlos López Vázquez


Descargar ppt "1 Módulo 4: Imputando ausencias Carlos López Vázquez"

Presentaciones similares


Anuncios Google