1 Módulo 4: Imputando ausencias Carlos López Vázquez

Slides:



Advertisements
Presentaciones similares
ESTIMACIÓN DE DENSIDAD
Advertisements

ESTADISTICA A ESTADISTICA A UNMSM - FQIQ
JUAN JOSÉ VENEGAS MORENO
Paso 1 Portada YO SOY EUROPEO Comisión Europea.
ESTUDIOS DE LINEA DE BASE Metodologías Participativas II Reunión Anual de la Red Latinpapa Cochabamba-Bolivia, 25 al 28 Febrero del 2009 Grupo de impacto.
Jacqueline Chávez Cuzcano
Complejidad Computacional
Vera Olivera, David Carlos Marín Rosales, Nicolae Harry
Sección 13 Programación de Obra
M. Dolores Frías-Navarro
EJEMPLO.
4. ANÁLISIS FACTORIAL Introducción Modelo factorial ortogonal
Metodología de la Investigación Social
Pruebas de Diseño Diplomado en Calidad en el Software NOTAS
REGRESION Y CORRELACION
ESTIMACIÓN DEL ESFUERZO EN EL DESARROLLO DE SOFTWARE
FRANCISCO MARÍN HERRADA
JUAN JOSÉ VENEGAS MORENO
MUESTREO (NAGA´s) BOLETÍN 5020
Descripción de los datos: medidas de ubicación
UNIDAD III: Semana No. 23 MARCO METODOLÓGICO
Unidad de competencia II Estadística descriptiva:
Capítulo 3 Descripción de datos, medidas de tendencia central
Departament destadísticoa Grup destadísticoa Computacional Introducción a la metodología bootstrap Jordi Ocaña Departament destadísticoa Secció Departamental.
Contraste de Hipótesis
CLIMA EN ESPAÑA: PASADO, PRESENTE Y FUTURO.
1 noviembre 2009 Grupo de Investigación Mercator. Laboratorio de Tecnologías de la Información Geográfica (IGN +UPM).España VI Jornadas técnicas de la.
Generación de Números Seudo-Aleatorios
¿Por qué usamos el Sistema de Localización Global (GPS)?
CIDEL 2010 MODELADO y SIMULACIÓN Campos Electromagnéticos
Módulo 4: Mejorando la Exactitud
Geodesia Física y Geofísica
AACS Correcto muestreo de suelos Ing. Agr. Pablo Marasas
Educación para todos con calidad global PROYECTO DE GRADO UNIDAD 2. PLANEACIÓN Y DISEÑO CONCEPTUAL DE LA INVESTIGACIÓN Valledupar Agosto del 2013 CARLOS.
Teórico 6 Hoy: Martes: Miércoles Jueves:
Proyecto Medidas Electrónicas II
Proyecto para Centros que trabajan una vez por semana.
1 Aguascalientes, Julio de 2005 MODALIDADES ALTERNATIVAS DE CENSOS DEMOGRÁFICOS: EL CASO BRASILEÑO.
Ecuaciones y Resolución de Ecuaciones Lineales
Investigación Algorítmica
Comité Nacional de Información Bogotá, Julio 21 de 2011 Consejo Nacional de Operación de Gas Natural 1 ESTADISTICAS NACIONALES DE OFERTA Y DEMANDA DE GAS.
Comité Nacional de Información Bogotá, Julio 27 de 2011 Consejo Nacional de Operación de Gas Natural 1 ESTADISTICAS NACIONALES DE OFERTA Y DEMANDA DE GAS.
Módulo 3: Detectando errores
Módulo 3: Detectando errores
GUIA CALIFICACIONES CIERRE SEGUNDO SEMESTRE DE 2009
Curso de Hidrología Caudales Máximos II
Escuela de Salud Pública
La transformada de Laplace
Investigación en acción
Tests de permutaciones y tests de aleatorización
Indicadores de Desempeño
TEMA III.
Información de lluvia a utilizar en SWMM 5.0
Metodología Investigación Científica
Solución de problema Herramientas aplicables
Recursos humanos y responsabilidad social corporativa
Estadística Administrativa II
Instrumentación Electrónica: Introducción
Rejilla de observaciones interpoladas de alta resolución en España para precipitación y temperatura: SpainHR Jesús Fernández.
Simulacion de sistemas dinamicos
Mapping the forest types and landcover of Puerto Rico. Comenzaremos a discutirlo el lunes.
HUERTA GONZÁLEZ TANIA GPO
Módulo 4: Mejorando la Exactitud Carlos López Vázquez
Métodos de calibración: regresión y correlación
Previsión de Ventas. Métodos no paramétricos Previsión de Ventas. Tema 2. 1 Antonio Montañés Bernal Curso
Anuncios Examen parcial el lunes 15 de marzo Próximo tutorial 4-5.
Precisión de la clasificación
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
1 INTRODUCCIÓN AL DISEÑO Y EVALUACIÓN DE PROGRAMAS SOCIALES, EDUCATIVOS Y DE LA SALUD Tema 7. Diseños evaluativos de intervención media (cuasi-experimentos)
Carlos López and Elías Kaplan
Transcripción de la presentación:

1 Módulo 4: Imputando ausencias Carlos López Vázquez

2 Plan 4 Introducción 4 Revisión de herramientas estadísticas 4 Detectando problemas 4 Imputando valores ausentes 4 Ejemplos

3 Recordemos: ¿Porqué imputar? n Detectado un error… n Modelos que no toleran ausencias n Bajar costo al medir menos n Típicamente métodos de Interpolación ä Medidas escasas, de alta exactitud n Actualmente más y más Aproximación ä Más automatismo, menos control humano ä Medidas abundantes, de menor exactitud

4 Enfoque es función del dato… n Datos puramente espaciales ä Caso más familiar para la audiencia ä Métodos de Interpolación: –TIN, Splines, Kriging, Cressman, etc. ä Ej.: MDE, tipo de suelo, etc. n Datos espacio-temporales ä Correlación espacial + temporal ä Ciencias de la Tierra, pero no Agrimensura ä Ej.: Meteorológicos, uso el suelo, etc. n Formulación sensiblemente específica

5 Datos puramente espaciales n En la gran mayoría son Métodos lineales n Coeficientes son función de punto n Toleran ausencias n A veces son lineales pero complicados ä Cokriging n Hay también métodos no lineales ä Redes neuronales ä Ecuaciones constitutivas (EDP)

6 Datos espacio-temporales n Típicamente equi-muestreados en el tiempo n Problema no resuelto: covarianza cruzada tiempo-espacio n Muy usual en las Ciencias de la Tierra ä Ej.: Meteorología, Hidrología, etc. n Habitual en las aplicaciones GIS ä Ej.: Tráfico/Tránsito, uso del suelo (!) n Poco o mal manejado en GIS comerciales

7 Muchos métodos…

8 Procedimiento sugerido… n Repita un número grande de veces ä Generar ausencias al azar ä Imputar con método1, método2, etc. ä Calcular estadísticos de ajuste (distancias) n Comparar estadísticos, y luego elija… n Ventajas: ä Tiene base estadística ä Lo puede hacer el productor o el usuario ä ¡No requiere ir al campo a medir! n ¿Y las desventajas?

9 Desventajas o problemas… n No todos los métodos están en los GIS n ¿Cómo generar ausencias? ä Al azar (MCAR) ä En rachas (usual en datos meteorológicos) n Hay que caracterizar primero SUS ausencias n Otro tema: los estadísticos de éxito ä Datos cuantitativos ä Datos categóricos ä Considerar o no el impacto en el modelo n Un detalle más: el tiempo de cálculo

10 ¿Cómo generar ausencias? n Es más fácil que generar errores n Hipótesis inicial: MCAR ä Test descrito en Little (1988) n En la práctica también había rachas ä Rotura de instrumento ä Pérdida de documento original en papel n Quizá parezca excesivo detalle, pero…

11 Estadísticos de éxito n Métricas usuales: ä RMSE: Da mucho peso a errores groseros ä MAD (Promedio): ídem RMSE ä Percentiles: quizá más apropiado n Asumiendo que existe un dato verdadero existe un Método Óptimo que lo asigna n No existe en cambio un Peor Método ä Podría usarse un Naive como referencia

12 Más sobre Estadísticos n Podría considerarse el modelo ä Errores sistemáticos pueden ser peores que errores groseros ä Groseros son detectables; sistemáticos no ä Ej.: errores en una factura: –Sesgados: ¡el cliente se queja dependiendo del signo! n Otro problema: RMSE vs. Exactitud original ä Ej.: RMSE lluvia ~7 mm/día; Exactitud 5 mm/día, pero ¡¡precisión 0.1 mm/día!!

13 Vamos ahora otra vez con los Ejemplos…

14 Caso del Viento horario Problema: n Completar un banco de datos de viento de superficie horario n Comparar diferentes métodos, en dos diferentes casos: é Ausencias al azar é Ausencias planificadas Fuente: Proyecto CONICYT/BID 51/94 (1999)

15 Diseño de la metodología n Seleccionar un banco apropiado, lo más completo posible n Ocultar temporalmente los valores a ser imputados (elegidos al azar o no) n Para cada método é imputar todos los valores ausentes é calcular RMSE y MAD de las discrepancias entre el valor real y el imputado

16 El banco de datos n Cinco estaciones meteorológicas, separadas no más de 400 km, en terreno suave n Aproximadamente 25 meses de registros horarios

17 Descripción de los métodos n Interpolación Óptima (equivalente a Krigeado Ordinario) n Métodos basados en el Análisis de Componentes Principales: ä T emporal I nterpolation of P rincipal S cores (TIPS) ä P enalty O f the P rincipal S cores (POPS)

18 Decorrelación espacio-temporal Scores 1 & 2 Scores 9 & 10 Tiene que ver con el ciclo diurno

19 Resultados preliminares obtenidos a) Ausencias sistemáticas n Se asumieron tres lecturas diarias (8, 14 y 21 hs.), en cuatro de cinco estaciones n Con TIPS se logra un RMSE de 2.05 m/s n Con POPS se logra RMSE de 2.84 m/s n La Interpolación Óptima produce 2.84 m/s n Asignando simplemente la media histórica el RMSE es de 3.24 m/s

20 Resultados preliminares obtenidos b) Ausencias al azar n Se ocultó aleatoriamente un 20% de los datos, criterio MCAR n Con TIPS se logra un RMSE de 1.67 m/s n Con POPS se logra RMSE de 2.33 m/s n La Interpolación Óptima produce 2.37 m/s n Asignando la media histórica el RMSE es de 2.76 m/s

21 Conclusiones n El uso de la información temporal da resultados más precisos, sugiriendo un muestreo excesivo para esta zona n Los resultados deben ser corroborados en ensayos más extensos, para darle validez estadística n Otros métodos deben ser incluídos en la comparación Ver informe final de 1999

22 Caso de la lluvia diaria n Nuevamente, un problema tabular n 10 estaciones, registros diarios (mm/día) n Correlación espacial pero no temporal ä TIPS falla miserablemente n Problema difícil ä RMSE del Mejor vs. Peor método evaluado difieren en 30% n Mejor RMSE: 7 mm/día; según los expertos, la Exactitud~5 mm/día (¡!)

23 Sugerencias para lectura… n Informe CONICYT/BID 51/94 (1999) ä Análisis comparativo de ~30 métodos –Imputación –Detección de outliers ä Lluvia, viento, evapotranspiración y serie de caudales ä Descripción de métodos, referencias, etc. ä Paradójicamente no orientado a meteorología ä Único estudio sistemático conocido

24 Módulo 4: Imputando ausencias Carlos López Vázquez