La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

1 Módulo 3: Detectando errores Carlos López Vázquez

Presentaciones similares


Presentación del tema: "1 Módulo 3: Detectando errores Carlos López Vázquez"— Transcripción de la presentación:

1 1 Módulo 3: Detectando errores Carlos López Vázquez

2 2 Plan 4 Introducción 4 Revisión de herramientas estadísticas n Detectando problemas n Ejemplos

3 3 Imágenes SPOT, LANDSAT, etc.; MDE RASTER Geología, Uso de suelo VECTOR Límites administrativos TABULAR Datos meteorológicos Datos censales Guía telefónica Encuesta de hogares Números reales o enteros Categóricos Textual Mezcla de los anteriores Números reales o enteros Categóricos MDE como TIN Una posible categorización de datos

4 4 El cómo de la detección de outliers n Métodos tradicionales para el caso multivariado ä Distancia de Mahalanobis (x-x)/ (x-x) T C -1 (x-x) ¿Cómo hallar C y x? => Clásico, MCD, MVE, Hadi (1994), Rocke (1996), etc. ä Análisis de Componentes Principales ( PCA ) Hawkins, 1974; López, 1994a,b, 1996, 1997 ä Otros métodos...

5 5 Mahalanobis de vuelta… n Si d 2 (x)=(x-T) T C -1 (x-T)>d crit outlier n Depende de cómo se construyen C y T puede ser inapropiado si hay outliers (¡!) n Ej: Philips data

6 6 ¿Cómo hallar C y T? Robust is NOT High Breakdown Estimadores clásicos de media y varianza Estimadores robustos High Breakdown estimators

7 7 MCD (Rousseeuw et al., 1987) ……

8 8 FAST-MCD (Rousseeuw et al., 1999) n Mismo criterio, otro algoritmo n Más rápido, etc. n Maneja exact fit

9 9 Hadi (1992,1994) n Similar al MCD, pero no combinatorio n Más rápido que otros n Implementado en SAS y otros paquetes estadísticos

10 10 MVE (Rousseeuw et al., 1990) n C y T tal que hay ε datos fuera de cada elipse n C y T no son ahora función directa de un subconjunto de datos

11 11 Comentario… n Los anteriores son casos particulares de estimadores más generales ä Estimador-S ä Estimador-M n Veamos apenas una definición de cada uno de ellos

12 12 Estimador-S det(C) sea mínimo n ρ(d) función no decreciente n MVE: ρ pertenece al conjunto {0,1} n C=C(X) y T=T(X) tales que:

13 13 Estimador-M det( C ) sea mínimo n u 1 (d) y u 2 (d) ni negativas ni decrecientes si d>0 n C=C(X) y T=T(X) tales que:

14 14 Aplicación: Philips data

15 15 Recapitulando… n Estimadores basados en Mahalanobis n Difieren entre sí en la forma de estimar unos C y T apropiados n Dados C y T son simples de aplicar n Matemáticamente tratables n Para datos tabulares n Requieren datos sin ausencias quizá hay que imputar primero

16 16 Minor ACP (Hawkins 1974) nLnLos CP m ayores (i.e. con gran valor propio) tienen interpretación física nNnNormalmente se retienen, y los m enores se descartan nHnHawkins propone utilizar los s cores asociados a los últimos como detectores de errores nSnSon típicamente pequeños, e indican algo inusual cuando son grandes

17 17 Otras líneas: Conglomerados n Idea básica: ä Clasificar los datos en grupos ä Elegir puntos en los grupos pequeños como candidatos a outliers ä Calcular la distancia entre los puntos candidatos y los grupos no-candidatos ä Si los puntos candidato están lejos de todos los otros no candidatos, entonces se les declara outliers © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004

18 18 Detección en el contexto de regresión n Idea: ajustar con una función, analizar las discrepancias y separar las más groseras n Problema: los errores pueden enmascararse unos a otros n Problema: los errores pueden afectar significativamente la función de ajuste (Ejemplo: OLS) n Solución ==> High breakdown methods (LTS, LMS, etc.)

19 19 Efecto de errores en regresión (1) Reclamos por incendio en Bélgica

20 20 Efecto de errores en regresión (2) Caudal en un dos puntos de un mismo río

21 21 OLS (Gauss, 18XX?) n Minimiza la suma de cuadrados de residuos n Sensible a outliers en varias formas n Muy afectado por enmascaramiento n ¡Implementado everywhere! n En problemas tabulares tolera ausencias ä Requiere un OLS por cada combinación de ausencia/presencia puede ser pesado…

22 22 LMS (Rousseeuw 1984) n Minimiza la mediana de los residuos n Es como OLS si se descartara cierto 50% de la población n Es por lo tanto del tipo High Breakdown n Problema combinatorio ¡explota! n Existen alternativas no combinatorias (Hawkins 1993) n Igual que OLS: tolera ausencias

23 23 LTS (Rousseeuw 1984) nMnMinimiza la s uma ponderada de los residuos nPnPesos se eligen del conjunto {0.0,1.0} nEnEl total de casos 0.0 se especifica a priori nEnEs por lo tanto del tipo H igh Breakdown nPnProblema combinatorio ¡explota! nEnExisten alternativas no combinatorias (Hawkins 1993) nTnTambién tolera ausencias

24 24 Ejemplo: Rousseeuw et al., 1999 Resultaron ser estrellas gigantes Previamente no se distinguían

25 25 Datos raster: caso del MDE n Ampliamente estudiado en Agrimensura n Antes: pocos puntos, muy precisos ä Típicamente formato TIN ä Raster se calculaba a partir del TIN n Antes: fotogrametría aérea ä Típicamente curvas de nivel ä Raster se calculaba a partir de las curvas n El productor dispone de controles internos n También se detectan errores al comparar con la hidrografía, etc.

26 26 Situación presente n Surgen otros métodos de creación (satélite, GPS, LIDAR, etc.) n Muchos más puntos, algo menos precisos ä Imagen de satélite, etc. ä Se genera directamente el raster n ¡El usuario puede ahora ir al campo y controlar! n Detalle esencial: un pixel puede estar errado sin implicar al vecino n Amerita otros métodos de control…

27 27 Método de Hannah (1981) n MDE en formato raster n Establece límites en la pendiente y cambio de pendiente ä ¡Requiere especificarlos a priori! n Usa interpolante local n Fácilmente implementable en GIS n Poco impacto en la literatura; mencionado aquí por completness

28 28 Método de Felicísimo (1994) n Imputa interpolando con los vecinos n Cualquier interpolante sirve; propone polinomio de 2do. grado en (i,j) n Analiza la distribución de la diferencia del interpolado vs. el verdadero valor n Asume normalidad, y saca límites n Relativamente simple, implementable en SIG n Veremos un ejemplo más adelante

29 29 Método de López (1996, 2000)

30 30 Métodos mixtos n Usan indirectamente métodos de regresión para detectar los errores ä Uso de la verosimilitud ( likelihood ) ä Interpretación de los roles de las neuronas en redes neuronales artificiales

31 31 Función de Verosimilitud (López, 1997) n En un contexto de Kriging aparece el Variograma n Depende de: Tipo, Alcance a y Meseta S n Método de VCMV (Samper et al., 1987) ä Elegir a y S que maximicen la VCMV asumiendo que no dependen del tiempo… n ¿Cómo es el método de VCMV?

32 32 VCMV (Samper, 1987) n VCMV: Elijo a y S, y para cada fecha repito para los n puntos disponibles: ä Retiro el i-ésimo ä Interpolo mediante krigeado ä Conservo la discrepancia observada n Luego se calcula la Verosimilitud n Nuestro n era relativamente pequeño n En general el proceso requiere minimizar una función no lineal costosa…

33 33 Nuestro problema particular de VCMV n En realidad, nosotros no necesitábamos a y S … n Sólo interpolaríamos en los puntos dato n Para nuestros fines sólo necesitábamos una C y T obtenida de los datos experimentales ä No hubo necesidad de minimizar la función n Se asumió homogeneidad e isotropía n Se asumió también a y S constantes en el tiempo n Idea: dados a y S, la Verosimilitud pasa a ser función del tiempo; un número por día n Días con valores extremos ¡outliers!

34 34 Reflexión… n Casi nadie usa o referencia la Verosimilitud misma; sólo la maximiza n Algo parecido a los Mínimos Cuadrados ä ¿alguien se fija si los mínimos cuadrados son pequeños ? n Resultó ser uno de los mejores métodos en nuestros experimentos No por trillado el camino es conocido López (2005)

35 35 Métodos mixtos n Usan indirectamente métodos de regresión para detectar los errores ä Uso de la verosimilitud ( likelihood ) ä Interpretación de los roles de las neuronas en redes neuronales artificiales

36 36 Uso de redes neuronales Se reconocen dos líneas posibles n Línea 1: Clasificación ä Clasificar en forma no supervisada ä Clusters con pocos elementos outliers n Línea 2: Regresión ä Ajustar por MC y analizar discrepancias n Línea 2.5: Regresión+… ä Ídem 2, pero luego interpretar roles ä Unpublished work, by López

37 37 ANN para regresión petal width petal length sepal width sepal length v1v1 v2v2 v3v3 y Tomado de Benítez et al., 1997

38 38 ANN para regresión petal width petal length sepal width sepal length

39 39 Versión modificada ¡No participa! y z

40 40 Ventajas… n La Red se entrena como siempre para regresión/clasificación n Se inspeccionan los pesos; no hay que reentrenar n Los outliers no se decretan; ¡surgen! n Desventaja: los pesos pueden ser muy sensibles a los outliers masking n Fue testeado en el ejemplo (caso pequeño, de paper ) y con lluvia, etc. n ¡Fue el óptimo! n Es aún una teoría. Queda mucho por hacer…

41 41 Plan 4 Introducción 4 Revisión de herramientas estadísticas 4 Detectando problemas n Ejemplos

42 42 Ejemplos de detección de outliers n Comentaremos algunos casos n Tabular Cuantitativo: datos meteorológicos –Observados en una red de puntos fijos –Muchas medidas en el tiempo ä Viento horario –Fuerte correlación espacio-tiempo ä Lluvia diaria –En Uruguay, sólo correlación espacial n Tabular Categórico: Datos de un Censo n Raster: MDE

43 43 Datos tabulares: lluvia y viento n Usamos lluvia diaria y viento horario ä Lluvia tiene sólo correlación espacial ä Viento tiene espacio-temporal n Para el viento, 35% de los errores simulados aparecieron en el primer paso de depuración n Para lluvia, 81% de los errores simulados aparecieron en el primer paso de depuración

44 44 Datos tabulares: censo nacional n Sólo para datos categóricos puros n Pudimos remover 50% de los errores revisando un 10% del conjunto ä Cinco veces mejor que digitar de nuevo n Método general, automatizable, basado en ACP

45 45 Gráficamente… Desempeño del método de referencia Desempeño promedio del método de López Diferentes eventos del experimento analizados con el método de López

46 46 Datos raster: MDE (López 1997) n Buscamos algunos tipos de errores ä Salt and pepper ä Spike ä Pyramid n El método es aplicable para cualquier raster cuantitativo (imágenes, fotos, etc.) n En el artículo, 40% de los errores fueron encontrados con probabilidad > 88% n Podría ser una herramienta útil para productores y usuarios

47 47 Felicísimo vs. López Binary map of the errors located up to the 15 per cent effort with the method of Felicísimo, 1994 (left) and López, 1997 (right). Black areas are for the suggested locations up to the 3 per cent effort; gray ones are obtained after 15 per cent effort ¿?

48 48 Felicísimo vs. López Evolution of the accuracy (left1 & left2) and RMSE found of the cumulated errors (right1 & right2) up to a given effort vs. the effort, after removing the hypothesis of the perfect inspector. Plots are for the methods of Felicísimo (1994) (with the -o- symbol) and the modified method of López (1997) El método de López encuentra errores más grandes al principio El método de López mejora más rápido la exactitud Inaccesible al usuario final ¡Accesible al usuario final!

49 49 ¿En qué estábamos? ¿Para dónde íbamos?

50 50 Plan 4 Introducción 4 Revisión de herramientas estadísticas 4 Detectando problemas 4 Ejemplos

51 51 Otros casos n Si la Exactitud es muy afectada por outliers ¡detectar y remover outliers! n ¿Y después de los outliers? ¿Qué hacer con:? ä Errores sistemáticos ä Errores no groseros n Requieren otro tipo de enfoque n Ej.: PAI

52 52 Precision Accuracy Improvement n Hecho #1: se inventó el GIS n Hecho #2: se inventó el GPS n Mapas existentes + GIS Mapas digitales (OK) n Mapas digitales + GIS Más usuarios & usos n Mapas digitales + usuarios + usos + GPS ¡Sorpresa! n Mapas existentes quedan inutilizados para ciertos propósitos ä Ductos, desagües, etc. localizados con GPS ä Tráfico y tránsito n Exactitud requerida >> Exactitud suministrada

53 53 Precision Accuracy Improvement

54 54 Caso típico (OS GB) CA Access Map Follows old OS well MAGIC Follows new OS badly ! Fuente: Robin Waters

55 55 ¿Qué puede hacer el productor? n Alternativa 1: Dejar todo como está n Alternativa 2: Hacer todo de nuevo n Alternativa 3: Intentar arreglar PAI n Problema esencialmente vinculado al error planimétrico n Mapas existentes tienen un gran valor residual ä Actualizados (±…) ä Populares (muchas veces únicos…) ä Muchísimos atributos (¡cierto!) ä Son base para otros mapas derivados (¡muy cierto!)

56 56 PAI n Idea: corregir masivamente la planimetría n Ej.: OS GB; TIGER files USA n Problema internacional n Datos digitalizados… o no n Impactos ä del lado del productor ä del lado del usuario

57 57 del lado del productor… n Reingeniería de procesos n Probable actualización tecnológica n Alternativas: ä Tercerización / Trabajo propio ä Modificación / Nuevo relevamiento ä Incorporación de otras fuentes n ¿Financiación? n Plan de actualización ä Por dónde empezar ä Cronograma de entregas

58 58 del lado del usuario… n ¿Impacta/no impacta? ä ¿Sólo datos PAI-compatibles? ä ¿Datos generados internamente? n Análisis de riesgo: do nothing vs. arreglo n Si impacta alternativas: ä Esperar a que PAI termine ä Acompasar entregas con modificaciones internas n Ambas tienen pros y contras

59 59 Resumen: No matar al mensajero… n No puede des-inventarse el GPS n No puede des-inventarse el GIS n No pueden des-digitalizarse los mapas n Hay que entender los problemas n Hay que tomar decisiones apropiadas n Hay que aprender de otros ejemplos

60 60 ¿Estamos perdidos?

61 61 Plan 4 Introducción 4 Revisión de herramientas estadísticas 4 Detectando problemas 4 Imputando valores ausentes 4 Ejemplos

62 62 Recordemos: ¿Porqué imputar? n Detectado un error… n Modelos que no toleran ausencias n Bajar costo al medir menos n Típicamente métodos de Interpolación ä Medidas escasas, de alta exactitud n Actualmente más y más Aproximación ä Más automatismo, menos control humano ä Medidas abundantes, de menor exactitud

63 63 Enfoque es función del dato… n Datos puramente espaciales ä Caso más familiar para la audiencia ä Métodos de Interpolación: –TIN, Splines, Kriging, Cressman, etc. ä Ej.: MDE, tipo de suelo, etc. n Datos espacio-temporales ä Correlación espacial + temporal ä Ciencias de la Tierra, pero no Agrimensura ä Ej.: Meteorológicos, uso el suelo, etc. n Formulación sensiblemente específica

64 64 Datos puramente espaciales n En la gran mayoría son Métodos lineales n Coeficientes son función de punto n Toleran ausencias n A veces son lineales pero complicados ä Cokriging n Hay también métodos no lineales ä Redes neuronales ä Ecuaciones constitutivas (EDP)

65 65 Datos espacio-temporales n Típicamente equi-muestreados en el tiempo n Problema no resuelto: covarianza cruzada tiempo-espacio n Muy usual en las Ciencias de la Tierra ä Ej.: Meteorología, Hidrología, etc. n Habitual en las aplicaciones GIS ä Ej.: Tráfico/Tránsito, uso del suelo (!) n Poco o mal manejado en GIS comerciales

66 66 Muchos métodos…

67 67 Procedimiento sugerido… n Repita un número grande de veces ä Generar ausencias al azar ä Imputar con método1, método2, etc. ä Calcular estadísticos de ajuste (distancias) n Comparar estadísticos, y luego elija… n Ventajas: ä Tiene base estadística ä Lo puede hacer el productor o el usuario ä ¡No requiere ir al campo a medir! n ¿Y las desventajas?

68 68 Desventajas o problemas… n No todos los métodos están en los GIS n ¿Cómo generar ausencias? ä Al azar (MCAR) ä En rachas (usual en datos meteorológicos) n Hay que caracterizar primero SUS ausencias n Otro tema: los estadísticos de éxito ä Datos cuantitativos ä Datos categóricos ä Considerar o no el impacto en el modelo n Un detalle más: el tiempo de cálculo

69 69 ¿Cómo generar ausencias? n Es más fácil que generar errores n Hipótesis inicial: MCAR ä Test descrito en Little (1988) n En la práctica también había rachas ä Rotura de instrumento ä Pérdida de documento original en papel n Quizá parezca excesivo detalle, pero…

70 70 Estadísticos de éxito n Métricas usuales: ä RMSE: Da mucho peso a errores groseros ä MAD (Promedio): ídem RMSE ä Percentiles: quizá más apropiado n Asumiendo que existe un dato verdadero existe un Método Óptimo que lo asigna n No existe en cambio un Peor Método ä Podría usarse un Naive como referencia

71 71 Más sobre Estadísticos n Podría considerarse el modelo ä Errores sistemáticos pueden ser peores que errores groseros ä Groseros son detectables; sistemáticos no ä Ej.: errores en una factura: –Sesgados: ¡el cliente se queja dependiendo del signo! n Otro problema: RMSE vs. Exactitud original ä Ej.: RMSE lluvia ~7 mm/día; Exactitud 5 mm/día, pero ¡¡precisión 0.1 mm/día!!

72 72 Vamos ahora otra vez con los Ejemplos…

73 73 Caso del Viento horario Problema: n Completar un banco de datos de viento de superficie horario n Comparar diferentes métodos, en dos diferentes casos: é Ausencias al azar é Ausencias planificadas Fuente: Proyecto CONICYT/BID 51/94 (1999)

74 74 Diseño de la metodología n Seleccionar un banco apropiado, lo más completo posible n Ocultar temporalmente los valores a ser imputados (elegidos al azar o no) n Para cada método é imputar todos los valores ausentes é calcular RMSE y MAD de las discrepancias entre el valor real y el imputado

75 75 El banco de datos n Cinco estaciones meteorológicas, separadas no más de 400 km, en terreno suave n Aproximadamente 25 meses de registros horarios

76 76 Descripción de los métodos n Interpolación Óptima (equivalente a Krigeado Ordinario) n Métodos basados en el Análisis de Componentes Principales: ä T emporal I nterpolation of P rincipal S cores (TIPS) ä P enalty O f the P rincipal S cores (POPS)

77 77 Decorrelación espacio-temporal Scores 1 & 2 Scores 9 & 10 Tiene que ver con el ciclo diurno

78 78 Resultados preliminares obtenidos a) Ausencias sistemáticas n Se asumieron tres lecturas diarias (8, 14 y 21 hs.), en cuatro de cinco estaciones n Con TIPS se logra un RMSE de 2.05 m/s n Con POPS se logra RMSE de 2.84 m/s n La Interpolación Óptima produce 2.84 m/s n Asignando simplemente la media histórica el RMSE es de 3.24 m/s

79 79 Resultados preliminares obtenidos b) Ausencias al azar n Se ocultó aleatoriamente un 20% de los datos, criterio MCAR n Con TIPS se logra un RMSE de 1.67 m/s n Con POPS se logra RMSE de 2.33 m/s n La Interpolación Óptima produce 2.37 m/s n Asignando la media histórica el RMSE es de 2.76 m/s

80 80 Conclusiones n El uso de la información temporal da resultados más precisos, sugiriendo un muestreo excesivo para esta zona n Los resultados deben ser corroborados en ensayos más extensos, para darle validez estadística n Otros métodos deben ser incluídos en la comparación Ver informe final de 1999

81 81 Caso de la lluvia diaria n Nuevamente, un problema tabular n 10 estaciones, registros diarios (mm/día) n Correlación espacial pero no temporal ä TIPS falla miserablemente n Problema difícil ä RMSE del Mejor vs. Peor método evaluado difieren en 30% n Mejor RMSE: 7 mm/día; según los expertos, la Exactitud~5 mm/día (¡!)

82 82 Sugerencias para lectura… n Informe CONICYT/BID 51/94 (1999) ä Análisis comparativo de ~30 métodos –Imputación –Detección de outliers ä Lluvia, viento, evapotranspiración y serie de caudales ä Descripción de métodos, referencias, etc. ä Paradójicamente no orientado a meteorología ä Único estudio sistemático conocido

83 83 Módulo 3: Detectando errores Carlos López Vázquez


Descargar ppt "1 Módulo 3: Detectando errores Carlos López Vázquez"

Presentaciones similares


Anuncios Google