La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Módulo 4: Mejorando la Exactitud Carlos López Vázquez

Presentaciones similares


Presentación del tema: "Módulo 4: Mejorando la Exactitud Carlos López Vázquez"— Transcripción de la presentación:

1 Módulo 4: Mejorando la Exactitud Carlos López Vázquez

2 Plan n Introducción n Revisión de herramientas estadísticas n Detectando problemas n Imputando valores ausentes n Ejemplos

3 Condicionantes… Éxito depende de: ä Disponibilidad de Datos ä Disponibilidad de Modelos ä Sensibilidad de los Modelos ä Capacitación de técnicos ä Calidad de Datos ä Otros

4 Disponibilidad de Datos n ¡Siempre limitada! ä Atributos ä Resolución espacial ä Vigencia ä Niveles de Error ä Otros… ($, inexistencia) n Normalmente ¡condicionan al modelo!

5 Disponibilidad de Modelos n Modelo no es lo mismo que Realidad n Siempre imperfectos ä Quizá importados de USA, etc. ä Suelen faltar datos –Datos sustitutivos (más otros modelos…) ä Poco plazo, poco presupuesto… n Usualmente no validados n Códigos complejos (CPU, disco, etc.)

6 Datos de entrada Modelo Ruido Xo X=Xo+ x f(X) >>f(Xo) f(Xo) f(Xo) <

7 Sensibilidad del Modelo (2) n Es específica al conjunto {Modelo,Datos} n Un problema en sí mismo ä ¿Qué tipo de errores? ¿Cuántos?¿Dónde? ä Enfoque Determinístico ä Enfoque Estocástico n Ejs.: Viewshed area (Fisher) n Ejs.: Goodchild para líneas

8 Capacitación de los técnicos Idealmente deberían: n Conocer del problema físico n Conocer de los datos (propios y ajenos!) n Conocer los modelos n Capaces de criticar resultados

9 Condicionantes… Éxito depende de: 4 Disponibilidad de Datos 4 Disponibilidad de Modelos 4 Sensibilidad de los Modelos 4 Capacitación de técnicos ä Calidad de Datos ä Otros

10 Calidad de Datos n Completitud n Exactitud n Vigencia n Linaje Si no son apropiados: n Buscar fuentes alternativas n Arremangarse… ä Mejorar Exactitud ä Cambiar de Modelo

11 Dos actores… n Usuario: ä Tomador de Datos ä Sufridor de Consecuencias ä +productos, con -fondos n Productor: ä Receptor de Críticas ä Usualmente monopólico ä +productos, con –fondos

12 Dos actores… (versión optimista) n Usuario: ä Especifica requerimientos ä Preocupado por la Exactitud ä No tiene acceso fluido a la verdad ä Llevará la Culpa… n Productor: ä Observa estándares ä Preocupado por la Exactitud ä La verdad existe, pero es más cara ä Llevará la Culpa…

13 Una jerarquía de necesidades… Error source identification Error detection & measurement Error reduction Error propagation Error managementError reduction Citado en: López (1997)

14 Del lado del usuario… nCnConocimiento insuficiente de las relaciones cuantitativas nCnCarencia de datos apropiados e independientes para validar nCnConocimiento insuficiente de la sensibilidad del modelo n¿n¿Dónde están los outliers que importan? n¿n¿Cómo imputar los valores ausentes? ¿Problema para algún PhD? Fuera de discusión ($, plazo de entrega, etc.)

15 El proceso requeriría… n Evaluar la sensibilidad del modelo n Localizar errores groseros (outliers) n Asignar valores apropiados para los outliers y/o los faltantes

16 Diagrama de decisión N Para cada dato de entrada S N Imputar valores faltantes Medir sensibilidad del modelo ¿Modelo admite ausencias? Localizar errores groseros ¿Sensible? ¿Exactitud admisible? S N S

17 Análisis de Sensibilidad n No pueden analizarse todos los modelos n Ejemplos: ä Modelo hidrológico de una cuenca –Inputs: lluvia diaria, caudal en ríos, uso del terreno, geología, etc. –Outputs: caudal en ríos, niveles en las presas ä Modelo de contaminación de aire –Inputs: inventario de emisores, viento de superficie, MDE, etc. –Outputs: mapas de niveles de inmisión

18 ¿Sensibilidad…?¿Cómo? n Propagación analítica ä Taylor ä Aritmética de Intervalos n Monte Carlo Temas: n ¿Generación de errores? ä Tamaño, localización, correlación… n ¿Generación de outliers? ä ¿PDF?, ¿modelo del error?

19 Expansión de Taylor n Nos restringimos a modelos que son función del punto x ( para facilitar, think raster) ä Excluímos buffers, ventanas, topologías, etc. n Si el modelo puede ponerse como U=g(A 1,A 2,…,A n ) siendo A i atributo cuantitativo sujeto a error n Se conocen y var(A i ); también var(A i,A j ) n Si g(.) es lineal, entonces es fácil Fuente: Burrough & McDonnell (1998)

20 Propagación en el Caso lineal Si y los A i no están correlacionados, entonces y Si hay correlación, entonces

21 Caso más general n Linealiza la función g(.) n Taylor al primer orden n ¡Equivale a una función g lineal! caso conocido n Algunos autores llegan hasta segundo orden n O dicen que llegan…

22 Pros y Contras n Ventajas: ä Es una fórmula analítica ä Eficaz en términos de CPU ä Maneja correlación espacial n Problemas: se trata de una aproximación ä ¿Será buena? ¿mala? ä ¿De dónde saco las derivadas parciales? ä Es fácil si hay normalidad N(0, ) –En algunos casos el error no tiene media cero ä ¿Cómo estimar la correlación espacial del error?

23 Cálculo de derivadas parciales n A mano, cualquiera podría ä Sólo modelos chicos, relativamente simples n Soluciones de hoy ä Álgebra simbólica (Maple, Derive, etc.) ä Procesadores de Código fuente –ADOL-C/ADOL-F –Tapenade ä Sobrecarga de operadores –Matlab+ADMAT –C++, F90, etc.

24 Eso no es todo… n En general, los errores son función de punto y no constantes espaciales ä Ej.: interpolación n Eso afecta a la estimación de δA i n El procedimiento estándar es Kriging ä ¡Pero Kriging no genera outliers! n ¿Cómo generar errores groseros? ä Yet to be solved…

25 Aritmética de Intervalos n También analítico n Equivalente a un peor caso n Notación: Si a i A i A i [A i ]=[a i, A i ] n Ej.: ä Suma: S=A i +B i ; [S]=[a i +b i, A i +B i ] ä Producto: P=A i *B i ; [P]=[min(a i b i, a i B i, A i b i,A i B i ),max(ídem)] n Automatizable ä C++, F90, etc. Fuente: B. Schneider

26 Pros y Contras n Cotas exactas y estrictas ä Quizá inalcanzables… ä Estricto es quizá requerido en algunos casos n Eficaz en tiempo de CPU n No requiere normalidad (ignora PDF) n No require diferenciabilidad n Problemas: ä No provee PDF del intervalo ä No maneja correlación espacial

27 Método de Monte Carlo n Monte Carlo azar (!) n Enfoque estadístico, no determinístico n Idea: repita para k=1,N Generar realizaciones A i, i=1,m Calcule y guarde U k =g(A i ) n Luego procese los U k generados, calculando media, varianza, etc. n La gracia es que var(U k )~1/sqrt(N)

28 Detalles… n ¿Cómo generar realizaciones ? ä Asumir independencia espacial –Normal, media μ y varianza –demasiado fácil… y no realista ä Modelar correlación espacial –No es simple; normalmente ¡hay que adivinarla! n Error reportado como RMS, percentil 90, etc. n Nada de localización espacial –Krigeado: simulación condicional n Nada de esto es trivial…

29 Más detalles… n Método de MC es CPU intensive ä Hoy día hay CPU… y antes no ä La CPU no es el mayor problema n La función g(.) no se aproxima; se la usa directamente n La distribución de U k se estima mejor n MC puede mejorarse con bootstrapping

30 El proceso requeriría… 4 Evaluar la sensibilidad del modelo n Localizar errores groseros (outliers) n Asignar valores apropiados para los outliers y/o los faltantes

31 ¿Qué es un outlier? n Hay varias definiciones algo ambiguas n Un outlier es un valor que produce resultados inusuales (de baja probabilidad) al aplicarle cierto modelo conceptual ä Ej.: test de normalidad n Suele traducirse como dato aberrante n No requiere la existencia de un valor verdadero

32 ¿Detección automática de Outliers? n La Historia del agujero de Ozono n En 1985 Farman, Gardinar y Shanklin estaban confundidos al analizar registros tomados por la misión Británica en la Antártida mostrando que los niveles de ozono habían bajado 10% n ¿Porqué el satélite Nimbus 7, equipado con instrumentos específicos para registrar niveles de ozono no había registrado ese descenso tan pronunciado? n ¡Las concentraciones de ozono registradas por el satélite eran tan bajas que fueron tratadas como outliers y descartadas por un programa! Sources: © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/

33 Algunos detalles… n¿n¿Quién dice que es un outlier? nEnEn ocasiones no está claro äDäDicotómico (ej.: digitado desde papel) ä[ä[mal, quizá mal, no sé, quizá bien, bien] äLäLógica borrosa ( fuzzy ) nLnLiteratura estadística äCäConjuntos pequeños äEäErrores sintéticos äCäCálculos pesados

34 Más detalles… n ¿Qué método usar para detectar? ä Requiere definir relación mejor que ä Podría automatizarse n Casos analizados ä Dicotómicos ä Inspector perfecto

35 Tipos de errores n Error Tipo I: Dato clasificado como erróneo siendo correcto n Error Tipo II: Dato clasificado como correcto siendo erróneo n Ventajas: el tamaño no importa n Desventaja: el tamaño podría importar n Se necesitarán otros estimadores

36 El proceso de detección

37 ¿Cómo comparar métodos?

38 Cuando el tamaño importa…

39 ¿Cómo sería esto automático? n Dados: tipología de datos, valores, un generador de errores y N métodos repetir muchas veces Generar simulación de errores y contaminar banco Para i=1,N Aplicar método i Contabilizar estadísticos de éxito hasta lograr estabilidad estadística Elegir el método con mejor resultado n Implementado en Matlab n Quizá costoso (CPU)

40 Un segundo problema… n ¿Qué hacer con los datos erróneos? ä Digitar de nuevo ä Ir al campo a observar nuevamente ä Resignarse ä Eliminarlos ä Sustituirlos n ¿Qué hacer con los faltantes? ä Ignorarlos ä Sustituirlos

41 ¿Cómo sería esto automático? n Dados: tipología de datos, valores, un generador de huecos y N métodos repetir muchas veces Generar simulación de huecos y modificar el banco Para i=1,N Aplicar método i Contabilizar estadísticos de éxito hasta lograr estabilidad estadística Elegir el método con mejor resultado n Quizá costoso (CPU) n Implementado en Matlab

42 Imputar es más simple… n Imputar es un problema más clásico ä Interpolación ä Vecino más cercano ä Etc. n Varias funciones ya disponibles en GIS n Sólo hay que simular ausencias ä ¡No es trivial! ä ¿Al azar?,¿en rachas?, etc.

43 ¿Cómo comparar métodos? n Midiendo discrepancia contra el valor conocido n Hay un Método Óptimo n No hay un Peor Método n Se usan sustitutos Naive ä El dato de ayer ä El dato de al lado El más próximo ä El promedio espacial, la moda, etc. n Tema recurrente en la literatura n Probablemente siga siéndolo…

44 Plan 4 Introducción n Revisión de herramientas estadísticas n Detectando problemas n Imputando valores ausentes n Ejemplos

45 Herramientas estadísticas n Seguro que ya las conocen n Necesario refrescar un poco n Al menos algo… n Univariada n Multivariada n Componentes Principales n Y además… ä Redes Neuronales ä Krigeado

46 Algo básico… n La función de distribución F(x) de una variable aleatoria X se define como: y además n X se dice discreta si n X se dice continua si PROB(X=x)=0 n La función de densidad de probabilidad f(t) está definida por

47 Esperanza matemática… n Se define como: ä Caso discreto n También llamada media n Valor modal o moda : x|f(x) es máxima n Mediana : x|F(x)=0.5 n Percentil p: x|F(x)=p ä Caso continuo n Varianza

48 El amigo Gauss… n La distribución Normal n La versión estándar es N(0,1) n Teo. Central del Límite

49 Ilustración del Teo Central n 5000 números al azar de una distribución uniforme en [0,1]. ä Media = 1/2, Varianza = 1/12 N=1 N=2 N=3 N=12 n 5000 números, cada uno la suma de 2 números al azar, i.e. X = x1+x2. ä Media = 1 ä Forma triangular n Ídem, para 3 números, X = x1 + x2 + x3 n Ídem para 12 números

50 Caso típico 1: datos iid. i.e. μ i = μ, i = para todo i Famosa ley de la raíz(N) Teorema Central del Límite

51 Caso típico 2: igual media Fórmula del inverso de suma de inversos para la varianza Promedio ponderado i.e. μ i = μ para todo i

52 La aplicación práctica… n Dado el banco ä Confirmar que es normal –Varios tests disponibles –Ej.: Test de Kolmogorov-Smirnov ä Estimar la media ä Estimar la varianza n Dado un dato ä Calcular anomalía ä Comparar contra tabla

53 Kolmogorov-Smirnov Bondad de ajuste: ¡ No funciona para multivariado !

54 Más formalmente...Test de Grubbs n Asumiendo datos normales n Detectar un outlier por vez, removerlo, y repetir ä H0: No hay outliers en los datos ä HA: Hay al menos un outlier n Estadístico de Grubbs n Rechazar H0 si:

55 En general… nEnEstimar los percentiles p y 1-p Criterio de López (¡¡!!): nSnSi x está en [p,1-p] correcto nSnSi no, x es o utlier n Habría que considerar n, casos multimodales, etc. También Rousseeuw (1991)

56 Multivariada… n Ahora es con vectores x… n μ=E( x ) es un vector n 2 es ahora una matriz de covarianza C n Anomalía era el escalar (1/ 2 )*(x- μ) 2 n Ahora será d 2 =(x- μ) T* C -1 *(x- μ), también escalar ä Se denomina Distancia de Mahalanobis

57 Caso isotrópico O Distributiones Gaussianas Isotrópicas (igual varianza) Fuente: Mahesan Niranjan

58 La distancia euclídea no siempre… O Distancia de Mahalanobis d 2 =(x- μ) T *C -1 *(x- μ)

59 Análisis de Componentes Principales n Técnica corriente y popular n Dada una tabla de m filas y n columnas, se comprime en otra de m filas y p columnas, p

60 ACP (2) n Ilustración en R 3 para M k -O n Busco e 1 tal que sea mínima n Luego se repite en R 2 con (M k -H k ), encontrándose e 2 n En general hay n direcciones, ortogonales entre sí

61 ACP (3) n Las proyecciones OH k se denominan scores n Hay n scores por cada fila de la tabla n La gracia está en que… n Se demuestra que los e i son los Vectores Propios de C, matriz de Covarianza n Los Valores Propios son proporcionales a la varianza de los scores ä VP pequeños scores pequeños se desprecian n Las series de los scores son no-correlacionadas

62 ACP (4) n Las Componentes Principales son los e i n También conocidas como Empirical Orthogonal Functions (EOF) n Ampliamente utilizadas en Ciencias de la Tierra n Suelen tener interpretación individual n Pero tienen algunos problemillas…

63 Ej. Meteorológico Fuente: Dr. Bertrand Timbal Típicamente el 2do CP es un dipolo (no necesariamente interpretable)

64 Rotación de CP First two rotated PCAs of Indian/Pacific SSTAs using data from Jan 1949 to Dec Courtesy of W. Drosdowsky Facilitate physical interpretation Review by Richman (1986) and by Jolliffe (1989, 2002) New set of variable: RPCs Varimax is a very classic rotation technique (many others)

65 Algo más que sólo Estadística… n Presentaremos ahora algo de Redes Neuronales Artificiales n Será mencionado en Detección de outliers y en Regresión

66 ¿Qué es una red neuronal? n Es un modelo matemático que tiene un vago parecido con las neuronas biológicas n La neurona es la unidad básica. En ella se distinguen las conexiones sinápticas, las dendritas (muchas), y el axón (único) n Muchas neuronas fuertemente conectadas forman una red

67 Cerebro humano… n Neuronas (procesadores) n Poder desconocido n 1000 – conexiones por neurona Fuente: Dr. Juan José Flores Romero

68 ¿Cómo funciona una neurona? n A través de las (muchas) dendritas llega la información al núcleo de la neurona n Estimulado por esta información, se produce un efecto transmitido vía el axón n Las conexiones sinápticas vinculan al axón con otras dendritas de otras neuronas, formando así la red

69 Neuronas biológicas…

70 Neuronas artificiales… n Súper-simplificación n Analogía Metafórica n Sorprendente poder de cómputo

71 Las redes neuronales artificiales n Simulan muy crudamente sólo algunos aspectos sustanciales de las biológicas n La topología se modela satisfactoriamente n Las conexiones sinápticas se modelan con coeficientes de ponderación n La relación causa-efecto del núcleo es simulada con una función cualquiera

72 Esquema de una red neuronal Unidad sumadora Función de transferencia Unidad sumadora Otra (quizá diferente) función de transferencia

73 Función de transferencia (ejs.) n Logsig n Senh

74 Algunos aspectos interesantes n Dependiendo de la aplicación, se eligen diferentes arquitecturas de redes n Las redes pueden utilizarse para predecir un número (output continuo), identificar una letra (output categorizado), etc. n Toda red requiere de un entrenamiento n Si la función de transferencia es no lineal, la red también lo será

75 Entrenamiento... n Función objetivo (caso de regresión): n Son los conocidos mínimos cuadrados (no lineales…)

76 Algunos términos… nAnAprendizaje nAnAlgoritmo de entrenamiento nTnTraining set/Test set nGnGeneralización nOnOverfitting

77 Curso intensivo de Krigeado n Es un método de Interpolación n Lo hemos citado y lo citaremos en: ä Imputación de ausencias (obvio…) ä Detección de errores ä Estimación de sensibilidad de modelos n Base estadística n Incorporado en algunos GIS (¿malamente? ¿parcialmente?...)


Descargar ppt "Módulo 4: Mejorando la Exactitud Carlos López Vázquez"

Presentaciones similares


Anuncios Google