Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porMaría Ángeles Acosta Guzmán Modificado hace 10 años
1
Modelado de datos Tema 4 Itziar Aretxaga
2
Ajuste de modelos: estimación de parámetros Dado un conjunto de medidas {x i }, i=1,...,N donde x i puede ser tanto escalar como vector, los pasos a seguir en el ajuste de un modelo son: 1.Formular un modelo F=F(x i, θ) que describa la distribución de {x i } en función de una familia de parámetros θ, escalar o vector. 2.Estimar los valores de los parámetros θ. 3.Estimar el error asociado a los parámetros, σ θ. 4.Calcular los residuos del ajuste del modelo a los datos. 5.Calcular la significancia o bondad del ajuste realizado. Filosofías: ♦ Bayesiana: calcula la probabilidad de que un modelo sea correcto basado en información previa sobre el modelo, a través del teorema de Bayes ♦ Frecuentista: dado un modelo con un particular conjunto de parámetros, se calcula la probabilidad de que el conjunto de observaciones se produzca
3
Método de máxima probabilidad Sea la función de densidad de probabilidad F=F(x;θ) y {x i } i=1,…,N una muestra derivada de la población x. La función de densidad de probabilidad conjunta viene dada por El estimador de máxima probabilidad del parámetro θ es Características: el método encuentra la solución cuyos residuos tienen la variancia más pequeña, pero no está siempre libre de sesgos. Ejemplo: estimación de la ley de potencias que describe el número de objetos en el cielo N(>S)=kS − α (Jauncey 1967). Si se sabe que existen M fuentes con flujos entre S 0 y S m, es decir M=N(>S 0 )−N(>S m ), entonces La función de probabilidad es Entonces y para encontrar su máximo de donde se deduce (Wall JV, 1996, QJRastrS, 37, 519)
4
Ejemplo de ajuste al número de fuentes (Gardner et al. 1993 MNRAS, 415, L9).
5
Método de mínimos cuadrados Está basado en el método de máxima probabilidad para el caso en el que los errores de la variable dependiente sean gaussianos con variancia σ 2. Sean {x i,y i }, i=1,...,N y un modelo Y(X), la probabilidad conjunta de que los datos se deriven del modelo viene dada por
6
Método de mínimos cuadrados: ajuste lineal Sea el modelo Y=a+bX Modelos que pueden ser reducidos a modelos lineales: Y=be X Y=b+aX n (Wall JV, 1996, QJRastrS, 37, 519)
7
Método de mínimos cuadrados: ajuste lineal Cinco métodos diferentes de calcular la regresión lineal por mínimos cuadrados, que no son cinco estimaciones de la misma regresión (Isobe et al. 1990, ApJ, 364, 104) RMA=reduced mayor axis= Stromgren method OLS(Y|X) OLS(X|Y)=ordinary least squares OR=orthogonal regression
9
El parámetro de corte y su variancia (donde j recorre los 5 modelos de regresión lineal) vienen dados por Ajuste lineal: cinco métodos diferentes (Isobe et al. 1990, ApJ, 364, 104)
10
Minimización de χ 2 Está basado en el método de máxima probabilidad para el caso en el que los errores de la variable dependiente sean gaussianos con variancia σ i 2, diferente entre los diferentes i puntos medidos. Sean {x i,y i }, i=1,...,N y un modelo Y(X;θ), la probabilidad conjunta es donde Si el modelo es lineal en sus M parámetros θ, la significancia del ajuste viene dada por la distribución Q de χ 2 con ν =N−M grados de libertad. Aún cuando esta condición no se cumple, se sigue utilizando esta distribución como aproximación de la significancia. (Fig. © Univ. of Arkansas, Community College at Hope)
11
Ejemplo: Modelo de deflexiones del fondo radio (Wall JV, 1996, QJRastrS, 37, 519): N=KS − γ Minimización de χ 2 1σ1σ
12
Ejemplo (Cid Fernandes et al. 1996, MNRAS, 282, 1191) Minimización de χ 2
13
Críticas al método de minimización de 2 (Babu & Feigelson, 1996, `Astrostatistics’, Chapman; Feigelson & Babu 1997, en `Data Analysis in Astronomy’, Ed. Gesú et al., World Scientific) ♦ La variable independiente se suele discretizar con un tamaño de casilla y origen arbitrario (ejem. (L), N(>S),...). ♦ Las casillas con un número de cuentas pequeño, o se suelen omitir del análisis, o se les asigna un error ad hoc. ♦ Si a la variable independiente se le ha substraido un fondo y, o bien la fuente o el fondo tienen pocas cuentas, entonces el error resultante no es ni gaussiano ni poissoniano (ejem. detecciones en rayos-X). ♦ Algunas veces, varios grados de libertad se agrupan en un solo parámetro (ejem. Z). ♦ No está claro si los intervalos de confianza del 2 mínimo reducido, cuando éste es mucho menor que la unidad, son realmente significativos. Se recomienda explorar el espacio de parámetros, con tests de similitud cumulativos y no paramétricos: Kolmogorov-Smirnov: es especialmente sensible a los parámetros que producen diferencias de gran escala; von Mises: mide la suma de las desviaciones cuadráticas entre las distribuciones acumuladas del modelo y de los datos, y es sensible a los parámetros que producen diferencias a pequeña escala; Anderson-Darling: versión modificada de von Mises, que pesa con más significancia desviaciones en las alas de las distribuciones; o recurriendo a un estimador de máxima probabilidad. Se recomienda además utilizar un bootstrap para constatar la estabilidad de la solución.
14
Minimización de χ 2 : ajuste lineal Sean { x i,y i ±σ i }, i=1,...,N y un modelo Y=a+bX, Estimación de los parámetros Estimación de los errores de los parámetros
15
Minimización de χ 2 : ajuste lineal Se describe la bondad del ajuste lineal por la distribución. Si Q es mayor que 0.1, el modelo es plausible; si Q es mayor que 0.001 puede que los errores estén subestimados, y todavía el ajuste sea bueno; y si Q es menor que 0.001, los datos probablemente no se puedan describir con el modelo sugerido. La bondad del ajuste también se puede describir por el coeficiente de regresión que está relacionado con la función χ 2 mediante (Press et al., “Numerical Recipes”)
16
Minimización de χ 2 : límites de confianza En el caso general de M parámetros en el modelo: sea ν ≤ M el número de parámetros que queremos dibujar (ejem. ν =2) ; sea p el límite de confianza considerado (ejem. p=0.68) ; búsquese Δχ 2 tal que la probabilidad de que la variable χ 2 con ν grados de libertad sea menor que Δχ 2 venga dada por p: calcúlese la sección ν×ν de la matriz de covariancia que involucra los ν parámetros: ejem. C=1/Δ la ecuación de la línea iso− χ 2 en el subespacio ν -dimensional es ejem. 2.30 = S(a´−a) 2 − 2S x (a´−a) (b´−b) + S xx (b´−b) 2 ν p [ ] S xx −S x −S x S (Press et al., “Numerical Recipes”)
18
Métodos de remuestreo: bootstrap Ejemplo: cálculo del error en los parámetros derivados del ajuste de un modelo por la minimización de χ 2, y elipsoides de confianza asociados al cálculo. (Numerical Recipes, Press et al.)
19
Minimización de χ 2 : ajuste lineal con errores en x e y Sean { x i ±σ xi,y i ±σ yi }, i=1,...,N y un modelo Y=a+bX, Estimación de los parámetros Estrategia: se minimiza χ 2 = χ 2 (b) numéricamente con la condición a=a(b) (Press et al., “Numerical Recipes”)
20
Sean { x i,y i ±σ i }, i=1,...,N y un modelo lineal en los parámetros {a k }, k=1,...,M, donde X k (x) es una base de funciones de x. Definimos la matriz de diseño A cuyas N×M componentes vienen dados por la evaluación de las M funciones de base X k en las N abscisas x i y los vectores b (b i =y i /σ i, i=1,...,N) y a (a j, j=1,...,M) de parámetros. La minimización de χ 2 da el sistema de ecuaciones normales o en forma matricial, donde Los errores σ(a j ) vienen dados por la matriz de covariancia σ 2 (a j )=C jj donde C= α −1 =( A T A) −1, y el resto de los elementos no diagonales dan los coeficientes de la elipse de significancia en el plano i,j Minimización de χ 2 : método lineal general (Press et al., “Numerical Recipes”)
21
El sistema de ecuaciones normales puede ser indeterminado si existe una combinación ambigua de parámetros a k, y que las funciones X j no se distingan entre sí. Esto ocurre bastante frecuentemente. En estos casos se recomienda utilizar la descomposición singular de valores. Descomposición singular de valores En forma matricial χ 2 se puede escribir como El problema de encontrar su mínimo es análogo a un problema de cálculo matricial en el que se encuentra la descomposición singular de valores. Se quiere encontrar las matrices U,V,W en las que se descompone la matriz N×M A, A=UWV T, donde U es una matriz N×M, V es una matriz M×M y W es una matriz diagonal, que cumplen U T U=V T V=1. Una vez que se han encontrado: Minimización de χ 2 : método lineal general (Press et al., “Numerical Recipes”) si W i <<<< 1 ó O, se hace 1/W i =0
22
Sean { x i,y i ±σ i }, i=1,...,N y un modelo no lineal y=y(x,a) en los parámetros a´ =(a 1,...,a M ). Suficientemente cerca del mínimo, χ 2 puede aproximarse por una función cuadrática y entonces Donde D es la matriz hessiana el gradiente lo denotamos y se definen Si nos encontramos lejos del mínimo, se puede recurrir a un método iterativo, siguiendo el gradiente χ 2 Minimización de χ 2 : método no lineal (Press et al., “Numerical Recipes”)
23
El método de Lavenberg-Marquardt para alternar entre ambos sistemas de ecuaciones, redefine el factor de escala cte ≡1 / (λα ll ) y los coeficientes α´ de forma que los dos sistemas de ecuaciones se pueden expresar como uno solo: Cuando λ es muy pequeño, nos encontramos con el primero de los sistemas de ecuaciones, y cuando λ es grande con el segundo. Receta iterativa: 1.Calcular, para un aproximado. 2.Escoger un valor de λ modesto ( λ ≈ 0.001). 3.Resolver el sistema de ecuaciones para encontrar y evaluar 4.Si, incrementar λ por un factor 10 y recalcular. 5.Si, disminuir λ por un factor 10 y recalcular. cerca del mínimo Minimización de χ 2 : método no lineal (Press et al., “Numerical Recipes”) lejos del mínimo Sistemas de ecuaciones alternativos a resolver de forma iterativa
24
Ajustes robustos En el caso de que las distribuciones de errores sean muy diferentes de las distribuciones gaussianas, se recomienda utilizar el estimador M. Estimador M: Sea el logaritmo negativo de la densidad de probabilidad de que salga y i de la relación. La probabilidad de obtener {x i,y i } viene dada por y cumple Se suele reemplazar esta condición por Denotando la minimización queda Casos particulares: errores exponenciales ρ(z)=|z| Ψ(z)=signo(z) errores lorencianos ρ(z)=(1+z 2 /2) −1 Ψ(z)=z/(1+z 2 /2) (Press et al., “Numerical Recipes”)
25
Ajustes robustos Recetario para el ajuste: 1. Decide qué tipo de errores representan mejor los datos: ρ(z), Ψ(z). 2. Ajusta χ 2 para tener una idea del orden de magnitud de los parámetros. 3. Minimiza la función escalar Σ i ρ (z i ) con un algoritmo que resista los valores absolutos y no requiera continuidad, como amoeba. 4. Alternativamente se puede resolver el sistema de ecuaciones no lineales Ajuste de una recta: se puede demostrar que y b viene dado por a resolver iterativamente (Press et al., “Numerical Recipes”)
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.