Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porAsunción Ferreyra Padilla Modificado hace 10 años
1
Tema 3: Estadística descriptiva bivariante y regresión lineal.
Bioestadística Tema 3: Estadística descriptiva bivariante y regresión lineal.
2
Relaciones entre variables y regresión
El término regresión fue introducido por Galton en su libro “Natural inheritance” (1889) refiriéndose a la “ley de la regresión universal”: “Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor.” Regresión a la media Su trabajo se centraba en la descripción de los rasgos físicos de los descendientes (una variable) a partir de los de sus padres (otra variable). Pearson (un amigo suyo) realizó un estudio con más de 1000 registros de grupos familiares observando una relación del tipo: Altura del hijo = 85cm + 0,5 altura del padre (aprox.) Conclusión: los padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura, aunque tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse de los padres muy bajos. Hoy en día el sentido de regresión es el de predicción de una medida basándonos en el conocimiento de otra. Francis Galton Primo de Darwin Estadístico y aventurero Fundador (con otros) de la estadística moderna para explicar las teorías de Darwin.
3
Qué vamos a estudiar En este capítulo vamos a tratar diferentes formas de describir la relación entre dos variables cuando estas son numéricas. Estudiar si hay relación entre la altura y el peso. Haremos mención de pasada a otros casos: Alguna de las variables es ordinal. Estudiar la relación entre el sobrepeso y el dolor de espalda (ordinal) Hay más de dos variables relacionadas. ¿Conocer el peso de una persona conociendo su altura y contorno de cintura? El estudio conjunto de dos variables cualitativas lo aplazamos hasta que veamos contrastes de hipótesis (X2). ¿Hay relación entre fumar y padecer enfermedad de pulmón?
4
Estudio conjunto de dos variables
A la derecha tenemos una posible manera de recoger los datos obtenido observando dos variables en varios individuos de una muestra. En cada fila tenemos los datos de un individuo Cada columna representa los valores que toma una variable sobre los mismos. Las individuos no se muestran en ningún orden particular. Dichas observaciones pueden ser representadas en un diagrama de dispersión (‘scatterplot’). En ellos, cada individuos es un punto cuyas coordenadas son los valores de las variables. Nuestro objetivo será intentar reconocer a partir del mismo si hay relación entre las variables, de qué tipo, y si es posible predecir el valor de una de ellas en función de la otra. Altura en cm. Peso en Kg. 162 61 154 60 180 78 158 62 171 66 169 166 54 176 84 163 68 ...
5
Diagramas de dispersión o nube de puntos
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión. Pesa 76 kg. Pesa 50 kg. Mide 187 cm. Mide 161 cm.
6
Relación entre variables.
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión. Parece que el peso aumenta con la altura
7
Predicción de una variable en función de la otra.
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea, el peso aumenta en una unidad por cada unidad de altura. 10 kg. 10 cm.
8
Cómo reconocer relación directa e inversa.
Incorrelación 30 80 130 180 230 280 330 140 150 160 170 190 200 Para valores de X por encima de la media tenemos valores de Y por encima y por debajo en proporciones similares. Incorrelación. Para los valores de X mayores que la media le corresponden valores de Y mayores también. Para los valores de X menores que la media le corresponden valores de Y menores también. Esto se llama relación directa o creciente entre X e Y. Para los valores de X mayores que la media le corresponden valores de Y menores. Esto es relación inversa o decreciente.
9
Cómo reconocer buena o mala relación
Dado un valor de X no podemos decir gran cosa sobre Y. Mala relación. Independencia. Conocido X sabemos que Y se mueve por una horquilla estrecha. Buena relación. Lo de “horquilla estrecha” hay que entenderlo con respecto a la dispersión que tiene la variable Y por si sola, cuando no se considera X.
10
Covarianza de dos variables X e Y
La covarianza entre dos variables, Sxy, nos indica si la posible relación entre dos variables es directa o inversa. Directa: Sxy >0 Inversa: Sxy <0 Incorreladas: Sxy =0 El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relación entre las variables.
11
Coef. de correlación lineal de Pearson
La coeficiente de correlación lineal de Pearson de dos variables, r, nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales). tiene el mismo signo que Sxy por tanto de su signo obtenemos el que la posible relación sea directa o inversa. r es útil para determinar si hay relación lineal entre dos variables, pero no servirá para otro tipo de relaciones (cuadrática, logarítmica,...)
12
Propiedades de r Es adimensional Sólo toma valores en [-1,1]
Las variables son incorreladas r=0 Relación lineal perfecta entre dos variables r=+1 o r=-1 Excluimos los casos de puntos alineados horiz. o verticalmente. Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal. Siempre que no existan observaciones anómalas. Relación inversa perfecta Relación directa casi perfecta Variables incorreladas -1 +1
13
Entrenando el ojo: correlaciones positivas
14
Entrenando el ojo: casi perfectas y positivas
15
Entrenando el ojo: correlaciones negativas
16
Preguntas frecuentes ¿Si r=0 eso quiere decir que no las variables son independientes? En la práctica, casi siempre sí, pero no tiene por qué ser cierto en todos los casos. Lo contrario si es cierto: Independencia implica incorrelación. Me ha salido r=1’2 ¿la relación es “superlineal”[sic]? ¿Superqué? Eso es un error de cálculo. Siempre debe tomar un valor entre -1 y +1. ¿A partir de qué valores se considera que hay “buena relación lineal”? Es difícil dar un valor concreto (mirad los gráficos anteriores). Para este curso digamos que si |r|>0,7 hay buena relación lineal y que si |r|>0,4 hay cierta relación (por decir algo... la cosa es un poco más complicada: observaciones anómalas,...)
17
Otros coeficientes de correlación
Cuando las variables en vez de ser numéricas son ordinales, es posible preguntarse sobre si hay algún tipo de correlación entre ellas. Disponemos para estos casos de dos estadísticos, aunque no los usaremos en clase: ρ (‘ro’) de Spearman τ (‘tau’) de Kendall No tenéis que estudiar nada sobre ellos en este curso. Recordad sólo que son estadísticos análogos a r y que los encontrareis en publicaciones donde las variables no puedan considerarse numéricas. Maurice George Kendall Charles Edward Spearman
18
Regresión El análisis de regresión sirve para predecir una medida en función de otra medida (o varias). Y = Variable dependiente predicha explicada X = Variable independiente predictora explicativa ¿Es posible descubrir una relación? Y = f(X) + error f es una función de un tipo determinado el error es aleatorio, pequeño, y no depende de X
19
Regresión El ejemplo del estudio de la altura en grupos familiares de Pearson es del tipo que desarrollaremos en el resto del tema. Altura del hijo = 85cm + 0,5 altura del padre (Y = ,5 X) Si el padre mide 200cm ¿cuánto mide el hijo? Se espera (predice) ,5x200=185 cm. Alto, pero no tanto como el padre. Regresa a la media. Si el padre mide 120cm ¿cuánto mide el hijo? Se espera (predice) ,5x120=145 cm. Bajo, pero no tanto como el padre. Regresa a la media. Es decir, nos interesaremos por modelos de regresión lineal simple.
20
Modelo de regresión lineal simple
En el modelo de regresión lineal simple, dado dos variables Y (dependiente) X (independiente, explicativa) buscamos encontrar una función de X muy simple (lineal) que nos permita aproximar Y mediante Ŷ = b0 + b1X b0 (ordenada en el origen, constante) b1 (pendiente de la recta) Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión. A la cantidad e=Y-Ŷ se le denomina residuo o error residual.
21
En el ejemplo de Pearson y las alturas, él encontró:
Ŷ = b0 + b1X b0=85 cm (No interpretar como altura de un hijo cuyo padre mide 0 cm ¡Extrapolación salvaje! b1=0,5 (En media el hijo gana 0,5 cm por cada cm del padre.) b1=0,5 b0=85 cm
22
La relación entre las variables no es exacta
La relación entre las variables no es exacta. Es natural preguntarse entonces: Cuál es la mejor recta que sirve para predecir los valores de Y en función de los de X Qué error cometemos con dicha aproximación (residual). b1=0,5 b0=85 cm
23
Se comprueba que para lograr dicho resultado basta con elegir:
El modelo lineal de regresión se construye utilizando la técnica de estimación mínimo cuadrática: Buscar b0, b1 de tal manera que se minimice la cantidad Σi ei2 Se comprueba que para lograr dicho resultado basta con elegir: Se obtiene además unas ventajas “de regalo” El error residual medio es nulo La varianza del error residual es mínima para dicha estimación. Traducido: En término medio no nos equivocamos. Cualquier otra estimación que no cometa error en término medio, si es de tipo lineal, será peor por presentar mayor variabilidad con respecto al error medio (que es cero).
24
Cometió un error de -30 en su última predicción
Que el error medio de las predicciones sea nulo no quiere decir que las predicciones sean buenas. Hay que encontrar un medio de expresar la bondad del ajuste (bondad de la predicción) Cometió un error de -30 en su última predicción No importa. Con los dos últimos clientes me equivoqué en +10 y +20. En término medio el error es cero.
25
¿Cómo medir la bondad de una regresión?
Imaginemos un diagrama de dispersión, y vamos a tratar de comprender en primer lugar qué es el error residual, su relación con la varianza de Y, y de ahí, cómo medir la bondad de un ajuste.
26
Interpretación de la variabilidad en Y
En primer lugar olvidemos que existe la variable X. Veamos cuál es la variabilidad en el eje Y. Y La franja sombreada indica la zona donde varían los valores de Y. Proyección sobre el eje Y = olvidar X
27
Interpretación del residuo
Fijémonos ahora en los errores de predicción (líneas verticales). Los proyectamos sobre el eje Y. Y Se observa que los errores de predicción, residuos, están menos dispersos que la variable Y original. Cuanto menos dispersos sean los residuos, mejor será la bondad del ajuste.
28
Bondad de un ajuste Resumiendo: Y
La dispersión del error residual será una fracción de la dispersión original de Y Cuanto menor sea la dispersión del error residual mejor será el ajuste de regresión. Eso hace que definamos como medida de bondad de un ajuste de regresión, o coeficiente de determinación a: Y
29
Resumen sobre bondad de un ajuste
La bondad de un ajuste de un modelo de regresión se mide usando el coeficiente de determinación R2 R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1] Para el alumno astuto: ¿por qué? Cuando un ajuste es bueno, R2 será cercano a uno. ¿por qué? Cuando un ajuste es malo R2 será cercano a cero. A R2 también se le denomina porcentaje de variabilidad explicado por el modelo de regresión. ¿por qué? Difícil. R2 puede ser pesado de calcular en modelos de regresión general, pero en el modelo lineal simple, la expresión es de lo más sencilla: R2=r2 ¿Es coherente lo dicho entonces sobre los valores de R2?
30
Otros modelos de regresión
Se pueden considerar otros tipos de modelos, en función del aspecto que presente el diagrama de dispersión (regresión no lineal) Incluso se puede considerar el que una variable dependa de varias (regresión múltiple).
31
Modelos de análisis de regresión
2+ variables explicativas 1 variable explicativa En clase sólo tratamos el modelo de regresión lineal simple. En todos los demás la bondad del ajuste se mide usando R2 No ajustaremos modelos a mano. Usaremos para ello SPSS.
32
Ejemplo con SPSS A continuación vamos a analizar un ejemplo realizado con datos simulados, de lo que podría parecer el estudio sobre alturas de hijos y padres, realizado con SPSS. Suponemos que hemos recogido la altura de 60 varones, junto a las de su padre. El estudio descriptivo univariante de ambas variables por separado no revela nada sobre una posible relación.
33
La tabla de correlaciones nos muestra que r=0,759
En el diagrama de dispersión se aprecie una clara relación lineal directa. ¿Aprecias regresión a la media en el sentido de Galton en la gráfica? La tabla de correlaciones nos muestra que r=0,759 ¿Por qué se ven algunos r=1? El modelo de regresión lineal simple es Altura hijo = b0 + b1 Altura del padre b0=89,985 b1=0,466 ¿Aprecias regresión a la media? La bondad del ajuste es de R2=0,577= 57,7% ¿Eso significa que el 57% de las predicciones del modelo son correctas? ¿Cómo lo interpretas?
34
¿Qué hemos visto? Relación entre variables Diagrama de dispersión
Covarianza Relación directa, inversa e incorrelación Correlación lineal grado de relación lineal entre variables Regresión, predicción Variable dependiente Variable(s) independientes Modelo lineal de regresión Ordenada en el origen Pendiente Residuo, error Bondad del ajuste, coef. determinación En el modelo lineal simple: r2
35
Modelado de datos Tema 4 Itziar Aretxaga
36
Ajuste de modelos: estimación de parámetros
Dado un conjunto de medidas {xi}, i=1,...,N donde xi puede ser tanto escalar como vector, los pasos a seguir en el ajuste de un modelo son: Formular un modelo F=F(xi, θ) que describa la distribución de {xi} en función de una familia de parámetros θ, escalar o vector. Estimar los valores de los parámetros θ. Estimar el error asociado a los parámetros, σθ. Calcular los residuos del ajuste del modelo a los datos. Calcular la significancia o bondad del ajuste realizado. Filosofías: ♦ Bayesiana: calcula la probabilidad de que un modelo sea correcto basado en información previa sobre el modelo, a través del teorema de Bayes ♦ Frecuentista: dado un modelo con un particular conjunto de parámetros, se calcula la probabilidad de que el conjunto de observaciones se produzca
37
Método de máxima probabilidad
Sea la función de densidad de probabilidad F=F(x;θ) y {xi}i=1,…,N una muestra derivada de la población x. La función de densidad de probabilidad conjunta viene dada por El estimador de máxima probabilidad del parámetro θ es Características: el método encuentra la solución cuyos residuos tienen la variancia más pequeña, pero no está siempre libre de sesgos. Ejemplo: estimación de la ley de potencias que describe el número de objetos en el cielo N(>S)=kS−α (Jauncey 1967). Si se sabe que existen M fuentes con flujos entre S0 y Sm, es decir M=N(>S0)−N(>Sm), entonces La función de probabilidad es Entonces y para encontrar su máximo de donde se deduce (Wall JV, 1996, QJRastrS, 37, 519)
38
Ejemplo de ajuste al número de fuentes (Gardner et al
Ejemplo de ajuste al número de fuentes (Gardner et al MNRAS, 415, L9).
39
Método de mínimos cuadrados
Está basado en el método de máxima probabilidad para el caso en el que los errores de la variable dependiente sean gaussianos con variancia σ2. Sean {xi ,yi }, i=1,...,N y un modelo Y(X), la probabilidad conjunta de que los datos se deriven del modelo viene dada por
40
Método de mínimos cuadrados: ajuste lineal
Sea el modelo Y=a+bX Modelos que pueden ser reducidos a modelos lineales: Y=beX Y=b+aXn (Wall JV, 1996, QJRastrS, 37, 519)
41
Método de mínimos cuadrados: ajuste lineal
OR=orthogonal regression RMA=reduced mayor axis= Stromgren method OLS(Y|X) OLS(X|Y)=ordinary least squares Método de mínimos cuadrados: ajuste lineal Cinco métodos diferentes de calcular la regresión lineal por mínimos cuadrados, que no son cinco estimaciones de la misma regresión (Isobe et al. 1990, ApJ, 364, 104) OLS=ordinary least square regression OR=orthogonal regresion
43
Ajuste lineal: cinco métodos diferentes
(Isobe et al. 1990, ApJ, 364, 104) El parámetro de corte y su variancia (donde j recorre los 5 modelos de regresión lineal) vienen dados por
44
Minimización de χ2 Está basado en el método de máxima probabilidad para el caso en el que los errores de la variable dependiente sean gaussianos con variancia σi2, diferente entre los diferentes i puntos medidos. Sean {xi ,yi }, i=1,...,N y un modelo Y(X;θ), la probabilidad conjunta es donde Si el modelo es lineal en sus M parámetros θ, la significancia del ajuste viene dada por la distribución Q de χ2 con ν=N−M grados de libertad. Aún cuando esta condición no se cumple, se sigue utilizando esta distribución como aproximación de la significancia. (Fig. © Univ. of Arkansas, Community College at Hope)
45
Minimización de χ2 Ejemplo: Modelo de deflexiones del fondo radio (Wall JV, 1996, QJRastrS, 37, 519): N=KS−γ 1σ
46
Minimización de χ2 Ejemplo (Cid Fernandes et al. 1996, MNRAS, 282, 1191)
47
Críticas al método de minimización de 2
(Babu & Feigelson, 1996, `Astrostatistics’, Chapman; Feigelson & Babu 1997, en `Data Analysis in Astronomy’, Ed. Gesú et al., World Scientific) ♦ La variable independiente se suele discretizar con un tamaño de casilla y origen arbitrario (ejem. (L), N(>S), ...) ♦ Las casillas con un número de cuentas pequeño, o se suelen omitir del análisis, o se les asigna un error ad hoc ♦ Si a la variable independiente se le ha substraido un fondo y, o bien la fuente o el fondo tienen pocas cuentas, entonces el error resultante no es ni gaussiano ni poissoniano (ejem. detecciones en rayos-X) ♦ Algunas veces, varios grados de libertad se agrupan en un solo parámetro (ejem. Z) ♦ No está claro si los intervalos de confianza del 2 mínimo reducido, cuando éste es mucho menor que la unidad, son realmente significativos. Se recomienda explorar el espacio de parámetros, con tests de similitud cumulativos y no paramétricos: • Kolmogorov-Smirnov: es especialmente sensible a los parámetros que producen diferencias de gran escala; • von Mises: mide la suma de las desviaciones cuadráticas entre las distribuciones acumuladas del modelo y de los datos, y es sensible a los parámetros que producen diferencias a pequeña escala; • Anderson-Darling: versión modificada de von Mises, que pesa con más significancia desviaciones en las alas de las distribuciones; o recurriendo a un estimador de máxima probabilidad. Se recomienda además utilizar un bootstrap para constatar la estabilidad de la solución.
48
Minimización de χ2: ajuste lineal
Sean {xi ,yi ±σi }, i=1,...,N y un modelo Y=a+bX , Estimación de los parámetros Estimación de los errores de los parámetros
49
Minimización de χ2: ajuste lineal
Se describe la bondad del ajuste lineal por la distribución Si Q es mayor que 0.1, el modelo es plausible; si Q es mayor que puede que los errores estén subestimados, y todavía el ajuste sea bueno; y si Q es menor que 0.001, los datos probablemente no se puedan describir con el modelo sugerido. La bondad del ajuste también se puede describir por el coeficiente de regresión que está relacionado con la función χ2 mediante (Press et al., “Numerical Recipes”)
50
[ ] Minimización de χ2: límites de confianza
En el caso general de M parámetros en el modelo: • sea ν ≤ M el número de parámetros que queremos dibujar (ejem. ν=2); • sea p el límite de confianza considerado (ejem. p=0.68); • búsquese Δχ2 tal que la probabilidad de que la variable χ2 con ν grados de libertad sea menor que Δχ2 venga dada por p: • calcúlese la sección ν×ν de la matriz de covariancia que involucra los ν parámetros: ejem. C=1/Δ • la ecuación de la línea iso−χ2 en el subespacio ν-dimensional es ejem = S(a´−a)2 − 2Sx (a´−a) (b´−b) + Sxx (b´−b)2 ν p [ ] Sxx −Sx −Sx S (Press et al., “Numerical Recipes”)
51
(Press et al., “Numerical Recipes”)
52
Métodos de remuestreo: bootstrap
Ejemplo: cálculo del error en los parámetros derivados del ajuste de un modelo por la minimización de χ2, y elipsoides de confianza asociados al cálculo. (Numerical Recipes, Press et al.)
53
Minimización de χ2: ajuste lineal con errores en x e y
Sean {xi±σxi ,yi ±σyi }, i=1,...,N y un modelo Y=a+bX , Estimación de los parámetros Estrategia: se minimiza χ2= χ2(b) numéricamente con la condición a=a(b) (Press et al., “Numerical Recipes”)
54
Minimización de χ2: método lineal general
Sean {xi ,yi ±σi }, i=1,...,N y un modelo lineal en los parámetros {ak }, k=1,...,M , donde Xk(x) es una base de funciones de x. Definimos la matriz de diseño A cuyas N×M componentes vienen dados por la evaluación de las M funciones de base Xk en las N abscisas xi y los vectores b (bi=yi/σi , i=1,...,N) y a (aj, j=1,...,M) de parámetros. La minimización de χ2 da el sistema de ecuaciones normales o en forma matricial , donde Los errores σ(aj) vienen dados por la matriz de covariancia σ2(aj)=Cjj donde C=α−1=(ATA)−1, y el resto de los elementos no diagonales dan los coeficientes de la elipse de significancia en el plano i,j (Press et al., “Numerical Recipes”)
55
Minimización de χ2: método lineal general
El sistema de ecuaciones normales puede ser indeterminado si existe una combinación ambigua de parámetros ak, y que las funciones Xj no se distingan entre sí. Esto ocurre bastante frecuentemente. En estos casos se recomienda utilizar la descomposición singular de valores. Descomposición singular de valores En forma matricial χ2 se puede escribir como El problema de encontrar su mínimo es análogo a un problema de cálculo matricial en el que se encuentra la descomposición singular de valores. Se quiere encontrar las matrices U,V,W en las que se descompone la matriz N×M A, A=UWVT , donde U es una matriz N×M, V es una matriz M×M y W es una matriz diagonal, que cumplen UTU=VTV=1. Una vez que se han encontrado: si Wi<<<< 1 ó O, se hace 1/Wi=0 (Press et al., “Numerical Recipes”)
56
Minimización de χ2: método no lineal
Sean {xi ,yi ±σi }, i=1,...,N y un modelo no lineal y=y(x,a) en los parámetros a´ =(a1, ...,aM ) . Suficientemente cerca del mínimo, χ2 puede aproximarse por una función cuadrática y entonces Donde D es la matriz hessiana el gradiente lo denotamos y se definen Si nos encontramos lejos del mínimo, se puede recurrir a un método iterativo, siguiendo el gradiente χ2 (Press et al., “Numerical Recipes”)
57
Minimización de χ2: método no lineal
Sistemas de ecuaciones alternativos a resolver de forma iterativa cerca del mínimo lejos del mínimo El método de Lavenberg-Marquardt para alternar entre ambos sistemas de ecuaciones, redefine el factor de escala cte≡1/(λαll) y los coeficientes α´ de forma que los dos sistemas de ecuaciones se pueden expresar como uno solo: Cuando λ es muy pequeño, nos encontramos con el primero de los sistemas de ecuaciones, y cuando λ es grande con el segundo. Receta iterativa: Calcular , para un aproximado. Escoger un valor de λ modesto (λ ≈ 0.001). Resolver el sistema de ecuaciones para encontrar y evaluar Si , incrementar λ por un factor 10 y recalcular Si , disminuir λ por un factor 10 y recalcular (Press et al., “Numerical Recipes”)
58
Se suele reemplazar esta condición por Denotando la minimización queda
Ajustes robustos En el caso de que las distribuciones de errores sean muy diferentes de las distribuciones gaussianas, se recomienda utilizar el estimador M. Estimador M: Sea el logaritmo negativo de la densidad de probabilidad de que salga yi de la relación La probabilidad de obtener {xi,yi} viene dada por y cumple Se suele reemplazar esta condición por Denotando la minimización queda Casos particulares: • errores exponenciales ρ(z)=|z| Ψ(z)=signo(z) • errores lorencianos ρ(z)=(1+z2/2)−1 Ψ(z)=z/(1+z2/2) (Press et al., “Numerical Recipes”)
59
Análisis de series Tema 5 Itziar Aretxaga
60
Métodos espectrales: convolución
Sea s(t) una señal función de la variable t y r(t) una función de respuesta. Se define la operación convolución de r con s El efecto de la convolución es la suavización de la función señal y su contaminación para un t dado con señal proveniente de t adyacentes. (Figuras de Press et al. “Numerical Recipes”)
61
Métodos espectrales: correlación
♦ La correlación entre dos señales g(t), h(t) viene dada por donde CF denota correlation function y DCF discrete correlation function. Cuando las señales son funciones del tiempo, t se denomina retraso (lag en inglés) ♦ La autocorrelación se define, de forma análoga, como donde ACF denota autocorrelation function. La ACF se suele emplear para encontrar períodos. (Figuras de Peterson 2001 en “The Starburst-AGN-Connection”, World Scientific)
62
Métodos espectrales: correlación
♦ La correlación entre dos señales g(t), h(t) viene dada por donde CF denota correlation function y DCF discrete correlation function. Cuando las señales son funciones del tiempo, t se denomina retraso (lag en inglés) ♦ La autocorrelación se define, de forma análoga, como donde ACF denota autocorrelation function. La ACF se suele emplear para encontrar períodos. (Figuras de Peterson 2001 en “The Starburst-AGN-Connection”, World Scientific)
63
Métodos espectrales: correlación
♦ La correlación entre dos señales g(t), h(t) viene dada por donde CF denota correlation function y DCF discrete correlation function. Cuando las señales son funciones del tiempo, t se denomina retraso (lag en inglés) ♦ La autocorrelación se define, de forma análoga, como donde ACF denota autocorrelation function. La ACF se suele emplear para encontrar períodos. (Figuras de Peterson 2001 en “The Starburst-AGN-Connection”, World Scientific)
64
Métodos espectrales: correlación
Ejemplo: medida de dispersión de velocidades del triplete del calcio por medio de CCF
65
Métodos espectrales: función de estructura
Se define la función de estructura de una señal s(t), como donde SF denote structure function. SF da cuenta del incremento de la variacia como función de t, es decir, mide la escala de t en la que se produce la variancia máxima (Simoneti et al....???) (Figuras de Cid Fernandes et al MNRAS289, 318)
66
Métodos espectrales: función de estructura
Ejemplo: SF como promedio de una pobación de fuentes (Aretxaga et al. 1997, MNRAS, 286, 271)
67
Métodos espectrales: espectro de potencias
Se define la potencia de una señal s(t) a una frecuencia ν, como donde FT denota Fourier transform. Alternativamente, la potencia también se define como El espectro de potencias mide la contribución a la variancia de una cierta frecuencia ν. Ejemplo: espectro de potencias de corrimientos Doppler en el sol. Medida de periodos (Wentzel 1989)
68
Métodos espectrales: espectro de potencias
Ejemplo: espectro de potencias de la curva de luz en LE (0.05-2keV) y ME (2-10keV) de NGC4051 medida por ROSAT (Papadakis & Lawrence 1995, MNRAS, 272, 161) ruido blanco
69
Métodos espectrales: espectro de potencias
♦ Ruido blanco (white noise), es un espectro de potencias plano, con igual potencia por cada intervalo de frecuencia (Hz). Ejemplos de procesos que crean ruidos blancos son los proceso poissonianos no correlacionados (shot noise), o el ruido térmico en circuitos electrónicos (ruido de Johnson). ♦ Ruido rosa o ruido 1/f (flicker noise, ruido de exceso), está caracterizado por una potencia constante por cada década de frecuencia. Es inherente a muchos sistemas de eléctricos, asociado a variaciones en la resistencia. Por lo tanto, es algo a tener en cuenta al diseñar observaciones, por ejemplo con bolómetros. También aparece frecuentemente en la naturaleza: la velocidad de las corrientes marinas, el flujo de los granos en un reloj de arena, la potencia de una pieza musical, ... ♦ Ruido rojo o ruido 1/f2 (Horowitz & Hill, 1980, “The Art of Electronics”, Cambridge University Press)
70
Transformadas de Fourier
La transformación de Fourier (FT) convierte funciones del espacio temporal o espacial al espacio de frecuencias temporales o espaciales. Esta transformación simplifica el cálculo de los métodos espectrales. En Física se utiliza la frecuencia expresada en rad/s en vez de en ciclos/s, ω=2πν ♦ Propiedades si h(t) es real → H(−ν) = H*(ν) imaginario → H(−ν) = −H*(ν) par → H(−ν) = H(ν) impar → H(−ν) = −H(ν) real y par → H(ν) es real y par real e impar → H(ν) es imaginario e impar imaginario y par → H(ν) es real y par imaginario e impar → H(ν) es real e impar transformada antitransformada
71
Transformadas de Fourier
♦ Propiedades: escalaje corrimiento teorema de convolución: teorema de correlación: teorema de Wiener-Khinchin: teorema de Parseval:
72
Transformadas de Fourier discretas (DFT)
Sea una señal s(t) medida a intervalos equidistantes de frecuencia 1/Δ: sn=s(nΔ) donde n=...,−3,−2,−1,0,1,2,3,... Se define la frecuencia crítica de Nyquist como donde S(ν)=0 para |ν|≥νc ♦ Teorema de muestreo: si una función continua s(t), evaluada a intervalos equidistantes Δ, está acotada en su ancho de banda (S(ν)=0 para |ν|≥νc), entonces la función está completamente determinada por su muestra sn. Si la función no se evalua con una frecuencia mayor que la frecuencia de Nyquist, entonces ocurre el engorroso problema de la creación de sobrenombres (aliasing)
73
Transformadas de Fourier discretas (DFT)
Recomendación: examínese la FT cerca de los valores correspondientes a la frecuencia crítica de Nyquist. Si la FT no se aproxima a 0, probablemente existan contribuciones de frecuencias que se han doblado dentro del ancho de banda. (Press et al. “Numerical Recipes”)
74
Transformadas de Fourier discretas (DFT)
Ejemplo de creación de sobrenombres: sinusoide de frecuencia mayor que 1/2T, con muestras tomadas a intervalos T. donde y p es entero y q es fracción. • si p es par y la señal queda • si p es impar entonces Para ν0=1025 Hz y T=0.005 s : F=1/2T = 100 Hz, p=10, q= ν´0=25 Hz 10F 11F 8F 9F 6F 7F 4F 5F 2F 3F F=1/2T 0.25F
75
Transformadas de Fourier discretas (DFT)
Método de Danielson-Lanczos para el cálculo de transformadas rápidas de Fourier (FFT) Se basa en que una DFT de tamaño N puede reescribirse como dos DFT de tamaño N/2, la primera formada por los datos pares, y la segunda por los impares. Así se puede ir descomponiendo a DFT de menor complejidad, con N/4, N/8, N/16, ... Hasta llegar a para algún k. El algoritmo para encontrar qué k es: reviértase el diseño de e y o hágase e=0, o=1 k = número resultante en base binaria Existen otros algoritmos para calcular FFT (Press et al. “Numerical Recipes”)
76
Convolución y deconvolución
• Teorema de convolución • Teorema de convolución discreta: Si sj es una señal periódica, de periodo N, completamente determinada s0, ..., sN−1 y r es una función de respuesta de impulso infinito (no 0 sólo en −M/2 ≤ k ≤M/2, intervalo menor que N), entonces:
77
Convolución y deconvolución
• Cálculos con funciones no periódicas: se introducen artificialmente 0s al final de la función de señal s, tantos como número de índices positivos o negativos en r. Esto impide la contaminación de frecuencias con tiempos que toma como periódicos. (Press et al. “Numerical Recipes”)
78
Correlación y autocorrelación
• Teorema de correlación • Teorema de correlación discreta: Si sj es una señal periódica, de periodo N, completamente determinada s0, ..., sN−1 y r es una función de respuesta de impulso infinito (no 0 sólo en −M/2 ≤ k ≤M/2, intervalo menor que N), entonces:
79
Espectro de potencias: periodograma
Sea una señal s(t) evaluada en intervalos equidistantes, su transformada de Fourier discreta viene dada por y su periodograma en N/2+1 frecuencias viene definido por donde νj se define sólo para frecuencias positivas o cero: Por el teorema de Parseval, vemos que la suma de los N/2+1 valores del periodograma dan la amplitud media cuadrada de sk. (Press et al. “Numerical Recipes”)
80
Espectro de potencias: periodograma
P(νj) es un promedio de P(ν) sobre una ventana estrecha (W) centrada en νj. Si definimos s como la diferencia de frecuencias en casillas lo que implica un derrame (leakage) de una frecuencia a otra
81
Espectro de potencias: periodograma
El periodograma no se vuelve más preciso si N aumenta: la desviación estándar es siempre 100% del valor del periodograma, independiente de N. • Métodos para aumentar la precisión: 1. producir un periodograma con N grande y sumar los valores de frecuencias adyacentes. No promediar. 2. dividir los datos en k segmentos de 2M puntos consecutivos. Calcular FFT de cada segmento, y promediarlo para obtener k puntos del periodograma. La desviación estándar será así √k. • Ventanas para disminuir el derrame: (Press et al. “Numerical Recipes”)
82
Espectro de potencias: periodograma
(Press et al. “Numerical Recipes”)
83
Espectro de potencias: periodograma
(
84
Espectro de potencias: periodograma
♦ Periodograma normalizado de Lomb-Scargle para series evaluadas de forma no equidistante hj=h(tj) , j=1,...,N . Se define la media y la variancia de forma estándar En función de la frecuencia angular ω≡2πν>0 : donde τ viene definido por Habitualmente hj contiene señal y ruido. Para calcular la significancia de un pico, se toman M frecuencias independientes. La probabilidad de que ninguna dé una valor más alto que z es , de forma que un valor pequeño tiene una alta significancia. M depende del número de frecuencias definidas por la muestra: M≈N si están aproximadamente espaciadas M≈N si son aleatorias M≠N si los puntos están acumulados en alguna zona de t. Si es así se debe realizar un Monte Carlo para calcular M (ejem. Horne & Baliunas 1986, ApJ, 302, 757). (Press et al. “Numerical Recipes”)
85
Espectro de potencias: periodograma
♦ Periodograma normalizado de Lomb-Scargle (Press et al. “Numerical Recipes”)
86
Recetario para el ajuste:
Ajustes robustos Recetario para el ajuste: 1. Decide qué tipo de errores representan mejor los datos: ρ(z), Ψ(z). 2. Ajusta χ2 para tener una idea del orden de magnitud de los parámetros. 3. Minimiza la función escalar Σi ρ(zi) con un algoritmo que resista los valores absolutos y no requiera continuidad, como amoeba. 4. Alternativamente se puede resolver el sistema de ecuaciones no lineales Ajuste de una recta: se puede demostrar que y b viene dado por a resolver iterativamente (Press et al., “Numerical Recipes”)
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.