Covariance Xi = value of the ith outcome of X

Slides:



Advertisements
Presentaciones similares
ANALISIS PARAMÉTRICOS
Advertisements

Tema 5: Asociación. 1. Introducción. 2. Tablas y gráficas bivariadas.
Tema.11. Principales modelos de distribución de probabilidad en Psicología: Variables discretas: binomial y Poisson. Variables continuas: normal, chi.
ESTADISTICA INFERENCIAL
Modelos de Variable Dependiente Binaria -Logit y Probit-
ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL
Pronósticos, Series de Tiempo y Regresión
Bivariadas y Multivariadas
Estadística: -Correlación y regresión
MODELO DE REGRESIÓN MÚLTIPLE
Regresión y correlación
Distribuciones de frecuencias bidimensionales
Estadística Descriptiva: 4. Correlación y Regresión Lineal
Análisis multivariable Tema 3 Itziar Aretxaga. Búsqueda de correlaciones: “La salida de pesca” Recomendaciones (Wall, 1996, QJRaS, 37, 719): 1. ¿Se ve.
Estadística Descriptiva: 4. Correlación y Regresión Lineal Ricardo Ñanculef Alegría Universidad Técnica Federico Santa María.
Regresión lineal Es un modelo matemático para predecir el efecto de una variable sobre otra, ambas cuantitativas. Una variable es la dependiente y otra.
1º BACHILLERATO | Matemáticas © Oxford University Press España, S.A Hacer clic en la pantalla para avanzar VARIABLE ESTADÍSTICA UNIDIMENSIONAL Población:
Tema 2: Métodos de ajuste
Estadística bidimensional
MEDIDAS DE DISPERSIÓN:
COMPORTAMIENTO DE LAS DISTRIBUCIONES DE
MEDIDAS DE CORRELACIÓN
Facultad: Turismo Y Hotelería
Distribuciones bidimensionales. Tablas de contingencia
FUNCIONES DE DENSIDAD DE PROBABILIDAD
Tests de hipótesis Los tres pasos básicos para testear hipótesis son
Análisis de supervivencia Tema 5 Itziar Aretxaga.
Clases 4 Pruebas de Hipótesis
REGRESION Y CORRELACION
Pronósticos, Series de Tiempo y Regresión
Vectores Aleatorios 1 Distribución conjunta de un vector aleatorio
Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE Julio 2009
5.- Calcular los residuos del ajuste del modelo a los datos.
Departamento de Física
ESTIMACION En varios pasajes de este libro hemos planteado la dificultad que se confronta en las investigaciones, de llegar a conclusiones sobre una población.
Métodos de calibración: regresión y correlación
Introducción La inferencia estadística es el procedimiento mediante el cual se llega a inferencias acerca de una población con base en los resultados obtenidos.
Jueves 14 de Abril 2011.
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
ESTADÍSTICA BIDIMENSIONAL
Estadística bidimensional
CORRELACION Y REGRESION LINEAL: Introducción
LA RECTA DE REGRESIÓN CONTENIDOS:
Herramientas básicas.
A  Percentil al 68.3%,  :  P(x) dx =  
Variables estadísticas bidimensionales
RELACIÓN ENTRE VARIABLES
Distribuciones de probabilidad bidimensionales o conjuntas
SEMINARIO DE INVESTIGACION Titular: Agustín Salvia
Elementos Básicos de Probabilidad y Estadística
Estadística II Regresión Lineal.
Análisis de los Datos Cuantitativos
Variables estadísticas bidimensionales
CORRELACIÓN Y REGRESIÓN EMPLEANDO EXCEL
RIESGO, RENDIMIENTO Y VALOR
Construcción de modelos con regresión y correlación
Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.
Variables estadísticas bidimensionales
Distribuciones de Probabilidad
TEMA 3: Estadística Bidimensional.
INFERENCIA ESTADÍSTICA
UNIDAD IV Regresión y correlación lineal
OPTIMIZACION DEL DESEMPEÑO DE ERROR
Coeficiente de variación
Tema 2: Estadística bidimensional
REGRESIÓN LINEAL SIMPLE
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
4. Métodos psicofísicos de medida en clínica
Análisis multivariable Tema 3 Itziar Aretxaga. Búsqueda de correlaciones: “La salida de pesca” Recomendaciones (Wall, 1996, QJRaS, 37, 719): 1. ¿Se ve.
Transcripción de la presentación:

Covariance Xi = value of the ith outcome of X X = discrete random variable X Xi = value of the ith outcome of X P(xiyi) = probability of occurrence of the ith outcome of X and ith outcome of Y Y = discrete random variable Y Yi = value of the ith outcome of Y I = 1, 2, …, N

Computing the Mean for Investment Returns Return per $1,000 for two types of investments Investment P(XiYi) Economic condition Dow Jones fund X Growth Stock Y .2 Recession -$100 -$200 .5 Stable Economy + 100 + 50 .3 Expanding Economy + 250 + 350 E(X) = X = (-100)(.2) + (100)(.5) + (250)(.3) = $105 E(Y) = Y = (-200)(.2) + (50)(.5) + (350)(.3) = $90

Computing the Variance for Investment Returns P(XiYi) Economic condition Dow Jones fund X Growth Stock Y .2 Recession -$100 -$200 .5 Stable Economy + 100 + 50 .3 Expanding Economy + 250 + 350 Var(X) = = (.2)(-100 -105)2 + (.5)(100 - 105)2 + (.3)(250 - 105)2 = 14,725, X = 121.35 Var(Y) = = (.2)(-200 - 90)2 + (.5)(50 - 90)2 + (.3)(350 - 90)2 = 37,900, Y = 194.68

Computing the Covariance for Investment Returns P(XiYi) Economic condition Dow Jones fund X Growth Stock Y .2 Recession -$100 -$200 .5 Stable Economy + 100 + 50 .3 Expanding Economy + 250 + 350 XY = (.2)(-100 - 105)(-200 - 90) + (.5)(100 - 105)(50 - 90) + (.3)(250 -105)(350 - 90) = 23,300 The Covariance of 23,000 indicates that the two investments are positively related and will vary together in the same direction.

Análisis multivariable Tema 3 Itziar Aretxaga

Búsqueda de correlaciones: “La salida de pesca” Recomendaciones (Wall, 1996, QJRaS, 37, 719): ¿Se ve a ojo alguna correlación? Si no es así, el cálculo formal de un coeficiente de correlación es, probablemente, una pérdida de tiempo. ¿Qué puntos crean la correlación? Si con el dedo pulgar tapas el 10% de los puntos y la correlación desaparece, ¡cuidado! Errores en los datos o efectos de selección

Búsqueda de correlaciones: “La salida de pesca” Recomendaciones (Wall, 1996, QJRaS, 37, 719): ¿Puede estar causada por efectos de selección? Si 1. 2. 3. resultan negativos, calcúlese la significancia de la correlación con alguno de los métodos que se detallan a continuación. Límite de detección de la densidad de flujo radio del catálogo 3CR

Búsqueda de correlaciones: “La salida de pesca” Recomendaciones (Wall, 1996, QJRaS, 37, 719): 5. ¿Tiene la línea de regresión algún significado? ¿Tiene sentido ajustar por mínimos cuadrados alguna curva? (d) ¿Cuales son los errores en los parámetros del ajuste? (c) ¿Por qué el ajuste tiene que ser lineal? (b) Si no sabemos qué variable actua como causa de la correlación, ¿cuál de las dos variables debemos utilizar como independiente en el ajuste? (a) (véase lección sobre ajustes)

Búsqueda de correlaciones: “La salida de pesca” Recomendaciones (Wall, 1996, QJRaS, 37, 719): ¿Existe alguna relación causal? ¿Por qué? La relación puede simplemente indicar la dependencia de las dos variable, de una tercera, y eso crea una correlación espuria. Ejemplo: diagramas L−L. Sin embargo, el Statistical Consulting Center for Astrophysics, recomienda utilizarlos siempre que se utilice análisis de supervivencia. Grafíquense las variables de forma que la correlación se vea de forma evidente en el diagrama, si hace falta, recurriendo a encasillar las variables y a realizar promedios. Ejemplo: la mediana del índice de variabilidad (v) de QSOs ópticamente seleccionados para cada intervalo MB muestra gráficamente la correlación medida por métodos estadísticos. De otra forma, los puntos del diagrama de dispersión muestran una correlación cuanto menos cuestionable para el lector novel. mediana (Hook et al. 1994)

Correlaciones entre variables de tipo nominal Definiciones: Variable nominal es aquella que conlleva información sobre un conjunto de valores no ordenado. Ejemplo: sistema de clasificación morfológica de galaxias (E, S0, Sa, Sb, ...). Tabla de contingencia, recoge las incidencias Nij entre dos variables nominales xi, yj.

Correlaciones entre variables de tipo nominal Ejemplo: comparación de la determinación del tipo espectral de estrellas, por métodos espectroscópicos y fotométricos (Selman et al. 1999, A&A).

Correlaciones entre variables de tipo nominal: test χ2 ♦ Método: probar que es erronea la suposición que las variables no están asociadas. Si es así, el número de incidencias esperado en el casillero (i,j) será . Se define la función La significancia de que ambas distribuciones estén asociadas viene dada por función de probabilidad χ2 con ν grados de libertad ♦ Comparación de la intensidad de dos correlaciones: ● V de Cramer, tal que (no corr.) 0 ≤ V ≤ 1 (corr. perfecta) ● Coeficiente C, a utilizarse sólo cuando las tablas de contingencia . . . . . tienen la misma dimensión, tal que 0 ≤ C ≤ 1. (Press et al., “Numerical Recipes”)

Correlaciones entre variables de tipo ordinal o continuo: coeficiente de Pearson ♦ Definiciones: se denomina variable ordinal aquella cuyos valores discretos se pueden ordenar, y variable continua, aquella cuyos valores continuos se pueden ordenar. Ejemplos: orden de las galaxias más luminosas en un cúmulo (1,2,3...), temperatura efectiva de una nebulosa, ... ♦ Coeficiente de correlación lineal de Pearson ● Suposición: las variables están distribuidas de forma gaussiana. Es un . test paramétrico. ● Método: mide la desviación de las variables respecto a una línea recta. Dados los puntos {xi, yi }i=1,..,N se define el coeficiente de correlación tal que −1 ≤ r ≤ 1, donde ±1 indica correlación perfecta, y 0 indica no correlación. La significancia de que no exista una correlación viene dada por la distribución t-Student con N−2 grados de libertad, donde r está relacionado con la matriz de covariancia, que ofrece también un test paramétrico si se utiliza para buscar correlaciones

Correlaciones entre variables de tipo ordinal o continuo: coeficiente de rangos de Spearman ● Suposiciones: ninguna, es un test no-paramétrico, y por lo tanto, muy utilizado en Astrofísica. ● Método: dados los puntos { xi, yi }i=1,..,N se definen las variables Ri , rango cuando las xi están ordenadas ascendentemente, y Si , rango cuando las yi están ordenadas ascendentemente. Si no se producen repeticiones (ligas) en los valores de xi, yi , se define el coeficiente de Spearman Si se producen fk repeticiones entre las xi , y gm repeticiones entre las yi que tiene la propiedad ρ 0 cuando no existe correlación. La significancia de no asociación viene dada aproximadamente por la distribución t-Student con N−2 grados de libertad siempre que se tengan más de 50 puntos, si no, hay que recurrir a tablas de significancias. (Press et al. , Numerical Recipes)

Correlaciones entre variables de tipo ordinal o continuo: coeficiente de Spearman Tablas de significancias para N≤50 (Wall, 1996, QJRaS, 37, 719):

Correlaciones entre variables de tipo ordinal o continuo: coeficiente de rangos de Kendall ● Suposiciones: ninguna, es un test no-paramétrico. De hecho, los resultados de los tests de Spearman y Kendall están fuertemente correlacionados. ● Método: se crean todas las combinaciones de puntos posibles [(xi, yi), (xj, yj)] tal que i ≠ j y se definen c = número de parejas concordantes (xi>xj y yi>yj) o (xi<xj y yi<yj) d = número de parejas discordantes (xi>xj y yi<yj) o (xi<xj y yi>yj) ey=número de ligas en y, con xi≠xj ex=número de ligas en x, con yi≠yj El coeficiente de Kendall se define tal que −1 ≤ τ ≤ 1 donde ±1 indica correlación perfecta, y 0 indica no correlación. La significancia de no asociación viene dada por una distribución normal (Press et al. , Numerical Recipes)

Correlaciones entre variables de tipo ordinal o continuo: coeficiente de rangos de Kendall Ejemplo: anticorrelación entre variabilidad (σv) y luminosidad (MB) en QSOs. Nótese que incluso para valores pequeños del coeficiente de rangos de Kendall, la significancia de asociación es grande. Por comparación, la variabilidad (σv) y el redshift (z) no están significativamente asociados. (Hook et al. 1994, MNRAS, 268, 305)

Correlaciones entre variables de tipo ordinal o continuo: coeficiente de rangos parciales ● Utilidad: comprobar si la correlación encontrada entre dos variables x,y está generada por la asociación de ambas con una tercera variable z. ● Método: se pueden utilizar tanto el coeficiente de rangos ρ de Spearman como el τ de Kendall. Es un test no-paramétrico. Se define el coeficiente de rangos parciales La significancia de que la correlación entre x,y se deba enteramente a la correlación de ambas con z viene dada por que se encuentra distribuida de forma normal, en el caso de total dependencia (Macklin J.T., Check tau def OK, why not simplyfied?????? Check 3CR source too. 1982, MNRAS, 199, 1119). Ejemplo: relación entre tamaño angular (θ), índice espectral (α) y redshift (z) de las fuentes del catálogo 3CR

Análisis multivariable: componentes principales ● Utilidad: es muy potente para analizar las relaciones entre muchas variables. ● Método: dadas p variables con n puntos cada una, se define el sistema de componentes principales como aquel sistema de referencia de p ejes ortogonales en el que se maximiza la variancia de los n puntos, de forma decreciente del primero de los ejes, al último. Sea el vector de p coordenadas, Y’ la matriz de p×n observaciones. La media de las observaciones se puede expresar como . , donde I es el vector unitario de dimensión n, y la matriz de covariancia , donde Y’ es una . . matriz p×n cuyas files son todas iguales a y’ . Se puede demostrar que define un sistema de elipsoides centrados en el centro de gravedad de la nube de puntos cuyos ejes trazan, de forma descendiente, la máxima variancia. Ejes propios de la matriz de covariancia

Análisis multivariable: componentes principales Puesto que por definición C es simétrica, se puede calcular la base ortogonal que minimiza la variancia de la nube de puntos a través de sus valores propios (i ) y vectores propios (ai) o eigenvalues y eigenvectors: C ai = i ai , i=1, ..., p . Estos valores se pueden obtener al resolver la ecuación característica C  I= 0 , donde I, ahora, es la matriz unidad de orden igual al de la matriz C. Llamamos A a la matriz generada por los vectores propios ai arreglados como filas. Si transformamos el vector de variables y, obtenemos z = A(yy) las coordenadas sobre el sistema de ejes ortogonales definido por los vectores propios de la matriz de covariancia. Se puede reconstruir y de z invirtiendo la ecuación anterior y = A’z + y en virtud de que A es una matriz ortogonal, A1 = A.

Análisis multivariable: componentes principales En el nuevo sistema de coordenadas, la nube de puntos de las observaciones muestran una variancia decreciente si se ordenan los ejes según el orden decreciente de sus valores propios. Así el eje definido por a1, donde 1 es el valor propio más grande, es el eje principal sobre cuya proyección los puntos tienen la mayor variancia. Para evaluar la importancia de la proyección sobre el eje j se compara el valor de j respecto de la suma de todos los valores propios. Si un valor propio añade poco al valor total de la suma, la variancia sobre el eje correspondiente es pequeña, y por lo tanto, ésta es una dimensión con muy poca información, que se puede obviar. Si denotamos como AK la matriz que contiene los primeros k vectores propios, podemos comprimir los datos sin perder mucha información mediante las transformaciones, z = AK(yy) y = A’Kz + y Por lo tanto PCA puede reducir la dimensionalidad del problema.

Análisis multivariable: componentes principales Ejemplo: PCA aplicado a la catalogación de ~230 espectros de QSOs (Francis et al. 1992, ApJ, 398, 476) BLR pendiente, y líneas estrechas a2 a3 bosque de absorción a4

Ejem: análisis multivariable de las propiedades de supernovas (Patat et al. 1994, AA, 282, 731). Correlaciones entre: el decaimiento en banda B en los primeros 100 días, B100 el decaimiento del color B-V en los primeros 100 días, B-V100 la anchura de la línea H, vH el cociente entre las intensidades de la emisión y la absorción de H, e/a la magnitud absoluta en banda B en el máximo, MBmax el color B-V en el máximo de la curva de luz, (B-V)max Proyecciones de las variables a analizar sobre los ejes definidos por los dos primeros autovectores de su matriz de covariancia. Estas proyecciones comprenden el 59% de la variancia de los datos.

Análisis multivariable: redes neuronales ● Propiedades: es una técnica muy potente para analizar relaciones no necesariamente lineales en problemas con un gran número de variables. No se necesita formular un modelo, ya que la red aprende de ejemplos, derivando las relaciones entre las variables de forma heurística a través de un conjunto de datos de entrenamiento. • Aplicaciones en Astrofísica: clasificación de objetos (Storrie-Lombardi et al. 1992, MNRAS, 259, 8), detección de señales débiles (Bacigaluppi et al. MNRAS 2000, 318, 769), determinación de períodos de variabilidad (Cornway 1998, NewAR, 42, 343, Tagliaferri et al. 1999, A&AS, 137, 391), determinación de corrimientos al rojo (Firth et al, astro-ph/0203250), detección de frentes de onda en sistemas con óptica adaptativa (Angel et al. 2000, Nat, 348,221; Sandler et al. 1991, Nat, 351, 300). nodos de entrada nodos de salida (Figura de StatSoft: www.statsoft.com/textbookstathome.html)

Análisis multivariable: redes neuronales Ejemplo: clasificación de galaxias por una red neuronal con retropropagación (Storrie-Lombardi et al. 1992, MNRAS, 259, 8P) . La entrada a la capa s de la red es: donde los w son pesos a ajustar; y la salida es una señal que depende de forma no-lineal de las entradas. Los pesos se determinan por un método de mínimos cuadrados para un conjunto de datos de entrenamiento. Se define una función de coste, con las diferencias entre la salida (clasificación) deseada y la obtenida: y se ajustan los pesos hacia las capas de atrás (retropropagación) donde el coeficiente de aprendizaje η y el momento α se prefijan para determinar la rapidez del aprendizaje.

Análisis multivariable: redes neuronales Ejemplo: clasificación de galaxias por una red neuronal con retropropagación (Storrie-Lombardi et al. 1992, MNRAS, 259, 8P) . Una vez se ha entrenada la red, se fijan los pesos, y se pasan como entradas de la red neuronal el conjunto de datos problema. Los nodos de salida dan la probabilidad de que la clasificación sea C dada el conjunto de datos x, es decir, el resultado es bayesiano.