V. Correlació i covariança

Slides:



Advertisements
Presentaciones similares
Cambios en el espacio: transformaciones geométricas
Advertisements

ENERGIA Energia és allò capaç de transformar la matèria.
PROPORCIONALITAT 1 Funciona amb “clics”.
Unitat 5: Expressions algebraiques
MESURA DEL RADI DE LA TERRA (seguint Eratóstenes)
XXIII OLIMPìADA MATEMÀTICA 2012
Equacions amb dues incògnites.
MÚLTIPLES I DIVISORS.
EL LLENGUATGE MUSICAL.
OLIMPIADA MATEMÀTICA 2008 FASE PROVINCIAL PROVA INDIVIDUAL
La Condició Física i les Qualitats Físiques Bàsiques
IV. Dades i distribucions
FUNCIONS ELEMENTALS.
Tema 2. DIVISIBILITAT.
MÚLTIPLES I DIVISORS ESCOLA EL Cim- 6è de primària.
AVALUAR-QUALIFICAR PER COMPETÈNCIES
III. Models de probabilitat
MESCLES I DISSOLUCIONS
Cambios en el espacio: transformaciones geométricas
Tractament de Dades Experimentals
El mercat ELS NENS I NENES DE P-4.
Les fraccions Sisè B curs
Creació d’un mapa personalitzat
Resolució de problemes algebraics
Introducció a l’Experimentació
Una forma fàcil d'obtenir algunes fórmules
Potències de nombres racionals
ANÀLISI DELS ESTATS FINANCERS DE L´EMPRESA
POLINOMIS.
Termes i expressions algebraiques
HORT = TREBALL EN EQUIP - 4t
ELS DRETS SOCIALS Rics i pobres
Treballem l’estadística
Fet per Adriana, Helena i Marta (6B)
1. L’empirisme de Locke 1.3. L’anàlisi dels conceptes de la metafísica escolàstica Pàgina 258 Els dos sentits de la substància: com a substrat i com a.
Matemàtiques 3er E.S.O..
Problema 1: Trobar la recta que passa pel punts A(2, -3) i B(-1, 3)
TEMPERATURA I TERMÒMETRES
OLIMPIADA MATEMÀTICA 2010 FASE PROVINCIAL PROVA INDIVIDUAL
L’AIGUA A LA NATURA.
Objectiu Educatiu Trienni
valors humans i socials
Repàs control matemàtiques
Tema 5: Nombres naturals i enters
Distribucions importants en Inferència estadística
HORT = TREBALL EN EQUIP - 4t
(posició d’equilibri)
Repàs control matemàtiques
CONNEXIONS SENSE CABLES I DISPOSITIUS MÒBILS
Ara resoldrem alguns problemes amb balances.
PERQUÈ LA NOSTRA SABATA TÉ UN NÚMERO!!
BIODIVERSITAT A L’HORT
Problemes que es poden resoldre amb equacions
Les taules de multiplicar
Les fraccions Sisè B curs
Explica amb detall com ho has fet per decidir el tros que pintes.
Funció DAM amb taxa de canvi fixa
LA NOVA SELECTIVITAT I L’ACCÉS A LA UNIVERSITAT
La literatura i les matemàtiques van de la mà.
AQUESTA QUARESMA TU POTS SER MÉS!
Observa aquesta balança i mira quins canvis hi fem
“Senyor, ensenya’m a ser feliç i a donar pau”
Ones EM a un canvi de medi material
TEMA 7. COMPRES, VENDES I EXISTÈNCIES
MESURA DEL RADI DE LA TERRA (seguint Eratóstenes)
CONCURS BÍBLIC NOM: CÉSAR COGNOMS: GARCÍA MEDINA GRUP B DATA NAIXAMENT: 02/07/2003 COL·LEGI: SANT JOSEP OBRER CARRER: COVADONGA S/N
Llengua catalana i literatura
6a SETMANA de QUARESMA US PRESENTEM LA JOANA QUE ENS ACOMPANYARÀ EN AQUESTA SISENA SETMANA DE QUARESMA. LA JOANA DE VEGADES ES MOSTRA MOLT RESPONSABLE.
LES MÀQUINES.
Xoc negatiu d’SA amb canvi fix (II)
Transcripción de la presentación:

V. Correlació i covariança Sovint, la variable que ens interessa l’hem de determinar indirectament del resultat de la mesura. V = f(x) Sovint, també, aquesta variable que ens interessa no depèn d’una única variable que podem mesurar directament, sinó de vàries. V = f(x1, x2, …, xN) Quan fem un experiment, en general tenim un objectiu que va més enllà de mesurar una variable: Volem determinar si hi ha dependències entre variables, i si és possible quantificar-les. En un experiment al laboratori, solem tenir variables que podem fixar externament (variables de control, o independents) i analitzar quin impacte tenen sobre les que volem estudiar (variables dependents). En experiments de camp, sovint tenim només capacitat observacional, sense possibilitat de manipulació, i això complica les coses.

1) Funcions d’una variable: propagació d’incerteses Quan hem mesurada la variable x, donant-ne una millor estimació i una incertesa, tal com hem vist anteriorment, podem determinar la millor estimació i la incertesa de qualsevol funció d’aquesta variable. Suposem que x és gaussiana, amb x = x0 ± dx La variable y = f(x)  f(x0) + f’(x0) (x - x0) + …, de manera que ara, el valor esperat i la variança de y són E(y) = f(x0) + … V(y) = ( f’(x0) dx )2 + ... I per tant ja tenim determinades la millor estimació de y i de sa incertesa. Nota: això és vàlid si x0 no és molt aprop d’un màxim o un mínim de la funció f(x), si no, cal anar més enllà en el desenvolupament d’En Taylor.

2) Probabilitat conjunta de dues variables aleatòries Quan tenim dues variables aleatòries, la densitat de probabilitat conjunta és f(x, y), i f(x, y) es pot determinar, com abans, per un procés de “binning”, que ara ha de ser bidimensional. Y X X1 X2 X3 X4 X5 X6

(Densitat de) probabilitat d’y condicionada a que x prengui Ho podem reduir a una dimensió fixant el valor d’una de les variables, X, i aleshores aplicar els mètodes vists anteriorment per a determinar la densitat de probabilitat de l’altra variable, Y, fixat el valor d’X. (Densitat de) probabilitat d’y condicionada a que x prengui el valor Xi Si , independent d’Xi, les dues variables són independents. En cas contrari, es diu que hi ha dependència entre les dues variables. Això implica que la distribució d’y depèn del valor que hagi pres x.

X Y Variables independents X Y Variables dependents

X Y Variables independents X Y Variables dependents

Si dues variables, x i y, són gaussianes i independents, f(x, y) = G(x; mx, sx) G(y; my, sy), la magnitud és idènticament zero. Si no són independents, en general té un valor no nul. Suposem que, fixat x, tenim y fixat i donat per la relació y = A + Bx. Aleshores, my = A + B mx, i X Y

Quan tenim una col·lecció de dades conjuntes per a les dues variables, {(xi, yi)}, i=1, 2, ...N, la millor estimació de la covariança de les dues variables és Més usat és el coeficient de correlació lineal, r, de les dues variables, que és adimensional i comprés en el rang entre -1 i 1. Es defineix com Quan traiem N parells de dades de dues distribucions gaussianes independents, sempre tenim una probabilitat no nul·la de trobar un valor no nul de r, que depèn només del nombre total de dades N. Podem doncs avaluar la probabilitat de que per atzar ens surti un valor de r tan gran o més que el que observem a les nostres dades,

i això ens permet determinar si el valor que observem pot aparèixer fàcilment per atzar essent les dues variables descorrelacionades. Si P  0.1, això implica que pot aparéixer molt fàcilment, i direm que la correlació no és significativa. Si P  0.05, direm que la correlació és significativa. Si P  0.01, direm que la correlació és altament significativa. Els dos darrers casos ens indiquen que molt probablement hi ha dependència entre les dues variables que estem manejant.

Amb aquestes 10 dades, trobem un coeficient de correlació lineal ro = 0.7807, i de la taula, tenim una probabilitat de menys de l’1% de trobar-lo per atzar, de manera que podem dir que hi ha correlació altament significativa entre les notes del treball i les de l’examen.

Cal notar que sempre és molt recomanable fer una representació gráfica de les dades, perquè podem obtenir r  0 però haver-hi correlació no lineal entre les dades. X Y No hi ha cap test que ens permeti detectar-ho directament. Només fent un canvi de variable podem arribar a linealitzar-la.

Pes vs t 100 m tanques ro = -0.850 Pes vs t 1500 m llisos ro = 0.681 t 100 m vs t 1500 m ro = -0.699 Tenim N = 8 dades, i en cada cas hem hagut de determinar el valor mig de dues variables, és a dir, tenim 6 graus de llibertat. En el primer cas, per a dues variables independents tenim que P(r  | ro| ) < 1%, de manera que és molt improbable que surti per atzar si no hi ha correlació: la correlació observada és altament significativa. En el segon, 5% < P < 10%. No és conclusiu, però sembla significativa. Caldria millorar la mesura, e. g., prenent més dades. En el tercer, P~ 5%, i és significativa.

Essent útil, cal dir que r NO ÉS un indicador “fi”, i pot donar sorpreses

3) Propagació d’incerteses en funcions de múltiples variables Quan una variable V depèn de múltiples variables xi, i=1, 2, ...N, independents, V = f(x1, x2, …, xN) les incerteses en el valor de cadascuna de les variables independents ens provoquen incertesa en el valor de V. Com abans, si les incerteses són petites, podem expandir al voltant dels valors esperats de cada vaiable independent, de manera que el valor esperat de V és i sa variança és

Si totes les variables són independents, si,j2 = si2 di,j, i aleshores tenim que Exemple: Substracció d’un fons de soroll Es vol mesurar la taxa d'emissions per segon d’una font radiactiva. Per a fer-ho, es compten els events durant 1 minut, 5 vegades amb la font, i 5 vegades sense, per a determinar la contribució còsmica. Es troba Amb font 161 200 179 207 163 Sense font 23 12 15 14 14 Quina és la contribució còsmica? Quina la de la font? Amb font, durant 5 minuts tenim 910 comptes, i així l = 910  30  r = 182  6 comptes/minut. Sense font, tenim 78 comptes i l’ = 78  9  r’ = 15.6  1.8 comptes/minut. Aleshores, la font contribueix amb r - r’ = 166  6 desintegracions/minut = 2.7  0.1 desintegr./segon

4) Ajustament lineal Quan entre dues variables x i y existeix una correlació lineal significativa, ens indica que, excepte efectes de fluctuacions, la variable y probablement depèn de la variable x de manera lineal, és a dir, y = A + B x Això vol dir que my = A + B mx de manera que, fixat el valor de x, tenim fixat el valor mig de la variable dependent, y. Aleshores, la probabilitat d’una seqüència de mesures és Amb el principi de màxima versemblança, podem determinar els coeficients A i B que la maximitzen.

El sistema d’equacions resultant té com a solucions Si totes les sj són iguals, es redueix al promig aritmètic; si no, tenim promitjos pesats.

La quantitat de radiació emesa per un bloc radioactiu es mesura durant 15 segons a intervals de 10 minuts. El temps de preparació de la primera mesura és de 10 minuts. Els resultats es donen a la taula següent, t (min.) 10 20 30 40 50 Comptes 409 304 260 192 170 Calculeu el coeficient de correlació lineal entre els comptes i el temps. Idem entre el logaritme dels comptes i el temps. Calculeu-ne els coeficients de l’ajust lineal, amb llurs incerteses, en cada cas. Quina dependència funcional creieu que descriu millor els comptes en funció del temps? a) Directament amb els comptes, tenim un pes per a cada punt igual a 1/comptes. El coeficient de correlació lineal resulta ser r = -0.9728, que té una probabilitat d’aparéixer per atzar de menys de l’1%, pel que sembla que hi ha correlació lineal altament significativa. Fem l’ajust, i trobem A = 433  19 i B = (-5.6  0.5)/min

Sembla prou bo, i si fem una representació gràfica, trobem que no té mal aspecte. Amb aquests coeficients, trobem c2 = 6.745, amb 3 graus de llibertat, que té menys d’un 10% de probabilitat de ser trobada. Això ens fa sospitar que l’ajust no és prou bo.

b) Fem el canvi de variable y = ln C b) Fem el canvi de variable y = ln C. Ara, l’error en y és 1/C, i el coeficient de correlació lineal és r = -0.9923, que té una probabilitat de menys del 0.1% d’aparéixer per casualitat. Els coeficients de l’ajust ara resulten ser A = 6.21  0.06 i B = (-0.023  0.002)/min i tenim c2 = 2.026, amb 3 graus de llibertat, que té més d’un 50% de probabilitat de ser superada, pel que ara l’ajust sembla molt bo.

5) Ajusts a altres corbes. Ja hem vist que hi ha casos en que la relació funcional es pot linealitzar fent un canvi de variables. En aquest cas, fent correctament la propagació d’errors en el canvi per a determinar els pesos dels punts transformats, podem usar l’ajustament lineal de la variable transformada. Però hi ha vegades en que cerquem un ajust no lineal, e. g., polinòmic. En aquest cas, el principi de màxima versemblança també ens permet determinar els coeficients de l’ajust. El resultat és un sistema d’N equacions amb N incògnites (els coeficients ak) que es pot resoldre analíticament o numèrica. Les incerteses en els coeficients es poden aleshores determinar per propagació d’errors.

Per a dependències no polinòmiques, o que no s´hi puguin transformar amb un canvi de variable, els sistemes d’equacions resultants no són, en general, resolubles analíticament, i cal fer-ho numèricament. Un dels mètodes més eficients és el de SVD, que s’implementa a molts de programes d’ordinador. Fet l’ajust, sempre es pot efectuar el test c2 per a avaluar la qualitat de l’ajust. Però hi ha vegades en que el test c2 sembla bo, i hi ha motius per a sospitar. Sol passar quan hem sobreestimat els errors, c2 30, P > 40%

AAAAAA BB AA BBBBBBBBBBBBBBBB AAAA Sempre que vegem molts de punts seguits per damunt/davall de la corba d’ajust, hem de sospitar, ja que pot ser indicatiu de diferències no aleatòries entre l’ajust i els punts. Podem aplicar el test de seqüències (run test) que consisteix en el següent: Assignem a cada punt la lletra A o B segons que es trobi per damunt (Above) o davall (Below) de la corba d’ajust. A l’exemple, tenim AAAAAA BB AA BBBBBBBBBBBBBBBB AAAA i veiem que tenim NA As i NB Bs, que en el nostre cas formen 5 blocs. Quan NA i NB > 10-15, la distribució del nombre de blocs b és, en bona aproximació, gaussiana de valor mig i variança

zo= - 4.03  P( z  -| zo |  z  | zo | ) = 0.006%, Aleshores, podem avaluar fàcilment quina és la probabilitat de trobar una diferència entre el nombre de blocs i E(b) sigui igual o superior a l’observada. En el nostre exemple, tenim 12 As i 18 Bs, formant 5 blocs. E(b) = 15.4, i V(b) = 6.654, de manera que zo= - 4.03  P( z  -| zo |  z  | zo | ) = 0.006%, que és extremadament baixa. Això indica que, malgrat el test chi-quadrat ésser bo, l’ajust té una discrepància significativa amb les dades. Tot el que siguin menys de 10 blocs, és altament improbable.