La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

IV. Dades i distribucions

Presentaciones similares


Presentación del tema: "IV. Dades i distribucions"— Transcripción de la presentación:

1 IV. Dades i distribucions
1) Histogrames i distribucions Quan fem un experiment, tenim una col·lecció de dades, de les quals en volem extreure informació. Sensor enregistrador de Temperatura Temperatura T  ºC

2 Volem saber quina és “la” temperatura de l’aigua dins del tassó, però veiem clarament que varia molt més que la ressolució instrumental. Cal donar: un valor característic un interval de variació  incertesa Interval de variació Valor característic Si coneixem la distribució estadística de les dades, podem fer-ho a partir d’aquesta distribució.

3 Per a una distribució donada de les dades, podem donar com a valor característic el valor esperat.
Per a descriure l’interval de variació, tenim diferents opcions: a. Podem donar la desviació típica de la distribució. Per a una distribució gaussiana, això vol dir que el 68.27% de les dades apareixen a l’interval [ m - s, m + s] b. Podem donar la desviació típica del valor esperat En qualsevol cas, necessitem conéixer la distribució de les dades, per a determinar-los. Com ho podem fer? En general, caldrà fer: una hipòtesi de quina és la distribució de les dades estimar-ne els paràmetres comprovar si la hipòtesi feta és consistent amb les dades experimentals.

4 Histograma: fem una partició (binning) de l’interval de variació i comptem quantes de dades apareixen dins cada bin. Error instrumental  mínim bin permés Bin massa petit, variacions abruptes Bin massa gran, pèrdua detall Un rang de bins acceptables

5 Per als bins “bons” podem veure una corba relativament suau
Per als bins “bons” podem veure una corba relativament suau. Segons la interpretació clàssica de la teoria de la probabilitat, en dividir pel nombre total de dades ha de tendir a la distribució de freqüències de la variable a mesura que creix el nombre total de dades. Si podem intuïr quina és la distribució límit de les dades, estem en condicions de fer una estimació dels paràmetres de la distribució aplicant el principi de màxima versemblança (likelihood).

6 2) Estimació de paràmetres: El principi de màxima versemblança (The principle of maximum likelihood)
Si coneguéssim la distribució límit de les dades, f(x; a1, ..., aM), podríem determinar fàcilment quina és la probabilitat P dels nostres resultats, Es pot demostrar que a mesura que creix el nombre de dades, P és gairebé zero per tot excepte si cada mesura es prou semblant a la moda de la distribució de dades. Raonant inversament, podem pensar que la nostra seqüència de resultats només pot aparéixer per als valors dels paràmetres que fan màxima P. Això ens permet fer una estimació dels paràmetres de la distribució. La condició de màxim de P implica i. e., un sistema d’M equacions per als M paràmetres, que determina les millors estimacions d’aquests, âi.

7 a) Suposem per exemple que les dades tenen una distribució gaussiana, G(x; m, s). Aleshores, la probabilitat P d’una seqüència de mesures independents, {xi  Dx}, és Aplicant el principi de màxima versemblança, Millor estimació de la mitjana Millor estimació de la variança Requereix m, desconeguda!

8 Podem solventar aquesta dificultat usant la millor esimació de m, però aleshores cal fer
b) Suposem ara que tenim dades discretes que tenen una distribució d’En Poisson, Pl(n). Aleshores, la probabilitat P d’una seqüència de mesures independents, {ni}, és Aplicant el principi de màxima versemblança, Millor estimació de la mitjana E(n) = l V(n) = l

9 c) Suposem ara que tenim M dades discretes que tenen una distribució binomial, BN(n; p). Aleshores, la probabilitat P d’una seqüència de mesures independents, {ni}, és Aplicant el principi de màxima versemblança, Millor estimació de la probabilitat E(n) =Np V(n) =Np(1-p)

10 3) Estimació de la incertesa en els paràmetres
a) Per a una distribució gaussiana, ja hem vist com fer una estimació de m i s amb el principi de màxima versemblança, però quina incertesa (error) tenen? Considerem moltes (M  ) de col·leccions d’N dades independents, resultants de mesurar la mateixa variable. Clarament, totes provenen de la mateixa mostra i tenen la mateixa distribució. Amb cada col·lecció de dades podem determinar una millor estimació de m i s (mi i si). Ara, analitzant la distribució de mi es pot demostrar que és gaussiana, de valor esperat E(mi) = m (el veritable valor de m) i variança V(mi) = s2/N. Donarem com a resultat de la mesura de la variable on la incertesa indica que el 68.3% dels resultats apareixen a l’interval i on s’ha suposat que l’error instrumental és menyspreable , i. e., molt menor que s/N

11 E(pi ) = p V(pi) = p (1 - p )/N
Igualment, la millor estimació de s també és gaussiana, amb E(si) = s i V(si) = s2/(2 (N-1) ) Es veu, aleshores, que calen al menys N = 51 dades per a poder donar s amb una precisió del 10% b) Per a la distribució binomial, BN(n; p), si N és prou gran, pi té una distribució gaussiana amb E(pi ) = p V(pi) = p (1 - p )/N Donarem doncs com a millor estimació de p c) Per a la distribució d’En Poisson, Pl(n), li és gaussiana amb E(li) = l V(li) = l Donarem doncs com a millor estimació de l

12 Nota molt important: Jo he donat l’interval de confiança del 68% (1s) com a la incertesa de la mesura. Aquesta és la pràctica habitual en Física. Però no sempre és així, especialment en Ciències Socials i Estadística aplicada (enquestes, sondejos de mercat, etc.) En Biologia, tampoc. Moltes de vegades, es donen els intervals de confiança del 95% (2s) o 99% (3s) per a aquesta incertesa. Cal sempre explicitar quin significat té l’interval de confiança que s’està donant.

13 4) Test c2 de la distribució límit d’una mostra
Amb les dades experimentals agrupades en bins hem feta una hipòtesi sobre quina era la distribució de les dades, i aplicant el principi de màxima versemblança, hem determinat els millors valors dels paràmetres de la distribució. Podem saber ara fins a quin punt la hipòtesi feta sobre la forma de la distribució és consistent o no amb les dades? La resposta és SÍ. Dins cada bin bk = [xk , xk+1] (amb k = 1... K) hi hem observat Ok dades de les N que n’hem recollides. Però amb la distribució de dades suposada esperaríem trobar-n’hi ja que la integral ens dóna la probabilitat p de trobar un resultat dins del bin considerat en fer una mesura.

14 Des d’aquest punt de vista, el nombre de dades dins del bin k té una distribució binomial BN(n; pk), el valor esperat de la qual és Ek (n) = Npk i de variança Vk (n) = Npk (1-pk). Si tenim prou dades dins cada bin (Npk >>1), s’assembla a una gaussiana. I si tenim prou bins (K >> 1) pk és petita i Vk (n) = Npk (1-pk)  Ek Aleshores, podem construir la magnitud que ens mesura, dins cada bin, el quadrat de la diferència entre el valor esperat i l’observat en unitats de la desviació típica, i en fa la suma a tots els bins. Aquesta és una variable aleatòria contínua ben estudiada, amb una distribució límit coneguda, c2.

15 Si X1...XN són N variables gaussianes independents, aleshores la variable
s’anomena una variable chi-quadrat amb N graus de llibertat, i sa funció densitat de probabilitat és que depèn només del nombre de graus de llibertat N.

16 Amb les dades i els resultats de l’ajust, calculem el valor observat de chi-quadrat, c2o i el nombre de graus de llibertat del nostre problema: N = K - M - 1 Amb la densitat de probabilitat de c2 podem determinar quina és la probabilitat, en fer una mesura, de trobar un valor igual o superior a l’observat, Si P  0.1, es considera que no hi ha motiu per a dubtar de la hipòtesi feta. Si P 0.05, es diu que hi ha discrepància significativa Si P 0.01, es diu que hi ha discrepància altament significativa

17 Per a poder testejar si les dades experimentals s’avenen amb una distribució amb M paràmetres es requireixen al menys K=M+2 bins, cadascun amb al menys 5 (millor 10) dades, ja que: 1) el nombre de dades del darrer bin és fixat pels de dades als altres bins perquè el nombre total de dades és donat 2) com que hem ajustat M paràmetres de la distribució, hem “triada” la distribució que millor s’ajusta a les nostres dades, i això suposa M lligams addicionals Abans de res, però, analitzem qualitativament quin comportament ha de tenir. Si la distribució del nombre de mesures dins cada bin és aproximadament gaussiana, sabem que el 68% de les dades es trobem en un interval 1s al voltant del valor esperat, el 95% en un de 2s, etc. Per tant, esperaríem que, en promig, cada bin contribuís en una unitat a la suma, i aleshores c2 ~ K- M - 1, és a dir, N. Si c2 >> K- M - 1, tenim motius per a sospitar!

18 Exemple 1: Un dia d’estiu, a l’aeroport de Son Sant Joan es mesura 100 vegades el nombre de vols que aterren en un minut, amb els resultats donats a la taula. Les dades sòn discretes, i ja ens donen el nombre de comptes en un minut. Si dibuixem l’histograma, té pinta de ser una Poisson (o una binomial)

19 <(# vols - <# vols>)2 > = 2.60
La primera prova que podem fer és veure si el valor mig i la variança són semblants, tal com correspon a una Poisson. <# vols> = 2.55 <(# vols - <# vols>)2 > = 2.60 Aleshores, suposant que es tracta d’una distribució d’En Poisson, la millor estimació del paràmetre de la distribució és segons hem vist amb el mètode de màxima versemblança, l = 2.55  0.16 vols/minut Per a fer el test d’aquesta hipòtesi, com que els darrers bins tenen poques dades, agrupem els bins 5, 6, 7 i 8 en un únic bin. Amb la distribució d’en Poisson P2.55 (n) i 100 observacions en total, calculem el nombre esperat d’observacions a cada bin, i fem la taula

20 Trobem un valor de c2 = 0.581, i tenim 4 graus de llibertat (6 bins desprès d’agrupar-los, un paràmetre ajustat i 100 dades). La probabilitat de trobar un valor de c2 al menys tan gran com aquest és superior al 95%, i no hi ha motiu per a dubtar de que les dades segueixen una distribució d’En Poisson.

21 Exemple 2: Quina és la temperatura mesurada pel sensor? Quina distribució té? Sensor enregistrador de Temperatura Temperatura T  ºC

22 Fem l’histograma i trobem una corba bastant suau, amb pinta de gaussiana. Si fos gaussiana, hauríem de determinar les millors estimacions de la mitja i la desviació típica, que amb el mètode de màxima versemblança són: Tav = ºC sT = ºC i per tant diríem que T =  ºC

23 Per a saber si la hipòtesi d’una distribució gaussiana de les dades és compatible o no amb els dades, fem el test c2. Calculem el # esperat de dades a cada bin, El valor que observem és c2o=74.26, i tenim 100 bins (de 9.5 a 10.5), amb 2 paràmetres ajustats i 2500 dades, o sigui, 97 graus de llibertat. Això ens indica que l’ajust sembla prou bo, i de fet, la probabilitat de trobar un valor al menys tan gran com aquest és gairebé 96%. Per tant, no hi ha motiu per a sospitar que la distribució no sigui gaussiana.

24 Exemple 3: Llencem un dau 125 vegades, i trobem que cada cara apareix el # de vegades especificat a la taula. Són aquests resultats compatibles amb que el dau no sigui trucat? Si el dau no és trucat, esperem trobar 1/6 de les mesures dins cada bin, és a dir, 125/6 = mesures. Aleshores, tenim c2o=8.2, i N = 5 graus de llibertat (no hem feta cap estimació de paràmetres!) De la taula, veiem que P(c2 c2o) > 10%, i de fet és 14.5%, de manera que no hi ha cap motiu per a sospitar que el dau sigui trucat.

25 Exemple 4: Llencem una moneda 10 vegades, i trobem 7 cares i només 3 creus. Tenim motiu per a sospitar que la moneda és trucada? Si la moneda no és trucada, esperem trobar 1/2 de cares i 1/2 de creus, és a dir, 5 cares i 5 creus. Aleshores, tenim c2o=1.6, i N = 1 graus de llibertat (no hem feta cap estimació de paràmetres!) De la taula, veiem que P(c2 c2o) > 20%, i de fet és 20.6%, de manera que no hi ha cap motiu per a sospitar que la moneda sigui trucada. I si llencem la moneda 30 vegades i trobem 21 cares i 9 creus? En aquest cas, esperem trobar 15 cares i 15 creus, de manera que tenim c2o=4.8 i, com abans, N = 1 graus de llibertat. De la taula, veiem que P(c2 c2o) < 5%, i de fet és 2.8%, de manera que hi ha motiu per a sospitar que la moneda és trucada.

26 En el primer cas, si féssim l’estimació de treure cara tenim
p = ± (1s) de manera que el mínim valor és proper a 0.5, el de una moneda no trucada. De fet, zo = ( )/0.145 = 1.4, i P(z  zo) = 8%, que no és prou petita com per a rebutjar que la moneda sigui no trucada. En canvi, en el segon cas, tenim p = ± (1s) i ara zo = 2.4, amb P(z  zo) = 0.8%. Aquest valor és prou petit per a no poder confiar en que hagi sortit per atzar, i per tant sospitem que la moneda és trucada.

27 Exemple 5: Hem mesurat vegades una variable X, i l’histograma resultant, amb un binning de 0.1 unitats, és el de la figura. La distribució de les dades, és gaussiana? Una gaussiana sembla una elecció raonable. Amb les dades completes fem la millor estimació de paràmetres, i trobem m = s = 8.0 que no semblen cap disbarat.

28 Calculem però el # esperat de dades dins cada bin, i trobem c2o=5857
Calculem però el # esperat de dades dins cada bin, i trobem c2o=5857.5, amb N = 397 graus de llibertat (400 bins - 2 paràmetres - 1). Podem veure que tenim c2o/N  >> 1, i per tant la hipòtesi gaussiana no és compatible amb les dades.

29 5) Comparació i combinació de mesures
En haver determinada la distribució de les dades i la millor estimació dels seus paràmetres, podem donar tant el resultat de la nostra mesura, on ara la incertesa té caràcter estadístic. Quan una altra persona refà l’experiment, troba --en general-- un resultat diferent del nostre. Són els dos resultats compatibles entre sí? Si ho són, com podem combinar-los per a reduir la incertesa en la mesura de la variable? Ara podem respondre a aquestes preguntes Suposem que la variable és gaussiana, i que les dues mesures són mi  dmi, on el que es dóna és la millor estimació de la mitja i de sa desviació típica. Definim la discrepància de les dues mesures com D = | m1 - m2 |

30 a) Test unidireccional
Si m2 > m1 , l’observador 1 pot determinar quina és la probabilitat, en el seu experiment, de trobar un resultat igual o superior al trobat per l’observador 2 Si m2 < m1 , l’observador 1 pot determinar quina és la probabilitat, en el seu experiment, de trobar un resultat igual o inferior al trobat per l’observador 2 Si la probabilitat corresponent és major o igual que 10%, es diu que la discrepància no és significativa, mentre que si és inferior a 5%, es declara significativa i si és inferior a l’1%, altament significativa.

31 b) Test bidireccional La idea és la mateixa, però ara avaluem Com abans, si P  10%, discrepància no significativa. Aquest test s’aplica principalment quan no ens interessa en quina direcció es produeix la discrepància, i simplement volem saber si els dos resultats són o no són compatibles. Nota: hi ha altres tests més el·laborats (Fisher) i de vegades s’usen diferents llindars per a qualificar la discrepància com a no significativa.

32 c) Combinació de mesures
Si dues mesures són compatibles entre sí, podem combinar-les per a millorar el nostre coneixement de la variable. Aplicant el principi de màxima versemblança, de manera que la millor estimació de m és donada per i la millor estimació de dm és donada per Pesos

33 6) Determinació del tamany de la mostra
Sovint, quan fem un experiment, tenim fixats tant la incertesa màxima que volem/podem tenir com el grau de confiança desitjat. Per exemple, podem voler determinar el valor mig, m, d’una variable gaussiana amb una precisió e de manera que tinguem el 95% de confiança que el veritable resultat es troba a l’interval [m-e, m+e]. Això implica que Això és una equació per a N que podem resoldre fàcilment. P=0.95  zc= s = 5 e = 1  N = 96 P=0.99  zc= s = 8 e =  N = 8686


Descargar ppt "IV. Dades i distribucions"

Presentaciones similares


Anuncios Google