Introducció a l’anàlisi d’agrupaments (cluster) Llicenciatura de Biologia Disseny d’Experiments i Anàlisi de Dades Jordi Ocaña Rebull
Objectiu i característiques de l’anàlisi Donats m “objectes” (espècies, poblacions, individus, ...) trobar un esquema d’agrupament en classes, de manera que els “semblants” pertanyin a la mateixa classe Mètode completament numèric: Cada objecte caracteritzat per p variables Dissimilaritat (o semblança) entre objectes basada en aquestes variables Agrupament basat en aquestes dissimilaritats Nombre de classes no conegut prèviament
Esquema del mètode Dades Matriu de distàncies Bantu English Eskimo Korean 0,0 0,246 0,398 0,244 0,409 0,278 0,197
Tipus d’anàlisi d’agrupaments Mètodes jeràrquics: obtenció d’un arbre de classes o “dendrograma” Aglomeratius (els més freqüents): partir de m classes d’un sol objecte i anar creant classes cada vegada més àmplies, ajuntant-les segons màxima semblança Divisius: partir d’una gran classe que conté tots m objectes i anar dividint en subclasses Mètodes de particionament: objectes es poden moure d’un grup a l’altre fins a complir algun criteri d’optimalitat
Dades de grups sanguinis per diverses (m=4) poblacions Freqüències relatives dels al·lels possibles per a s = 5 sistemes de grups sanguinis: AB0, CDE, DI, FY i MNS En sengles mostres de m = 4 poblacions: Bantús, Anglesos, Esquimals i Coreans. etc...
Adequada per aquestes dades: distància de Prevosti
Distància de Prevosti, sistemes AB0+CDE+DI+FY+MNS English Bantu Eskimo Korean 0,0 0,24588 0,39786 0,24418 0,40946 0,27834 0,19672
Procés de formació del dendrograma. I Pas 1: les poblacions més semblants són els coreans i els esquimals: formem una primera classe, (Esk,Kor) a un grau de dissimilaritat de 0,19672 Pas 2: Què ajuntem ara? Tres possibles continuacions: Agregar Ban a (Esk, Kor) Agregar Eng a (Esk, Kor) Agregar (Ban, Eng) Això pot dependre del criteri per a avaluar la distància entre classes i / o poblacions soles, p.e. mínim, màxim o mitjana (UPGMA: Unweighted Pair-Group Method using Arithmetic averages)
Matriu de distàncies segons el criteri adoptat English Bantu (Eskimo, Korean) 0,0 0,24588 0,39786 0,40946 0,40366 0,24418 0,27834 0,26126
Procés de formació del dendrograma. II Si hem adoptat el criteri del mínim, la més petita distància (0,24418) és entre Ban i (Esk, Kor), hem d’unir-les (a una distància de 0,24418) i les classes resultants seran Eng, (Ban, Esk, Kor) Tant si el criteri és el màxim com si és la mitjana, la distància més petita és 0,24588, entre Ban i Eng. Les classes resultants serien (Ban, Eng), (Esk, Kor)
Matriu de distàncies després del pas 2 segons criteri del mínim English (Bantu, Eskimo, Korean) 0,0 0,24588
Matriu de distàncies després del pas 2 segons criteri del màxim (Bantu, English) (Eskimo, Korean) 0,0 0,40946
Matriu de distàncies després del pas 2 segons criteri de la mitjana (Bantu, English) (Eskimo, Korean) 0,0 0,33246
Resolució final del dendrograma Pas 3: sigui quin sigui el criteri adoptat, ara solament falta constituir la darrera classe, que conté totes les poblacions Però diferent dendrograma segons el criteri: Mínim: darrera classe global, ajuntant Eng i (Ban, Esk, Kor) a una distància 0,24588 Màxim: darrera classe global, ajuntant (Eng, Bant) amb (Esk, Kor) a distància 0,40946 Mitjana: darrera classe global, ajuntant (Eng, Bant) amb (Esk, Kor) a distància 0,33246
Dendrograma final segons el criteri del mínim
Dendrograma final segons el criteri del màxim
Dendrograma final segons el criteri de la mitjana