La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Se dispone de N individuos, con información sobre n variables.

Presentaciones similares


Presentación del tema: "Se dispone de N individuos, con información sobre n variables."— Transcripción de la presentación:

1 Se dispone de N individuos, con información sobre n variables.
Análisis Cluster Se dispone de N individuos, con información sobre n variables. Queremos agruparlos en grupos de forma que los grupos estén constituidos por individuos semejantes siendo los grupos lo más distintos posible entre sí.

2 Procedimiento general del A. cluster
1 obtener un criterio de similaridad ( distancia) entre individuos 2 aplicar un algoritmo de clasificación Determinar (o escoger )una distancia grupo-individuo gupo-grupo Procedimiento secuencial de agrupación 3 representación gráfica del agrupamiento Dendograma

3 Dendograma

4 Distancia Dados dos individuos i y j identificados en el espacio de las variables como Wi y Wj Definimos la distancia entre i y j como una función d: (P.1)    d(i,j) > 0 (no negatividad) (P.2)    d(i,i) = 0                          (P.3)    d(i,j) = d(j,i) (simetría)    Y adicionalmente con las propiedades (MÉTRICAS)  (P.4)        d(i,j)< d(i,t) + d(j,t) (desigualdad triangular) (P.5)        d(i,j) > 0 " i ≠ j          Y si es ULTRAMÉTRICA:         (P.6) d(i,j) < max [ (d(i,t), d(j,t) ] (desigualdad triangular ultramétrica)                             

5 Distancias ( individuos) más habituales
Euclidea ( E.cuadrática): de(i,j)=(Wi-Wj)’(Wi-Wj) Depende de las unidades Le afecta la correlación Euclidea Normalizada: des(i,j)=(Wi-Wj)’S-1(Wi-Wj) No depende de las unidades Mahalanobis dm(i,j)=(Wi-Wj)’V-1(Wi-Wj) No le afecta la correlación ( elimina la redundancia) Equivale a aplicar la distancia euclidea sobre la totalidad de las compenentes principales

6 Algoritmos jerárquicos de clasificación
PASO 1 Formamos la partición inicial: P = { i1},{ i2 },...{ iN } considerando cada individuo como un cluster. PASO 2 Determinamos los dos clusters más próximos (de menor distancia) ii ,ij , y los agrupamos en uno solo. PASO 3 Formamos la partición: P = { i1},{ i2 },...{ ii  ij },...,{ iN } PASO 4 Repetimos los pasos 2 y 3 hasta obtener la partición final Pr= {W}

7 Método principales de A.Cluster
Single Linkage ( distancia mínima como distancia entre los grupos) Es espacio contractivo Complete linkage ( distacia máxima como distancia entre los grupos) Es espacio dilatante ( expansivo) UPGM ( Centroide) (Distancia entre centroides) Método de Ward: en cada caso se considera la posibilidad de unir cada par de grupos y se opta por aquella que menos incremente la suma de cuadrados al unirse.


Descargar ppt "Se dispone de N individuos, con información sobre n variables."

Presentaciones similares


Anuncios Google