La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Dr. Francisco J. Mata 1 Detección automática de grupos (clustering) Tema 7 Parte teórica.

Presentaciones similares


Presentación del tema: "Dr. Francisco J. Mata 1 Detección automática de grupos (clustering) Tema 7 Parte teórica."— Transcripción de la presentación:

1 Dr. Francisco J. Mata 1 Detección automática de grupos (clustering) Tema 7 Parte teórica

2 Dr. Francisco J. Mata2 Detección automática de grupos Encontrar patrones en los datos Dividir el conjunto de datos en segmentos o grupos de acuerdo con un concepto de similitud

3 Dr. Francisco J. Mata3 Detección automática de grupos Técnica de minería de datos de aprendizaje sin supervisión Aprendizaje por observación en lugar de por casos Requiere inteligencia humana para interpretar resultados

4 Dr. Francisco J. Mata4 Luminosidad y temperatura de las estrellas

5 Dr. Francisco J. Mata5 Grupos de gentes

6 Dr. Francisco J. Mata6 Grupos de gentes Forma usual de segmentar gente es a través de reglas de negocio basadas en el sentido común Detección automática de grupos permite agrupar a la gente directamente en sus características (datos)

7 Dr. Francisco J. Mata7 Grupos y mercadeo

8 Dr. Francisco J. Mata8 Grupos y medidas de uniformes

9 Dr. Francisco J. Mata9 Algoritmos de detección de grupos También conocidos como algoritmos de agrupación o de cluster analysis Utilizan el concepto de asociación entre entidades sobre la base de similitud La similitud se mide en términos de distancia

10 Dr. Francisco J. Mata10 Algoritmo de k-medias El más comúnmente utilizado Desarrollado por J.B. MacQueen en 1967 Genera k grupos o clusters de objetos

11 Dr. Francisco J. Mata11 Algoritmo de k-medias Asume una representación geométrica de los datos Registros o tuples son puntos en un espacio de datos n-dimensional Asume que hay K grupos

12 Dr. Francisco J. Mata12 Selección de K semillas al azar

13 Dr. Francisco J. Mata13 Asignación de los puntos al centroide más cercano

14 Dr. Francisco J. Mata14 Cálculo de centroides para los grupos

15 Dr. Francisco J. Mata15 Nueva asignación de grupos

16 Dr. Francisco J. Mata16 Proceso iterativo Proceso se repite iterativamente hasta que se encuentran grupos que son estables

17 Dr. Francisco J. Mata17 Número de grupos Si no existe razón para asumir un número particular de grupos, se puede utilizar varios valores de K y evaluar los resultados obtenidos El valor de K con que se obtiene la menor varianza promedio

18 Dr. Francisco J. Mata18 Similitud, asociación y distancia K-medias es un algoritmo de detección de grupos basado en distancia Otros algoritmos utilizan el concepto de densidad (distribución de probabilidad)

19 Dr. Francisco J. Mata19 Similitud, asociación y distancia Calculada sobre una matriz de datos X X 1f... X 1p..... X i1.... X if... X ip..... X n1.... X nf... X np Objetos Entidades Registros Tuples Variables, Atributos, Columnas

20 Minería de Datos Dr. Francisco J. Mata20 Similitud, asociación y distancia Métricas de distancia d (X,Y) 0 d (X,Y) = 0, X = Y d (X,Y) = d (Y,X) d (X,Y) d (X,Z) + d (Z,Y)

21 Dr. Francisco J. Mata21 Medidas de distancia Euclideana: d (i,K) = (|x i1 – x k1 | 2 + |x i2 – x k2 | |x 1p - x kp | 2 ) 1/2 Manhattan: d (i,K) = |x i1 – x k1 | + |x i2 – x k2 | |x 1p - x kp | Minkowski: d (i,K) = (|x i1 – x k1 | q + |x i2 – x k2 | q |x 1p - x kp | q ) 1/q

22 Dr. Francisco J. Mata22 Normalización de los datos Unidades de medida pueden afectar los resultados de los algoritmos de detección de grupos Para evitar este problema a veces es conveniente normalizar los datos, es decir convertirlos a números sin unidad

23 Procedimiento de normalización de los datos Calcular el valor z correspondiente: z if = (x if – m f ) / s f, donde m f =media de la variable f s f =desviación estándar de la variable f Dr. Francisco J. Mata23

24 Dr. Francisco J. Mata24 Normalización de datos Puede ser ventajosa o no Se puede determinar que no es conveniente normalizar los datos

25 Dr. Francisco J. Mata25 Distancias ponderadas Se puede asignar pesos a las variables de acuerdo con la importancia percibida d (i,K) = (w 1 |x i1 – x k1 | q + w 2 |x i2 – x k2 | q w n |x 1n - x kn | q ) 1/q

26 Dr. Francisco J. Mata26 Tipos de variables Normalización y medidas presentadas sólo se pueden utilizar con variables de intervalo o de radio Variables de intervalo: permiten medir distancias Variables de radio: intervalo medido a partir de un cero con significado

27 Dr. Francisco J. Mata27 Otros tipos de variable Categóricas: Binarias: Toman dos valores Ejemplo: {femenino, masculino} Nominales: Lista de valores sin orden Ejemplo: {verde, rojo, amarillo, azul} Ordinales: Lista de valores con un orden pero no una distancia Ejemplos: {pésimo, malo, bueno, óptimo}

28 Dr. Francisco J. Mata28 Tratamiento de variables categóricas binarias Toman sólo dos valores Calcular tabla de contingencia para los objetos a medir: Objeto j 1 Objeto i q r s t suma q+r s+t q+sr+t q+r+s+t

29 Dr. Francisco J. Mata29 Tratamiento de variables categóricas binarias Distancia dependerá de si la variable es Simétrica: si ambas estados conllevan el mismo valor y por lo tanto llevan el mismo peso Ejemplo: Género {masculino, femenino] Asimétrica: los estados resultantes no tiene el mismo peso Ejemplo: Resultado de una prueba de enfermedad {positivo, negativo}; por convención el estado más importante o raro se codifica como 1

30 Dr. Francisco J. Mata30 Tratamiento de variables categóricas binarias Distancia variables simétricas (coeficiente de coincidencia simple): d (i,j) = (r+s)/(q+r+s+t) Distancia variables asimétricas (coeficiente de Jaccard): d (i,j) = (r+s)/(q+r+s)

31 Dr. Francisco J. Mata31 Ejercicio Exámenes Persona Fiebre Tos A B C D JuanSí No P N N N MaríaSí No P N P N PedroSí Sí N N N N ¿Quiénes tiene más posibilidad de tener enfermedades similares y quiénes enfermedades diferentes? Calcular las distancias entre cada persona utilizando el coeficiente de Jaccard considerando los resultados de los síntomas y exámenes como asimétricos y los valores de Sí y P como 1 Síntomas

32 Dr. Francisco J. Mata32 Respuesta d (Juan,María) = (0+1)/(2+0+1) = 0.33 d (Juan,Pedro) = (1+1)/(1+1+1) = 0.67 d (Pedro,María) = (1+2)/(1+1+2) = 0.75 Juan y María tienen más posibilidad de tener enfermedades similares y Pedro y María diferentes

33 Dr. Francisco J. Mata33 Tratamiento de variables categóricas nominales Coeficiente de coincidencia simple: d (i,j) = (p-m)/p m es el número de coincidencias p es el número de variables

34 Dr. Francisco J. Mata34 Tratamiento de variables categóricas nominales Ejercicio Producto Color Forma Sabor 1 Rojo Redondo Dulce 2 Verde Cuadrado Salado 3 Rojo Rectangular Dulce 4 Amarillo Cuadrado Ácido 5 Azul AsimétricaAmargo d(1,3)=?d(1,4)=?d(2,4)=?d(3,5)=?

35 Dr. Francisco J. Mata35 Tratamiento de variables categóricas nominales Respuesta Producto Color Forma Sabor 1 Rojo Redondo Dulce 3 Rojo Rectangular Dulce 4 Amarillo Cuadrado Ácido d (i,j) = (p-m)/p m es el número de coincidencias p es el número de variables d(1,3)=(3-2)/3=0,33 d(1,4)=(3-0)/3=1

36 Dr. Francisco J. Mata36 Tratamiento de variables ordinales (de rango) Si la variable f tiene M f valores ordinales {r 1, r 2,... r Mf }, r i < r j para i < j, reemplace cada valor de la variable por su correspondiente orden (r i i)

37 Dr. Francisco J. Mata37 Tratamiento de variables ordinales (cont.) Si hay varias variables ordinales con diferentes números de valores normalice al intervalo [0,1] para que cada variable tenga el mismo peso Sustituya el i-ésimo valor para el rango de la variable f como z if = (i–1)/ (M f –1)

38 Dr. Francisco J. Mata38 Tratamiento de variables ordinales (cont.) Utilice las distancias Euclideana, de Manhattan o de Minkowski con los valores z if

39 Dr. Francisco J. Mata39 Variables de Distintos Tipos

40 Dr. Francisco J. Mata40 Ángulos entre vectores como medida de asociación Cuando las relaciones entre los individuos son más importantes que las diferencias, el ángulo entre vectores es una mejor medida de similitud que la distancia

41 Dr. Francisco J. Mata41 Angulo entre vectores como medida de asociación

42 Dr. Francisco J. Mata42 Angulo entre vectores como medida de asociación Uso del seno del ángulo 0 vectores son paralelos 1 vectores son ortogonales

43 Dr. Francisco J. Mata43 Problemas con el algoritmo de k- medias No funciona bien con grupos que se traslapan Los grupos son afectados por valores extremos Cada registro, tuple o entidad está en un grupo o no; no existe la noción de que uno de ellos pertenezca con mayor o menor probabilidad al grupo que se le asignado

44 Dr. Francisco J. Mata44 Modelos mixtos gaussianos Variante probabilística de K-medias Los puntos se asumen que están distribuidos de acuerdo con una probabilidad gaussiana: n densidades normales independientes Igual a K-medias se seleccionan K semillas Medias de distribuciones gaussianas Llamadas gaussianos Algoritmo itera sobre dos pasos Estimación Maximización

45 Dr. Francisco J. Mata45 Modelos mixtos gaussianos Paso de estimación Se calcula la responsabilidad de cada gaussiano para cada punto de datos Fuerte para puntos que están cerca Débil para puntos que están lejanos Responsabilidades se utilizan como pesos en el siguiente paso

46 Dr. Francisco J. Mata46 Modelos mixtos gaussianos

47 Dr. Francisco J. Mata47 Modelos mixtos gaussianos Paso de maximización La media de cada gaussiano se mueve hacia el centroide de todo el conjunto de datos utilizando la ponderación de las responsabilidades para cada punto

48 Dr. Francisco J. Mata48 Modelos mixtos gaussianos Los pasos de estimación y maximización se repiten hasta que no se pueden cambiar los gaussianos

49 Dr. Francisco J. Mata49 Modelos mixtos gaussianos Se les denomina a veces como agrupación suave Cada punto tiene una probabilidad de pertenecer a cada uno de los K grupos Se asigna al grupo que tiene más probabilidad

50 Dr. Francisco J. Mata50 Modelos mixtos gaussianos Probabilidad de pertenecer a un grupo

51 Dr. Francisco J. Mata51 Clases de algoritmos de detección de grupos Métodos de particionamiento Dividen el conjunto de datos en K grupos Métodos jerárquicos: Crean una descomposición jerárquica del conjunto de datos Métodos basados en la densidad: Un grupo puede crecer en tanto su densidad en el vecindario exceda un valor dado (threshold)

52 Dr. Francisco J. Mata52 Clases de Algoritmos de detección de grupos (cont.) Métodos basados en mallas: Cuantifican el espacio de objetos en un número finito de celdas que forman un estructura de malla Métodos basados en modelos: Hipotetizan un modelo para cada grupo y encuentran el mejor ajuste de los datos a este modelo

53 Dr. Francisco J. Mata53 Métodos de particionamiento K-medias Modelos mixtos gaussianos

54 Dr. Francisco J. Mata54 Métodos jerárquicos Aglomerativos: De abajo hacia arriba Cada objeto empieza en su propio grupo Divisivos: De arriba hacia abajo Se empieza con todos los objetos en un solo grupo

55 Dr. Francisco J. Mata55 Ejemplo de métodos aglomerativos Agrupación de personas por edad Función de distancia: diferencia de edades

56 Dr. Francisco J. Mata56 Métodos jerárquicos Tres formas para medir distancia entre grupos: Single linkage: distancia entre dos grupos se mide entre los miembros más cercanos Complete linkage: distancia entre dos grupos se mide entre los miembros más lejanos Centroide: distancia entre dos grupos se mide entre los centroides de cada grupo

57 Dr. Francisco J. Mata57 Formas para medir distancias entre grupos

58 Dr. Francisco J. Mata58 Métodos basados en la densidad Algoritmos de detección de grupos basados en distancias usualmente encuentran grupos de forma esférica Algoritmos basados en la densidad permiten a los grupos crecer en regiones con alta densidad y descubren grupos con forma arbitraria en bases de datos que contienen ruido

59 Dr. Francisco J. Mata59 Métodos basados en la densidad

60 Dr. Francisco J. Mata60 Consideraciones para la detección automática de grupos Preparación de datos Determinación del número de grupos Interpretación de los grupos

61 Dr. Francisco J. Mata61 Preparación de datos Valores para variables a utilizar en el análisis Métodos de agrupamiento funcionan sin ninguna codificación sobre variables de intervalo o radio Otros tipos de variable requieren codificación si el software de minería de datos no la realiza automáticamente Variables categóricas binarias Variables categóricas nominales Variables ordinales o de rango Valores perdidos Deben ser identificados y codificados apropiadamente

62 Dr. Francisco J. Mata62 Preparación de datos Identificación y tratamiento de valores extremos Pueden afectar resultados principalmente en algoritmos o métodos basados en distancia Remover o sustituir valores extremos Identificar variables altamente correlacionadas y seleccionar un conjunto más pequeño de variables Análisis de correlación Análisis de componentes principales

63 Dr. Francisco J. Mata63 Determinación del número de grupos Objetivo: encontrar un conjunto de grupos cuya distancia dentro de cada uno de ellos sea mínima y fuera de ellos sea máxima Procedimiento: comparar la variación entre grupos a la variación dentro de grupos para diferentes valores de K Indicadores Criterio de agrupamiento cúbico Estadística falsa F Estadística falsa T 2

64 Determinación del número de grupos Dr. Francisco J. Mata64 VariableTotal STD Porcentaje de variación dentro de grupos Within STD Porcentaje de variación entre grupos R-Square Radio de porcentaje de variación entre grupos a porcentaje de variación dentro de grupos RSQ/(1-RSQ) X X X X OVER-ALL K=3

65 Criterio de agrupamiento cúbico Dr. Francisco J. Mata65 Valores de CCC mayores que dos o tres indican buenos grupos; valores entre 0 y 2 indican grupos potenciales pero que deben ser evaluados con cuidado. En este caso valores de CCC son negativos lo que indica valores extremos. Como CCC toma un incremento en 3 de valores mayores a menores de grupos (eje X), se selecciona tentativamente este número

66 Estadísticas falsa F y falsa T 2 Dr. Francisco J. Mata66 Incrementos altos en PSF y PST2 de valores mayores a menores de grupos se utilizan para seleccionar el número de grupos De acuerdo con esto número óptimo de grupos está entre 2 y 3

67 Dr. Francisco J. Mata67 Interpretación de los grupos Las medias de las variables son buenos indicadores de las características de los individuos en los grupos Variables con medias (utilizando valores normalizados) o frecuencias muy diferentes indican atributos o características que separan a los grupos

68 Interpretación de los grupos Dr. Francisco J. Mata68 Cluster Means ClusterX4X5X13X Variables X5 y X13 separan a los grupos 1 y 2 Variables X4, X5, X13 y X15 separan a los grupos 1 y 3 Variables X4 y X 15 separan a los grupos 2 y 3


Descargar ppt "Dr. Francisco J. Mata 1 Detección automática de grupos (clustering) Tema 7 Parte teórica."

Presentaciones similares


Anuncios Google