La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Reconocimiento de Formas

Presentaciones similares


Presentación del tema: "Reconocimiento de Formas"— Transcripción de la presentación:

1 Reconocimiento de Formas
Técnicas no Supervisadas: “clustering” José Martínez Sotoca José Salvador Sánchez Garreta

2 Resultados del aprendizaje:
Objetivo: Estudio de la estructura de un conjunto de datos, división en agrupaciones. Características: Homogeneidad o similitud entre los elementos de su grupo y que al mismo tiempo difieran lo máximo posible de otros grupos. Aprendizaje no supervisado, no se disponen de muestras preclasificadas. Resultados del aprendizaje: Emitir hipótesis sobre los datos. Clasificar nuevos patrones. Comprobar homogeneidad de los datos. Compresión de la información. Etc.....

3 Aplicaciones en Reconocimiento de Formas:
Reducir la dimensionalidad del problema en agrupamientos por características. Reducir el número de datos. Aprender la naturaleza de los datos o clases. Aplicaciones en Inteligencia Artificial: Segmentación de imágenes: agrupamiento en regiones con similitud en alguna característica relevante ( niveles de gris, color, textura, gradiente, etc.....) Detección de formas en la imagen: líneas, curvas, etc......

4 Planteamiento del Problema
Disponemos de un conjunto de muestras sin etiquetar y queremos agruparlas en clases. Hay dos posibilidades: Técnicas paramétricas. Técnicas de agrupamiento (clustering).

5 Técnicas Paramétricas
Suponemos que se conoce la estructura de probabilidades del problema: Existen c clases. Las probabilidades a priori de cada clase son P(j), j = 1, ..., c. Las funciones densidad de probabilidad son p(x|j, j).

6 Técnicas de Agrupamiento
Se aplican cuando no se conoce la forma de las densidades de probabilidad o cuando el aplicar un método paramétrico es muy complejo. Se define una función que nos indique, para cada posible partición, “lo bien agrupados” que están las muestras. Tenemos que definir una medida de similitud (o disimilitud) entre prototipos. El caso ideal (agrupaciones compactas, bien separadas, con tamaños y formas similares) no se da en conjuntos de datos reales. Situación habitual: agrupaciones no disjuntas, con formas y tamaños diferentes.

7 Técnicas de Agrupamiento
1 : (x11, ..., x1r) . Algoritmo de Agrupamiento (x1, x2, ..., xn) c : (xc1, ..., xcs)

8 Medidas de Similitud Existen muchas formas de caracterizar agrupaciones: distancia, ángulo, curvatura, conectividad, etc.... No existe un criterio de agrupamiento universalmente aplicable y la elección es parcialmente subjetiva. Es importante le conocimiento empírico que el investigador tenga sobre el proceso que ha generado el conjunto de datos. El problema de la semejanza: ¿Cómo medir la similitud entre muestras? ¿Cómo evaluar el resultado del agrupamiento? Necesidad de establecer una medida de similitud.

9 La medida más obvia es la distancia euclídea:
Diremos que dos muestras pertenecen a una misma clase si la distancia euclídea entre ellas es menor que una cierta distancia umbral. 1 = 2  d(x1, x2)  du Sin embargo, este procedimiento puede llevar a diversos problemas: Si la distancia umbral es demasiado grande, la mayor parte de las muestras quedarán en un mismo agrupamiento (clase). Si la distancia umbral es demasiado pequeña, podemos obtener demasiados agrupamientos: cada prototipo podría llegar a definir una clase distinta.

10 Partimos de que el espacio es isotrópico:
la agrupaciones definidas son invariantes antes traslaciones y rotaciones. No son invariantes respecto a transformaciones que distorsionen las relaciones de distancia cambios de escala. Ej: un simple reescalado de los ejes de coordenadas puede dar lugar a distintos agrupamientos. Una forma de obtener invarianza es normalizar los datos antes de realizar el agrupamiento. Invarianza respecto a rotaciones: Se puede rotar los ejes de forma que que coincida con los vectores propios de la matriz de covarianza de los datos. Una solución es usar distancia de Mahalanobis: DM2 = (x-)T -1 (x-) Invariante frente a cambios de escala. A cambio el espacio deja de ser isotrópico.

11 Se pueden emplear medidas de semejanza no métricas
Se pueden emplear medidas de semejanza no métricas. Generalmente son funciones simétricas, cuyo valor crece cuando x e y son similares. Ejemplo: Si el ángulo entre dos vectores es una medida de similitud apropiada, entonces el siguiente producto interior normalizado puede ser una medida adecuada: Invariante respecto a rotaciones. No invariantes en traslaciones y transformaciones lineales. Existen técnicas que no implican medidas matemáticas de similitud (agrupamiento conceptual). Implica categorizar esta similitud y suele tener un coste computacional alto.

12 Función Criterio de Agrupamiento
Supongamos que tenemos un conjunto X de n muestras x1, ..., xn que queremos repartir en c agrupamientos disjuntos X1, ..., Xc. Definiremos una función criterio que mida la calidad del agrupamiento. Podemos clasificar los métodos de agrupamiento en función de la base axiomática empleada: deterministas, estocásticos, difusos. En cada uno de ellos podemos diferenciar los métodos en base al criterio de agrupamiento empleado: Métodos que proporcionan una jerarquía de agrupaciones. Métodos que proporcionan una partición de los datos (optimización de la función objetivo, teoría de grafos).

13 Suma de los Errores al Cuadrado
Sea ni el número de muestras en Xi y sea mi la media de este conjunto. Entonces, donde Je es el error cuadrático total en el que se incurre si representamos las muestras de cada conjunto por sus medias.

14 Es una función criterio que da buenos resultados cuando los conjuntos forman nubes compactas y están alejados los unos de los otros. Sin embargo, falla cuando existe una gran diferencia de puntos entre los conjuntos. El criterio del error cuadrático puede escribirse como, donde s es la distancia cuadrada media entre los prototipos de un conjunto. Así, se puede sustituir s por la media, la mediana o la distancia máxima entre los puntos de un conjunto.

15 Definición del Problema
Una vez establecida la función criterio, el problema del agrupamiento queda bien definido: “Encontrar la partición del conjunto de muestras que hace que la función criterio sea mínima” Esto podría resolverse por enumeración, pero el número de posibles particiones crece de manera exponencial con el número de muestras  en la práctica, se emplean métodos aproximados.

16 Algoritmo de las Distancias Encadenadas (Chain-Map)
Seleccionar una muestra al azar: xi. Ordenar las muestras a partir de xi según la sucesión: xi(0), xi(1), xi(2), ..., xi(k), xi(k + 1), ..., xi(n  1) donde xi(j) es la muestra más próxima a xi(j  1). Calcular la sucesión de distancias d1, d2, ..., dn1 donde dj = || xi(j)  xi(j  1)||. Cuando encontremos un dj > du, crear una clase con las xi(j  1) muestras.

17 Algoritmo Chain-Map Clase 1 Clase 2 Clase 3 Clase 4 du

18 Algoritmo Chain-Map La distancia umbral du es el parámetro más problemático: Un umbral bajo dará lugar a clases ficticias. Un umbral alto tenderá a agrupar en una misma clase muestras de clases distintas. La elección de la primera muestra no resulta demasiado sensible, salvo para ciertas distribuciones de clases. 1 2 1 2 1 3 2 1 2

19 Algoritmo Max-Min En cada paso, se calculan las distancias mínimas a las clases ya existentes, de manera que la máxima distancia de entre ellas (que corresponde a la muestra no agrupada que está más alejada de una clase concreta, la cual es a la vez la clase más próxima a ella) se compara con la distancia media entre las clases ya formadas para ver si es posible crear una nueva clase.

20 Algoritmo Max-Min Seleccionar una muestra al azar xi, y crear una primera clase 1 con dicha muestra. Seleccionar la máxima distancia de las n  1 muestras no agrupadas a xi, y crear una segunda clase 2 con la muestra implicada xj (d(xi, xj) es máxima). Para cada una de las n  2 muestras no agrupadas, x: Calcular las distancias a los centroídes de 1 y 2: d(x, z1) y d(x, z2). Tomar la mínima de las distancias entre d(x, z1) y d(x, z2), dmin.

21 Algoritmo Max-Min De las n  2 distancias mínimas, seleccionar la distancia máxima, dmax. Si dmax es mayor que la distancia entre las dos clases formadas (es decir, dmax > d(z1, z2) * f (0 < f < 1)), crear una nueva clase 3 con la muestra correspondiente a esa distancia máxima. Para cada una de las n  3 muestras no agrupadas, x: Calcular las distancias a los centroídes de 1, 2 y 3: d(x, z1), d(x, z2) y d(x, z3). Tomar la mínima de las distancias entre d(x, z1), d(x, z2) y d(x, z3), dmin.

22 Algoritmo Max-Min De las n  3 distancias mínimas, seleccionar la distancia máxima, dmax. Si dmax es mayor que una fracción de la distancia media entre los prototipos de las clases formadas (es decir, si dmax > 1/3 * d(z1, z2) + d(z1, z3) + d(z2, z3) * f), crear una nueva clase 4 con la muestra correspondiente a esa distancia máxima.

23 Algoritmo Max-Min Repetir este proceso hasta que no se encuentre ninguna muestra que cumpla la condición dmax > distancia media entre clases * f. Asignar los elementos que queden por agrupar a la clase más cercana.

24 Algoritmo Max-Min Es muy sensible al parámetro f. Por tanto, en general, se prueba con diferentes valores de f. Combinación heurística de distancias mínimas y máximas.

25 Algoritmo Max-Min Muestra seleccionada al azar: x4.
La muestra más alejada de x4 es x0. La máxima de entre las mínimas distancias corresponde a d(x7, z1). Tomando f = 0’5: d(x7, z1) > 0’5 * d(z1, z2) Creamos una tercera clase con x7. Repetimos el proceso con las tres clases. Como ya no encontramos ninguna muestra que cumpla condición, finaliza el proceso de crear nuevas clases. Asignamos cada una de las muestras no agrupadas a la clase más próxima. x0 x1 x2 x3 x4 x5 x6 x7

26 Algoritmo de las c-Medias
Debemos conocer a priori el número de clases del problema, c. Es simple, pero muy eficiente. Obviamente, es muy sensible al parámetro c: Un c superior al valor real dará lugar a clases ficticias. Un c inferior al valor real producirá menos clases de las reales.

27 Algoritmo de las c-Medias
Para comprobar que el valor c haya sido seleccionado correctamente, podemos analizar la dispersión estadística de las clases formadas: Cuando las dispersiones sean diferentes entre sí (que alguna de ellas sea muy elevada respecto a las demás), podemos pensar que hemos tomado un c bajo. Si algunas distancias entre clases son demasiado pequeñas respecto a las demás, podemos sospechar que se ha utilizado un c alto.

28 Algoritmo de las c-Medias
Seleccionar c muestras al azar, que constituirán los centroides de las c clases: z1(1), z2(1), ..., zc(1). Distribuir las n muestras entre las c clases, según la mínima distancia euclídea a los c centroides actuales. Actualizar los centroides de las c clases. Comprobar si se ha alcanzado una situación estable, es decir, si se cumple: zi(p + 1) = zi(p)  i = 1, 2 , ..., c

29 Algoritmo de las c-Medias
El objetivo en el cálculo de los nuevos centroides es minimizar la función criterio del error cuadrático para cada clase, es decir, Esta función se minimiza con la media de Xi(p):

30 Algoritmo de las c-Medias
Seleccionamos al azar x1 y x2. El primer agrupamiento según la mínima distancia será: X1(1) = {x1, x3} X2(1) = {x2, x4, x5, ..., x19, x20} X2 X1 Al actualizar los centroides y redistribuir las muestras: X1(2) = {x1, x2, ..., x7, x8} X2(2) = {x9, x10, ..., x19, x20} Volvemos a actualizar los centroides. En este caso, al redistribuir las muestras, se producen los mismos agrupamientos. Por tanto, se detectaría una posición estable.

31 Agrupamiento Jerárquico
Se comienza con una partición en la que cada muestra representa una clase distinta. Se van ajustando las clases en función de una cierta medida de similitud (en un orden creciente). De este modo, se obtiene un árbol de agrupamientos, llamado dendograma.

32 Agrupamiento Jerárquico
Similitud creciente

33 Agrupamiento Jerárquico
Sea c’ = n. Si c’  c, finalizar. Encontrar el par de clases que más se parezcan según la medida de similitud adoptada: Xi, Xj. Agrupar las clases Xi y Xj, y decrementar c’. Volver al Paso 2.

34 Agrupamiento Jerárquico
Algunas de las funciones de similitud más usadas:

35 Principales métodos jerárquicos aglomerativos
Estrategia de distancia mínima (Single-linkage o Nearest-Neighbor): Se busca la distancia mínima entre patrones o de patrones con un agrupamiento previo formándose el dendograma. Es sensible al ruido y a pequeños cambios en los valores de los patrones. Estrategia de distancia máxima (Complete-linkage o Furthest-Neighbor): Se busca las distancia entre patrones más dispares de ambas agrupaciones. La tendencia es a formar agrupaciones compactas e hiperesféricas, con tamaños similares. Distancia promedio (Average-linkage): La distancia entre agrupaciones es un promedio de las distancias de los patrones de una agrupación respecto de la otra.

36 Validación del agrupamiento
¿El agrupamiento es real o sólo responde a la estructura impuesta por el algoritmo empleado? Determinar si la distribución de los datos es aleatoria o existe una tendencia a formar agrupaciones. Comprobar la validez de la partición de los datos. (medidas de separación entre las agrupaciones y medidas de cohesión dentro de cada agrupación) Individualmente, ¿qué agrupaciones son validas?. Dentro de una estructura jerárquica de los datos, se desea determinar que agrupaciones formadas son “reales”.

37 Comprobación de la tendencia de agrupamiento:
Se define como hipótesis nula si los datos tienen una distribución uniforme y continua con algún conjunto convexo del espacio de características o ventana de muestreo. Técnica: Dividir la ventana de muestreo en celdas de igual tamaño. En un proceso sin agrupamiento y con distribución ¡uniforme el número de puntos de cada celda no debe variar mucho de su valor promedio, mientras que si hay tendencia la agrupamiento existirán celdas muy pobladas y otras casi sin puntos. Validez de las particiones: ¿Cuántas agrupaciones hay en los datos? ¿Las agrupaciones obtenidas son reales? Algunas de estas técnicas: El error cuadrático de un algoritmo de agrupamiento de este tipo siempre decrece a medida que aumenta el número de agrupaciones. Comprobar si el descenso del error resulta significativo.

38 Validez individual de las agrupaciones:
Si se asume que los patrones han sido extraidos de una mezcla de distribuciones gaussianas, se puede realizar un test de relación de probabilidad para comprobar la hipótesis de C distribuciones mezcla frente a C-1 componentes. (Test chi-cuadrado). Analizar la relación entre la suma de los cuadrados intra-agrupaciones y la suma de cuadrados inter-agrupaciones. El valor esperado de esta relación y su varianza son conocidos bajo la hipotesis nula de que los patrones pertenecen a una distribución gaussiana. La partición de los datos se considerará valida si el valor observado en la relación alcanza un máximo, es decir, los puntos de cada agrupación están poco dispersos y a su vez las diferentes las diferentes agrupaciones están dispersas. Validez individual de las agrupaciones: Una vez determinada la validez de la partición, puede resultar conveniente establecer la validez de cada una de las agrupaciones individualmente. Se puede considerar que una agrupación es buena si las distancias entre los patrones en el interior de la agrupación son pequeñas y las distancias entre estos patrones y los de otras agrupaciones son grandes.

39 Agrupamiento difuso Un conjunto convencional A del espacio de puntos X={x1,...,xn} viene definido por una función característica uA : uA: X  {0,1} uA(x) = 1 si x  A uA(x) = 0 si x  A Un conjunto difuso A es un espacio de puntos caracterizado por una función de pertenencia A(x) que asigna a cada punto de X un número real en el intervalo [0,1] que representa el grado de pertenencia del grupo al elemento A. A: X  [0,1] La función A puede verse como un factor de peso que refleja la ambigüedad presente en un conjunto.

40 Algoritmo c-Medias difuso
Sea X={x1,...,xn} un conjunto de puntos y c  N, 2  c  n se define las funcionales fuzzy c-means : donde: U es una c-partición difusa de X. V = {v1,....,vc} siendo vi el centro o prototipo del subconjunto ui, 1  i  c. (dik)2 = ||xk – vi||2 es una norma inducida que marca la distancia entre ambos. m es un exponente de peso.

41 Teorema [Bezdek–81]: Supongamos que ||
Teorema [Bezdek–81]: Supongamos que ||.|| es un producto interior fijado m, teniendo X al menos c < n puntos diferentes, y definiendo para todo k los conjuntos Ik ={i / 1  i  c; dik=0} Entonces, puede haber un mínimo de Jm si Además:


Descargar ppt "Reconocimiento de Formas"

Presentaciones similares


Anuncios Google