Reconocimiento de Formas

Slides:



Advertisements
Presentaciones similares
Bloque IX - Estadística. Población vs muestra Medidas de dispersión Medidas de tendencia central.
Advertisements

ANÁLISIS ESTADÍSTICO de los RESULTADOS DEL AJUSTE
TEMA 5: PROBABILIDAD. Índice Experimentos aleatorios. Sucesos. Tipos de sucesos. Sucesos elementales Suceso seguro Suceso imposible Álgebra de sucesos.
TEMA 4 COMBINATORIA.
TEMA 2: PARÁMETROS ESTADÍSTICOS. ÍNDICE 1. Parámetros estadísticos. 2.Interpretación de la media y desviación típica. 3. Coeficiente de variación.
Ejemplos de  2 y prueba de contingencia Queremos saber: 1.- Si la diferencia entre los parentales en cuanto al color de la flor se debe a un solo gen.
Tipos de errores Error de escala Error sistemático Error aleatorio Error total.
PPTCEG049EM32-A16V1 Distribución normal EM-32. Recordemos… -¿Cómo se calcula el valor esperado para una determinada variable aleatoria? -¿Cómo es posible.
PPTCES047MT22-A16V1 Clase Medidas de dispersión y muestreo MT-22.
Bioestadística Distribuciones muestrales para variables cuantitativas.
Master en Recursos Humanos Análisis de Conglomerados (Cluster Analysis): prácticas con SPSS Ana María López Área de Metodología de las Ciencias del Comportamiento.
1.3.1Media aritmética, geométrica y ponderada 1.3.2Mediana 1.3.2Moda Regresar.
XVII CONIC 2009 Congreso Nacional de Ingeniería Civil Capítulo de Ingeniería Civil Consejo Departamental De Lambayeque Colegio de Ingenieros del Perú.
FACULTAD DE EDUCACION A DISTANCIA Y VIRTUAL
Capitulo 3 Análisis descriptivo inferencial: comparaciones de muestras
ESTADÍSTICAS INFERENCIALES
PSICOESTADÍSTICAS INFERENCIALES
Instituto Nacional de Estadística y Geografía
Curso de Elaboración de Pruebas Prof. Gerardo A. Valderrama M
PRUEBA DE HIPÓTESIS: MUESTRAS PEQUEÑAS
A este grupo de personas que tenemos aquí…
EXPOSITOR L.C. EDUARDO M. ENRÍQUEZ G.
METODOS PARA ANALISIS DE TALUDES
En INCERTIDUMBRE No se conocen las probabilidades de ocurrencia de los estados naturales, por lo tanto, hay que recurrir a criterios empíricos para tomar.
Análisis de varianza Paramétricos vs. No Paramétricos
Introducción a los modelos econométricos
UNIDAD 4: ESTADÍSTICA Y PROBABILIDAD
ESTADÍSTICA UNIDIMENSIONAL
INTRODUCCIÓN AL ESTUDIO DE LA ESTADÍSTICA
Clase 8: Contraste de Hipótesis
CONCEPTOS BASICOS ESTADISTICA.-Conjunto de métodos que nos permiten tomar decisiones en momentos de incertidumbre (duda). Tiene como objetivo que la información.
Inteligencia Computacional
Modelos de probabilidad Distribuciones continuas
CAPÍTULO 8: DETERMINACIÓN DE ESQUINAS
CAPÍTULO 4: OPERACIONES DE PIXEL
CAPÍTULO 7: DETECCIÓN DE BORDES
TEMA II. ESTUDIO DE MERCADO 2.2 El muestreo estadístico en la investigación de mercados. Métodos de pronósticos de corto plazo.
PREDICCIÓN Y ESTIMACIÓN
Estadística Básica Curso de Estadística Básica MCC. Manuel Uribe Saldaña MCC. José Gonzalo Lugo Pérez SESION 3 MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE.
REGRESÍON LINEAL SIMPLE
MUESTREO ESTRATIFICADO
PLAN DE MUESTREO.
“Formulación de Hipótesis Estadística”
Kriging Consideremos información de determinada propiedad en el yacimiento y puntos en los cuales se tiene la estimación dea partir de los puntos.
Conjunto de procedimientos que permiten abordar un problema de investigación con el fin de lograr objetivos determinados. MÉTODO Descripción a detalle.
Tamaño de muestra Ecología Marina. Una población se define como un conjunto de individuos de una especie que habita un área determinada. Los métodos disponibles.
Capítulo 10 Test de Hipótesis Capítulo 10 Test de Hipótesis.
ESTIMACIÓN (Inferencia Estadística) Intervalos de Confianza
Ensayo de Rendimiento DISTRIBUCIÓN DE ESTADÍSTICOS MUESTRALES.
 La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de la estadística y las.
AJUSTE DE CURVAS TEMA #10. AJUSTE DE CURVAS Si se necesita la versión simplificada de una función complicada. Una manera de hacerlo es calcular valores.
ANALISIS DE VARIANZA
Metodología de la Investigación
METODOLOGIA DE LA INVESTIGACION. OPERACIONALIZACION DE LAS VARIABLES.
ESTADISTICA MEDIDAS DE DISPERSIÓN Cristian Gómez Coordinar Técnico Calidad Laboratorio Labsai.
Simulación Matemática DAVID PINZÓN ULLOA. Métodos de Generación de Números Aleatorios.
Intervalos de confianza Muestras pequeñas
MEDIDAS DE DISPERSION absolutas y relativas. INTRODUCCION La estadística es la ciencia que se encarga de recolectar, organizar, resumir y analizar datos.
Unidad 2. Simulación Edwin Yuliani Moreno Bautista.
Estadística Descriptiva
1 TEMA 2. INTRODUCCION A LA ESTADISTICA DESCRIPTIVA E INFERENCIAL 2.1 DEFINIICION 2.2. AZAR Y PROBABILIDAD 2.3 MUESTREO 2.4 ESTIMACION DE PARAMETROS
Se dispone de N individuos, con información sobre n variables.
MEDIDAS DE DISPERSIÓN “Medidas de dispersión”. Miden qué tanto se dispersan las observaciones alrededor de su media. MEDIDAS DE DISPERSIÓN.
MUESTREO PRESENTADO POR : AIDEE GONZALEZ LILIANA ARAUJO DIANA SALAZAR LEIDY HERRERA PRESENTADO POR : AIDEE GONZALEZ LILIANA ARAUJO DIANA SALAZAR LEIDY.
MÉTODO OWAS. INTRODUCCIÓN El método Owas permite la valoración de la carga física derivada de las posturas adoptadas durante el trabajo. A diferencia.
Tamaño de muestra.
01/08/ Escuela Nacional de Estadística e Informátia Muestreo I Muestreo Aleatorio Estratificado Prof. Willer David Chanduvi Puicón.
Dasometría Clase2.
1 Afectados de cierto grado de INCERTIDUMBRE SIEMPRE HAY UN ERROR EN SU MEDIDA ESTABLECER LA FIABILIDAD DE LOS DATOS ¿Podemos evaluar la magnitud del error.
ESTADÍSTICA APLICADA  ZEUS DE JESÚS RODRÍGUEZ BUDA  GABRIELA MÁRQUEZ TORRES  MARÍA ENRIQUETA GIL CÓRDOVA  ELIÁN ANTONIO GONZALEZ GARCÍA  CRISTELL.
Transcripción de la presentación:

Reconocimiento de Formas Técnicas no Supervisadas: “clustering” José Martínez Sotoca José Salvador Sánchez Garreta

Resultados del aprendizaje: Objetivo: Estudio de la estructura de un conjunto de datos, división en agrupaciones. Características: Homogeneidad o similitud entre los elementos de su grupo y que al mismo tiempo difieran lo máximo posible de otros grupos. Aprendizaje no supervisado, no se disponen de muestras preclasificadas. Resultados del aprendizaje: Emitir hipótesis sobre los datos. Clasificar nuevos patrones. Comprobar homogeneidad de los datos. Compresión de la información. Etc.....

Aplicaciones en Reconocimiento de Formas: Reducir la dimensionalidad del problema en agrupamientos por características. Reducir el número de datos. Aprender la naturaleza de los datos o clases. Aplicaciones en Inteligencia Artificial: Segmentación de imágenes: agrupamiento en regiones con similitud en alguna característica relevante ( niveles de gris, color, textura, gradiente, etc.....) Detección de formas en la imagen: líneas, curvas, etc......

Planteamiento del Problema Disponemos de un conjunto de muestras sin etiquetar y queremos agruparlas en clases. Hay dos posibilidades: Técnicas paramétricas. Técnicas de agrupamiento (clustering).

Técnicas Paramétricas Suponemos que se conoce la estructura de probabilidades del problema: Existen c clases. Las probabilidades a priori de cada clase son P(j), j = 1, ..., c. Las funciones densidad de probabilidad son p(x|j, j).

Técnicas de Agrupamiento Se aplican cuando no se conoce la forma de las densidades de probabilidad o cuando el aplicar un método paramétrico es muy complejo. Se define una función que nos indique, para cada posible partición, “lo bien agrupados” que están las muestras. Tenemos que definir una medida de similitud (o disimilitud) entre prototipos. El caso ideal (agrupaciones compactas, bien separadas, con tamaños y formas similares) no se da en conjuntos de datos reales. Situación habitual: agrupaciones no disjuntas, con formas y tamaños diferentes.

Técnicas de Agrupamiento 1 : (x11, ..., x1r) . Algoritmo de Agrupamiento (x1, x2, ..., xn) c : (xc1, ..., xcs)

Medidas de Similitud Existen muchas formas de caracterizar agrupaciones: distancia, ángulo, curvatura, conectividad, etc.... No existe un criterio de agrupamiento universalmente aplicable y la elección es parcialmente subjetiva. Es importante le conocimiento empírico que el investigador tenga sobre el proceso que ha generado el conjunto de datos. El problema de la semejanza: ¿Cómo medir la similitud entre muestras? ¿Cómo evaluar el resultado del agrupamiento? Necesidad de establecer una medida de similitud.

La medida más obvia es la distancia euclídea: Diremos que dos muestras pertenecen a una misma clase si la distancia euclídea entre ellas es menor que una cierta distancia umbral. 1 = 2  d(x1, x2)  du Sin embargo, este procedimiento puede llevar a diversos problemas: Si la distancia umbral es demasiado grande, la mayor parte de las muestras quedarán en un mismo agrupamiento (clase). Si la distancia umbral es demasiado pequeña, podemos obtener demasiados agrupamientos: cada prototipo podría llegar a definir una clase distinta.

Partimos de que el espacio es isotrópico: la agrupaciones definidas son invariantes antes traslaciones y rotaciones. No son invariantes respecto a transformaciones que distorsionen las relaciones de distancia cambios de escala. Ej: un simple reescalado de los ejes de coordenadas puede dar lugar a distintos agrupamientos. Una forma de obtener invarianza es normalizar los datos antes de realizar el agrupamiento. Invarianza respecto a rotaciones: Se puede rotar los ejes de forma que que coincida con los vectores propios de la matriz de covarianza de los datos. Una solución es usar distancia de Mahalanobis: DM2 = (x-)T -1 (x-) Invariante frente a cambios de escala. A cambio el espacio deja de ser isotrópico.

Se pueden emplear medidas de semejanza no métricas Se pueden emplear medidas de semejanza no métricas. Generalmente son funciones simétricas, cuyo valor crece cuando x e y son similares. Ejemplo: Si el ángulo entre dos vectores es una medida de similitud apropiada, entonces el siguiente producto interior normalizado puede ser una medida adecuada: Invariante respecto a rotaciones. No invariantes en traslaciones y transformaciones lineales. Existen técnicas que no implican medidas matemáticas de similitud (agrupamiento conceptual). Implica categorizar esta similitud y suele tener un coste computacional alto.

Función Criterio de Agrupamiento Supongamos que tenemos un conjunto X de n muestras x1, ..., xn que queremos repartir en c agrupamientos disjuntos X1, ..., Xc. Definiremos una función criterio que mida la calidad del agrupamiento. Podemos clasificar los métodos de agrupamiento en función de la base axiomática empleada: deterministas, estocásticos, difusos. En cada uno de ellos podemos diferenciar los métodos en base al criterio de agrupamiento empleado: Métodos que proporcionan una jerarquía de agrupaciones. Métodos que proporcionan una partición de los datos (optimización de la función objetivo, teoría de grafos).

Suma de los Errores al Cuadrado Sea ni el número de muestras en Xi y sea mi la media de este conjunto. Entonces, donde Je es el error cuadrático total en el que se incurre si representamos las muestras de cada conjunto por sus medias.

Es una función criterio que da buenos resultados cuando los conjuntos forman nubes compactas y están alejados los unos de los otros. Sin embargo, falla cuando existe una gran diferencia de puntos entre los conjuntos. El criterio del error cuadrático puede escribirse como, donde s es la distancia cuadrada media entre los prototipos de un conjunto. Así, se puede sustituir s por la media, la mediana o la distancia máxima entre los puntos de un conjunto.

Definición del Problema Una vez establecida la función criterio, el problema del agrupamiento queda bien definido: “Encontrar la partición del conjunto de muestras que hace que la función criterio sea mínima” Esto podría resolverse por enumeración, pero el número de posibles particiones crece de manera exponencial con el número de muestras  en la práctica, se emplean métodos aproximados.

Algoritmo de las Distancias Encadenadas (Chain-Map) Seleccionar una muestra al azar: xi. Ordenar las muestras a partir de xi según la sucesión: xi(0), xi(1), xi(2), ..., xi(k), xi(k + 1), ..., xi(n  1) donde xi(j) es la muestra más próxima a xi(j  1). Calcular la sucesión de distancias d1, d2, ..., dn1 donde dj = || xi(j)  xi(j  1)||. Cuando encontremos un dj > du, crear una clase con las xi(j  1) muestras.

Algoritmo Chain-Map Clase 1 Clase 2 Clase 3 Clase 4 du

Algoritmo Chain-Map La distancia umbral du es el parámetro más problemático: Un umbral bajo dará lugar a clases ficticias. Un umbral alto tenderá a agrupar en una misma clase muestras de clases distintas. La elección de la primera muestra no resulta demasiado sensible, salvo para ciertas distribuciones de clases. 1 2 1 2 1 3 2 1 2

Algoritmo Max-Min En cada paso, se calculan las distancias mínimas a las clases ya existentes, de manera que la máxima distancia de entre ellas (que corresponde a la muestra no agrupada que está más alejada de una clase concreta, la cual es a la vez la clase más próxima a ella) se compara con la distancia media entre las clases ya formadas para ver si es posible crear una nueva clase.

Algoritmo Max-Min Seleccionar una muestra al azar xi, y crear una primera clase 1 con dicha muestra. Seleccionar la máxima distancia de las n  1 muestras no agrupadas a xi, y crear una segunda clase 2 con la muestra implicada xj (d(xi, xj) es máxima). Para cada una de las n  2 muestras no agrupadas, x: Calcular las distancias a los centroídes de 1 y 2: d(x, z1) y d(x, z2). Tomar la mínima de las distancias entre d(x, z1) y d(x, z2), dmin.

Algoritmo Max-Min De las n  2 distancias mínimas, seleccionar la distancia máxima, dmax. Si dmax es mayor que la distancia entre las dos clases formadas (es decir, dmax > d(z1, z2) * f (0 < f < 1)), crear una nueva clase 3 con la muestra correspondiente a esa distancia máxima. Para cada una de las n  3 muestras no agrupadas, x: Calcular las distancias a los centroídes de 1, 2 y 3: d(x, z1), d(x, z2) y d(x, z3). Tomar la mínima de las distancias entre d(x, z1), d(x, z2) y d(x, z3), dmin.

Algoritmo Max-Min De las n  3 distancias mínimas, seleccionar la distancia máxima, dmax. Si dmax es mayor que una fracción de la distancia media entre los prototipos de las clases formadas (es decir, si dmax > 1/3 * d(z1, z2) + d(z1, z3) + d(z2, z3) * f), crear una nueva clase 4 con la muestra correspondiente a esa distancia máxima.

Algoritmo Max-Min Repetir este proceso hasta que no se encuentre ninguna muestra que cumpla la condición dmax > distancia media entre clases * f. Asignar los elementos que queden por agrupar a la clase más cercana.

Algoritmo Max-Min Es muy sensible al parámetro f. Por tanto, en general, se prueba con diferentes valores de f. Combinación heurística de distancias mínimas y máximas.

Algoritmo Max-Min Muestra seleccionada al azar: x4. La muestra más alejada de x4 es x0. La máxima de entre las mínimas distancias corresponde a d(x7, z1). Tomando f = 0’5: d(x7, z1) > 0’5 * d(z1, z2) Creamos una tercera clase con x7. Repetimos el proceso con las tres clases. Como ya no encontramos ninguna muestra que cumpla condición, finaliza el proceso de crear nuevas clases. Asignamos cada una de las muestras no agrupadas a la clase más próxima. x0 x1 x2 x3 x4 x5 x6 x7

Algoritmo de las c-Medias Debemos conocer a priori el número de clases del problema, c. Es simple, pero muy eficiente. Obviamente, es muy sensible al parámetro c: Un c superior al valor real dará lugar a clases ficticias. Un c inferior al valor real producirá menos clases de las reales.

Algoritmo de las c-Medias Para comprobar que el valor c haya sido seleccionado correctamente, podemos analizar la dispersión estadística de las clases formadas: Cuando las dispersiones sean diferentes entre sí (que alguna de ellas sea muy elevada respecto a las demás), podemos pensar que hemos tomado un c bajo. Si algunas distancias entre clases son demasiado pequeñas respecto a las demás, podemos sospechar que se ha utilizado un c alto.

Algoritmo de las c-Medias Seleccionar c muestras al azar, que constituirán los centroides de las c clases: z1(1), z2(1), ..., zc(1). Distribuir las n muestras entre las c clases, según la mínima distancia euclídea a los c centroides actuales. Actualizar los centroides de las c clases. Comprobar si se ha alcanzado una situación estable, es decir, si se cumple: zi(p + 1) = zi(p)  i = 1, 2 , ..., c

Algoritmo de las c-Medias El objetivo en el cálculo de los nuevos centroides es minimizar la función criterio del error cuadrático para cada clase, es decir, Esta función se minimiza con la media de Xi(p):

Algoritmo de las c-Medias Seleccionamos al azar x1 y x2. El primer agrupamiento según la mínima distancia será: X1(1) = {x1, x3} X2(1) = {x2, x4, x5, ..., x19, x20} X2 X1 Al actualizar los centroides y redistribuir las muestras: X1(2) = {x1, x2, ..., x7, x8} X2(2) = {x9, x10, ..., x19, x20} Volvemos a actualizar los centroides. En este caso, al redistribuir las muestras, se producen los mismos agrupamientos. Por tanto, se detectaría una posición estable.

Agrupamiento Jerárquico Se comienza con una partición en la que cada muestra representa una clase distinta. Se van ajustando las clases en función de una cierta medida de similitud (en un orden creciente). De este modo, se obtiene un árbol de agrupamientos, llamado dendograma.

Agrupamiento Jerárquico Similitud creciente

Agrupamiento Jerárquico Sea c’ = n. Si c’  c, finalizar. Encontrar el par de clases que más se parezcan según la medida de similitud adoptada: Xi, Xj. Agrupar las clases Xi y Xj, y decrementar c’. Volver al Paso 2.

Agrupamiento Jerárquico Algunas de las funciones de similitud más usadas:

Principales métodos jerárquicos aglomerativos Estrategia de distancia mínima (Single-linkage o Nearest-Neighbor): Se busca la distancia mínima entre patrones o de patrones con un agrupamiento previo formándose el dendograma. Es sensible al ruido y a pequeños cambios en los valores de los patrones. Estrategia de distancia máxima (Complete-linkage o Furthest-Neighbor): Se busca las distancia entre patrones más dispares de ambas agrupaciones. La tendencia es a formar agrupaciones compactas e hiperesféricas, con tamaños similares. Distancia promedio (Average-linkage): La distancia entre agrupaciones es un promedio de las distancias de los patrones de una agrupación respecto de la otra.

Validación del agrupamiento ¿El agrupamiento es real o sólo responde a la estructura impuesta por el algoritmo empleado? Determinar si la distribución de los datos es aleatoria o existe una tendencia a formar agrupaciones. Comprobar la validez de la partición de los datos. (medidas de separación entre las agrupaciones y medidas de cohesión dentro de cada agrupación) Individualmente, ¿qué agrupaciones son validas?. Dentro de una estructura jerárquica de los datos, se desea determinar que agrupaciones formadas son “reales”.

Comprobación de la tendencia de agrupamiento: Se define como hipótesis nula si los datos tienen una distribución uniforme y continua con algún conjunto convexo del espacio de características o ventana de muestreo. Técnica: Dividir la ventana de muestreo en celdas de igual tamaño. En un proceso sin agrupamiento y con distribución ¡uniforme el número de puntos de cada celda no debe variar mucho de su valor promedio, mientras que si hay tendencia la agrupamiento existirán celdas muy pobladas y otras casi sin puntos. Validez de las particiones: ¿Cuántas agrupaciones hay en los datos? ¿Las agrupaciones obtenidas son reales? Algunas de estas técnicas: El error cuadrático de un algoritmo de agrupamiento de este tipo siempre decrece a medida que aumenta el número de agrupaciones. Comprobar si el descenso del error resulta significativo.

Validez individual de las agrupaciones: Si se asume que los patrones han sido extraidos de una mezcla de distribuciones gaussianas, se puede realizar un test de relación de probabilidad para comprobar la hipótesis de C distribuciones mezcla frente a C-1 componentes. (Test chi-cuadrado). Analizar la relación entre la suma de los cuadrados intra-agrupaciones y la suma de cuadrados inter-agrupaciones. El valor esperado de esta relación y su varianza son conocidos bajo la hipotesis nula de que los patrones pertenecen a una distribución gaussiana. La partición de los datos se considerará valida si el valor observado en la relación alcanza un máximo, es decir, los puntos de cada agrupación están poco dispersos y a su vez las diferentes las diferentes agrupaciones están dispersas. Validez individual de las agrupaciones: Una vez determinada la validez de la partición, puede resultar conveniente establecer la validez de cada una de las agrupaciones individualmente. Se puede considerar que una agrupación es buena si las distancias entre los patrones en el interior de la agrupación son pequeñas y las distancias entre estos patrones y los de otras agrupaciones son grandes.

Agrupamiento difuso Un conjunto convencional A del espacio de puntos X={x1,...,xn} viene definido por una función característica uA : uA: X  {0,1} uA(x) = 1 si x  A uA(x) = 0 si x  A Un conjunto difuso A es un espacio de puntos caracterizado por una función de pertenencia A(x) que asigna a cada punto de X un número real en el intervalo [0,1] que representa el grado de pertenencia del grupo al elemento A. A: X  [0,1] La función A puede verse como un factor de peso que refleja la ambigüedad presente en un conjunto.

Algoritmo c-Medias difuso Sea X={x1,...,xn} un conjunto de puntos y c  N, 2  c  n se define las funcionales fuzzy c-means : donde: U es una c-partición difusa de X. V = {v1,....,vc} siendo vi el centro o prototipo del subconjunto ui, 1  i  c. (dik)2 = ||xk – vi||2 es una norma inducida que marca la distancia entre ambos. m es un exponente de peso.

Teorema [Bezdek–81]: Supongamos que || Teorema [Bezdek–81]: Supongamos que ||.|| es un producto interior fijado m, teniendo X al menos c < n puntos diferentes, y definiendo para todo k los conjuntos Ik ={i / 1  i  c; dik=0} Entonces, puede haber un mínimo de Jm si Además: