Computacion inteligente Clustering Fuzzy. 2 Contenido  Conceptos basicos  Tipos de clustering  Tipos de Clusters  La tarea del clustering  Nociones.

Slides:



Advertisements
Presentaciones similares
KRIGING CON TENDENCIA.
Advertisements

Bivariadas y Multivariadas
Computacion Inteligente
Unidad 4. Estructuras de selección
K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)
ANÁLISIS DE ESTABILIDAD
KRIGING.
GEOESTADISTICA MULTIVARIADA
Covarianza muestral Sean x1, x2, ..., xn e y1, y2, ..., yn dos muestras aleatorias independientes de observaciones de X e Y respectivamente. La covarianza.
Modelado y simulación en Ingeniería Química. Manuel Rodríguez
INFERENCIA ESTADISTICA
MODELO DE REGRESIÓN MÚLTIPLE
Reducción de datos Por Elizabeth León.
REGRESIÓN POR MÍNIMOS CUADRADOS
K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)
Taller 2. Medición de distancia entre variables y sujetos
Clustering (Agrupamiento)
ANÁLISIS DISCRIMINANTE
APRENDIZAJE WIDROW- HOFF
Búsqueda de Aproximaciones: Algoritmos
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
ANOVA Modelo I: Comparación entre medias
Estadística Descriptiva: 4. Correlación y Regresión Lineal
Fundamentos de Programación Matemática y Casos de Estudio en Economía.
Tema 2: Métodos de ajuste
Maracaibo, 5 de Noviembre de 2007 Universidad del Zulia Facultad de Ingeniería Instituto de Cálculo Aplicado Universidad del Zulia Facultad de Ingeniería.
La lógica de covarianza
RECONOCIMIETO DE PATRONES
FUNCIONES DE DENSIDAD DE PROBABILIDAD
Análisis de supervivencia Tema 5 Itziar Aretxaga.
Algoritmo Simplex Dual Como sabemos, el método simplex es un algoritmo iterativo que iniciando en una solución básica factible pero no óptima, genera soluciones.
TRANSFORMACIONES LINEALES PARA REDES NEURALES ARTIFICIALES
Computacion Inteligente
Computacion Inteligente
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".
Inferencia Estadística
Curso Práctico de Bioestadística Con Herramientas De Excel Fabrizio Marcillo Morla MBA (593-9)
Resolución de Problemas Método Simplex
Ing. Fabián Ruano.  Definición  Diferencias con BD Centralizadas.
ANÁLISIS DE CONGLOMERADOS
CONTROL FUZZY INTRODUCCION
Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también.
3. Funciones discriminantes para la f.d.p normal.
Sesión 6: Campos de Markov
Vectores Aleatorios 1 Distribución conjunta de un vector aleatorio
Análisis de Conglomerados (Cluster Analysis)
Computacion inteligente Clustering Fuzzy. 2 Contenido  Conceptos basicos  Tipos de clustering  Tipos de Clusters  La tarea del clustering  Nociones.
Computacion inteligente
MÉTODO DE PIXELES DE BORDE
Redes Competitivas.
Medidas de Dispersión.
Titular: Agustín Salvia
Introducción a la Inferencia Estadística
Escalamiento Multidimensional No-Métrico Capítulo 16 de McCune y Grace 2002.
CARPLATE Reconocimiento del marco de la matrícula de un coche
Inferencia Multivariante Cap 10 y 11
Ecuaciones Algebraicas
Identificación de Sistemas
Sesión 6: Campos de Markov. © L.E. Sucar: PGM - CAM2 Campos de Markov Introducción –Modelo de Ising Representación –Tipos de Modelos –Redes de Markov.
Identificación de Sistemas El metodo de los minimos cuadrados 1.
Maracaibo, 26 de Mayo de 2006 Universidad del Zulia Facultad de Ingeniería División de Postgrado Maestría en Computación Aplicada Universidad del Zulia.
Conceptos Básicos.  Alumno: Javier Sánchez Sánchez  Registro:  Grupo: B207  Fecha: 12/02/10.
Regresión Lineal Simple
ESTADISTICA DESCRIPTIVA BIVARIADA MEDIDAS DE RELACIÓN ENTRE VARIABLES CUANTITATIVAS.
Clustering Pablo Palacios 1.  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva.
Teoría de la Generalizabilidad
OPERADORES CINEMÁTICOS Roger Miranda Colorado
Viviana Acosta Estadística II. Que es Es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida.
Conclusiones: En este trabajo se ha demostrado que se pueden aplicar los algoritmos OCH al ajuste de los parámetros de un modelo borroso mediante la discretización.
Clustering.
Transcripción de la presentación:

Computacion inteligente Clustering Fuzzy

2 Contenido  Conceptos basicos  Tipos de clustering  Tipos de Clusters  La tarea del clustering  Nociones basicas en el clustering particional  Clustering Fuzzy de las c-medias  El algoritmo  Parametros del algoritmo  Algoritmo de Gustafson-Kessel  Validacion de los clusters  Ejemplo de aplicación

Clustering Fuzzy de las c-medias

El algoritmo de clustering  El clustering de las c-medias es un proceso de optimizacion. Dada la matriz Z, encontrar: el numero de clusters K, La matriz de particion U, la matriz de prototipos V,  basado en, la minimizacion de una funcion objetivo, (Dunn, 1974; Bezdek, 1981):

El proceso de optimizacion  Minimizar:  Sujeto a las restricciones impuestas a la matriz U.

Optimizacion: condiciones sobre U  Los elementos de U fuzzy satisfacen

Medida de la distancia  La norma de la distancia es distinta para cada direccion  La matriz A es comun a todos los clusters La norma influye en el criterio de agrupamiento

Optimizacion de la funcion objetivo  Definiendo Hacer cero los gradientes de J con respecto a U, V, y : Multiplicadores de Lagrange

El algoritmo FCM (fuzzy c-means)  Se puede demostrar que, si m>1, en el optimo: Un prototipo es la media pesada de los miembros del cluster

El algoritmo FCM (fuzzy c-means)  Se puede demostrar que, si m>1, en el optimo: El grado de pertenencia es mayor para el cluster del prototipo más cercano

El algoritmo FCM (fuzzy c-means)  El algoritmo busca iterativamente encontrar

El algoritmo

Pasos del algoritmo c-means After King, 2000

El algoritmo FCM (fuzzy c-means)  Paso 1: inicializacion Escoger el numero de clusters c < N Escoger el exponente m, Escoger la matriz A, Selccionar la tolerancia para terminar la iteracion Inicializar la matriz de particion U aleatoriamente.

El algoritmo FCM (fuzzy c-means)  Paso 2:calcular los prototipos  Paso 3:calcular las distancias

El algoritmo FCM (fuzzy c-means)  Paso 4: actualizar la matriz de particion  Paso 5: verificar

Parametros del algoritmo

El Parametro de Fuzificacion m  Influye significativamente en la “fuzificacion” de la particion resultante m=1 particion hard m → ∞, particion completamente fuzzy m=2valor tipico Estas propiedades son independientes del metodo de optimizacion

Medidas de las Distancias: la matriz A  Teniendo en cuenta las varianzas en las diferentes direcciones

Medidas de las Distancias: la matriz A  Teniendo en cuenta la matriz de covarianza  Esta es la Norma de Mahalanobis

Diferentes medidas de la distancias La norma influye en el criterio de agrupamiento

Algoritmo de Gustafson-Kessel

Algoritmo de Gustafson-Kessel (1979)  La norma de la distancia es distinta para cada cluster  Cada cluster tiene su propia matriz A i

Norma del algoritmo de Gustafson- Kessel

Validacion de los clusters

 La validez del agrupamiento se refiere al problema si una partición fuzzy dada se ajusta a los datos. El algoritmo de clustering siempre intenta encontrar el mejor ajuste para un número fijo de clusters y las formas parametrizada de los clusters. Sin embargo, esto no significa que aun el mejor ajuste sea significativo.

Validacion de los clusters  El número de clusters podría estar equivocado, o  la forma de los clusters podría no corresponder al de los grupos en los datos. Si es que los datos pueden agruparse de una manera significativa

Validacion del numero de clusters  ¿Cómo determinar el numero apropiado de clusters? Coeficiente de particion, Fmaximizar Entropia de la particion, Hminimizar Exponente de proporcion, Pmaximizar Estas medidas se calculan despues de completar el clustering

Validacion: coeficiente de particion F=1 es crisp F=1/c significa que cada observacion tiene grado de pertenencia igual a 1/c a cada cluster

Validacion: entropia de la particion H=0 es crisp H=ln(c) significa que cada observacion tiene grado de pertenencia igual a 1/c a cada cluster

Validacion: exponente de proporcion P=  is crisp P=0 significa que cada observacion tiene grado de pertenencia igual a cada cluster

Xie-Beni index (1991)  Minimizar

De los resultados de la validacion  Ningún índice de validacion es fiable por si solo  y el óptimo puede descubrirse sólo en comparación con los resultados de otros. Los resultados dependen de la estructura de los datos

De los resultados de la validacion  Se considera que particiones con menos clusters son mejores,  cuando las diferencias entre los valores de un índice de validacion son menores. En general los indices son monotonicamente decrecientes con c y no relacionados directamente con los datos.

Ejemplo de aplicacion

Extraccion de las reglas fuzzy por clustering: Modelo directo After Babuska

Extraccion de las reglas fuzzy por clustering: Modelo inverso After Babuska

38 Fuentes  Robert Babuska. Course Fuzzy and Neural Control, 2001/2002.  Kevin M. Passino, Stephen Yurkovich, Fuzzy Control. Addison Wesley Longman, Inc  Jonathan R. King, New Applications of Fuzzy Logic. University of East Anglia, Norwich England. PHD thesis, december 2000  Otras...