K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)

Slides:



Advertisements
Presentaciones similares
Introducción a la Investigación de Operaciones
Advertisements

Resolución aproximada de ecuaciones Ejemplos
Planificación de Monoprocesadores
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
Cluster.
Master en Recursos Humanos
Estructura de Datos Hugo Araya Carrasco Hugo Araya Carrasco.
Grupo 4 Matías Melgar Pablo Carbonell
Inferencia estadística
Dra. Rocío C. Romero Zaliz
Investigación de Operaciones II
Análisis Estadístico de Datos Climáticos
José Enrique Gonzalez Roberto Clavell
K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)
Muestreo para la inspección por atributos
Representación en espacio de estado
Tema 6: Compresión de imagen
Reducción de datos Por Elizabeth León.
METODO SIMPLEX El método Simplex es un procedimiento iterativo que permite ir mejorando la solución a cada paso. El proceso concluye cuando no es posible.
Diseño de Experimentos
Investigación Operativa
Econometria 2. Modelo de Regresión Lineal Simple
DEFINICIÓN MATEMÁTICA DE UNA FUNCIÓN DE VARIABLE REAL.
Analizador Numérico Ejecutamos nc.bat:
Clustering (Agrupamiento)
CONCEPTOS BÁSICOS DE ESTADÍSTICA
APRENDIZAJE WIDROW- HOFF
Introducción al Análisis Cluster
Búsqueda de Aproximaciones: Algoritmos
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
Tema 2: Métodos de ajuste
Juan José Cortés Orozco. Antonio Muñoz Torres.
RECONOCIMIETO DE PATRONES
 La resolución de problemas algorítmicos no solamente implica que los informáticos sepan programar sino necesitan de otras habilidades como tener una.
REDES BAYESIANAS Y DECISIÓN ESTADÍSTICA
Sesión 2: Métodos Probabilísticos Básicos
Curvas y superficies en 2D y 3D
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".
Clases 4 Pruebas de Hipótesis
Estadística aplicada al análisis financiero
Diseño en bloques completamente aleatorizados
ANÁLISIS DE CONGLOMERADOS
1 Asignatura: Autor: Análisis Numérico César Menéndez Titulación: Planificación: Materiales: Conocimientos previos: Aproximación Ingeniero Técnico Informático.
Diseño y análisis de algoritmos
Complejidad de los problemas de decisión
Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también.
Diseño y análisis de algoritmos
(Organización y Manejo de Archivos)
ANÁLISIS DE CONGLOMERADOS
Análisis de Conglomerados (Cluster Analysis)
Computacion inteligente Clustering Fuzzy. 2 Contenido  Conceptos basicos  Tipos de clustering  Tipos de Clusters  La tarea del clustering  Nociones.
A. Villagra, D. Pandolfi LabTEm: Laboratorio de Tecnologías Emergentes Universidad Nacional de la Patagonia Austral Unidad Académica Caleta Olivia G. Leguizamón.
Material de apoyo Unidad 4 Estructura de datos
MÉTODO DE PIXELES DE BORDE
Redes Competitivas.
Control de Calidad Gráficos de Control Mérida, 11/Noviembre/2008.
Una introducción a la computación evolutiva
Aprendizaje no Supervisado: Clustering
Sabemos reconocerlas, y calcularlas como soluciones de sistemas de ecuaciones, o de desigualdades Buscamos métodos de cálculo generales y eficientes Problemas.
Asignación de Horarios
La Gestión y el Control de Procesos
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
Aplicaciones Estadísticas a las Finanzas Clase 1
Aplicación JAVA implementando Arboles de Decisión
INFERENCIA ESTADÍSTICA
Non-guillotine 2D bin packing problem Eduardo Pérez Mederos Miguel Monterrey Varela Jaime González Valdés Óscar Mateos López.
Computacion inteligente Clustering Fuzzy. 2 Contenido  Conceptos basicos  Tipos de clustering  Tipos de Clusters  La tarea del clustering  Nociones.
Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.
Clustering Pablo Palacios 1.  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva.
Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
Transcripción de la presentación:

K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523) M. Florencia Pereira (88816)

Introducción al problema K-Means resuelve un problema de clustering, que consiste en: Se tiene un conjunto de datos u observaciones (x1, x2, …, xn) donde cada dato representa un vector de n variables. Se desea particionar las observaciones en k grupos. Se elige para cada grupo un centro o “media” y se ubica cada observación en el grupo cuya media sea más cercana.

Introducción al problema (cont.) Para medir la cercanía se utiliza la norma euclídea y se busca minimizar la siguiente función: donde μi es la media de la partición Si (un grupo).

Características del algoritmo Es un problema NP-hard aún para k=2. Un problema es NP-hard si puede resolverse mediante un algoritmo que pueda ser traducido a otro que resuelve un problema NP. Los problemas clasificados como NP son “por lo menos” tan complejos como los que pueden resolverse mediante una máquina de Turing en tiempo polinómico. Complejidad n = numero de puntos, k = numero de clusters, I = numero iteraciones, d = numero de atributos Si fijamos los parametros n, k, d, I, la complejidad es: O( n * k * I * d )

Características del algoritmo (cont.) Siempre se tienen K clusters. Siempre hay por lo menos un objeto en cada cluster. Método no supervisado de aprendizaje Los objetos deberán poder representarse mediante atributos numéricos. Los clusters son mutuamente expluyentes. Los objetos pertenecientes a un cluster están lo más cerca posible entre sí y lo más lejos posible de los elementos de otros clusters.

Algoritmo Se eligen arbitrariamente k centros o medias, una por cada partición. En la práctica usualmente se eligen en forma aleatoria. Paso de asignación: se asignan las observaciones a la partición cuyo centro sea más cercano. Paso de actualización: se calculan cuales son los nuevos centros de cada partición. El centro representaría el “centro de masa” o “el promedio” de todas las observaciones que pertenecen a esa partición. Se repiten los pasos 2 y 3 hasta que no haya más movimientos en las particiones (entonces se dice que el algoritmo converge).

Análisis gráfico 1) Se eligen k medias iniciales (en este caso k=3) en forma aleatoria . 2) Se crean k clusters asociando cada observación con la media que más se le acerca.

Análisis gráfico (cont.) 3) Se recalculan las medias de cada cluster en función de las observaciones asociadas a cada uno. 4) Se repiten los pasos 2 y 3 hasta que no se produzcan movimientos de observaciones. 3) Se recalculan las medias de cada cluster en función de las observaciones asociadas a cada uno.

Ejemplo numérico (I) Se tiene 4 tipos de remedios que se desean agrupar en k=2 clusters, considerando 2 atributos que son: peso y PH. Remedio atributo 1 (X): peso Atributo 2 (Y): pH Remedio A 1 Remedio B 2 Remedio C 4 3 Remedio D 5

Ejemplo numérico (II) Iteración 0: Inicialmente elegimos como centros a los remedios A y B.

Ejemplo numérico (III) Iteración 0: Calculamos la distancia de cada centro a cada remedio, usando la distancia Euclídea. A B C D C1 C2 Asignamos a cada remedio un cluster. Para A el cluster 1, para B el cluster 2, para C el cluster 2 y para D el cluster 2.

Ejemplo numérico (IV) Iteración 1: Obtenemos los nuevos centros. El cluster 1 solo tiene un miembro, el remedio A. El cluster 2 tiene 3 miembros, el nuevo centroide es el promedio de sus coordenadas.

Ejemplo numérico (V) Iteración 1: Calculamos la distancia de cada centro a cada remedio, usando la distancia Euclídea. A B C D C1 C2 Asignamos a cada remedio un cluster. Para A el cluster 1, para B el cluster 1, para C el cluster 2 y para D el cluster 2.

Ejemplo numérico (VI) Iteración 2: Obtenemos los nuevos centros.

Ejemplo numérico (VII) Iteración 2: Calculamos la distancia de cada centro a cada remedio, usando la distancia Euclídea. A B C D C1 C2 Asignamos a cada remedio un cluster. Para A el cluster 1, para B el cluster 1, para C el cluster 2 y para D el cluster 2. Al no haber cambios ya no se necesitan más iteraciones.

Resultado Remedio Peso pH Cluster Remedio A 1 Remedio B 2 Remedio C 4 3 Remedio D 5

Ventajas Es un algoritmo sencillo y rápido. Fácil de implementar. Por esta razón, la mayoría de las herramientas de Data Mining incluyen al algoritmo. Es práctico si no se tiene un gran número de observaciones. La forma clásica de implementación de Kmeans es usando la distancia Euclídea, sin embargo la misma metodología funciona bien con otro tipo de distancias.

Desventajas El resultado del algoritmo es muy sensible a la configuración inicial de los agrupamientos, es decir cómo se asignaron los centros inicialmente. La necesidad de definir la cantidad de particiones de antemano, ya que la elección de un k inadecuado puede derivar en un resultado lejano al óptimo. Posibilidad de que se presenten óptimos locales al asignar los centros, es decir que la partición sea óptima en la forma que minimiza las distancias dentro de cada grupo pero no a nivel total (no tiende a obtener mínimos globales). Imposibilidad de trabajar con datos categóricos.

Desventajas (cont.) Muy sensible a datos anómalos. No funciona bien si los grupos son de distinto tamaño y densidad o no convexos.

Variaciones del algoritmo Existen varios algoritmos como por ejemplo GRASP [Greedy Randomized Adaptive Search Procedure] que utilizan heurísticas tales como Ant Colony para evitar óptimos locales. k-Modes (Huang’1998) utiliza modas en vez de medias (para poder trabajar con atributos de tipo categórico).  k-Medoids utiliza medianas en vez de medias para limitar la influencia de los observaciones distantes del resto.

Ejemplo en WEKA

Bibliografía http://elvex.ugr.es/decsai/intelligent/slides/dm/D3%20Clustering.pdf http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/kmeans.html http://maya.cs.depaul.edu/classes/ect584/weka/k-means.html

¿Preguntas?

Gracias