K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)

Slides:

Advertisements

Presentaciones similares

DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE

Advertisements

Planificación de Monoprocesadores

CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?

Capítulo 3: Medidas de posición

Master en Recursos Humanos

Estructura de Datos Hugo Araya Carrasco Hugo Araya Carrasco.

Dra. Rocío C. Romero Zaliz

Investigación de Operaciones II

CLASE 1: Recordando algunos conceptos previos de Estadística

Análisis Estadístico de Datos Climáticos

José Enrique Gonzalez Roberto Clavell

Telekom Solutions.

Investigación Algorítmica

Clase # 8: Análisis Conformacional (II)

2. INTRODUCCION A LA TEORIA DE LA PROBABILIDAD

Reducción de datos Por Elizabeth León.

METODO SIMPLEX El método Simplex es un procedimiento iterativo que permite ir mejorando la solución a cada paso. El proceso concluye cuando no es posible.

Diseño de Experimentos

K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)

Investigación Operativa

TEMA 2.4. MEDIDAS DE VARIABILIDAD

II U NIDAD. Al trabajar con histogramas y/o polígonos de frecuencias, vimos que la distribución de los datos puede adoptar varias formas. En esta unidad.

Analizador Numérico Ejecutamos nc.bat:

Clustering (Agrupamiento)

Aplicaciones de la derivada Resuelve problemas de optimización aplicando las ideas básicas relacionadas con extremos de funciones de una variable Bloque.

Introducción al Análisis Cluster

Búsqueda de Aproximaciones: Algoritmos

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.

Tema 2: Métodos de ajuste

RECONOCIMIETO DE PATRONES

REDES BAYESIANAS Y DECISIÓN ESTADÍSTICA

Sesión 2: Métodos Probabilísticos Básicos

Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".

Estadística aplicada al análisis financiero

Diseño en bloques completamente aleatorizados

ANÁLISIS DE CONGLOMERADOS

1 Asignatura: Autor: Análisis Numérico César Menéndez Titulación: Planificación: Materiales: Conocimientos previos: Aproximación Ingeniero Técnico Informático.

Diseño y análisis de algoritmos

Complejidad de los problemas de decisión

Diseño y análisis de algoritmos

ANÁLISIS DE CONGLOMERADOS

Análisis de Conglomerados (Cluster Analysis)

Computacion inteligente Clustering Fuzzy. 2 Contenido  Conceptos basicos  Tipos de clustering  Tipos de Clusters  La tarea del clustering  Nociones.

A. Villagra, D. Pandolfi LabTEm: Laboratorio de Tecnologías Emergentes Universidad Nacional de la Patagonia Austral Unidad Académica Caleta Olivia G. Leguizamón.

Distribuciones derivadas del muestreo

MÉTODO DE PIXELES DE BORDE

Redes Competitivas.

Datos: Estadística.

ESTADÍSTICAS DESCRIPTIVA

Análisis Cuantitativo de Datos (Básico)

Estadísticas Datos y Azar

Una introducción a la computación evolutiva

¿QUÉ ES LA ESTADÍSTICA? La estadística es una disciplina que diseña los procedimientos para la obtención de los datos, como asimismo proporciona las herramientas.

Profesora: Daniela Gaete Pino

Repaso de clase anterior

Aprendizaje no Supervisado: Clustering

Sabemos reconocerlas, y calcularlas como soluciones de sistemas de ecuaciones, o de desigualdades Buscamos métodos de cálculo generales y eficientes Problemas.

Asignación de Horarios

ANALISIS ,GRAFICOS Y MEDIDAS ESTADISTICAS

PC BD Alexandra Buri H José Rivera De La Cruz.

Estadística Reporte Ejecutivo

MEDIDAS DE TENDENCIA CENTRAL

Aplicación JAVA implementando Arboles de Decisión

Aspectos generales de la investigación educativa en el SNIT

Non-guillotine 2D bin packing problem Eduardo Pérez Mederos Miguel Monterrey Varela Jaime González Valdés Óscar Mateos López.

Clustering Pablo Palacios 1.  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva.

LOGO Medidas de posición Pedro Godoy G. Media Aritmética Valor representativo de un conjunto de datos Para datos no agrupados 1, x2, x3, x4,…………………………,

Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.

Transcripción de la presentación:

K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523) M. Florencia Pereira (88816)

El algoritmo en el contexto Técnicas de Data Mining No existen clases predefinidas Supervisado No Supervisado Agrupación en conjuntos con propiedades comunes Reglas de asociación Clustering Es necesario especificar el número Inicial de clusters Jerárquico Particionado Utiliza como medida de similitud la distancia de los objetos a cada centroide (media) K-Means SOM

Introducción al problema K-Means resuelve un problema de clustering, que consiste en: Se tiene un conjunto de datos u observaciones (x1, x2, …, xn) donde cada dato representa un vector de n variables. Se desea particionar las observaciones en k grupos. Se elige para cada grupo un centro o “media” y se ubica cada observación en el grupo cuya media sea más cercana.

Introducción al problema (cont.) Para medir la cercanía se utiliza la norma euclídea y se busca minimizar la siguiente función: donde μi es la media de la partición Si (un grupo).

Características del algoritmo Siempre se tienen K clusters predefinidos. Siempre hay por lo menos un objeto en cada cluster. Método no supervisado de aprendizaje Los objetos deberán poder representarse mediante atributos numéricos. Los clusters son mutuamente expluyentes. Los objetos pertenecientes a un cluster están lo más cerca posible entre sí y lo más lejos posible de los elementos de otros clusters. Método particionado

Algoritmo Se eligen arbitrariamente k centros o medias, una por cada partición. En la práctica usualmente se eligen en forma aleatoria. Paso de asignación: se asignan las observaciones a la partición cuyo centro sea más cercano. Paso de actualización: se calculan cuales son los nuevos centros de cada partición. El centro representaría el “centro de masa” o “el promedio” de todas las observaciones que pertenecen a esa partición. Se repiten los pasos 2 y 3 hasta que no haya más movimientos en las particiones (entonces se dice que el algoritmo converge).

Análisis gráfico

Ejemplo numérico (I) Se tiene 4 tipos de remedios que se desean agrupar en k=2 clusters, considerando 2 atributos que son: peso y PH. Remedio atributo 1 (X): peso Atributo 2 (Y): pH Remedio A 1 Remedio B 2 Remedio C 4 3 Remedio D 5

Ejemplo numérico (II) Iteración 0: Inicialmente elegimos como centros a los remedios A y B. D C A B C1 C2

Ejemplo numérico (III) Iteración 0: Calculamos la distancia de cada centro a cada remedio, usando la distancia Euclídea. A B C D C1 C2 Asignamos a cada remedio un cluster. Para A el C1, para B el C2, para C el C2 y para D el C2.

Ejemplo numérico (IV) Iteración 1: Obtenemos los nuevos centros. El C1 solo tiene un miembro, el remedio A. El C2 tiene 3 miembros, el nuevo centroide es el promedio de sus coordenadas. D C A C2 B C1

Ejemplo numérico (V) Iteración 1: Calculamos la distancia de cada centro a cada remedio, usando la distancia Euclídea. A B C D C1 C2 Asignamos a cada remedio un cluster. Para A el C1, para B el C1, para C el C2 y para D el C2.

Ejemplo numérico (VI) Iteración 2: Obtenemos los nuevos centros. D C

Ejemplo numérico (VII) Iteración 2: Calculamos la distancia de cada centro a cada remedio, usando la distancia Euclídea. A B C D C1 C2 Asignamos a cada remedio un cluster. Para A el C1, para B el C1, para C el C2 y para D el C2. Al no haber cambios ya no se necesitan más iteraciones.

Resultado Remedio Peso pH Cluster N° Remedio A 1 Remedio B 2 Remedio C 4 3 Remedio D 5

Ventajas Es un algoritmo sencillo y computacionalmente rápido. Fácil de implementar. Por esta razón, la mayoría de las herramientas de Data Mining incluyen al algoritmo. Es práctico si no se tiene un gran número de observaciones. La forma clásica de implementación de Kmeans es usando la distancia Euclídea, sin embargo la misma metodología funciona bien con otro tipo de distancias.

Desventajas El resultado del algoritmo es muy sensible a la configuración inicial de los agrupamientos, es decir cómo se asignaron los centros inicialmente. En cada ejecución podría generar resultados muy variados dependiendo de esta elección inicial. La necesidad de definir la cantidad de particiones de antemano, ya que la elección de un k inadecuado puede derivar en un resultado lejano al óptimo. Posibilidad de que se presenten óptimos locales al asignar los centros, es decir que la partición sea óptima en la forma que minimiza las distancias dentro de cada grupo pero no a nivel total (no tiende a obtener mínimos globales). Muchas veces es necesario realizar sucesivas ocasiones para obtener un resultado mas óptimo.

Desventajas (cont.) Es susceptible a valores extremos porque distorsionan la distribución de los datos. No funciona bien si los grupos son de distinto tamaño y densidad o no convexos.

Variaciones del algoritmo Existen varios algoritmos como por ejemplo GRASP [Greedy Randomized Adaptive Search Procedure] que utilizan heurísticas tales como Ant Colony para evitar óptimos locales. k-Modes (Huang’1998) utiliza modas en vez de medias (para poder trabajar con atributos de tipo categórico). k-Medoids utiliza medianas en vez de medias para limitar la influencia de los observaciones distantes del resto.

Ejemplo en WEKA

Bibliografía http://elvex.ugr.es/decsai/intelligent/slides/dm/D3%20Clustering.pdf http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/kmeans.html http://maya.cs.depaul.edu/classes/ect584/weka/k-means.html

¿Preguntas?

Gracias