Analizador Numérico Ejecutamos nc.bat:

Slides:



Advertisements
Presentaciones similares
Conocimiento, Uso y Evaluación de Medicamentos Genéricos
Advertisements

Los números del 0 al cero uno dos tres cuatro cinco 6 7 8
La mediana La mediana es el valor tal que el 50 % de las observaciones son menores y 50 % de ellas son mayores a dicho valor. En otra palabras, la mediana.
1 ESTUDIO DE OPINIÓN PÚBLICA: LA SEXUALIDAD DE LOS CHILENOS ABRIL 2006 ¿Informados o desinformados? Principal fuente de información Las enseñanzas durante.
Noviembre 2007Estudio Rostros de Noticias 2007Collect-GfKWikén Estudio Rostros de Noticias de la TV Chilena Desarrollados para Revista Wikén El Mercurio.
Universidad San Martín de Porres
1 LA UTILIZACION DE LAS TIC EN LAS MICROEMPRESAS GALLEGAS. AÑO mayo 2005.
1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO de Junio de 2005.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS ( Resumen PYMES ) Noviembre de 2004.
AYUDA A LA FUNCIÓN DOCENTE Internet
TEMA 2 MÚLTIPLOS Y DIVISORES
02- Plan Organización Docente v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
02- PLAN DOCENTE Febrero 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
01- OFERTA FORMATIVA v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
Aladdín-respuestas 1.Vivía 2.Era 3.Amaba 4.Quería 5.Gustaban 6.Se sentía 7.Salía 8.Tenía 9.Decidió 10.escapó 11. Se vistió 12. Conoció 13. Vio 14. Pensó
Respuestas Buscando a Nemo.
ABECEDARIO FIGURAS GEOMÉTRICAS NÚMERO
Árboles de decisión Tema 9 Parte teórica Minería de datos
CAPÍTULO 9 La economía en pleno empleo
Objetivo: Los estudiantes van a usar vocabulario del desayuno para comprender un cuento. Práctica: 1. ¿Te gusta comer? 2. ¿Te gusta beber Mt. Dew.
Descripción de los datos: medidas de dispersión
Mulán /75 puntos. 1.Querían 2.Gustaban 3.Escuchó 4.Dijo 5.Tenía 6.Ayudaron 7.Maquillaron 8.Arreglaron 9.Dio 10.Estaba 11.Iba 12.Quería 13.Salió 14.Gritó
Métodos Cuantitativos Aplicados a Los Negocios.
Ejemplo A continuación aparecen las tasas de retorno de dos fondos de inversión durante los últimos 10 años. 1. ¿Cuál es más riesgoso? 2. ¿En cuál invertiría.
Unidad de competencia II Estadística descriptiva:
Unidad de competencia II Estadística descriptiva:
Capítulo 3 Descripción de datos, medidas de tendencia central
Capítulo 3: Medidas de posición
William Shakespeare ( greg.), fue un dramaturgo, poeta y actor inglés. Conocido en ocasiones como el Bardo de Avon (o.
Distribuciones de probabilidad bidimensionales o conjuntas
1 Reporte Componente Impacto Por Orden Territorial Por Departamento No Disponible ND *Los indicadores para el año 2008 no fueron calculados.
TELEFONÍA IP.
Parte 3. Descripción del código de una función 1.
Vocabulario querer comerlo -paja por supuesto - madera
Sistemas de Ecuaciones
FUNCIONES DE UNA VARIABLE REAL
EL OSO APRENDIZ Y SUS AMIGOS
1 PROYECTO DE PRESUPUESTO DE EGRESOS DE LA FEDERACION 2002 COORDINACIÓN DE POLITICA ECONOMICA GP-PRD.
Modelo de Evaluación Institucional
Clasificación de los indicadores por categoría
Indicadores CNEP Escuela
Profr. Ricardo A. Castro Rico
Ecuaciones Cuadráticas
RAZONAMIENTO MATEMATICO Mg. CORNELIO GONZALES TORRES
La elección óptima del consumidor
¡Primero mira fijo a la bruja!
Investigación Algorítmica
K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)
Introducción a las Señales Aleatorias ISAL
¿Qué es un conjunto? Un conjunto es una colección de objetos considerada como un todo. Los objetos de un conjunto son llamados elementos o miembros del.
CONSTRUCCIONES - 2 Construcciones, divisiones, transposiciones, ... con palillos, cerillas, monedas, triángulos, cuadrados, trapecios, polígonos, etc.
K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)
Un ejemplo de agrupación de datos Problema 1 del capítulo 2 del libro de texto.
CONSTRUCCIONES - 2 Construcciones, divisiones, transposiciones, ... con palillos, cerillas, monedas, triángulos, cuadrados, trapecios, polígonos, etc.
Quetzalpapalotl Quetzalpapalotl – Gevederde Slang, vlindergod.
REGLAS DE LOS SIGNOS.
By: Nicholas, Rayna, Nathaniel, Calvin
Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –
Los números. Del 0 al 100.
Realimentacion de la salida
Vocabulario: (Los números)
Los Numeros.
FACULTAD DE DERECHO PROTAGONISTAS PROMOCIÓN aniversario
Diagrama CAUSA_EFECTO ó ISHIKAWA ó ESPINA DE PESCADO
Estructuras de control
ESTADIGRAFOS DE DISPERSION
Introducción al Análisis Cluster
Herramienta FRAX Expositor: Boris Inturias.
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
Transcripción de la presentación:

Métodos de agrupamiento Clustering © Fernando Berzal

Analizador Numérico Ejecutamos nc.bat: Pinchamos sobre el botón Inicio y buscamos el fichero de configuración necesario para acceder a nuestros datos (p.ej. Iris.cfg).

Analizador Numérico Ahora podemos utilizar distintas técnicas de aprendizaje sobre nuestro conjunto de datos:

Analizador Numérico Empezamos viendo algunas características del conjunto de datos (Datos > Estadísticas…):

Analizador Numérico También podemos ver gráficamente la distribución de las muestras (Datos > Representación 2D…):

Analizador Numérico Cuando nuestro conjunto de patrones viene dado por un conjunto de imágenes (como es el caso de Galaxy o Igaliko) podemos acceder a la representación visual de cada “dimensión” (Datos > Estadísticas… > Ver imagen):

Métodos de agrupamiento Objetivo Agrupar objetos similares entre sí que sean distintos a los objetos de otros agrupamientos [clusters]. Aprendizaje no supervisado No existen clases predefinidas Los resultados obtenidos dependerán de: El algoritmo de agrupamiento seleccionado. El conjunto de datos disponible La medida de similitud utilizada para comparar objetos. A veces, influye hasta el ORDEN de los patrones en el conjunto de entrenamiento

Métodos de agrupamiento Encontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre sí y diferentes de los objetos de otros grupos: Maximizar distancia inter-cluster Minimizar distancia intra-cluster

Medidas de similitud Usualmente, se expresan en términos de distancias: d(i,j) > d(i,k) nos indica que el objeto i es más parecido a k que a j La definición de la métrica de similitud/distancia será distinta en función del tipo de dato y de la interpretación semántica que nosotros hagamos. En otras palabras, la similitud entre objetos es subjetiva.

¿Cuántos agrupamientos? Medidas de similitud ¿Cuántos agrupamientos? ¿Dos? ¿Seis? ¿Cuatro?

Algoritmos de agrupamiento Con número de clases desconocido Método adaptativo Algoritmo de máxima distancia (Batchelor & Wilkins) Con número de clases conocido Algoritmo de las K Medias Algoritmo GRASP Algoritmo de agrupamiento secuencial Algoritmo ISODATA Métodos basados en grafos Algoritmo basado en la matriz de similitud

Algoritmo adaptativo

Algoritmo adaptativo Características principales Ventajas Útil cuando no se conoce de antemano el número de clases del problema (número de clusters desconocido). Simplicidad y eficiencia. Desventajas Dependencia del orden de presentación (comportamiento sesgado por el orden de presentación de los patrones). Presupone agrupamientos compactos separados claramente de los demás (puede no funcionar adecuadamente en presencia de ruido).

Algoritmo adaptativo Funcionamiento Inicialización Se forma un agrupamiento con el primer patrón del conjunto de datos. Mientras queden patrones por asignar El patrón se asigna a un cluster si la distancia del patrón al centroide del cluster no supera un umbral . En caso contrario, se crea un nuevo agrupamiento si la distancia del patrón al cluster más cercano está por encima de .

Algoritmo adaptativo Funcionamiento Este algoritmo incluye una clase de rechazo: Algunas observaciones no son clasificadas.

Algoritmo adaptativo Ejemplo

Algoritmo adaptativo Ejemplo

Algoritmo adaptativo Ejemplo

Algoritmo adaptativo Parámetros Umbral de distancia  Umbral de distancia utilizado para crear nuevos agrupamientos. Fracción  Fracción del umbral de distancia que determina total confianza (utilizada para determinar si un patrón se le asigna a un cluster o no).

Algoritmo adaptativo Resultados Galaxia en espiral El parámetro fundamental a la hora de conseguir un “buen” resultado es el umbral . Cuanto mayor sea este umbral, menos agrupamientos se formarán. El parámetro  influye menos.

Algoritmo adaptativo Ejercicios: Iris Encontrar los valores de los parámetros del algoritmo que permiten obtener un porcentaje de clasificación mayor (“bondad estimada del clasificador” que aparece cuando pulsamos el botón “Clasificador asociado”).

Batchelor & Wilkins Ejercicios: Iris Encontrar los valores de los parámetros del algoritmo que reducen la dispersión media (esto es, la distancia media de un patrón al centroide de su cluster) sin afectar demasiado a la bondad del clasificador asociado ni incrementar en exceso el número de agrupamientos.

Batchelor & Wilkins

Batchelor & Wilkins Características principales Ventajas Útil cuando no se conoce de antemano el número de clases del problema (número de clusters desconocido). Un único parámetro. Desventajas Sensibilidad al valor del parámetro.

Batchelor & Wilkins Funcionamiento Primer agrupamiento: Patrón escogido al azar. Segundo agrupamiento: Patrón más alejado del primer agrupamiento . Mientras se creen nuevos agrupamientos, obtener el patrón más alejado de los agrupamientos existentes (máximo de las distancias mínimas de los patrones a los agrupamientos). Si la distancia del patrón escogido al conjunto de agrupamientos es mayor que una fracción f de la distancia media entre los agrupamientos, crear un agrupamiento con el patrón seleccionado. Asignar cada patrón a su agrupamiento más cercano.

Batchelor & Wilkins Ejemplo (f=0.5) Patrones X6 es el patrón más alejado de X1

Batchelor & Wilkins Ejemplo (f=0.5) Máxima distancia (X10,Z2) Creación de un nuevo agrupamiento

Batchelor & Wilkins Ejemplo (f=0.5) Puntos de máxima distancia (Z1,X3) Como la distancia a X2 está por debajo del umbral, no se crean más agrupamientos

Batchelor & Wilkins Ejemplo (f=0.5) Puntos de máxima distancia (Z1,X3) Como la distancia a X2 está por debajo del umbral, no se crean más agrupamientos

Batchelor & Wilkins Parámetros Fracción f Fracción de la distancia media entre los agrupamientos existentes (utilizada para determinar si se crea o no un nuevo agrupamiento).

Batchelor & Wilkins Resultados Galaxia en espiral Conforme aumenta el valor de f, disminuye el número de agrupamientos hasta llega un momento en el que nos quedamos sólo con 2 clusters.

Batchelor & Wilkins Ejercicios: Iris Encontrar los valores de los parámetros del algoritmo que permiten obtener un porcentaje de clasificación mayor a la vez que minimizan el número de clusters (idealmente, sólo tres agrupamientos deberían ser necesarios).

k-Means

k-Means Características principales El método de las K Medias (MacQueen, 1967) Ventajas Sencillo y eficiente. Un único parámetro. Desventajas Sesgado por el orden de presentación de los patrones (el resultado depende de la configuración inicial de los agrupamientos). Necesidad de conocer el número de clusters k: Su comportamiento depende enormemente del valor elegido para el parámetro k.

k-Means Funcionamiento Cada cluster tiene asociado un centroide (centro geométrico del cluster). Los puntos se asignan al cluster cuyo centroide esté más cerca (utilizando cualquier métrica de distancia). Iterativamente, se van actualizando los centroides en función de las asignaciones de puntos a clusters, hasta que los centroides dejen de cambiar. BASE TEÓRICA: Algoritmo basado en la minimización de la distancia interna (suma de las distancias de los patrones asignados a un agrupamiento a su centroide). En realidad, se minimiza la suma de las distancias al cuadrado de cada patrón al centroide de su cluster.

k-Means

k-Means

k-Means

k-Means

k-Means Puntos originales Solución óptima Óptimo local Partitioning approach: Construct various partitions and then evaluate them by some criterion, e.g., minimizing the sum of square errors (k-means, k-medoids, CLARANS) Hierarchical approach: Create a hierarchical decomposition of the set of data (or objects) using some criterion (Diana, Agnes, BIRCH, ROCK, CAMELEON)

k-Means Clusters de distinto tamaño Clusters de distinta densidad Clusters no convexos

k-Means Variantes GRASP [Greedy Randomized Adaptive Search Procedure] para evitar óptimos locales. k-Modes (Huang’1998) utiliza modas en vez de medias (para poder trabajar con atributos de tipo categórico). k-Medoids utiliza medianas en vez de medias para limitar la influencia de los outliers vg. PAM (Partitioning Around Medoids, 1987) CLARA (Clustering LARge Applications, 1990) CLARANS (CLARA + Randomized Search, 1994) CLARA y CLARANS muestrean el conjunto de datos

k-Means Parámetros K Número deseado de agrupamientos.

GRASP

GRASP Características principales Greedy Randomized Adaptive Search Procedure Ventajas Sencillo y eficiente. Evita caer en óptimos locales. Desventajas Necesidad de conocer el número de clusters k: Su comportamiento depende enormemente del valor elegido para el parámetro k.

GRASP Funcionamiento Se repite el siguiente proceso un número determinado de iteraciones Se busca una posible solución (centroides escogidos aleatoriamente de entre aquellos patrones que están más lejos de los centroides ya escogidos). Se aplica una técnica de optimización local (k-Means) para obtener un conjunto de agrupamientos. Opcionalmente, se puede alterar aleatoriamente el resultado obtenido [mutación] y repetir la búsqueda de un óptimo local con la solución “mutada”. De todas las soluciones obtenidas, nos quedamos con la mejor (aquella que minimiza la suma de las distancias al cuadrado de cada patrón al centroide de su cluster). El algoritmo greedy empleado no obtiene soluciones excesivamente buenas aunque sí proporciona buenos puntos de partida (en distintas regiones del espacio de búsqueda) para un algoritmo de búsqueda local como el algoritmo de las K Medias, lo que permite obtener resultados netamente superiores a los que obtienen cuando se parte de una configuración inicial “aleatoria”.

GRASP Parámetros K Número deseado de agrupamientos. Iteraciones Número de iteraciones. Longitud de ciclo Número de “mutaciones” por iteración.

GRASP Resultados: TITANIC (K=5, sin mutación) 5 particiones del conjunto de datos… J: Suma de las distancias al cuadrado. %TRA: Acierto sobre el conjunto de entrenamiento. %TST: Acierto sobre el conjunto de prueba. From the data archive of the on-line Journal of Statistics Education, originally compiled by Robert Dawson: 'The "Unusual Episode" Data Revisited', Journal of Statistics Education, vol. 3, no. 3 (1995) The titanic dataset gives the values of four categorical attributes for each of the 2201 people on board the Titanic when it struck an iceberg and sank. The attributes are social class (first class, second class, third class, crewmember), age (adult or child), sex, and whether or not the person survived.

GRASP GRASP mejora los resultados del algoritmo de las K Medias Resultados: TITANIC Distribución de J GRASP mejora los resultados del algoritmo de las K Medias From the data archive of the on-line Journal of Statistics Education, originally compiled by Robert Dawson: 'The "Unusual Episode" Data Revisited', Journal of Statistics Education, vol. 3, no. 3 (1995) The titanic dataset gives the values of four categorical attributes for each of the 2201 people on board the Titanic when it struck an iceberg and sank. The attributes are social class (first class, second class, third class, crewmember), age (adult or child), sex, and whether or not the person survived.

Algoritmo secuencial

Algoritmo secuencial Características principales Ventajas Flexibilidad: Su comportamiento puede ajustarse gracias a su amplio conjunto de parámetros. Eficiencia: Cálculos muy sencillos, basta con recorrer una vez el conjunto de datos. Desventajas Utilización: Los valores adecuados para los parámetros son difíciles de establecer a priori, por lo que se suele emplear un proceso de prueba y error. Sesgado por los primeros patrones: Los resultados obtenidos dependen del orden de presentación de los patrones.

Algoritmo secuencial Funcionamiento Similar al K-Means, si bien introduce algunas novedades El parámetro K se considera un valor máximo (puede devolver un número de agrupamientos menor). Partiendo de un único agrupamiento, se van creando nuevos agrupamientos conforme se procesan nuevos patrones secuencialmente (algoritmo incremental). Los patrones se procesan secuencialmente por lotes. Al final de cada lote, se evalúan los agrupamientos obtenidos y se reduce su número.

Algoritmo secuencial Funcionamiento: Creación de agrupamientos Se selecciona arbitrariamente el centro del primer agrupamiento. Posteriormente, se procesan secuencialmente los demás patrones: Se calcula la distancia del patrón actual al agrupamiento más cercano (a su centroide). Si ésta es menor o igual a R se asigna el patrón a su agrupamiento más cercano. En caso contrario, se crea un nuevo agrupamiento con el patrón actual.

Algoritmo secuencial Funcionamiento: Mezcla de agrupamientos Cada M patrones, se mezclan agrupamientos Mezcla por cercanía (se mezclan dos agrupamientos si la distancia entre ellos es menor que C). Mezcla por tamaño: Si, tras la mezcla por cercanía, quedan más agrupamientos que los deseados por el usuario (K), se mezclan los agrupamientos de menos del T% de M miembros con sus clusters más cercanos. Mezcla forzada: Si aún quedan demasiados agrupamientos, se mezclan los agrupamientos más cercanos hasta obtener el número deseado K. El proceso de mezcla nos asegura que al final obtenemos el número deseado de agrupamientos y no más (como suele suceder en el método adaptativo o en el algoritmo de Batchelor y Wilkins).

Algoritmo secuencial Parámetros K Número deseado de agrupamientos. R Umbral de distancia para crear agrupamientos. C Umbral de distancia para mezclar agrupamientos. M Longitud del “lote” (patrones procesados entre procesos de mezcla) T Umbral para la eliminación de agrupamientos (% sobre M)

Algoritmo ISODATA

Algoritmo ISODATA Características principales Iterative Self-Organizing Data Analysis Techniques Ventajas Flexibilidad: Su comportamiento puede ajustarse gracias a su amplio conjunto de parámetros. No está sesgado por el orden de presentación de los patrones. Desventajas Utilización: Los valores adecuados para los parámetros son difíciles de establecer a priori, por lo que se suele emplear un proceso de prueba y error.

Algoritmo ISODATA Funcionamiento Similar al K-Means, si bien incorpora heurísticas con tres objetivos: Eliminar agrupamientos poco numerosos. Mezclar agrupamientos cercanos. Dividir agrupamientos dispersos.

Algoritmo ISODATA Funcionamiento Inicialmente se seleccionan los centros de A agrupamientos. En cada iteración Se asigna cada patrón al cluster más cercano. Se eliminan los agrupamientos de menos de N patrones. Si el número de agrupamientos es pequeño (≤ K/2), se dividen los agrupamientos más dispersos. En las iteraciones pares o cuando el número de agrupamientos es elevado (>2K), mezclamos un máximo de L pares de agrupamientos cercanos.

Algoritmo ISODATA Parámetros K Número deseado de agrupamientos A Número inicial de agrupamientos N Umbral del número de patrones para la eliminación de agrupamientos s Umbral de desviación típica para la división de un agrupamiento c Umbral de distancia para la unión de agrupamientos L Máximo número de mezclas en una iteración I Máximo número de iteraciones permitidas

Métodos basados en grafos

Métodos basados en grafos Características principales p.ej. Agrupamiento basado en la matriz de similitud Ventajas A diferencia de los métodos heurísticos, no dependen del orden en que se presentan los patrones. Desventajas Su coste computacional los hace inviables en muchas ocasiones.

Métodos basados en grafos Matriz de similitud Matriz cuadrada que representa la similitud entre cualquier pareja de patrones. Dado un umbral de distancia, Sij=0 si d(Xi,Xj) > umbral Sij=1 si d(Xi,Xj) ≤ umbral Agrupamiento basado en la matriz de similitud: Se selecciona la fila i que contenga más unos. Se crea un agrupamiento con los patrones j tales que Sij=1 Se añaden al agrupamiento todos aquellos patrones k tales que Sjk= 1, donde j es un patrón ya incluido en el nuevo agrupamiento, hasta que no se puedan añadir más patrones a dicho agrupamiento.

Métodos basados en grafos Matriz de similitud

Métodos basados en grafos Matriz de similitud: Variación del umbral

Métodos basados en grafos Parámetros Umbral de distancia utilizado para la construcción de la matriz de similitud

Métodos basados en grafos Resultados Galaxia en espiral

Métodos basados en grafos Resultados Galaxia en espiral

Métodos basados en grafos Resultados Galaxia en espiral Se mejora en precisión pero se pierde una clase…

Métodos basados en grafos Alternativa: Clustering jerárquico divisivo Árbol generador minimal

Validación ¿Cómo se puede evaluar la calidad de los clusters obtenidos? Depende de lo que estemos buscando… Hay situaciones en las que nos interesa: Evitar descubrir clusters donde sólo hay ruido. Comparar dos conjuntos de clusters alternativos. Comparar dos técnicas de agrupamiento

Validación Criterios externos (aportando información adicional) p.ej. entropía/pureza (como en clasificación) Criterios internos (a partir de los propios datos), p.ej. SSE (“Sum of Squared Error”) para comparar clusters para estimar el número de clusters K Otras medidas: cohesión, separación, coeficientes de silueta…

Validación Matriz de similitud Ordenamos los datos en la matriz de similitud con respecto a los clusters en los que quedan los datos e inspeccionamos visualmente…

Validación Matriz de similitud Clusters en datos aleatorios (DBSCAN y k-Means)

Validación Matriz de similitud DBSCAN

Créditos Francisco J. Cortijo Bon: Apuntes de Reconocimiento de Formas, Universidad de Granada, 1999 Jiawei Han: “Data Mining: Concepts and Techniques”, capítulo 7, 2006 Pang-Ning Tan (Michigan State University), Michael Steinbach & Vipin Kumar (University of Minnesota): “Introduction to Data Mining”, capítulos 8 y 9, 2006