Aprendizaje no Supervisado: Clustering Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos Universidad de Sevilla
Jerárquico: CobWeb, FarthestFirst Tabla de Contenidos Introducción Clustering Jerárquico: CobWeb, FarthestFirst Basado en Particiones: K-means Algoritmo EM
Introducción Aprendizaje Supervisado (Clasificación) El conjunto de datos contiene un atributo que “guía” el aprendizaje (clase). Clasificadores: K-NN (IBk), C4.5 (J48)… Aprendizaje Semi-Supervisado Algunos ejemplos tienen clase y otros no. Aprendizaje No Supervisado (Clustering-Biclustering) No existe atributo clase.
El clustering solo actua bajo una dimensión. Objetivo: crear conjunto de elementos los cuales tengan alguna característica común. Crear conjuntos de genes según su expresión bajo condiciones experimentales. Crear conjuntos de condiciones según la expresión de los genes de un genoma. filas columnas El clustering solo actua bajo una dimensión.
Clustering Jerárquico - Algoritmo Se basa en descomponer jerárquicamente el conjunto de datos de entrada
Clustering Jerárquico - Ejemplo Partición recursiva de los datos 1 2 3 4 5 1-clustering 2-clustering 3-clustering 4-clustering 5-clustering 5 1 4 2 3
Clustering Jerárquico – CobWeb (en Weka)
Clustering Jerárquico – FarthestFirst (en Weka)
Clustering Basado en particiones: K-Medias Consiste en minimizar las distancias de los elementos de la partición y el centroide de ésta.
K-Medias: Ejemplo 1
K-Medias: Ejemplo online http://www.lsi.us.es/~ndiaz/proyectosFinCarrera.html http://www.elet.polimi.it/upload/matteucc/Clustering/tutorial_html/AppletKM.html
Kmedias – SimpleKMeans (en Weka)
Clustering EM (Expectation Maximization) Se basa en el modelo estadístico de Gauss: Estima parámetros por máxima verosimilitud Imputación de datos inexistentes El proceso es similar a K-means Los parámetros son recalculados hasta que los valores convergen Suele utilizarse para estimar la distribución de los datos a priori Esto puede verse en el algoritmo de clustering CLICK
Clustering EM - Weka
Ejercicio – Supervisado vs NoSupervisado ¿Quién consigue el mejor resultado para la base de datos “zoo.arf”, usando supervisado y no-Supervisado?
FIN