Descargar la presentación
La descarga está en progreso. Por favor, espere
1
Dra. Rocío C. Romero Zaliz
Agrupamiento de datos Dra. Rocío C. Romero Zaliz
2
Agrupamiento de datos El agrupamiento de datos o data clustering consiste en la clasificación de objetos similares en diferentes grupos. Más precisamente, consiste en particionar un conjunto de datos en subconjuntos o clusters de tal manera que estos tengan “algo en común”. Proximidad Similitud Aprendizaje no supervisado
3
Tipos de clustering Particionales Jerárquicos Aglomerativos Divisibles
Hierarchical algorithms find successive clusters using previously established clusters, whereas partitional algorithms determine all clusters at once. Hierarchical algorithms can be agglomerative (bottom-up) or divisive (top-down). Agglomerative algorithms begin with each element as a separate cluster and merge them in successively larger clusters. Divisive algorithms begin with the whole set and proceed to divide it into successively smaller clusters
4
Clustering particional
5
Clustering jerárquico
Aglomerativo Divisible
6
Objetivo Minimizar la distancia intracluster
Maximizar la distancia entre clusters
7
Propiedades de los clusters
Numéricos vs. Categóricos
8
Propiedades de los clusters
Disjuntos vs. No disjuntos
9
Propiedades de los clusters
Completos vs. Incompletos
10
Formas de los clusters
11
K-means Particional Distancia euclídea
Necesita el valor de k (#clusters) Búsqueda de prototipos Sensible a outliers
12
K-means Ubicar k (2) puntos en el espacio representado por los objetos a ser agrupados. Estos k puntos son los centroides iniciales de cada grupo
13
K-means Asignar cada objeto al grupo que esté más cercano a su centroide
14
K-means Recalcular la posición de los k centroides
15
K-means Repetir pasos 2 y 3 hasta que los prototipos ya no varíen
De esta manera se minimiza la distancia intracluster según la metrica dada
16
K-means
17
Single-linkeage Jerárquico Aglomerativo
Si hay un error en algún paso no se puede volver atrás …
18
Single-linkeage Dado un conjunto de N (5) elementos a ser agrupado y una matriz de distancia (o similitud) de N x N: d 1 2 3 4 5 6 10 13 8 7
19
Single-linkeage Comenzar por asignar cada item a un cluster.
Tenemos 5 clusters Sean las distancias entre los clusters las mismas que entre los elementos de cada cluster d 1 2 3 4 5 6 10 13 8 7
20
Single-linkeage Encontrar el par más cercano de clusters y unirlo en un único cluster. Tenemos 4 clusters d 1 2 3 4 5 6 10 13 8 7
21
Single-linkeage Calcular las distancias entre el nuevo cluster y los viejos clusters old clusters d 1 2-3 4 5 5,5 10 13 4,5 8,5 3 d 1 2 3 4 5 6 10 13 8 7
22
Single-linkeage Repetir los pasos 2y 3 hasta que todos los elementos se encuentren en el mismo cluster de tamaño N
23
Single-linkeage
24
Aplicación: respuesta inflamatoria
Respuesta inflamatoria de seres humanos al aplicarles una endotoxina en forma intravenosa, en comparacion con un grupo de control al cual se le inyecta un placebo Sangre de los ocho pacientes tratados, cuatro con la endotoxina (pacientes 1-4) y cuatro con el placebo (pacientes 5-8) Datos extraídos en diferentes instantes de tiempo, a 0, 2, 4, 6, 9 y 24 horas, y se han procesado utilizando GeneChips ® y HG-U133A v2.0 de Aymetrix Inc ®
25
Microarrays
26
Bases de datos Relacionales Estructurales Atributo – valor Ej: Entrez
Ontologías Jerarquías Ej: GO, Taxonomías, PFAM, etc.
27
Gene Ontology (GO) El proyecto de Gene Ontology (GO) busca crear descripciones consistentes de productos de genes provenientes de diferentes bases de datos Se han desarrollado 3 ontologías (vocabularios controlados y estructurados): Procesos biológicos Funciones moleculares Componentes celulares El uso de términos GO en diferentes bases de datos uniformiza las búsquedas en ellas Diferentes niveles If one database describes these molecules as being involved in 'translation', whereas another uses the phrase 'protein synthesis', it will be difficult for you - and even harder for a computer - to find functionally equivalent terms.
28
Gene Ontology (GO) 3 ontologías 2 clases de relaciones
29
Gene Ontology (GO) Biological Process Molecular Function
Cellular Component GO:
30
Gene Ontology (GO) Diferentes relaciones
Un nodo puede tener más de un padre Diferentes niveles de especificidad Un nodo puede encontrares en diferentes niveles al mismo tiempo
31
Clustering Conceptual
32
EMO-CC Clustering Conceptual Algoritmos Evolutivos MultiObjetivo
Aplicaciones: Análisis de microarrays Redes regulatorias Moléculas
33
EMO-CC: Base de datos
34
EMO-CC: Base de datos
35
EMO-CC: Aprendizaje
36
EMO-CC: Aprendizaje
37
EMO-CC: Objetivos Sensitividad Especificidad
38
EMO-CC: Objetivos Sensitividad Especificidad
39
EMO-CC: Aprendizaje
40
EMO-CC: Compactación
41
EMO-CC: Compactación
42
EMO-CC: Compactación
43
EMO-CC: Compactación
44
EMO-CC: Modelos
45
EMO-CC: Predicción
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.