La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Agrupamiento de datos Dra. Rocío C. Romero Zaliz.

Presentaciones similares


Presentación del tema: "Agrupamiento de datos Dra. Rocío C. Romero Zaliz."— Transcripción de la presentación:

1 Agrupamiento de datos Dra. Rocío C. Romero Zaliz

2 Agrupamiento de datos El agrupamiento de datos o data clustering consiste en la clasificación de objetos similares en diferentes grupos. Más precisamente, consiste en particionar un conjunto de datos en subconjuntos o clusters de tal manera que estos tengan algo en común. –Proximidad –Similitud Aprendizaje no supervisado

3 Tipos de clustering Particionales Jerárquicos –Aglomerativos –Divisibles

4 Clustering particional

5 Clustering jerárquico Aglomerativo Divisible

6 Objetivo Minimizar la distancia intracluster Maximizar la distancia entre clusters

7 Propiedades de los clusters Numéricos vs. Categóricos

8 Propiedades de los clusters Disjuntos vs. No disjuntos

9 Propiedades de los clusters Completos vs. Incompletos

10 Formas de los clusters

11 K-means Particional Distancia euclídea Necesita el valor de k (#clusters) Búsqueda de prototipos Sensible a outliers

12 K-means Ubicar k (2) puntos en el espacio representado por los objetos a ser agrupados. Estos k puntos son los centroides iniciales de cada grupo

13 K-means Asignar cada objeto al grupo que esté más cercano a su centroide

14 K-means Recalcular la posición de los k centroides

15 Repetir pasos 2 y 3 hasta que los prototipos ya no varíen K-means De esta manera se minimiza la distancia intracluster según la metrica dada

16 K-means

17 Single-linkeage Jerárquico Aglomerativo Si hay un error en algún paso no se puede volver atrás …

18 Single-linkeage Dado un conjunto de N (5) elementos a ser agrupado y una matriz de distancia (o similitud) de N x N: d

19 Single-linkeage Comenzar por asignar cada item a un cluster. Tenemos 5 clusters Sean las distancias entre los clusters las mismas que entre los elementos de cada cluster d

20 Single-linkeage Encontrar el par más cercano de clusters y unirlo en un único cluster. Tenemos 4 clusters d

21 Single-linkeage Calcular las distancias entre el nuevo cluster y los viejos clusters old clusters d , ,504,58,5 4104, ,530 d

22 Single-linkeage Repetir los pasos 2y 3 hasta que todos los elementos se encuentren en el mismo cluster de tamaño N

23 Single-linkeage

24 Aplicación: respuesta inflamatoria Respuesta inflamatoria de seres humanos al aplicarles una endotoxina en forma intravenosa, en comparacion con un grupo de control al cual se le inyecta un placebo Sangre de los ocho pacientes tratados, cuatro con la endotoxina (pacientes 1-4) y cuatro con el placebo (pacientes 5-8) Datos extraídos en diferentes instantes de tiempo, a 0, 2, 4, 6, 9 y 24 horas, y se han procesado utilizando GeneChips ® y HG- U133A v2.0 de Aymetrix Inc ®

25 Microarrays

26 Bases de datos Relacionales –Atributo – valor –Ej: Entrez Estructurales –Ontologías –Jerarquías –Ej: GO, Taxonomías, PFAM, etc.

27 Gene Ontology (GO) El proyecto de Gene Ontology (GO) busca crear descripciones consistentes de productos de genes provenientes de diferentes bases de datos Se han desarrollado 3 ontologías (vocabularios controlados y estructurados): –Procesos biológicos –Funciones moleculares –Componentes celulares El uso de términos GO en diferentes bases de datos uniformiza las búsquedas en ellas Diferentes niveles

28 Gene Ontology (GO) 3 ontologías 2 clases de relaciones

29 Gene Ontology (GO) Biological Process – GO: Molecular Function – GO: – GO: Cellular Component – GO:

30 Gene Ontology (GO) Diferentes relaciones Un nodo puede tener más de un padre Diferentes niveles de especificidad Un nodo puede encontrares en diferentes niveles al mismo tiempo

31 Clustering Conceptual

32 EMO-CC Clustering Conceptual Algoritmos Evolutivos MultiObjetivo Aplicaciones: –Análisis de microarrays –Redes regulatorias –Moléculas

33 EMO-CC: Base de datos

34

35 EMO-CC: Aprendizaje

36

37 EMO-CC: Objetivos Sensitividad Especificidad

38 EMO-CC: Objetivos Sensitividad Especificidad

39 EMO-CC: Aprendizaje

40 EMO-CC: Compactación

41

42

43

44 EMO-CC: Modelos

45 EMO-CC: Predicción


Descargar ppt "Agrupamiento de datos Dra. Rocío C. Romero Zaliz."

Presentaciones similares


Anuncios Google