Dra. Rocío C. Romero Zaliz

Slides:



Advertisements
Presentaciones similares
U UNIVERSIDAD DE QUINTANA ROO
Advertisements

DATA MINING MINERIA DE DATOS Gersom Costas.
Aplicaciones de Data Mining en ciencia y tecnología Ontologias. 1
Cluster.
Suffix Tree Clustering (STC)
Módulo Instruccional para el curso de Biología Oprime aquí para comenzar Oprime aquí para comenzar © Dra. Noraida Domínguez, 2010.
Master en Recursos Humanos
6. Sistemas Autoorganizados
La web semántica y su impacto en la recuperación de información
Investigación de Operaciones II
K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)
Clase # 8: Análisis Conformacional (II)
ANALISIS DE CONGLOMERADOS
K-Means Integrantes Natalia Merino (85828) Gastón Sabatelli (85523)
Clustering “Sinónimos” según el contexto… Clustering (IA)
TEMA III.
Clustering (Agrupamiento)
Agrupamiento de relaciones no lineales entre expresiones de genes
Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002.
La minería de datos en bioinformática
OBJETIVOS MULTIPLES EXPERT CHOICE Teoría de la Decisión
Introducción al Análisis Cluster
Búsqueda de Aproximaciones: Algoritmos
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
Optimización Multiobjetivo Por: Antonio H
RECONOCIMIETO DE PATRONES
Representación del Conocimiento
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".
Aprendizaje Automático en Bioinformática
Estadística aplicada al análisis financiero
Recuperaci ó n Basada en Contenido M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Especificación de Consultas M
Ing. Fabián Ruano.  Definición  Diferencias con BD Centralizadas.
ANÁLISIS DE CONGLOMERADOS
Redes Neuronales Artificiales Autoorganizadas
Tipos de redes neuronales Perceptrón multicapa Redes de respuesta radial Competitivas Clasificación Mapa topológico.
CC3001 Algoritmos y Estructuras de Datos
Diseño y análisis de algoritmos
COGs Cluster of Orthologous Groups. Genes Ortólogos Comparten una gran similitud en secuencias. Pueden provenir de un ancestro común.
Isabel Edo del Moral Susana Fernández LLoria Patricia Moraga Barrero
Taller de Base de Datos Búsqueda de Agrupaciones (Clustering) Técnica de modelamiento descriptivo(objetivo es construir un modelo para comprender los datos)
Business Intelligence y Data Mining
Tema 8: Análisis Multivariante. Conjunto de técnicas aplicables cuando se registran los valores de muchas variables (esencialmente numéricas, pero también.
Reconocimiento de Patrones
Ángel M. Ramos Domínguez Curso de Doctorado Análisis Conjunto
ANÁLISIS DE CONGLOMERADOS
Análisis de Conglomerados (Cluster Analysis)
Computacion inteligente Clustering Fuzzy. 2 Contenido  Conceptos basicos  Tipos de clustering  Tipos de Clusters  La tarea del clustering  Nociones.
Computacion inteligente
A. Villagra, D. Pandolfi LabTEm: Laboratorio de Tecnologías Emergentes Universidad Nacional de la Patagonia Austral Unidad Académica Caleta Olivia G. Leguizamón.
Modelos de Bases de Datos
Redes Competitivas.
Gene Ontology: GO Prof. Dr. José L. Oliverhttp://bioinfo2.ugr.es/oliver.
Definición de grupos: clasificación Capítulos 10 y 11 de McCune y Grace 2002.
Aprendizaje no Supervisado: Clustering
BioInformática Una nueva ciencia Interdisciplinar Norberto Díaz Díaz Bioinformatics Group of Seville (BIGS) Dpto. de Lenguajes y Sistemas Informaticos.
Clase # 7: Análisis Conformacional (I)
Nieves Ábalos Serrano Mª Teresa Jiménez Ramírez
Departamento de Informática Universidad de Rancagua
Próximo tutorial 4-1. Procesamiento de imágenes digitales.
DATA MINING KAROL PARDO MIGUEL VALCERO CORPORACION UNIVERSITARIA MINUTO DE DIOS.
Aplicación JAVA implementando Arboles de Decisión
Computacion inteligente Clustering Fuzzy. 2 Contenido  Conceptos basicos  Tipos de clustering  Tipos de Clusters  La tarea del clustering  Nociones.
Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.
Clustering Pablo Palacios 1.  Introducción  Clasificación de Clustering  Clusters de particionamiento ◦ N-means  Clusters difusos ◦ GFN-means ◦ Gath-Geva.
Alineamiento de secuencia de proteinas con HMM Sandra Cano.
Rafael Zamora Garrido Julio Ejemplos de objetivos de Minería de Datos Reducir las bajas de clientes actuales en un 5%. Aumentar las contrataciones.
Fecha de descarga: 6/23/2016 Copyright © McGraw-Hill Education. Todos los derechos reservados. Desarrollo de estudios independientes de cultivos de un.
Unsupervised visual learning of three-dimensional objects using a modular network architecture Ando, Suzuki, Fujita Neural Networks 12 (1999)
Se dispone de N individuos, con información sobre n variables.
Transcripción de la presentación:

Dra. Rocío C. Romero Zaliz Agrupamiento de datos Dra. Rocío C. Romero Zaliz

Agrupamiento de datos El agrupamiento de datos o data clustering consiste en la clasificación de objetos similares en diferentes grupos. Más precisamente, consiste en particionar un conjunto de datos en subconjuntos o clusters de tal manera que estos tengan “algo en común”. Proximidad Similitud Aprendizaje no supervisado

Tipos de clustering Particionales Jerárquicos Aglomerativos Divisibles Hierarchical algorithms find successive clusters using previously established clusters, whereas partitional algorithms determine all clusters at once. Hierarchical algorithms can be agglomerative (bottom-up) or divisive (top-down). Agglomerative algorithms begin with each element as a separate cluster and merge them in successively larger clusters. Divisive algorithms begin with the whole set and proceed to divide it into successively smaller clusters

Clustering particional

Clustering jerárquico Aglomerativo Divisible

Objetivo Minimizar la distancia intracluster Maximizar la distancia entre clusters

Propiedades de los clusters Numéricos vs. Categóricos

Propiedades de los clusters Disjuntos vs. No disjuntos

Propiedades de los clusters Completos vs. Incompletos

Formas de los clusters

K-means Particional Distancia euclídea Necesita el valor de k (#clusters) Búsqueda de prototipos Sensible a outliers

K-means Ubicar k (2) puntos en el espacio representado por los objetos a ser agrupados. Estos k puntos son los centroides iniciales de cada grupo

K-means Asignar cada objeto al grupo que esté más cercano a su centroide

K-means Recalcular la posición de los k centroides

K-means Repetir pasos 2 y 3 hasta que los prototipos ya no varíen De esta manera se minimiza la distancia intracluster según la metrica dada

K-means http://www.elet.polimi.it/upload/matteucc/Clustering/tutorial_html/AppletKM.html

Single-linkeage Jerárquico Aglomerativo Si hay un error en algún paso no se puede volver atrás …

Single-linkeage Dado un conjunto de N (5) elementos a ser agrupado y una matriz de distancia (o similitud) de N x N: d 1 2 3 4 5 6 10 13 8 7

Single-linkeage Comenzar por asignar cada item a un cluster. Tenemos 5 clusters Sean las distancias entre los clusters las mismas que entre los elementos de cada cluster d 1 2 3 4 5 6 10 13 8 7

Single-linkeage Encontrar el par más cercano de clusters y unirlo en un único cluster. Tenemos 4 clusters d 1 2 3 4 5 6 10 13 8 7

Single-linkeage Calcular las distancias entre el nuevo cluster y los viejos clusters old clusters d 1 2-3 4 5 5,5 10 13 4,5 8,5 3 d 1 2 3 4 5 6 10 13 8 7

Single-linkeage Repetir los pasos 2y 3 hasta que todos los elementos se encuentren en el mismo cluster de tamaño N

Single-linkeage http://www.elet.polimi.it/upload/matteucc/Clustering/tutorial_html/AppletH.html

Aplicación: respuesta inflamatoria Respuesta inflamatoria de seres humanos al aplicarles una endotoxina en forma intravenosa, en comparacion con un grupo de control al cual se le inyecta un placebo Sangre de los ocho pacientes tratados, cuatro con la endotoxina (pacientes 1-4) y cuatro con el placebo (pacientes 5-8) Datos extraídos en diferentes instantes de tiempo, a 0, 2, 4, 6, 9 y 24 horas, y se han procesado utilizando GeneChips ® y HG-U133A v2.0 de Aymetrix Inc ®

Microarrays

Bases de datos Relacionales Estructurales Atributo – valor Ej: Entrez Ontologías Jerarquías Ej: GO, Taxonomías, PFAM, etc.

Gene Ontology (GO) El proyecto de Gene Ontology (GO) busca crear descripciones consistentes de productos de genes provenientes de diferentes bases de datos Se han desarrollado 3 ontologías (vocabularios controlados y estructurados): Procesos biológicos Funciones moleculares Componentes celulares El uso de términos GO en diferentes bases de datos uniformiza las búsquedas en ellas Diferentes niveles If one database describes these molecules as being involved in 'translation', whereas another uses the phrase 'protein synthesis', it will be difficult for you - and even harder for a computer - to find functionally equivalent terms.

Gene Ontology (GO) 3 ontologías 2 clases de relaciones

Gene Ontology (GO) Biological Process Molecular Function Cellular Component GO:0016281

Gene Ontology (GO) Diferentes relaciones Un nodo puede tener más de un padre Diferentes niveles de especificidad Un nodo puede encontrares en diferentes niveles al mismo tiempo

Clustering Conceptual

EMO-CC Clustering Conceptual Algoritmos Evolutivos MultiObjetivo Aplicaciones: Análisis de microarrays Redes regulatorias Moléculas

EMO-CC: Base de datos

EMO-CC: Base de datos

EMO-CC: Aprendizaje

EMO-CC: Aprendizaje

EMO-CC: Objetivos Sensitividad Especificidad

EMO-CC: Objetivos Sensitividad Especificidad

EMO-CC: Aprendizaje

EMO-CC: Compactación

EMO-CC: Compactación

EMO-CC: Compactación

EMO-CC: Compactación

EMO-CC: Modelos

EMO-CC: Predicción