Buscando grupos naturales de nodos

Slides:



Advertisements
Presentaciones similares
Theory and Practice of Science Teaching. El desarrollo de practicas apropiadas, se refiere a que los maestros tienen que proveer a los estudiantes un.
Advertisements

Polimorfismos.
Clustering (Agrupamiento)
KIND OF FRACTIONS. PROPER FRACTIONS Mixed Fractions or Improper Fractions.
ANÁLISIS DE FALLAS ASIMÉTRICAS USANDO COMPONENTES DE SECUENCIA
Yo soy, tú eres, él es…Viajes Week 3. Para Empezar.
Realidades II EXAMEN HABLADO Capítulos 1A y 1B. PROCEDURE  4-7 days before test day:  You are told the questions and given some time to prepare answers.
Propiedad Intelectual Cpech PPTCAC042MT21-A16V1 Plano y espacio Propiedad Intelectual Cpech ACOMPAÑAMIENTO ANUAL BLOQUE 21.
T – Student teoria de las muestras pequeñas Paola Andrea Palacio Montero Estadística.
UNIDAD III Arboles de Decisión. Resolución de problemas 1. Identificar y definir el problema 1. Identificar y definir el problema 2. Determinar el conjunto.
Haz ahora el 27 de octubre de 2015 Complete each sentence with the correct form of ser and estar: 1.Mi cuarto ________ al lado de la sala. 2.Manuel y Fernando.
TEMA 3. ESTADÍSTICA BIDIMENSIONAL. INDICE 1.- Relación estadística: correlación 2.- Diagramas de dispersión o nube de puntos 3.- Tablas de frecuencia.
Conceptos Básicos. Grafo pesado Un grafo es… Un grafo G es un conjunto de nodos y enlaces grafo simple no-dirigido loop multi-enlace Grafo dirigido.
Content based Information Retrieval. Integrated Browsing and Querying for Image Databases Simone Santini University of California, San Diego Ramesh Jain.
PPTCEG045EM32-A16V1 Plano en el espacio EM-32. Recordemos… -¿Cómo se determina el punto medio de un segmento en el espacio? -¿Cuándo dos rectas en el.
Ver VIDEO Aquí.
Conceptos Básicos 2. Caminos Dada una red, distintos tipos de flujo pueden ser de interés Imaginemos flujo de objetos (items indivisibles que están en.
Centralidad vs. Letalidad Centrality/Lethality rule  Jeong 2001 Nature, “Lethality and centrality in protein networks”  He 2006 PLOS Genetics Bio “Why.
Master en Recursos Humanos Análisis de Conglomerados (Cluster Analysis): prácticas con SPSS Ana María López Área de Metodología de las Ciencias del Comportamiento.
Funciones y gráficas ITZEL ALEJANDRA LOZOYARODRIGUEZ
Piénsalo: 1. Si tuvieras $1,000, ¿En que te los gastarías?
LÍMITES Y CONTINUIDAD IVºELECTIVO
Tema 6 Cristhian Lopez..
Vibraciones en sistemas físicos
Correlaciones en la red
NOCIÓN DEL CONCEPTO DE FUNCIÓN
Lorenzo Bruzzone IEEE Geoscience and remote sensing 38,1pp429
PRUEBAS DE BONDAD DE AJUSTE estas pruebas permiten verificar que la población de la cual proviene una muestra tiene una distribución especificada o supuesta.
Modelo configuracional y modelos generativos
PRINCIPIOS LOGICO Y LA INFERACION O RAZONAMIENTO
7.2.5 Resolución de problemas geométricos que impliquen el uso de las propiedades de la mediatriz de un segmento y la bisectriz de un ángulo. Se sugiere.
MEP- II.
SOM: Modelos de mapas Auto-organizativos
Definiciones elementales: densidad, distancias. Centralidad. Cohesión
Líneas y ángulos Objetivo: Distinguir los tipos de rectas y distinguir los tipos de ángulos.
RCM SAE JA 1011 Evaluation Criteria for Reliability-Centered Maintenance (RCM) Processes Criterios de evaluación para los procesos de Mantenimiento Centrado.
REDES DE COMPUTADORAS SEGÚN TOPOLOGIA.
REDES DE COMPUTADORAS SEGÚN TOPOLOGIAS
Descripción e interpretación de la estadística
Administrador de Datos
First Grade Dual High Frequency Words
PROBABILIDAD Y ESTADÍSTICA
CAPACIDAD DE DETECCION Y CORRECCION DE ERRORES
Instructor: Rodrigo Caballero. PROPIEDADES DE LOS MATERIALES.
Best Practice Instalacion de motores SQL.
Pronouns, the verb SER, Adjectives
Estructuras de Datos MC Beatriz Beltrán Martínez Primavera 2018
DEL MANIPULADOR: PARTE 1 Roger Miranda Colorado
Los adjetivos en español
Regular verbs in the present tense
ENLACE COVALENTE APOLAR
Introducción Los árboles fueron utilizados por primera vez en 1847 por Gustav Kirchhoff ( ) en su trabajo de redes eléctricas, aunque posteriormente.
Clase Nº 1 Concepto de Probabilidad
Quadratic Assignment Problem
Estadística PROBABILIDAD.
PRESENTATION: URANUS PLANET Student: Zambrano Garcia Carmen Araceli. Mrs. Flores Saldaña Ma. De Lourdes. Bachelor’s degree: LAET V-A Subject: Basic English.
Lingüística computacional
Aidan Hogan Gestión de Datos (Masivos) Diplomado de Datos 2017 Clase 6: Recuperación de Información (II) Aidan Hogan
DEPARTAMENTO DE MATEMÁTICAS
Redes de Petri Coloreadas
"it is necessary to remember the adjective 'random' [in the term 'random sample'] should apply to the method of drawing the sample and not to the sample.
CAPACIDAD DE DETECCION Y CORRECCION DE ERRORES
características algoritmo algoritmo
Se dispone de N individuos, con información sobre n variables.
Describe a las personas con una frase completa.
TEMARIO DEFINICIÓN ………………………………………………………..………..
La Boutique Del PowerPoint.net
UNAM Materialidad 2 Audit Approach PwC Conforme a ISA Materialidad Los errores, incluyendo las omisiones, se consideran materiales.
Clase Nº 1 Concepto de Probabilidad
Transcripción de la presentación:

Buscando grupos naturales de nodos Comunidades cosas Buscando grupos naturales de nodos

cliques, k-componentes (Newman 7.8.1, 7.8.2) similaridad (N7.12) Geometria: kmeans topologia: equivalencia estructural vs equivalencia regular Clustering jerarquico (Ravasz 9.3) Girvan/Newman betweenness Modularity Overlapping communities clique percolation Link clustering Testing/charaterizing communities

Idea Para poder agrupar entidades necesitamos asumir un criterio, una noción de similaridad. Cuando dos cosas son parecidas?

Similaridad Cuándo dos cosas son parecidas? Similitud a partir de vectores de características Propiedad 1 Propiedad 2 Propiedad M ( x1, x2, … ,xM) … objeto

Similaridad Cuándo dos cosas son parecidas? Similitud a partir de vectores de características objeto espacio de características (multidimensional) Similitud o cercanía (si asumimos espacio métrico)

Ejemplo: Patrón de expresión génica El patrón de expresión a lo largo del tiempo del gen X es similar al del gen Y? X=(x1,x2,x3,x4), Y=(y1,y2,y3,y4) Euclidean Distance Manhattan Distance Correlation Distance 2.60 2.75 2.25 1.23 2.14 2.15 12.75 13.25 6.50 2.5 8.25 7.75 2 1.18 0.82 0, 1.23, 2.14, 2.15, 2.25,2.60, 2.75 0, 2.5, 6.5, 7.75, 8.25, 12.75, 13.25 0, 0.82, 1.18, 2

Similaridad en redes Cuándo dos vértices de una red son similares? Equivalencia regular: posiciones similares en el interconexionado…CEO de diferentes companias… Newman Chap 7.12

Similaridad en redes Cuándo dos vértices de una red son parecidos? Similitud a partir de propiedades topológicas Equivalencia estructural dos nodos de una red son estructuralmente equivalentes si comparten muchos vecinos Equivalencia regular dos nodos de una red son regularmente equivalentes si tienen vecinos que son similares Equivalencia regular: posiciones similares en el interconexionado…CEO de diferentes companias… Newman Chap 7.12

Similaridad en redes Cuándo dos vértices de una red son parecidos? fila-i fila-j Similaridad en redes Cuándo dos vértices de una red son parecidos? Similitud a partir de propiedades topológicas Equivalencia estructural dos nodos de una red son estructuralmente equivalentes si comparten muchos vecinos Similitud entre nodo-i y nodo-j a partir del número de vecinos compartidos Equivalencia regular: posiciones similares en el interconexionado…CEO de diferentes companias… 𝑛 𝑖𝑗 = 𝑘 𝐴 𝑖𝑘 𝐴 𝑘𝑗 = 𝑨 2 𝑖𝑗 = 𝑘 𝐴 𝑖𝑘 𝐴 𝑗𝑘 Producto interno entre los vectores fila-i y fila-j de la matriz de adyacencia 𝐴 𝑘𝑖 = 𝐴 𝑖𝑘 Vamos a concentrarnos en redes no-dirigidas

Equivalencia Estructural Similaridad tipo Coseno fila-i fila-j Similitud entre nodo-i y nodo-j a partir del número de vecinos compartidos, normalizado: 𝜃 nodo-i nodo-j 𝜎 𝑖𝑗 = 𝑘 𝐴 𝑖𝑘 𝐴 𝑗𝑘 𝑘 𝐴 𝑖𝑘 2 𝑘 𝐴 𝑗𝑘 2 = cos 𝜃 𝑖𝑗 modulo del vector fila-j 𝜎 𝑖𝑗 = 𝑘 𝐴 𝑖𝑘 𝐴 𝑗𝑘 𝑘 𝑖 𝑘 𝑗 = 𝑛 𝑖𝑗 𝑘 𝑖 𝑘 𝑗 redes no-pesadas nro vecinos comunes normalizado por la media geometrica de los grados

Equivalencia Estructural Similaridad tipo Correlación de Pearson Similaridad como nro de vecinos mútuos respecto a lo que cabría esperar en una red al azar: Probabilidad de un dado nodo de conectarse con el nodo-i y además con el nodo-j de manera aleatoria: 𝑘 𝑖 𝑛 𝑘 𝑗 𝑛 Ergo, el nro esperado de nodos comunes resulta: 𝑘 𝑖 𝑘 𝑗 𝑛 Usamos como medida de similaridad la desviación del nro de vecinos comunes respecto del esperado en el caso aleatorio 𝑘 𝐴 𝑖𝑘 𝐴 𝑗𝑘 − 𝑘 𝑖 𝑘 𝑗 𝑛

Equivalencia Estructural Similaridad tipo Correlación de Pearson 𝑘 𝐴 𝑖𝑘 𝐴 𝑗𝑘 − 𝑘 𝑖 𝑘 𝑗 𝑛 = 𝑘 𝐴 𝑖𝑘 𝐴 𝑗𝑘 − 1 𝑛 𝑘 𝐴 𝑖𝑘 𝑙 𝐴 𝑗𝑙 = 𝑘 𝐴 𝑖𝑘 𝐴 𝑗𝑘 −𝑛 𝐴 𝑖 𝐴 𝑗 = 𝑘 𝐴 𝑖𝑘 𝐴 𝑗𝑘 − 𝐴 𝑖 𝐴 𝑗 = 𝑘 𝐴 𝑖𝑘 − 𝐴 𝑖 𝐴 𝑗𝑘 − 𝐴 𝑗 Desviación del nro de vecinos respecto del esperado en el caso aleatorio fila-i fila-j 𝑛 𝑐𝑜𝑣( 𝐴 𝑖 , 𝐴 𝑗 ) El maximo valor de cov(Ai,Aj) se obtiene cuando ambos vectores son idénticos. Eso ocurre cuando: cov(Ai,Aj)= cov(Ai,Ai)= var(Ai) cov(Ai,Aj)= cov(Aj,Aj)= var(Aj) o

Equivalencia Estructural Similaridad tipo Correlación de Pearson 𝑘 𝐴 𝑖𝑘 𝐴 𝑗𝑘 − 𝑘 𝑖 𝑘 𝑗 𝑛 = 𝑘 𝐴 𝑖𝑘 𝐴 𝑗𝑘 − 1 𝑛 𝑘 𝐴 𝑖𝑘 𝑙 𝐴 𝑗𝑙 = 𝑘 𝐴 𝑖𝑘 𝐴 𝑗𝑘 −𝑛 𝐴 𝑖 𝐴 𝑗 = 𝑘 𝐴 𝑖𝑘 𝐴 𝑗𝑘 − 𝐴 𝑖 𝐴 𝑗 = 𝑘 𝐴 𝑖𝑘 − 𝐴 𝑖 𝐴 𝑗𝑘 − 𝐴 𝑗 fila-i fila-j 𝑟 𝑖𝑗 = 𝑐𝑜𝑣( 𝐴 𝑖 , 𝐴 𝑗 ) 𝜎 𝑖 𝜎 𝑗 = 𝑘 𝐴 𝑖𝑘 − 𝐴 𝑖 𝐴 𝑗𝑘 − 𝐴 𝑗 𝑘 𝐴 𝑖𝑘 − 𝐴 𝑖 2 𝑘 𝐴 𝑗𝑘 − 𝐴 𝑗 2 −1≤ 𝑟 𝑖𝑗 ≤1 y resulta nulo si los nodos-i y j tienen el nro de vecinos esperados por azar

Equivalencia Estructural Superposición topológica (topological overlap) 𝑇𝑂 𝑖𝑗 = 𝑛 𝑖𝑗 +Θ 𝐴 𝑖𝑗 𝑚𝑖𝑛 𝑘 𝑖 , 𝑘 𝑗 +1−Θ 𝐴 𝑖𝑗 B A Θ 𝑥 = 0 𝑠𝑖 𝑥≤0 1 𝑠𝑖 𝑥>0 𝑇𝑂 𝐴𝐵 = 3 3+1 =0.75

Equivalencia Estructural Otras medidas de similaridad fila-i fila-j Similaridad: podríamos utilizar el número de vecinos comunes normalizado por el número esperado 1, si el nij es el numero esperado en una red aleatoria >1 si hay más vecinos comunes <1 si hay menos 0 si no tienen vecinos en comun 𝑛 𝑖𝑗 𝑘 𝑖 𝑘 𝑗 𝑛 =𝑛 𝑘 𝐴 𝑖𝑘 𝐴 𝑗𝑘 𝑘 𝐴 𝑖𝑘 𝑘 𝐴 𝑗𝑘 Distancia Euclídea (distancia de Hamming en realidad) 𝑑 𝑖𝑗 = 𝑘 𝐴 𝑖𝑘 − 𝐴 𝑗𝑘 2 Nro de vecinos diferentes entre los dos nodos 𝑑 𝑖𝑗 = 𝑑 𝑖𝑗 𝑘 𝑖 + 𝑘 𝑗 = 1 𝑘 𝑖 + 𝑘 𝑗 𝑘 𝐴 𝑖𝑘 + 𝐴 𝑗𝑘 −2 𝐴 𝑖𝑘 𝐴 𝑗𝑘 =1−2 𝑛 𝑖𝑗 𝑘 𝑖 + 𝑘 𝑗

Equivalencia Estructural Otras medidas de similaridad fila-i fila-j Similaridad: podríamos utilizar el número de vecinos comunes normalizado por el número esperado 1, si el nij es el numero esperado en una red aleatoria >1 si hay más vecinos comunes <1 si hay menos 0 si no tienen vecinos en comun 𝑛 𝑖𝑗 𝑘 𝑖 𝑘 𝑗 𝑛 =𝑛 𝑘 𝐴 𝑖𝑘 𝐴 𝑗𝑘 𝑘 𝐴 𝑖𝑘 𝑘 𝐴 𝑗𝑘 Distancia Euclídea (distancia de Hamming en realidad) 𝑑 𝑖𝑗 = 𝑘 𝐴 𝑖𝑘 − 𝐴 𝑗𝑘 2 Nro de vecinos diferentes entre los dos nodos 𝑑 𝑖𝑗 =1−2 𝑛 𝑖𝑗 𝑘 𝑖 + 𝑘 𝑗 𝑠 𝑖𝑗 =1− 𝑑 𝑖𝑗 =2 𝑛 𝑖𝑗 𝑘 𝑖 + 𝑘 𝑗

Equivalencia Estructural fila-i fila-j 𝜎 𝑖𝑗 = 𝑛 𝑖𝑗 𝑘 𝑖 𝑘 𝑗 = cos 𝜃 𝑖𝑗 Similaridad tipo coseno 𝑛 𝑖𝑗 − 𝑘 𝑖 𝑘 𝑗 𝑛 → 𝑐𝑜𝑣( 𝐴 𝑖 , 𝐴 𝑗 ) 𝜎 𝑖 𝜎 𝑗 Similaridad de Pearson 𝑇𝑂 𝑖𝑗 = 𝑛 𝑖𝑗 +Θ 𝐴 𝑖𝑗 𝑚𝑖𝑛 𝑘 𝑖 , 𝑘 𝑗 +1−Θ 𝐴 𝑖𝑗 Overlap Topologico Similaridad: número de vecinos comunes normalizado por el número esperado 𝑛 𝑖𝑗 𝑘 𝑖 𝑘 𝑗 𝑛 𝑠 𝑖𝑗 =2 𝑛 𝑖𝑗 𝑘 𝑖 + 𝑘 𝑗 Similaridad Euclídea (Hamming)

Equivalencia Regular Dos nodos son similares si sus vecinos lo son 𝜎 𝑖𝑗 =𝛼 𝑘𝑙 𝐴 𝑖𝑘 𝐴 𝑗𝑙 𝜎 𝑘𝑙 Versión que usaremos como definición: Dos vértices, i y j son similares si i tiene como vecino a k, quien a su vez es similar a j. 𝜎 𝑖𝑗 =𝛼 𝑘 𝐴 𝑖𝑘 𝜎 𝑘𝑗 + 𝛿 𝑖𝑗 Newman Chap 7.12.4

Equivalencia Regular Versión que usaremos como definición: Dos vértices, i y j son similares si i tiene como vecino a k, quien a su vez es similar a j. 𝜎 𝑖𝑗 =𝛼 𝑘 𝐴 𝑖𝑘 𝜎 𝑘𝑗 + 𝛿 𝑖𝑗 𝝈=𝛼𝑨𝝈+𝑰 𝝈 (0) =0 𝝈 1 =𝑰 𝝈 2 =𝛼𝑨+𝑰 𝝈 3 = 𝛼 2 𝑨 𝟐 +𝛼𝑨+𝑰 … 𝝈= 𝑚=0 ∞ 𝛼𝑨 𝑚 = 𝑰−𝛼𝑨 −1 𝑥 𝑖 =𝛼 𝑗 𝐴 𝑖𝑗 𝑥 𝑗 +1 𝒙= (𝑰−𝛼𝑨) −1 1 Recordemos centralidad de Katz 𝑥 𝑖 = 𝑗 𝜎 𝑖𝑗 Centralidad de Katz de un nodo es su similaridad, en el sentido regular, acumulada 𝛼<1 𝛼< 1/𝜅 1 Newman Chap 7.12.4 Autovalor dominante de A

Equivalencia Regular Versión que usaremos como definición: Dos vértices, i y j son similares si i tiene como vecino a k, quien a su vez es similar a j. 𝜎 𝑖𝑗 =𝛼 𝑘 𝐴 𝑖𝑘 𝜎 𝑘𝑗 + 𝛿 𝑖𝑗 Nodos con alto grado tienen más vecinos, que pueden ser similares a terceros nodos, por lo que tienen mas chances de aumentar su nivel de similaridad general. Si se desea mitigar este efecto… Si se desea incluir alguna noción de similaridad externa: Sext Variante: Variante: 𝜎 𝑖𝑗 = 𝛼 𝑘 𝑖 𝑘 𝐴 𝑖𝑘 𝜎 𝑘𝑗 + 𝛿 𝑖𝑗 𝜎 𝑖𝑗 =𝛼 𝑘 𝐴 𝑖𝑘 𝜎 𝑘𝑗 + 𝑠 𝑒𝑥𝑡 𝑖𝑗 𝝈= 𝑫−𝛼𝑨 −1 𝑫 Con D la matriz diagonal DiI=ki

Similaridades topológicas Similaridad tipo coseno 𝜎 𝑖𝑗 = 𝑛 𝑖𝑗 𝑘 𝑖 𝑘 𝑗 = cos 𝜃 𝑖𝑗 𝜎 𝑖𝑗 =𝛼 𝑘 𝐴 𝑖𝑘 𝜎 𝑘𝑗 + 𝛿 𝑖𝑗 Similaridad de Pearson 𝑛 𝑖𝑗 − 𝑘 𝑖 𝑘 𝑗 𝑛 → 𝑐𝑜𝑣( 𝐴 𝑖 , 𝐴 𝑗 ) 𝜎 𝑖 𝜎 𝑗 𝜎 𝑖𝑗 = 𝛼 𝑘 𝑖 𝑘 𝐴 𝑖𝑘 𝜎 𝑘𝑗 + 𝛿 𝑖𝑗 𝑇𝑂 𝑖𝑗 = 𝑛 𝑖𝑗 +Θ 𝐴 𝑖𝑗 𝑚𝑖𝑛 𝑘 𝑖 , 𝑘 𝑗 +1−Θ 𝐴 𝑖𝑗 Overlap topologico: 𝜎 𝑖𝑗 =𝛼 𝑘 𝐴 𝑖𝑘 𝜎 𝑘𝑗 + 𝑠 𝑒𝑥𝑡 𝑖𝑗 𝑛 𝑖𝑗 𝑘 𝑖 𝑘 𝑗 𝑛 Similaridad: normalizado por el número esperado 𝑠 𝑖𝑗 =2 𝑛 𝑖𝑗 𝑘 𝑖 + 𝑘 𝑗 Similaridad Euclídea (Hamming)

Detectando comunidades en redes Noción de comunidades: Partición de los N vértices de la red en M grupos tales que nodos de la misma comunidad sean más parecidos entre sí que respecto a nodos fuera de dicho grupo Similaridad topológica de vértices Heurística

Hacia una descripción mesoscópica comunidades en redes Nature 1999

Detectando comunidades en redes Noción de comunidades: Partición de los N vértices de la red en M grupos tales que nodos de la misma comunidad sean más parecidos entre sí que respecto a nodos fuera de dicho grupo Similaridad topológica de vértices Heurística: Agrupamiento Jerárquico

Agrupamiento Jerárquico Se construye una matriz de similaridad de vértices a partir de la matriz de adyacencia Iterativamente se identifican grupos de nodos de alta similaridad siguiendo alguna de estas dos estrategias: Estrategia aglomerativa: se adosan sucesivamente nodos y comunidades de alta similaridad Estrategia divisiva: se dividen sucesivamente comunidades, removiendo enlaces que conectan nodos de baja similaridad. El resultado del ordenamiento producido se puede visualizar en una estructura llamada dendrograma o árbol jerárquico. Es posible definir la partición en comunidades buscada a partir del dendrograma.

Agrupamiento Jerárquico:ejemplo Science 2002

Agrupamiento Jerárquico: Ravasz Se construye una matriz de similaridad de vértices a partir de la matriz de adyacencia Red metabolica E.Coli 𝑇𝑂 𝑖𝑗 = 𝑛 𝑖𝑗 +Θ 𝐴 𝑖𝑗 𝑚𝑖𝑛 𝑘 𝑖 , 𝑘 𝑗 +1−Θ 𝐴 𝑖𝑗

Agrupamiento Jerárquico: Ravasz Se construye una matriz de similaridad de vértices a partir de la matriz de adyacencia Estrategia aglomerativa: se adosan sucesivamente nodos y comunidades de alta similaridad 𝑇𝑂 𝑖𝑗 = 𝑛 𝑖𝑗 +Θ 𝐴 𝑖𝑗 𝑚𝑖𝑛 𝑘 𝑖 , 𝑘 𝑗 +1−Θ 𝐴 𝑖𝑗 1 𝑇𝑂 𝑖𝑗 = Distancia entre grupos Single linkage Complete linkage Average Linkage

Agrupamiento Jerárquico: Ravasz Se construye una matriz de similaridad de vértices a partir de la matriz de adyacencia Estrategia aglomerativa: se adosan sucesivamente nodos y comunidades de alta similaridad Agrupamiento jerárquico 𝑇𝑂 𝑖𝑗 = 𝑛 𝑖𝑗 +Θ 𝐴 𝑖𝑗 𝑚𝑖𝑛 𝑘 𝑖 , 𝑘 𝑗 +1−Θ 𝐴 𝑖𝑗 Single linkage Complete linkage Average Linkage Se asigna cada nodo a su propia comunidad y se evalua la similaridad entre todos los pares de nodos. Se identifica el par con la similaridad más alta y se los combina en un único grupo Se calculan las similaridades del nuevo grupo con todo el resto Se repite desde el punto 2 hasta que todos los nodos se encuentran en un mismo grupo A B C D E F Low similarity High similarity

Agrupamiento Jerárquico: Ravasz Se construye una matriz de similaridad de vértices a partir de la matriz de adyacencia Estrategia aglomerativa: se adosan sucesivamente nodos y comunidades de alta similaridad Agrupamiento jerárquico 𝑇𝑂 𝑖𝑗 = 𝑛 𝑖𝑗 +Θ 𝐴 𝑖𝑗 𝑚𝑖𝑛 𝑘 𝑖 , 𝑘 𝑗 +1−Θ 𝐴 𝑖𝑗 Single linkage Complete linkage Average Linkage Se asigna cada nodo a su propia comunidad y se evalua la similaridad entre todos los pares de nodos. Se identifica el par con la similaridad más alta y se los combina en un único grupo Se calculan las similaridades del nuevo grupo con todo el resto Se repite desde el punto 2 hasta que todos los nodos se encuentran en un mismo grupo A,F C D E B A F B C D E A,F C D E B

Agrupamiento Jerárquico: Ravasz Se construye una matriz de similaridad de vértices a partir de la matriz de adyacencia Estrategia aglomerativa: se adosan sucesivamente nodos y comunidades de alta similaridad Agrupamiento jerárquico 𝑇𝑂 𝑖𝑗 = 𝑛 𝑖𝑗 +Θ 𝐴 𝑖𝑗 𝑚𝑖𝑛 𝑘 𝑖 , 𝑘 𝑗 +1−Θ 𝐴 𝑖𝑗 Single linkage Complete linkage Average Linkage Se asigna cada nodo a su propia comunidad y se evalua la similaridad entre todos los pares de nodos. Se identifica el par con la similaridad más alta y se los combina en un único grupo Se calculan las similaridades del nuevo grupo con todo el resto Se repite desde el punto 2 hasta que todos los nodos se encuentran en un mismo grupo A,F C,D B E A F B C D E

Agrupamiento Jerárquico: Ravasz Se construye una matriz de similaridad de vértices a partir de la matriz de adyacencia Estrategia aglomerativa: se adosan sucesivamente nodos y comunidades de alta similaridad Agrupamiento jerárquico 𝑇𝑂 𝑖𝑗 = 𝑛 𝑖𝑗 +Θ 𝐴 𝑖𝑗 𝑚𝑖𝑛 𝑘 𝑖 , 𝑘 𝑗 +1−Θ 𝐴 𝑖𝑗 Single linkage Complete linkage Average Linkage Se asigna cada nodo a su propia comunidad y se evalua la similaridad entre todos los pares de nodos. Se identifica el par con la similaridad más alta y se los combina en un único grupo Se calculan las similaridades del nuevo grupo con todo el resto Se repite desde el punto 2 hasta que todos los nodos se encuentran en un mismo grupo A F B C D E

Agrupamiento Jerárquico: Ravasz Se construye una matriz de similaridad de vértices a partir de la matriz de adyacencia Estrategia aglomerativa: se adosan sucesivamente nodos y comunidades de alta similaridad Agrupamiento jerárquico El dendrograma describe el orden en el que nodos fueron agregados a comunidades. Es posible definir la partición en comunidades buscada a partir del dendrograma_ A,F A F B C D E B C,D E

Such modules were first identified in the cellular metabolism of E coli, by Ravasz and collaborator, who developed an algorithm to identify groups of molecules that, based on the patterns of reactions that connect them, form detectable communities (Figure 9.5). The algorithm not only recovered some of the biochemically distinct modules of bacterial metabolism, but has started an avalanche of research within systems biology on the community structure of cellular networks. An example is provided in Figure 9.6, that shows the genetic network within yeast, highlighting communities responsible for specific cellular functions. The color of each node, capturing the predominant biochemical class to which it belongs, indicates that different functional classes are segregated at topologically distinct regions of the network. The shaded region denotes the nodes belonging to the pyrimidine metab- olism, one of the predicted communities. (b) The topologic overlap matrix of the E. coli metabolism and the corresponding hierarchical tree that helped identify the modules shown in (a). The color of the branches reflect the predominant biochemical role of the participating molecules, like carbohydrates (blue); nucleotide and nucleic acid metabolism (red); and lipid metabolism (cyan)

Agrupamiento Jerárquico Se utiliza muchisimo para encontrar clusters pero… A F B C D E Utiliza una organización jerárquica de los elementos que puede no existir en los datos reales. Grados de libertad asociados a la matriz de similaridad: N(N-1)/2. Los dendrogramas generados en cambio poseen sólo N-1 merges. Asumir orden jerárquico reduce la cantidad de información! Dendrogramas satisfacen propiedad ultrametrica : dist(a,c) < max(dist(a,b), dist(b,c)) Entonces el procedimiento produce en realidad un mapeo entre un espacio métrico (o smei métrico) y uno ultramétrico