Laplacianos y aprendizaje semisupervisado
Difusión en redes [𝐿]𝑖𝑗 Pensamos en un proceso difusivo en el que el flujo desde el nodo-j al nodo-i es proporcional a la diferencia de material: flujoj->i~ C * (xj- xi) cte de difusión 𝑑 𝑥 𝑖 𝑑𝑡 =𝐶 𝑗=1 𝑁 𝐴 𝑖𝑗 (𝑥 𝑗 − 𝑥 𝑖 ) 𝑑 𝑥 𝑖 𝑑𝑡 =−𝐶 𝑗=1 𝑁 𝛿𝑖𝑗𝑘𝑗−𝐴 𝑖𝑗 𝑥𝑗 [𝐿]𝑖𝑗 =𝐶 𝑗=1 𝑁 𝐴 𝑖𝑗 𝑥 𝑗 −𝐶 𝑗=1 𝑁 𝐴 𝑖𝑗 𝑥 𝑖 𝑘𝑖 =𝐶 𝑗=1 𝑁 𝐴 𝑖𝑗 𝑥 𝑗 −𝐶 𝑘 𝑖 𝑥 𝑖 𝑑𝒙 𝑑𝑡 =−𝐶.𝐿 𝒙 𝑑𝒙 𝑑𝑡 =𝐶 𝛻 2 𝒙 Ec de difusion de calor =𝐶 𝑗=1 𝑁 𝐴 𝑖𝑗 𝑥 𝑗 −𝐶𝛿𝑖𝑗𝑘𝑗𝑥𝑗
Difusión en redes [𝐿]𝑖𝑗 Pensamos en un proceso difusivo en el que el flujo desde el nodo-j al nodo-i es proporcional a la diferencia de material: flujoj->i~ C * (xj- xi) cte de difusión 𝑑 𝑥 𝑖 𝑑𝑡 =−𝐶 𝑗=1 𝑁 𝛿𝑖𝑗𝑘𝑗−𝐴 𝑖𝑗 𝑥𝑗 [𝐿]𝑖𝑗 𝐿=𝐷−𝐴 Si en lugar de asumir random walk, pensamos en que el flujo es proporcional a la diferencia
Propiedades 𝐿=𝐷−𝐴 L es simétrica L es semidefinida-positiva (i.e. autovalores 𝜆𝑖≥0, 𝑖=1…𝑁) Suma por columnas y por filas de L es cero Siempre 𝜆=0 es autovalor de L con autovector v0=(1,1,…,1), ya que L v0 = 0 v0 = 0 L es una matriz singular (i.e. no inversible)
Propiedades 𝐿=𝐷−𝐴 Laplaciano combinatorio L es simétrica L es semidefinida-positiva (i.e. autovalores 𝜆𝑖≥0 , 𝑖=1…𝑁) Suma por columnas y por filas de L es cero Siempre 𝜆=0 es autovalor de L con autovector v0=(1,1,…,1), ya que L v0 = 0 v0 = 0 L es una matriz singular (i.e. no inversible) Si el grafo tiene p componentes, de tamaños n1, n2,…, np Notar que ahora habrá p autovectores de L asociados a 𝜆=0 de la forma L1 L2 ( 1,…,1 𝑛 1 ,0,0,...,0) ( 0,…,0 , 𝑛 1 1,…,1 𝑛 2 ,0,0,...,0) ( 0,…,0 𝑛 1 , 0,…,0 𝑛 2 , 1,…,1 𝑛 3 ,0,0,...,0)
Propiedades 𝐿=𝐷−𝐴 Laplaciano combinatorio L es simétrica L es semidefinida-positiva (i.e. autovalores 𝜆𝑖≥0, 𝑖=1…𝑁) Suma por columnas y por filas de L es cero Siempre 𝜆=0 es autovalor de L con autovector v0=(1,1,…,1), ya que L v0 = 0 v0 = 0 L es una matriz singular (i.e. no inversible) Si el grafo tiene p componentes, de tamaños n1, n2,…, np, existen p autovectores de L asociados a 𝜆=0 Corolario: el segundo autovalor de L es 𝜆2 ≠ 0 sii el grafo posee una única componente 𝜆2 se denomina conectividad algebraica de la red
Descomposición espectral de L 𝐿 𝜙 𝑖 = 𝜆 𝑖 𝜙 𝑖 autovector i-esimo 𝐿= 𝑖=1 𝑁 𝜆 𝑖 𝜙 𝑖 𝜙 𝑖 𝑇 matriz
Autovectores de L 𝑳 𝝓 𝑖 = 𝜆 𝑖 𝝓 𝑖 𝝓 𝑖 𝑳 𝝓 𝑖 = 𝜆 𝑖 𝝓 𝑖 autovector i-esimo 𝝓 𝑖 define un campo escalar sobre el grafo Notar: autovectores de bajo índice están asociados a campos más suaves sobre el grafo
Caminatas al azar…y difusión 𝑝 𝑖 𝑡+1 = 𝑗=1 𝑁 1 𝑘 𝑗 𝑎 𝑖𝑗 𝑝 𝑗 (𝑡) pi(t) probabilidad de encontrar a Juan en el nodo-i, en el paso temporal t Esta misma ecuación aplica a procesos de tipo difusivos en una red, donde en cada paso temporal toda la cantidad de material que se encuentra en el nodo-i es repartida y enviada a sus vecinos 𝑥 𝑖 𝑡+1 = 𝑗=1 𝑁 1 𝑘 𝑗 𝑎 𝑖𝑗 𝑥 𝑗 (𝑡) xj(t) cantidad de material que a tiempo t se encuentra en el nodo-j el recurso xj se reparte extensivamente
Difusión random-walk en redes A cada paso, la cantidad xi de cada nodo se altera 𝑥 𝑖 𝑡+1 = 𝑗=1 𝑁 1 𝑘 𝑗 𝑎 𝑖𝑗 𝑥 𝑗 (𝑡) ∆ 𝑥 𝑖 = 𝑥 𝑖 𝑡+1 − 𝑥 𝑖 𝑡 = 𝑗=1 𝑁 1 𝑘 𝑗 𝑎 𝑖𝑗 𝑥 𝑗 𝑡 − 𝑥 𝑖 𝑡 en cada nodo hay una cantidad xi de material = 𝑗=1 𝑁 1 𝑘 𝑗 𝑎 𝑖𝑗 𝑥 𝑗 𝑡 − 𝛿𝑖𝑗 𝑥 𝑗 𝑡 𝛿𝑖𝑗=1 𝑠𝑖𝑖 𝑖=𝑗 =− 𝑗=1 𝑁 𝛿𝑖𝑗 − 1 𝑘 𝑗 𝑎 𝑖𝑗 [𝐿 𝑟𝑤 ]𝑖𝑗 𝑥 𝑗 𝑡 Laplaciano random-walk 𝑑𝒙 𝑑𝑡 =− 𝐿 𝑟𝑤 𝒙 𝑑𝒙 𝑑𝑡 = 𝛻 2 𝒙 ∆𝒙=− 𝐿 𝑟𝑤 𝒙
Laplacianos Entonces, vimos dos tipos de procesos difusivos: [𝐿]𝑖𝑗 𝑑 𝑥 𝑖 𝑑𝑡 =−𝐶 𝑗=1 𝑁 𝛿𝑖𝑗𝑘𝑗−𝑎 𝑖𝑗 𝑥𝑗 [𝐿]𝑖𝑗 𝐿=𝐷−𝐴 𝑑 𝑥 𝑖 𝑑𝑡 =− 𝑗=1 𝑁 𝛿𝑖𝑗 − 1 𝑘 𝑗 𝑎 𝑖𝑗 𝑥 𝑗 𝑡 [ 𝐿 𝑟𝑤 ]𝑖𝑗 𝐿 𝑟𝑤 = 𝐼−𝐷 −1 𝐴= 𝐷 −1 𝐿 𝐿 𝑠𝑦𝑚 ≡ 𝐷 −1/2 𝐿 𝐷 −1/2 =𝐼− 𝐷 −1/2 𝐿 𝐷 −1/2 L : Laplaciano combinatorio o no-normalizado Lrw: Laplaciano random-walk Lsym: Laplaciano normalizado o simetrico
Priorización de nuevas asociaciones gen/enfermedad Algoritmos para propagar sentido de pertenecia al conjunto de interés: Random Walk with Restart (Kholer 2009) Net-Rank (Chen 2009) Net-Propagation (Vanunu 2010) Functional Flow (Navieba 2005) Lo podemos pensar también como un proceso de difusión con fuentes Kolher et al The American Journal of Human Genetics 2008
Difusión en redes y aprendizaje semi-supervisado Tengo información parcial asociada a un subconjunto de nodos (etiquetas, o valores reales) y quiero utilizarla para inferir propiedades de los no-etiquetados Cada nodo va a propagar su etiqueta de manera iterativa hasta converger Problema de clasificación: l nodos etiquetados con valor 1 (azul) o -1 (rojo) y N-l nodos con valor 0. 1 -1 Problema de priorización: l nodos etiquetados con valor 1 y N-l nodos con valor 0. 1 0.8 1 2.3 2 Problema de regresión: l nodos etiquetados con valores reales y N-l nodos con valor 0. El problema de aprendizaje semi-supervisado consiste en encontrar un etiquetado de los nodos del grafo consistente con El etiquetado inicial (incompleto) La geometria inducida por la estructura de la red
Difusión en redes y aprendizaje semi-supervisado 1 -1 Algoritmo 1 Label Propagation (Zhu 2002) Computo de matriz de adyacencia W Computo de matriz diagonal D: 𝐷 𝑖𝑖 ← 𝑗 𝑤 𝑖𝑗 Inicializo 𝑌 (𝑡=0) ← 𝑦 1 ,…, 𝑦 𝑙 ,0,0,…,0 Itero hasta convergencia 𝑌 (𝑡+1) ← 𝐷 −1 𝑊 𝑌 (𝑡) 𝑌 𝑙 (𝑡+1) ← 𝑌 𝑙 Etiqueta del nodo-i resulta 𝑠𝑖𝑔𝑛( 𝑦 𝑖 (∞) ) Sea el grafo G, nodos 1,2,…,l etiquetados no trivialmente segun 𝑌 𝑙 = 𝑦 1 ,…, 𝑦 𝑙 nodos l+1,…,N etiquetados con valor 0 Queremos propagar la información por la red y estimar el vector de etiquetas asintótico: 𝑌 = 𝑌 𝑙 , 𝑌 𝑢
Difusión en redes y aprendizaje semi-supervisado Algoritmo 2 Label Propagation 1 -1 Computo de matriz de adyacencia W, se fija wii=0 Computo de matriz diagonal D: 𝐷 𝑖𝑖 ← 𝑗 𝑤 𝑖𝑗 Elijo ϵ>0 y 𝛼∈ 0,1 𝜇← 𝛼 1−𝛼 (0,+∞) Computo la matriz diagonal 𝐴 𝑖𝑖 ← 𝐼 𝑙 𝑖 +𝜇 𝐷 𝑖𝑖 +𝜇𝜀 Inicializo 𝑌 (𝑡=0) ← 𝑦 1 ,…, 𝑦 𝑙 ,0,0,…,0 Itero hasta convergencia 𝑌 (𝑡+1) ← 𝐴 −1 (𝜇𝑊 𝑌 𝑡 + 𝑌 0 ) Etiqueta del nodo-i resulta 𝑠𝑖𝑔𝑛( 𝑦 𝑖 (∞) ) para nodo etiquetado para nodo sin etiquetar Diferencias con Algo 1 Se fija wii=0 Se permite 𝑌 𝑙 ≠ 𝑌 𝑙 Se considera un termino de regularización ϵ 𝐼 𝑙 :matriz diagonal con 1’s en los primeros l elementos y 0 el resto
Difusión en redes y aprendizaje semi-supervisado 1 -1 Algoritmo 3 Label Propagation (Zhou 2004) Computo de matriz de adyacencia W, se fija wii=0 Computo de matriz diagonal D: 𝐷 𝑖𝑖 ← 𝑗 𝑤 𝑖𝑗 Computo Laplaciano simetrico ℒ← 𝐷 −1/2 𝑊 𝐷 −1/2 Inicializo 𝑌 (𝑡=0) ← 𝑦 1 ,…, 𝑦 𝑙 ,0,0,…,0 Elijo 𝛼∈[0,1) Itero hasta convergencia 𝑌 (𝑡+1) ←𝛼ℒ 𝑌 (𝑡) + 1−𝛼 𝑌 0 Etiqueta del nodo-i resulta 𝑠𝑖𝑔𝑛( 𝑦 𝑖 (∞) ) Difusión con fuentes
Regularización en grafos El problema de aprendizaje supervisado consiste en encontrar un etiquetado de los nodos del grafo consistente con El etiquetado inicial (incompleto) La geometria inducida por la estructura de la red Sea 𝑌 =( 𝑌 𝑙 , 𝑌 𝑢 ) etiquetados no-etiquetados penalizamos apartamiento de etiquetado original Consistencia con etiquetado inicial: Consistencia con geometría de los datos: penalizamos cambios bruscos de etiquetado
Regularización en grafos El problema de aprendizaje supervisado consiste en encontrar un etiquetado de los nodos del grafo consistente con El etiquetado inicial (incompleto) La geometria inducida por la estructura de la red penalizamos cambios bruscos de etiquetado penalizamos apartamiento de etiquetado original ℋ( 𝑌 )= 𝑖=1 𝑙 𝑦 𝑖 − 𝑦 𝑖 2 + 1 2 𝑖,𝑗=1 𝑁 𝑤 𝑖𝑗 𝑦 𝑖 − 𝑦 𝑗 2 Se trata de encontrar el etiquetado 𝑌 que minimice ℋ( 𝑌 ) = 𝑌 𝑙 − 𝑌 𝑙 2 + 𝑌 𝑇 𝐿 𝑌 ℋ( 𝑌 )= 𝑌 𝑙 − 𝑌 𝑙 2 +𝜇 𝑌 𝑇 𝐿 𝑌 +μ𝜖 𝑌 𝑙 2 En la practica se suele agregar un término de regularización para romper la simetría entre etiquetas
Regularización en grafos Se trata de encontrar el etiquetado 𝑌 que minimice ℋ( 𝑌 ) ℋ( 𝑌 )= 𝑌 𝑙 − 𝑌 𝑙 2 +𝜇 𝑌 𝑇 𝐿 𝑌 +μ𝜖 𝑌 𝑙 2 𝑆=𝐼 𝑙 matriz diagonal con 1’s en los primeros l elementos y 0 el resto 𝑆 𝑌 −𝑆𝑌 2 1 2 𝜕ℋ( 𝑌 ) 𝜕 𝑌 =𝑆 𝑌 −𝑌 +μ 𝐿 𝑌 +μ𝜖 𝑌 = 𝑆+μ 𝐿+μ𝜖𝐼 𝑌 −S𝑌 =0 Las etiquetas optimas pueden obtenerse invirtiendo una matriz Esta matriz depende únicamente del Laplaciano de la red (no de las etiquetas) La manera en que las etiquetas se propagan depende exclusivamente de la estructura del grafo ⇒ 𝑌 = 𝑆+μ 𝐿+μ𝜖𝐼 −1 S𝑌
Regularización en grafos Hay otras elecciones para la función a minimizar: ℋ( 𝑌 )= 𝑆 𝑌 −𝑆𝑌 2 +𝜇 𝑌 𝑇 𝐿 𝑌 +μ𝜖 𝑌 𝑙 2 ℋ′( 𝑌 )= 𝑌 −𝑆𝑌 2 + 𝜇 2 𝑖,𝑗 𝑤 𝑖𝑗 𝑦 𝑖 𝐷 𝑖𝑖 − 𝑦 𝑗 𝐷 𝑗𝑗 Zhou 2004 Dos diferencias entre ℋ ( 𝑌 )y ℋ′( 𝑌 ): El primer término busca ajustar bien las etiquetas conocidas pero además favorece etiquetas 0 para nodos no-etiquetados inicialmente Las etiquetas están normalizadas por la raiz cuadrada del grado cuando se computa similaridad entre vecinos. 𝑌 𝑙 − 𝑌 𝑙 2 + 𝑌 𝑢 2 Se puede ver que ℋ′( 𝑌 )= 𝑌 −𝑆𝑌 2 +𝜇 ( 𝐷 −1/2 𝑌 ) 𝑇 𝐿( 𝐷 −1/2 𝑌 )
Vínculo entre regularización y propagación de etiquetas 1 ℋ( 𝑌 )= 𝑆 𝑌 −𝑆𝑌 2 +𝜇 𝑌 𝑇 𝐿 𝑌 +μ𝜖 𝑌 𝑙 2 ⇒ 𝑌 ∗ = 𝑆+μ 𝐿+μ𝜖𝐼 −1 S𝑌 Metodo iterativo de Jacobi para invertir una matriz: 𝑀𝑥=𝑏 𝑥 𝑖 (𝑡+1) = 1 𝑀 𝑖𝑖 𝑏− 𝑗≠𝑖 𝑀 𝑖𝑗 𝑥 𝑗 (𝑡) 𝑥≡ 𝑌 , 𝑏≡𝑆𝑌,𝑀=𝑆+μ 𝐿+μ𝜖𝐼 En nuestro caso y la iteración de Jacobi resulta en para nodo etiquetado para nodo sin etiquetar Algoritmo 2 de propagación de etiquetas (!)
Regularización y propagación de etiquetas ℋ′( 𝑌 )= 𝑌 −𝑆𝑌 2 +𝜇 ( 𝐷 −1/2 𝑌 ) 𝑇 𝐿( 𝐷 −1/2 𝑌 ) 1 2 𝜕ℋ′( 𝑌 ) 𝜕 𝑌 = 𝑌 −𝑆𝑌+μ ( 𝑌 −ℒ 𝑌 ) ⇒ 𝑌 ∗ = 1+μ 𝐼−μ ℒ −1 S𝑌 𝑌 (𝑡+1) ←𝛼ℒ 𝑌 (𝑡) +(1−𝛼) 𝑌 (0) con 𝜇= 𝛼 1−𝛼 La iteracion de Jacobi para resolver 𝜕ℋ′( 𝑌 ) 𝜕 𝑌 =0 Algoritmo 3 de propagación de etiquetas (!)
Conclusiones Vimos ejemplos donde es posible establecer un link entre una metodologia de propagacion de etiquetas y un proceso de minimizacion de una cantidad que da cuenta de el ajuste a la informacion inicial (parcial) suavidad del campo de etiquetas sobre la geometria de los datos
Refs Bengio, Delalleau, Le Roux: Label propagation and quadratic criterion.