La descarga estΓ‘ en progreso. Por favor, espere

La descarga estΓ‘ en progreso. Por favor, espere

Laplacianos y aprendizaje semisupervisado

Presentaciones similares


PresentaciΓ³n del tema: "Laplacianos y aprendizaje semisupervisado"β€” TranscripciΓ³n de la presentaciΓ³n:

1 Laplacianos y aprendizaje semisupervisado

2 DifusiΓ³n en redes [𝐿]𝑖𝑗
Pensamos en un proceso difusivo en el que el flujo desde el nodo-j al nodo-i es proporcional a la diferencia de material: flujoj->i~ C * (xj- xi) cte de difusiΓ³n 𝑑 π‘₯ 𝑖 𝑑𝑑 =𝐢 𝑗=1 𝑁 𝐴 𝑖𝑗 (π‘₯ 𝑗 βˆ’ π‘₯ 𝑖 ) 𝑑 π‘₯ 𝑖 𝑑𝑑 =βˆ’πΆ 𝑗=1 𝑁 π›Ώπ‘–π‘—π‘˜π‘—βˆ’π΄ 𝑖𝑗 π‘₯𝑗 [𝐿]𝑖𝑗 =𝐢 𝑗=1 𝑁 𝐴 𝑖𝑗 π‘₯ 𝑗 βˆ’πΆ 𝑗=1 𝑁 𝐴 𝑖𝑗 π‘₯ 𝑖 π‘˜π‘– =𝐢 𝑗=1 𝑁 𝐴 𝑖𝑗 π‘₯ 𝑗 βˆ’πΆ π‘˜ 𝑖 π‘₯ 𝑖 𝑑𝒙 𝑑𝑑 =βˆ’πΆ.𝐿 𝒙 𝑑𝒙 𝑑𝑑 =𝐢 𝛻 2 𝒙 Ec de difusion de calor =𝐢 𝑗=1 𝑁 𝐴 𝑖𝑗 π‘₯ 𝑗 βˆ’πΆπ›Ώπ‘–π‘—π‘˜π‘—π‘₯𝑗

3 DifusiΓ³n en redes [𝐿]𝑖𝑗
Pensamos en un proceso difusivo en el que el flujo desde el nodo-j al nodo-i es proporcional a la diferencia de material: flujoj->i~ C * (xj- xi) cte de difusiΓ³n 𝑑 π‘₯ 𝑖 𝑑𝑑 =βˆ’πΆ 𝑗=1 𝑁 π›Ώπ‘–π‘—π‘˜π‘—βˆ’π΄ 𝑖𝑗 π‘₯𝑗 [𝐿]𝑖𝑗 𝐿=π·βˆ’π΄ Si en lugar de asumir random walk, pensamos en que el flujo es proporcional a la diferencia

4 Propiedades 𝐿=π·βˆ’π΄ L es simΓ©trica
L es semidefinida-positiva (i.e. autovalores πœ†π‘–β‰₯0, 𝑖=1…𝑁) Suma por columnas y por filas de L es cero Siempre πœ†=0 es autovalor de L con autovector v0=(1,1,…,1), ya que L v0 = 0 v0 = 0 L es una matriz singular (i.e. no inversible)

5 Propiedades 𝐿=π·βˆ’π΄ Laplaciano combinatorio L es simΓ©trica
L es semidefinida-positiva (i.e. autovalores πœ†π‘–β‰₯0 , 𝑖=1…𝑁) Suma por columnas y por filas de L es cero Siempre πœ†=0 es autovalor de L con autovector v0=(1,1,…,1), ya que L v0 = 0 v0 = 0 L es una matriz singular (i.e. no inversible) Si el grafo tiene p componentes, de tamaΓ±os n1, n2,…, np Notar que ahora habrΓ‘ p autovectores de L asociados a πœ†=0 de la forma L1 L2 ( 1,…,1 𝑛 1 ,0,0,...,0) ( 0,…,0 , 𝑛 ,…,1 𝑛 2 ,0,0,...,0) ( 0,…,0 𝑛 1 , 0,…,0 𝑛 2 , 1,…,1 𝑛 3 ,0,0,...,0)

6 Propiedades 𝐿=π·βˆ’π΄ Laplaciano combinatorio L es simΓ©trica
L es semidefinida-positiva (i.e. autovalores πœ†π‘–β‰₯0, 𝑖=1…𝑁) Suma por columnas y por filas de L es cero Siempre πœ†=0 es autovalor de L con autovector v0=(1,1,…,1), ya que L v0 = 0 v0 = 0 L es una matriz singular (i.e. no inversible) Si el grafo tiene p componentes, de tamaΓ±os n1, n2,…, np, existen p autovectores de L asociados a πœ†=0 Corolario: el segundo autovalor de L es πœ†2 β‰  0 sii el grafo posee una ΓΊnica componente πœ†2 se denomina conectividad algebraica de la red

7 DescomposiciΓ³n espectral de L
𝐿 πœ™ 𝑖 = πœ† 𝑖 πœ™ 𝑖 autovector i-esimo 𝐿= 𝑖=1 𝑁 πœ† 𝑖 πœ™ 𝑖 πœ™ 𝑖 𝑇 matriz

8 Autovectores de L 𝑳 𝝓 𝑖 = πœ† 𝑖 𝝓 𝑖 𝝓 𝑖
𝑳 𝝓 𝑖 = πœ† 𝑖 𝝓 𝑖 autovector i-esimo 𝝓 𝑖 define un campo escalar sobre el grafo Notar: autovectores de bajo Γ­ndice estΓ‘n asociados a campos mΓ‘s suaves sobre el grafo

9 Caminatas al azar…y difusiΓ³n
𝑝 𝑖 𝑑+1 = 𝑗=1 𝑁 1 π‘˜ 𝑗 π‘Ž 𝑖𝑗 𝑝 𝑗 (𝑑) pi(t) probabilidad de encontrar a Juan en el nodo-i, en el paso temporal t Esta misma ecuaciΓ³n aplica a procesos de tipo difusivos en una red, donde en cada paso temporal toda la cantidad de material que se encuentra en el nodo-i es repartida y enviada a sus vecinos π‘₯ 𝑖 𝑑+1 = 𝑗=1 𝑁 1 π‘˜ 𝑗 π‘Ž 𝑖𝑗 π‘₯ 𝑗 (𝑑) xj(t) cantidad de material que a tiempo t se encuentra en el nodo-j el recurso xj se reparte extensivamente

10 DifusiΓ³n random-walk en redes
A cada paso, la cantidad xi de cada nodo se altera π‘₯ 𝑖 𝑑+1 = 𝑗=1 𝑁 1 π‘˜ 𝑗 π‘Ž 𝑖𝑗 π‘₯ 𝑗 (𝑑) βˆ† π‘₯ 𝑖 = π‘₯ 𝑖 𝑑+1 βˆ’ π‘₯ 𝑖 𝑑 = 𝑗=1 𝑁 1 π‘˜ 𝑗 π‘Ž 𝑖𝑗 π‘₯ 𝑗 𝑑 βˆ’ π‘₯ 𝑖 𝑑 en cada nodo hay una cantidad xi de material = 𝑗=1 𝑁 1 π‘˜ 𝑗 π‘Ž 𝑖𝑗 π‘₯ 𝑗 𝑑 βˆ’ 𝛿𝑖𝑗 π‘₯ 𝑗 𝑑 𝛿𝑖𝑗=1 𝑠𝑖𝑖 𝑖=𝑗 =βˆ’ 𝑗=1 𝑁 𝛿𝑖𝑗 βˆ’ 1 π‘˜ 𝑗 π‘Ž 𝑖𝑗 [𝐿 π‘Ÿπ‘€ ]𝑖𝑗 π‘₯ 𝑗 𝑑 Laplaciano random-walk 𝑑𝒙 𝑑𝑑 =βˆ’ 𝐿 π‘Ÿπ‘€ 𝒙 𝑑𝒙 𝑑𝑑 = 𝛻 2 𝒙 βˆ†π’™=βˆ’ 𝐿 π‘Ÿπ‘€ 𝒙

11 Laplacianos Entonces, vimos dos tipos de procesos difusivos: [𝐿]𝑖𝑗
𝑑 π‘₯ 𝑖 𝑑𝑑 =βˆ’πΆ 𝑗=1 𝑁 π›Ώπ‘–π‘—π‘˜π‘—βˆ’π‘Ž 𝑖𝑗 π‘₯𝑗 [𝐿]𝑖𝑗 𝐿=π·βˆ’π΄ 𝑑 π‘₯ 𝑖 𝑑𝑑 =βˆ’ 𝑗=1 𝑁 𝛿𝑖𝑗 βˆ’ 1 π‘˜ 𝑗 π‘Ž 𝑖𝑗 π‘₯ 𝑗 𝑑 [ 𝐿 π‘Ÿπ‘€ ]𝑖𝑗 𝐿 π‘Ÿπ‘€ = πΌβˆ’π· βˆ’1 𝐴= 𝐷 βˆ’1 𝐿 𝐿 π‘ π‘¦π‘š ≑ 𝐷 βˆ’1/2 𝐿 𝐷 βˆ’1/2 =πΌβˆ’ 𝐷 βˆ’1/2 𝐿 𝐷 βˆ’1/2 L : Laplaciano combinatorio o no-normalizado Lrw: Laplaciano random-walk Lsym: Laplaciano normalizado o simetrico

12 PriorizaciΓ³n de nuevas asociaciones gen/enfermedad
Algoritmos para propagar sentido de pertenecia al conjunto de interΓ©s: Random Walk with Restart (Kholer 2009) Net-Rank (Chen 2009) Net-Propagation (Vanunu 2010) Functional Flow (Navieba 2005) Lo podemos pensar tambiΓ©n como un proceso de difusiΓ³n con fuentes Kolher et al The American Journal of Human Genetics 2008

13 DifusiΓ³n en redes y aprendizaje semi-supervisado
Tengo informaciΓ³n parcial asociada a un subconjunto de nodos (etiquetas, o valores reales) y quiero utilizarla para inferir propiedades de los no-etiquetados Cada nodo va a propagar su etiqueta de manera iterativa hasta converger Problema de clasificaciΓ³n: l nodos etiquetados con valor 1 (azul) o -1 (rojo) y N-l nodos con valor 0. 1 -1 Problema de priorizaciΓ³n: l nodos etiquetados con valor 1 y N-l nodos con valor 0. 1 0.8 1 2.3 2 Problema de regresiΓ³n: l nodos etiquetados con valores reales y N-l nodos con valor 0. El problema de aprendizaje semi-supervisado consiste en encontrar un etiquetado de los nodos del grafo consistente con El etiquetado inicial (incompleto) La geometria inducida por la estructura de la red

14 DifusiΓ³n en redes y aprendizaje semi-supervisado
1 -1 Algoritmo 1 Label Propagation (Zhu 2002) Computo de matriz de adyacencia W Computo de matriz diagonal D: 𝐷 𝑖𝑖 ← 𝑗 𝑀 𝑖𝑗 Inicializo π‘Œ (𝑑=0) ← 𝑦 1 ,…, 𝑦 𝑙 ,0,0,…,0 Itero hasta convergencia π‘Œ (𝑑+1) ← 𝐷 βˆ’1 π‘Š π‘Œ (𝑑) π‘Œ 𝑙 (𝑑+1) ← π‘Œ 𝑙 Etiqueta del nodo-i resulta 𝑠𝑖𝑔𝑛( 𝑦 𝑖 (∞) ) Sea el grafo G, nodos 1,2,…,l etiquetados no trivialmente segun π‘Œ 𝑙 = 𝑦 1 ,…, 𝑦 𝑙 nodos l+1,…,N etiquetados con valor 0 Queremos propagar la informaciΓ³n por la red y estimar el vector de etiquetas asintΓ³tico: π‘Œ = π‘Œ 𝑙 , π‘Œ 𝑒

15 DifusiΓ³n en redes y aprendizaje semi-supervisado
Algoritmo 2 Label Propagation 1 -1 Computo de matriz de adyacencia W, se fija wii=0 Computo de matriz diagonal D: 𝐷 𝑖𝑖 ← 𝑗 𝑀 𝑖𝑗 Elijo Ο΅>0 y π›Όβˆˆ 0,1 πœ‡β† 𝛼 1βˆ’π›Ό (0,+∞) Computo la matriz diagonal 𝐴 𝑖𝑖 ← 𝐼 𝑙 𝑖 +πœ‡ 𝐷 𝑖𝑖 +πœ‡πœ€ Inicializo π‘Œ (𝑑=0) ← 𝑦 1 ,…, 𝑦 𝑙 ,0,0,…,0 Itero hasta convergencia π‘Œ (𝑑+1) ← 𝐴 βˆ’1 (πœ‡π‘Š π‘Œ 𝑑 + π‘Œ 0 ) Etiqueta del nodo-i resulta 𝑠𝑖𝑔𝑛( 𝑦 𝑖 (∞) ) para nodo etiquetado para nodo sin etiquetar Diferencias con Algo 1 Se fija wii=0 Se permite π‘Œ 𝑙 β‰  π‘Œ 𝑙 Se considera un termino de regularizaciΓ³n Ο΅ 𝐼 𝑙 :matriz diagonal con 1’s en los primeros l elementos y 0 el resto

16 DifusiΓ³n en redes y aprendizaje semi-supervisado
1 -1 Algoritmo 3 Label Propagation (Zhou 2004) Computo de matriz de adyacencia W, se fija wii=0 Computo de matriz diagonal D: 𝐷 𝑖𝑖 ← 𝑗 𝑀 𝑖𝑗 Computo Laplaciano simetrico ℒ← 𝐷 βˆ’1/2 π‘Š 𝐷 βˆ’1/2 Inicializo π‘Œ (𝑑=0) ← 𝑦 1 ,…, 𝑦 𝑙 ,0,0,…,0 Elijo π›Όβˆˆ[0,1) Itero hasta convergencia π‘Œ (𝑑+1) ←𝛼ℒ π‘Œ (𝑑) + 1βˆ’π›Ό π‘Œ 0 Etiqueta del nodo-i resulta 𝑠𝑖𝑔𝑛( 𝑦 𝑖 (∞) ) DifusiΓ³n con fuentes

17 RegularizaciΓ³n en grafos
El problema de aprendizaje supervisado consiste en encontrar un etiquetado de los nodos del grafo consistente con El etiquetado inicial (incompleto) La geometria inducida por la estructura de la red Sea π‘Œ =( π‘Œ 𝑙 , π‘Œ 𝑒 ) etiquetados no-etiquetados penalizamos apartamiento de etiquetado original Consistencia con etiquetado inicial: Consistencia con geometrΓ­a de los datos: penalizamos cambios bruscos de etiquetado

18 RegularizaciΓ³n en grafos
El problema de aprendizaje supervisado consiste en encontrar un etiquetado de los nodos del grafo consistente con El etiquetado inicial (incompleto) La geometria inducida por la estructura de la red penalizamos cambios bruscos de etiquetado penalizamos apartamiento de etiquetado original β„‹( π‘Œ )= 𝑖=1 𝑙 𝑦 𝑖 βˆ’ 𝑦 𝑖 𝑖,𝑗=1 𝑁 𝑀 𝑖𝑗 𝑦 𝑖 βˆ’ 𝑦 𝑗 2 Se trata de encontrar el etiquetado π‘Œ que minimice β„‹( π‘Œ ) = π‘Œ 𝑙 βˆ’ π‘Œ 𝑙 π‘Œ 𝑇 𝐿 π‘Œ β„‹( π‘Œ )= π‘Œ 𝑙 βˆ’ π‘Œ 𝑙 2 +πœ‡ π‘Œ 𝑇 𝐿 π‘Œ +ΞΌπœ– π‘Œ 𝑙 2 En la practica se suele agregar un tΓ©rmino de regularizaciΓ³n para romper la simetrΓ­a entre etiquetas

19 RegularizaciΓ³n en grafos
Se trata de encontrar el etiquetado π‘Œ que minimice β„‹( π‘Œ ) β„‹( π‘Œ )= π‘Œ 𝑙 βˆ’ π‘Œ 𝑙 2 +πœ‡ π‘Œ 𝑇 𝐿 π‘Œ +ΞΌπœ– π‘Œ 𝑙 2 𝑆=𝐼 𝑙 matriz diagonal con 1’s en los primeros l elementos y 0 el resto 𝑆 π‘Œ βˆ’π‘†π‘Œ 2 1 2 πœ•β„‹( π‘Œ ) πœ• π‘Œ =𝑆 π‘Œ βˆ’π‘Œ +ΞΌ 𝐿 π‘Œ +ΞΌπœ– π‘Œ = 𝑆+ΞΌ 𝐿+ΞΌπœ–πΌ π‘Œ βˆ’Sπ‘Œ =0 Las etiquetas optimas pueden obtenerse invirtiendo una matriz Esta matriz depende ΓΊnicamente del Laplaciano de la red (no de las etiquetas) La manera en que las etiquetas se propagan depende exclusivamente de la estructura del grafo β‡’ π‘Œ = 𝑆+ΞΌ 𝐿+ΞΌπœ–πΌ βˆ’1 Sπ‘Œ

20 RegularizaciΓ³n en grafos
Hay otras elecciones para la funciΓ³n a minimizar: β„‹( π‘Œ )= 𝑆 π‘Œ βˆ’π‘†π‘Œ 2 +πœ‡ π‘Œ 𝑇 𝐿 π‘Œ +ΞΌπœ– π‘Œ 𝑙 2 β„‹β€²( π‘Œ )= π‘Œ βˆ’π‘†π‘Œ 2 + πœ‡ 2 𝑖,𝑗 𝑀 𝑖𝑗 𝑦 𝑖 𝐷 𝑖𝑖 βˆ’ 𝑦 𝑗 𝐷 𝑗𝑗 Zhou 2004 Dos diferencias entre β„‹ ( π‘Œ )y β„‹β€²( π‘Œ ): El primer tΓ©rmino busca ajustar bien las etiquetas conocidas pero ademΓ‘s favorece etiquetas 0 para nodos no-etiquetados inicialmente Las etiquetas estΓ‘n normalizadas por la raiz cuadrada del grado cuando se computa similaridad entre vecinos. π‘Œ 𝑙 βˆ’ π‘Œ 𝑙 π‘Œ 𝑒 2 Se puede ver que β„‹β€²( π‘Œ )= π‘Œ βˆ’π‘†π‘Œ 2 +πœ‡ ( 𝐷 βˆ’1/2 π‘Œ ) 𝑇 𝐿( 𝐷 βˆ’1/2 π‘Œ )

21 VΓ­nculo entre regularizaciΓ³n y propagaciΓ³n de etiquetas
1 β„‹( π‘Œ )= 𝑆 π‘Œ βˆ’π‘†π‘Œ 2 +πœ‡ π‘Œ 𝑇 𝐿 π‘Œ +ΞΌπœ– π‘Œ 𝑙 2 β‡’ π‘Œ βˆ— = 𝑆+ΞΌ 𝐿+ΞΌπœ–πΌ βˆ’1 Sπ‘Œ Metodo iterativo de Jacobi para invertir una matriz: 𝑀π‘₯=𝑏 π‘₯ 𝑖 (𝑑+1) = 1 𝑀 𝑖𝑖 π‘βˆ’ 𝑗≠𝑖 𝑀 𝑖𝑗 π‘₯ 𝑗 (𝑑) π‘₯≑ π‘Œ , π‘β‰‘π‘†π‘Œ,𝑀=𝑆+ΞΌ 𝐿+ΞΌπœ–πΌ En nuestro caso y la iteraciΓ³n de Jacobi resulta en para nodo etiquetado para nodo sin etiquetar Algoritmo 2 de propagaciΓ³n de etiquetas (!)

22 RegularizaciΓ³n y propagaciΓ³n de etiquetas
β„‹β€²( π‘Œ )= π‘Œ βˆ’π‘†π‘Œ 2 +πœ‡ ( 𝐷 βˆ’1/2 π‘Œ ) 𝑇 𝐿( 𝐷 βˆ’1/2 π‘Œ ) 1 2 πœ•β„‹β€²( π‘Œ ) πœ• π‘Œ = π‘Œ βˆ’π‘†π‘Œ+ΞΌ ( π‘Œ βˆ’β„’ π‘Œ ) β‡’ π‘Œ βˆ— = 1+ΞΌ πΌβˆ’ΞΌ β„’ βˆ’1 Sπ‘Œ π‘Œ (𝑑+1) ←𝛼ℒ π‘Œ (𝑑) +(1βˆ’π›Ό) π‘Œ (0) con πœ‡= 𝛼 1βˆ’π›Ό La iteracion de Jacobi para resolver πœ•β„‹β€²( π‘Œ ) πœ• π‘Œ =0 Algoritmo 3 de propagaciΓ³n de etiquetas (!)

23 Conclusiones Vimos ejemplos donde es posible establecer un link entre una metodologia de propagacion de etiquetas y un proceso de minimizacion de una cantidad que da cuenta de el ajuste a la informacion inicial (parcial) suavidad del campo de etiquetas sobre la geometria de los datos

24 Refs Bengio, Delalleau, Le Roux: Label propagation and quadratic criterion.


Descargar ppt "Laplacianos y aprendizaje semisupervisado"

Presentaciones similares


Anuncios Google