La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –

Presentaciones similares


Presentación del tema: "Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –"— Transcripción de la presentación:

1 Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática – Universidad de Granada (Spain) Data Mining Redes Fernando Berzal fberzal@decsai.ugr.es http://elvex.ugr.es/idbis/dm/

2 1 Redes Sistemas complejos constituidos por muchos elementos no idénticos que están conectados por diversas interacciones REDES

3 2 Redes Áreas de aplicación n n “Cheminformatics”: Compuestos químicos. n n “Bioinformatics”: Estructuras proteínicas & bio-pathways n n Ingeniería del Software: Análisis de programas… n n Análisis de redes de flujo (tráfico, workflow…) n n Bases de datos semiestructuradas, p.ej. XML n n Gestión del conocimiento: ontologías y redes semánticas n n CAD: Diseño de circuitos electrónicos (ICs) n n Sistemas de información geográfica & cartografía n n Redes sociales, p.ej. Web

4 3 Redes Interacciones de la proteína de la levadura from H. Jeong et al Nature 411, 41 (2001)

5 4 Redes “La Pirámide de la Complejidad de la Vida” from Z.N. Oltvai and A.-L. Barabasi. Science, 2002

6 5 Redes Food Web

7 6 Redes Internet

8 7 Redes Red social: Coautores

9 8 Redes Red social: US Biotech Industry

10 9 Redes Red social: FOAF (friend of a friend)

11 10 Redes Red social: Estructura de una organización www.orgnet.org

12 11 Redes grafos Las redes son grafos nVértices: Objetos Puede haber distintos tipos de objetos Los objetos pueden tener atributos Los objetos pueden tener etiquetas nAristas: Enlaces entre objetos Puede haber distintos tipos de enlaces Los enlaces pueden tener atributos Los enlaces pueden ser dirigidos (o no dirigidos) No se requiere que los enlaces sean binarios

13 12 Redes nRedes sociales Nodos: Individuos Enlaces: Relaciones sociales (familiares, económicas…) nRedes de telecomunicaciones Nodos de la red: Ordenadores, routers, satélites Enlaces: Distintos tipos de medios guiados y no guiados nRedes de transporte Nodos: Ciudades Conexiones: Carreteras, vías férreas y rutas aéreas nIngeniería del Software  Software Mining Nodos: Módulos Relaciones: Dependencias

14 13 Redes: Ejemplos n nCoautores Nodos: Científicos Enlaces: Artículos escritos conjuntamente

15 14 Redes: Ejemplos nRedes de telecomunicaciones Nodos: Ordenadores, routers, satélites Enlaces: Distintos tipos de medios guiados y no guiados

16 15 Redes: Ejemplos nRedes biológicas Interacciones entre proteínas y genes Interacciones entre proteínas PROTEOMA GENOMA Citrate Cycle METABOLISMO Reacciones bioquímicas

17 16 Redes: Ejemplos n nWeb Nodos: Documentos Enlaces entre URLs

18 17 Redes nEl estudio de redes engloba muchos tipos de redes: sociales, económicas, biológicas, de contenido… nCaracterísticas de las redes Gran escala Evolución continua Distribución (los nodos “deciden” con quién conectarse) Interacción sólo a través de los enlaces existentes

19 18 Propiedades de interés Componentes conectados: ¿cuántos? ¿de qué tamaño? Diámetro de la red: Distancia media, peor caso… Grado de los nodos (degree distribution) y existencia de “hubs” (vértices muy conectados) Agrupamiento (balance entre conexiones locales y de larga distancia; roles de ambos tipos de conexiones) Propiedades de las redes

20 19 Conectividad p.ej. WWW Propiedades de las redes

21 20 Diámetro de la red p.ej. “small worlds” Propiedades de las redes Peter Jane Sarah Ralph

22 21 Coeficiente de agrupamiento nbr(u) Vecinos de u en el grafo kNúmero de vecinos de u (i.e. |nbr(u)|) max(u)Número máximo de aristas entre los vecinos de u, p.ej. k*(k-1)/2 Coeficiente de agrupamiento del nodo u: c(u) = (#aristas entre vecinos de u) / max(u) Coeficiente de agrupamiento del grafo G: C = Promedio de c(u) para todos los nodos de G Propiedades de las redes

23 22 Coeficiente de agrupamiento k = 4 m = 6 c(u) = 4/6 = 0.66 0 <= c(u) <= 1 Parecido a un clique de los vecinos de u Interpretación: “Mis amigos suelen ser amigos entre sí” Propiedades de las redes

24 23 Propiedades de las redes Coeficiente de agrupamiento Algunas redes reales (C>C rand, L<L rand ) C = Clustering Coefficient L = Path Length

25 24 Propiedades de las redes Grado de los nodos Distribución Normal Parámetros: Media y desviación

26 25 Propiedades de las redes Grado de los nodos Distribución de Poisson Único parámetro: (media y desviación)

27 26 Propiedades de las redes Grado de los nodos Distribución de Pareto (“power law”) P(x) ~ 1/x^  Hubs: Un número pequeño de vértices con un grado elevado (fenómeno que no aparece en las distribuciones normales/binomiales/de Poisson)

28 27 Grado de los nodos ¿Cómo distinguir entre una distribución y otra? Log-log plot Pareto: log(Pr[X = x]) = log(1/x  ) = -  log(x) Lineal, pendiente –  Normal: log(Pr[X = x]) = log(a exp(-x  /b)) = log(a) – x  /b No lineal, c ó ncava entorno a la media Poisson: log(Pr[X = x]) = log(exp(- ) x /x!) No lineal Propiedades de las redes

29 28 Grado de los nodos aWWW power law bCoauthorship networks power law with exponential cutoff cPower grid exponential dSocial network gaussian Propiedades de las redes

30 29 Modelos de redes Las redes “naturales” suelen tener… Una (o muy pocas) componentes conexas Independientemente del tamaño de la red Un diámetro pequeño (“6 grados de separación”) Constante, que crece logarítmicamente o que incluso decrece con el tamaño de la red Un alto grado de agrupamiento (comunidades) Mucho mayor que el que resultaría de una red aleatoria (y, aún así, con un pequeño diámetro) Mezcla de conexiones Conexiones locales y de larga “distancia” ¿ comparten características “universales” ?

31 30 Modelos de redes nRandom networks (redes aleatorias) nRandom-biased networks (redes aleatorias sesgadas) nSmall-world networks (“qué pequeño es el mundo”) nScale-free networks (redes libres de escala) nHierarchical & modular networks (redes jerárquicas/modulares) nAffiliation networks (redes de afiliación)

32 31 Modelos de redes Random Networks Modelo de Erdos & Renyi nPocas componentes conexas (típicamente una) nBajo coeficiente de agrupamiento nDistribución de Poisson

33 32 Modelos de redes Random Networks Modelo de Erdos & Renyi Número de enlaces Componente principal

34 33 Modelos de redes Small-World Networks Modelo de Watts & Strogatz nPocas componentes conexas (típicamente una) nDiámetro pequeño nDistribución de Poisson nAlto coeficiente de agrupamiento

35 34 Modelos de redes Small-World Networks Modelo de Watts & Strogatz Average path length, normalized by system size, plotted as a function of the average number of shortcuts.

36 35 Modelos de redes Scale-Free Networks Modelo de Barabasi & Albert nPocas componentes conexas (típicamente una) nDiámetro pequeño nDistribución de Pareto nBajo nBajo coeficiente de agrupamiento nHubs Modelo “natural”: Número variable de nodos: La red va creciendo conforme se añaden nuevos nodos. referential attachment Es más probable crear enlaces a nodos que ya tienen muchos enlaces (preferential attachment: “rich get richer”).

37 36 Modelos de redes PoissonPareto (power-law)

38 37 Modelos de redes Scale-Free Networks Características Muestran rasgos de auto-organización en sistemas complejos: Los enlaces no son aleatorios. Resistentes frente a fallos aleatorios, que pueden causar con facilidad la disrupción de una red aleatoria pero no la de una red libre de escala. Vulnerables frente a ataques organizados: Los “hubs” son esenciales para mantener la red unida.

39 38 Modelos de redes Scale-Free Networks Características

40 39 Modelos de redes Hierarchical/Modular Networks nOrganización jerárquica nHubs nCliques

41 40 Modelos de redes Hierarchical/Modular Networks

42 41 Modelos de redes Affiliation Networks (redes de afiliación) Grafo bipartido para modelar interacciones sociales:

43 42 Modelos de redes Affiliation Networks (redes de afiliación)

44 43 Modelos de redes Affiliation Networks (redes de afiliación)

45 44 Problemas de interés nBúsquedas en redes (con información local incompleta) nProblemas de difusión: epidemias, contagio social (ideas, modas, productos…) nAnálisis de las propiedades de una red p.ej. Robustez

46 45 Problemas de interés Desde el punto de vista algorítmico… Objetos: Ordenación (“ranking”), Clasificación y detección de anomalías, Agrupamiento (detección de grupos) Identificación de objetos (“entity resolution”). Enlaces: Predicción de enlaces Grafos: Detección de subgrafos Clasificación de grafos Modelos de generación de grafos …

47 46 Bibliografía Redes: Orígenes & Aplicaciones (redes sociales, Web…) nStanley Milgram: The small world problem. Psychology Today, 2:60-67 (1967) nPhillip W. Anderson: More is different. Science, 177:393-396 (1972) nMark S. Granovetter: The strength of weak ties. American Journal of Sociology, 78:1360-1380 (1973) nStanley Wasserman & Katherine Faust: Social Network Analysis: Methods and Applications. Cambridge University Press, 1994 nJohn P. Scott: Social Network Analysis, 2nd edition. Sage Publications Ltd., 2000. Andrei Broder, Ravi Kumar, Farzin Maghoul, Prabhakar Raghavan, Sridhar Rajagopalan, Raymie Stata, Andrew Tomkins & Janet Wiener: Graph structure in the Web. Computer Networks 33:309 – 320 (2000) nSteven H. Strogatz: Exploring Complex Networks. Nature, 410:268-275 (2001) nAlbert-Laszlo Barabasi: Linked: How Everything Is Connected to Everything Else and What It Means. Plume, 2003. ISBN 0452284392 nDuncan J. Watts: Six Degrees: The Science of a Connected Age. W. W. Norton & Company, 2004. ISBN 0393325423 nJure Leskovec, Jon M. Kleinberg & Christos Faloutsos: Graphs over time: densification laws, shrinking diameters and possible explanations. KDD'2005

48 47 Bibliografía Redes: Modelos Paul Erd ö s & Alfred R é nyi: On the evolution of random graphs. Mathematical Institute of the Hungarian Academy of Sciences, 5:17-61 (1960) reprinted in Duncan, Barabasi & Watts (eds.): “ The Structure and Dynamics of Networks ” Ray Solomonoff & Anatol Rapoport: Connectivity of random nets. Bulletin of Mathematical Biophysics, 13:107-117 (1951) reprinted in Duncan, Barabasi & Watts (eds.): “ The Structure and Dynamics of Networks ” Duncan J. Watts & Steven H. Strogatz: Collective dynamics of ‘ small-world ’ networks. Nature, 393:440-442 (1998) Albert-L á szl ó Barab á si & R é ka Albert: Emergence of scaling in random networks. Science, 286:509-512 (1999) R é ka Albert, Hawoong Jeong & Albert-L á szl ó Barab á si: Error and attack tolerance of complex networks. Nature 406:378-382 (2000) nM.E.J. Newman, S.H. Strogatz & D.J. Watts: Random graphs with arbitrary degree distributions and their applications. Physical Review E, 64:026118 (2001) nM.E.J. Newman, S.H. Strogatz & D.J. Watts: Random graphs models of social networks. PNAS 99:2566-2572 (2002) Erzs é bet Ravasz & Albert-L á szl ó Barab á si: Hierarchical organization in complex networks. Physical Review E, 67:026112 (2003) nMark Newman: The structure and function of complex networks. SIAM Review 45:167-256 (2003)

49 48 Bibliografía Búsqueda en redes nSergey Brin & Lawrence Page: The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems, April 1998 nDavid Gibson, Jon M. Kleinberg & Prabhakar Raghavan: Inferring Web Communities from Link Topology. ACM Conference on Hypertext and Hypermedia, June 1998 nJon M. Kleinberg: Authoritative sources in a hyperlinked environment. Journal of the ACM, September 1999 Toby Walsh: Search in a Small World. IJCAI ’ 1999 nJon M. Kleinberg. Navigation in a Small World. Nature, August 2000. Jon M. Kleinberg: The small-world phenomenon: An algorithm perspective. STOC ’ 2000 nScott White & Padhraic Smyth: Algorithms for Estimating Relative Importance in Networks. KDD'2003 nHanghang Tong & Christos Faloutsos: Center-Piece Subgraphs: Problem Definition and Fast Solutions. KDD'2006 nAlekh Agarwal, Soumen Chakrabarti & Sunny Aggarwal: Learning to Rank Networked Entities. KDD'2006 nJeffrey Davitz, Jiye Yu, Sugato Basu, David Gutelius & Alexandra Harris: iLink: Search and Routing in Social Networks. KDD'2007.

50 49 Bibliografía recomendada nJiawei Han & Micheline Kamber: Data Mining: Concepts and Techniques [2ª edición], sección 9.2 Addison-Wesley, 2006. ISBN 1-55860-901-3 nMark Newman, Albert-Laszlo Barabasi & Duncan J. Watts (editors): The Structure and Dynamics of Networks. Princeton University Press, 2006. ISBN 0-691-11357-2

51 50 Bibliografía recomendada Libros divulgativos nAlbert-Laszlo Barabasi: Linked: How Everything Is Connected to Everything Else and What It Means. Plume, 2003. ISBN 0452284392 nDuncan J. Watts: Six Degrees: The Science of a Connected Age. W. W. Norton & Company, 2004. ISBN 0393325423


Descargar ppt "Intelligent Databases and Information Systems research group Department of Computer Science and Artificial Intelligence E.T.S Ingeniería Informática –"

Presentaciones similares


Anuncios Google