La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Curso 2012-2013 Juan Domingo Tardós Dpto. Informática e Ingeniería de Sistemas. Inteligencia Artificial (30223) Lección 13. Razonamiento Probabilista.

Presentaciones similares


Presentación del tema: "Curso 2012-2013 Juan Domingo Tardós Dpto. Informática e Ingeniería de Sistemas. Inteligencia Artificial (30223) Lección 13. Razonamiento Probabilista."— Transcripción de la presentación:

1 Curso Juan Domingo Tardós Dpto. Informática e Ingeniería de Sistemas. Inteligencia Artificial (30223) Lección 13. Razonamiento Probabilista

2 2 Índice Construcción de Redes Bayesianas Correlación y Causalidad Inferencia por Enumeración Eliminación de Variables Inferencia Aproximada por Muestreo Basado en las transparencias de Sebastian Thrun y Peter Norwig, CS221: Artificial Intelligence, Stanford University, 2011

3 3 Ejemplo: Alarma Antirrobo Burglary Earthquake A larm John calls Mary calls BP(B) +b0.001 b EP(E) +e0.002 e BEAP(A|B,E) +b+e+a0.95 +b+e a b e +a0.94 +b e a 0.06 b +e+a0.29 b +e a 0.71 b e +a0.001 b e a AJP(J|A) +a+j0.9 +a j 0.1 a +j0.05 a j 0.95 AMP(M|A) +a+m0.7 +a m 0.3 a +m0.01 a m 0.99

4 4 Semántica de las Redes Bayesianas La topología representa la (in)dependencia condicional Puede reflejar la causalidad real del dominio La red resultante suele ser más simple de obtener BE A JM

5 5 Correlación no implica Causalidad Si observamos que existe correlación entre A y B, es decir, no son independientes: ¿A causa B? ¿B causa A? ¿C causa A y B? Ejemplo: quienes duermen con zapatos sufren dolor de cabeza Las tres redes Bayesianas son correctas y permiten hacer inferencias Sólo la terecera refleja la causalidad real del dominio Z D D Z B ZD Borrachera

6 6 Construcción de una Red Bayesiana Algoritmo de construcción: 1.Nodos: Determinar el conjunto de variables necesarias para modelar el problema y ordenarlas {X 1,... X n }. La red será más compacta si las causas preceden a los efectos 2.Arcos: For i = 1 to n do: Elegir entre {X 1,... X i-1 } un conjunto mínimo de padres para X i Para cada padre, insertar un arco del padre a X i Escribir la tabla de probabilidades condicionales P(X i |padres(X i ) End for

7 7 Causalidad y Correlación BE A JM JM A B E Orden: {B, E, A, J, M}Orden: {J, M, A, B, E}

8 8 Causalidad y Correlación BE A JM MJ E B A Orden: {B, E, A, J, M} Orden: {M, J, E, B, A}

9 9 Inferencia Probabilista Responder a preguntas sobre probabilidad a partir de un Red Bayesiana Para cada pregunta las variables se pueden dividir en 3 grupos: Probabilidad a posteriori: Explicación más probable: BE A JM Q: Nodos Consulta (Query) H: Nodos Ocultos (Hidden) E: Nodos Evidencia

10 10 Inferencia Probabilista En dirección causal: E: nodo(s) raíz Q: nodo(s) hoja En dirección diagnóstica: E: nodo(s) hoja Q: nodo(s) raíz Ejemplo María llama, queremos saber la probabilidad de Ladrón E: {M} Q: {B} H: {E,A,J} BE A JM Causal Diagnóstico

11 11 Inferencia por Enumeración Con tiempo ilimitado, la inferencia en RB es fácil Receta: Ver que probabilidades incondicionales se necesitan para responder a la pregunta Enumerar todas las probabilidades atómicas (para todos los posibles valores de las variables H) Calcular suma de productos Ejemplo: BE A JM

12 12 Inferencia por Enumeración P(+b, +j, +m) = e a P(+b, +j, +m, e, a) = e a P(+b) P(e) P(a|+b,e) P(+j|a) P(+m|a) = BE A JM

13 13 Inferencia por Enumeración Optimización: sacar términos de los sumatorios = P(+b) e P(e) a P(a|+b,e) P(+j|a) P(+m|a) ó = P(+b) a P(+j|a) P(+m|a) e P(e) P(a|+b,e) P(+b, +j, +m) = e a P(+b, +j, +m, e, a) = e a P(+b) P(e) P(a|+b,e) P(+j|a) P(+m|a) BE A JM

14 14 Inferencia por Enumeración Problema: Habría que sumar 10 6 términos ¿Como podemos hacer que la inferencia sea tratable?

15 15 Eliminación de Variables ¿Por qué es tan lenta la inferencia por enumeración? Se calcula la distribución conjunta completa antes de sumar (marginalizar) a lo largo de las variables ocultas ( e a P(+b) P(e) P(a|+b,e) P(+j|a) P(+m|a) ) Se repite un montón de trabajo! Idea: entremezclar conjunción y marginalización Se denomina Eliminación de variables Todavía es NP-hard, pero mucho más rápido que enumeración Requiere combinar factores (arrays multi-dimensionales)

16 16 Tipos de factores Distribución conjunta: P(X,Y) Entradas P(x,y) para todas las x, y Suman 1 Conjunta seleccionada: P(x,Y) Una rodaja de la conjunta Entradas P(x,y) para x fijo, todas las y Suman P(x) TWP hotsun0.4 hotrain0.1 coldsun0.2 coldrain0.3 TWP coldsun0.2 coldrain0.3

17 17 Tipos de factores Famila de condicionales: P(X|Y) Valores condicionales múltiples Entradas P(x|y) para todas las x, y Suman |Y| (p.e. si Y es Booleana: 2) Condicional simple: P(Y | x) Entradas P(y|x) para x fijo, todas las y Suman 1 TWP hotsun0.8 hotrain0.2 coldsun0.4 coldrain0.6 TWP coldsun0.4 coldrain0.6

18 18 Tipos de factores Familia específica: P(y|X) Entradas P(y|x) para y fijo, todas las x Suman … ¿quién sabe? En general, cuando escribimos P(Y 1 … Y N | X 1 … X M ) Es un factor, una matriz multi-dimensional Sus valores son todas las P(y 1 … y N | x 1 … x M ) Cualquier X o Y asignada (valor fijo) es una dimensión que falta en la matriz TWP hotrain0.2 coldrain0.6

19 19 Ejemplo: Dominio del Tráfico Variables Aleatorias R: Raining T: Traffic L: Late for class T L R +r0.1 -r0.9 +r+t0.8 +r-t0.2 -r+t0.1 -r-t0.9 +t+l0.3 +t-l0.7 -t+l0.1 -t-l0.9 P (L | T )

20 20 Esquema general de la Eliminación Ir construyendo matrices multi-dimensionales llamadas factores Factores iniciales: tablas de prob. condicional, una por nodo Seleccionar los valores conocidos P. ej. Si sabemos que L=+l, los factores iniciales quedan: EV: Ir alternando: unir factores y eliminar variables +r0.1 -r0.9 +r+t0.8 +r-t0.2 -r+t0.1 -r-t0.9 +t+l0.3 +t-l0.7 -t+l0.1 -t-l0.9 +t+l0.3 -t+l0.1 +r0.1 -r0.9 +r+t0.8 +r-t0.2 -r+t0.1 -r-t0.9

21 21 Operación 1: Unir Factores Unir factores: Parecido a un join en una base de datos Tomar todos los factores que mencionan la variable a unir Construir un nuevo factor con la unión de todas las variables involucradas Ejemplo: Unión sobre R Para cada entrada: productos punto a punto: +r0.1 -r0.9 +r+t0.8 +r-t0.2 -r+t0.1 -r-t0.9 +r+t0.08 +r-t0.02 -r+t0.09 -r-t0.81 T R R,T

22 22 Operacióm 2: Eliminar Segunda operación básica: marginalización Tomar un factor, y sumar sobre una variable, para quitarla El factor se reduce de tamaño Es una operación de proyección Ejemplo: +r+t0.08 +r-t0.02 -r+t0.09 -r-t0.81 +t0.17 -t0.83

23 23 Ejemplo: Calcular P(L), paso 1 Sum out R T L +r+t0.08 +r-t0.02 -r+t0.09 -r-t0.81 +t+l0.3 +t-l0.7 -t+l0.1 -t-l0.9 +t0.17 -t0.83 +t+l0.3 +t-l0.7 -t+l0.1 -t-l0.9 T R L +r0.1 -r0.9 +r+t0.8 +r-t0.2 -r+t0.1 -r-t0.9 +t+l0.3 +t-l0.7 -t+l0.1 -t-l0.9 Join R R, T L

24 24 Ejemplo: Calcular P(L), paso 2 Join TSum out T T, LL Early marginalización is variable eliminación T L +t0.17 -t0.83 +t+l0.3 +t-l0.7 -t+l0.1 -t-l0.9 +t+l t-l t+l t-l l l0.886

25 25 Evidencia Si hay evidencia, comenzar con factores que la seleccionen Si no hay evidencia los factores iniciales son: Para calcular P(L |+r), los factores iniciales son: Eliminar todas las variables que no sean query o evidencia +r0.1 -r0.9 +r+t0.8 +r-t0.2 -r+t0.1 -r-t0.9 +t+l0.3 +t-l0.7 -t+l0.1 -t-l0.9 +r0.1 +r+t0.8 +r-t0.2 +t+l0.3 +t-l0.7 -t+l0.1 -t-l0.9

26 26 Evidencia II El resultado será una conjunción seleccionada de query y evidencia P. ej. para P(L | +r), terminaremos con: +l0.26 -l0.74 +r+l r-l0.074 Normalizar

27 27 Eliminación de Variables General Query: Empezar con factores iniciales: Tablas de Prob. Condicional, instanciadas con la evidencia Mientras queden variables ocultas (no Q ni evidencia): Elegir una variable oculta H Juntar todos los factores que mencionan a H Eliminar H (sumando) Juntar todos los factores restantes, y normalizar

28 28 Ejemplo Queremos obtener: Factores iniciales instanciados: Elegimos A Σ a BE A JM

29 29 Ejemplo Elegimos E: Terminamos con B: Normalizar Σ e

30 30 Complejidad de la Eliminación de Variables El coste depende del factor intermedio más grande que se genere, que a su vez depende de: 1.La estructura de la red Polytrees: si entre dos nodos cualesquiera hay como máximo un único camino (no-dirigido) La complejidad en tiempo y memoria es lineal con el tamaño de la red (nº de TPC) Si el numero de padres por nodo < k, es lineal con el número de nodos Redes con conexiones múltiples: en el peor de los casos el coste es exponencial 2.El orden de eliminación de las variables Calcular el orden óptimo es intratable Hay buenas heurísticas: eliminar la variable que minimiza el tamaño del próximo factor a crear BE A JM SR W C

31 31 Inferencia Aproximada por Muestreo Muestrear / Simular / Observar Idea básica: Extraer N muestras de una distribución de muestreo S Calcular una distribución a posteriori aproximada De forma que la probabilidad estimada sea consistente : que converga a la verdadera probabilidad P, cuando el número de muestras tienda a infinito ¿Por qué muestrear? Aprendizaje: obtener muestras de una distribución que no se conoce P(Viagra|SPAM) y P(Viagra|¬SPAM) Inferencia: en redes complicadas, generar muestras es más rápido que calcular la respuesta exacta (por ejemplo con eliminación de variables)

32 32 Muestreo por Priori Partimos de una red sin evidencias Cloudy Sprinkler Rain WetGrass Cloudy Sprinkler Rain WetGrass +c0.5 -c0.5 +c +s0.1 -s0.9 -c +s0.5 -s0.5 +c +r0.8 -r0.2 -c +r0.2 -r0.8 +s +r +w0.99 -w0.01 -r +w0.90 -w0.10 -s +r +w0.90 -w0.10 -r +w0.01 -w0.99 Muestras: +c, -s, +r, +w -c, +s, -r, +w …

33 33 Muestreo por Priori Este proceso genera muestras con probabilidad: …es decir, la probabilidad conjunta de la Red Bayesiana Si el número de muestras de un evento es: Se cumple: Es decir, el procedimiento de muestreo es consistente

34 34 Ejemplo Obtenemos un conjunto de muestras de la RB: +c, -s, +r, +w +c, +s, +r, +w -c, +s, +r, -w +c, -s, +r, +w -c, -s, -r, +w Si queremos conocer P(W) Tenemos cuentas Normalizamos para sacar P(W) = Se aproximará a la distribución real con más muestras Rápido: si tenemos poco tiempo, podemos usar menos muestras, a costa de la precisión de la aproximación Cloudy Sprinkler Rain WetGrass C S R W

35 35 Muestreo por Rechazo Supongamos que queremos P(C) No hace falta mantener todas las muestras Simplemente contar los +c y –c sobre la marcha Supongamos que queremos P(C| +s) Contamos los +c y –c, pero ignorando (rechazando) las muestras que no tienen S=+s Se llama muestreo por rechazo Es consistente (correcto en el límite) +c, -s, +r, +w +c, +s, +r, +w -c, +s, +r, -w +c, -s, +r, +w -c, -s, -r, +w Cloudy Sprinkler Rain WetGrass C S R W

36 36 Ejemplo Tenemos dos cajas Una tiene 1 penny (1c) y 1 quarter (25c) La otra tiene 2 quarters Elegimos aleatoriamente una de las cajas y sacamos una moneda de esa caja. Es un quarter. ¿Cual es la probabilidad de que la otra moneda de la caja sea también un quarter? / 1000

37 37 Ponderación por Verosimilitud Problema del muestreo por rechazo: Si la evidencia es muy poco probable, tiramos la mayoría de las muestras No se aprovecha la evidencia al muestrear Supongamos que queremos P(B|+a) Idea: fijar la evidencia y muestrear el resto La distribución de las muestras no es consistente Solución: ponderar cada muestra con la probabilidad de la evidencia dados los padres BurglaryAlarm BurglaryAlarm -b, -a +b, +a -b +a -b, +a +b, +a

38 38 Ejemplo Queremos: P(R|+s,+w) +c0.5 -c0.5 +c +s0.1 -s0.9 -c +s0.5 -s0.5 +c +r0.8 -r0.2 -c +r0.2 -r0.8 +s +r +w0.99 -w0.01 -r +w0.90 -w0.10 -s +r +w0.90 -w0.10 -r +w0.01 -w0.99 Samples: +c, +s, +r, +w … Cloudy Sprinkler Rain WetGrass Cloudy Sprinkler Rain WetGrass 0.099

39 39 Ponderación por Verosimilitud Si z son los nodos muestreados y e los nodos evidencia fijos, la distribución de las muestras es: Las muestras tienen pesos: Juntándolo, la distribución de muestras ponderadas es consistente: Cloudy R C S W

40 40 Ponderación por Verosimilitud Es buena Tiene en cuenta la evidencia al generar las muestras En el ejemplo, el valor de W se muestrea teniendo en cuenta los valores de evidencia de S y R Más parte de las muestras reflejan el estado del universo sugerido por la evidencia Pero no resuelve todos los problemas La evidencia influye en la elección de variables aguas abajo, pero no de las que está aguas arriba. En el ejemplo, C no ha aumentado su probabilidad de obtener valores que casen con la evidencia Nos gustaría aprovechar la evidencia al muestrear todas las variables Cloudy Rain C S R W

41 41 Muestreo de Gibbs Es un algoritmo de tipo Markov Chain Monte Carlo (MCMC) Idea: en lugar de generar cada muestra desde cero, crear muestras que se parecen a la anterior Procedimiento: Supongamos que el sistema está en un cierto estado Repetir: Generar un nuevo estado remuestreando aleatoriamente una de las variable, condicionada por todo el resto, siempre manteniendo fija la evidencia. El conjunto de estados con sus probabilidades de transición forman una Cadena de Markov El proceso alcanza un equilibrio dinámico en el que la fracción de tiempo que se pasa en cada estado es proporcional a su probabilidad a posteriori Hace falta que la cadena sea ergódica: todos los estados son alcanzables desde otro y no hay ciclos períodicos estrictos

42 42 Ejemplo: queremos P(c|+s, +w) +c +s +w +r Estado inicial -c +s +w +r muestreo C -c +s +w +r muestreo W +c +s +w +r muestreo C +c +s -w +r muestreo W +c +s +w +r muestreo W..... Propiedades: las muestras no son independientes (de hecho, las adyacentes son casi iguales), pero las medias muestrales siguen siendo estimadores consistentes! Cual es la gracia: tanto las variables aguas arriba como aguas abajo están condicionadas por la evidencia Muestreo de Gibbs Cloudy Rain C S R W

43 Inteligencia Artificial (30223) Grado en Ingeniería Informática Lección 13. Razonamiento Probabililista AIMA 14.1 a 14.5 Tema 4 de


Descargar ppt "Curso 2012-2013 Juan Domingo Tardós Dpto. Informática e Ingeniería de Sistemas. Inteligencia Artificial (30223) Lección 13. Razonamiento Probabilista."

Presentaciones similares


Anuncios Google