La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Eduardo Morales / L. Enrique Sucar

Presentaciones similares


Presentación del tema: "Eduardo Morales / L. Enrique Sucar"— Transcripción de la presentación:

1 Eduardo Morales / L. Enrique Sucar
Fundamentos de Inteligencia Artificial Manejo de Incertidumbre Sesión 13 Eduardo Morales / L. Enrique Sucar

2 Introducción Los sistemas basados en conocimiento deben ser capaces de representar y razonar con incertidumbre. Existen varias causas de incertidumbre que tienen que ver con la información, el conocimiento y la representación.

3 Información Incompleta Poco confiable Ruido, distorsión

4 Conocimiento Impreciso Contradictorio

5 Representación No adecuada Falta de poder descriptivo

6 Ejemplos de dominios con incertidumbre
Diagnóstico médico o industrial Predicción financiera Exploración minera / petrolera Interpretación de imágenes (visión) Reconocimiento de voz Monitoreo / control de procesos industriales complejos Robótica

7 Ejemplo de Incertidumbre
Un robot móvil tiene incertidumbre respecto a lo que obtiene de sus sensores y de su posición en el mundo

8 Efectos de Incertidumbre
Si pierden varias propiedades de los sistemas que no tienen incertidumbre, basados en lógicas o reglas, lo cual hace el manejo de incertidumbre más complejo. Las principales dos características que, en general, ya no aplican son: 1. Modularidad 2. Monotonicidad

9 Modularidad Un sistema de reglas es modular, ya que para saber la verdad de una regla sólo tiene que considerarla a ésta, sin importar el resto del conocimiento. Pero si hay incertidumbre ya no puedo considerar la regla por si sola, debo tomar en cuenta otras reglas

10 Monotonicidad Un sistema es monotónico si al agregar nueva información a su base de datos, no se alteran las conclusiones que seguían de la base de datos original.

11 Si hay incertidumbre ya no puedo considerar que la certeza en una hipótesis ya no puede cambiar, debo tomar en cuenta otras reglas que involucren a dicha hipótesis.

12 Técnicas No-numéricas * Lógicas no-monotónicas
* Sistemas de mantenimiento de verdad (TMS, ATMS) * Teoría de endosos

13 Técnicas Numéricas * Empíricas (MYCIN, Prospector)
* Métodos aproximados * Lógica difusa * Teoría de Dempster-Shafer * Redes Bayesianas

14 Conceptos de Probabilidad
Recordaremos algunos conceptos de probabilidad relevantes, en particular: Probabilidad Condicional Independencia Teorema de Bayes

15 Probabilidad Condicional
Para cada h,e Í W con P(e)  0, la probabilidad condicional de h dado e o P(h÷e) (probabilidad a posteriori) es: P(he) P(e) P(h÷e) =

16 Teorema de Bayes En la práctica P(h÷e) no se obtiene fácilmente, sin embargo P(e÷h) sí. Para obtenerla utilizamos el Teorema de Bayes: P(e÷h) P ( h ) P(h÷e) = P(e)

17 Independencia Los eventos e1,…,en son independientes si: P(e1 Ç ... Ç en)= P(e1 ) … P(en ) Los eventos e1,…,en son condicionalmente independientes dado un evento h , si: P(e1 Ç ... Ç en÷h)= P(e1÷h) … P(en ÷ h ) Independencia marginal: P(h ÷e)= P( h ). Independencia condicional: P(h ÷ k,e)= P( h ÷ k).

18 Probabilidad en Sistemas Expertos
Sean H ={ h1,…,hn} el conjunto de n posibles hipótesis y E ={e1,…,em }, m posibles evidencias. Si asuminos que la hipótesis y los eventos son V o F, lo que queremos encontrar es la h Í W más probable dado e Í E.

19 Se tiene que calcular P(h÷e ) para cada subconjunto de h Í H y seleccionar la de mayor probabilidad utilizando el teorema de Bayes.

20 Opción 1: Exhaustivo como

21 1 P(e) A esto se le llama normalización ya que
se toma como una constante que permite que los términos condicionales sumen 1. 1 P(e)

22 Generalización En general:

23 Para aplicar Bayes, se requiere calcular las probabilidades condicionales P(e÷hi ) para cada combinación de evidencias (en general no se pueden calcular de sus componentes individuales). Esto implica que se tienen que conocer un número exponencial de probabilidades!!

24 Las evidencias son condicionalmente independientes.
Opción 2: independencia Las evidencias son condicionalmente independientes. Con ésto, solo se requieren m x n probabilidades condicionales y n - 1 probabilidades a priori.

25 Conclusión En la opción 1 el sistema se vuelve demasiado complejo, mientras que la opción 2 puede no ser realista para muchas aplicaciones. Una alternativa es buscar un compromiso entre ambos extremos, esto se logra mediante las redes Bayesianas.

26 Técnicas numéricas Las primeras técnicas que surgen, cuando menos dentro del área de sistemas expertos, son técnicas empíricas o ad-hoc orientadas a resolver aplicaciones específicas y sin un fuerte fundamento teórico. Las más conocidas son las que corresponden a dos de los primeros sistemas expertos:

27 PROSPECTOR (exploración minera)
MYCIN (diagnóstico de enfermedades infecciosas en la sangre)

28 Sistemas basados en reglas
En sistemas basados en reglas se tiene en general una estructura similar a la siguiente:

29 Si: se observa cierta evidencia E
Entonces: se concluye cierta hipótesis H con probabilidad (certeza, ...) P De aquí surgen varias interrogantes: ¿Cómo obtener estas medidas? ¿Cómo combinar estas medidas? ¿Cómo interpretar estas medidas?

30 MYCIN Las técnicas desarrolladas en MYCIN y Prospector son similares, ambas consideran sistemas basados en reglas a los que se les adicionan Factores de Certeza o Probabilidades Subjetivas, respectivamente. Veremos brevemente el método de MYCIN.

31 MYCIN define un Factor de Certeza que se asocia a cada regla y cada evidencia, y se definen un conjunto de reglas para combinar estos factores.

32 Reglas de combinación 1. Propagación (fprop) o reglas en serie: 2. AND (conjunción), OR (disjunción) de evidencias ( fand, for):

33 3. Co-Conclusión (fco) o reglas en paralelo:

34 R1: IF A and (B or C) Then H cf 0.8
R2: If D and F Then B cf 0.6 R3: If F or G Then H cf 0.4 R4: If A Then D cf 0.75 R5: If I Then G cf 0.3 Ejemplo Se conoce: CF(A,Ev) = 1, CF(C,Ev) = 0.5, CF(F,Ev) = 0.7, CF(I,Ev) = -0.4

35 Desventajas: Aunque pretendía apartarse de probabilidad, se ha demostrado [Heckerman 86] que la técnica de MYCIN corresponde a un subconjunto de probabilidad con una serie de suposiciones implícitas:

36 La evidencia es condicionalmente
independiente de la hipótesis y su negación. La red de inferencia debe corresponder a un árbol para que los resultados sean coherentes. Las fórmulas para conjunción y disjunción (min y max ) sólo son válidas si uno de los términos es subconjunto del otro.

37 Estas suposiciones no son válidas en muchas aplicaciones por lo que el método de MYCIN no se puede generalizar.

38 Redes Bayesianas

39 Introducción Las redes bayesianas o probabilísticas son una representación gráfica de dependencias para razonamiento probabilístico, en la cual los nodos y arcos representan: Nodo: Variable proposicional. Arcos: Dependencia probabilística.

40 Definición: Una red probabilística (RP) es un grafo acíclico dirigido (DAG) en la cual cada nodo representa una variable y cada arco una dependencia probabilística, en la cual se especifica la probabilidad condicional de cada variable dados sus padres. La variable a la que apunta el arco es dependiente (causa-efecto) de la que está en el origen de éste.

41

42 Podemos interpretar a una RP de dos formas:
1. Distribución de probabilidad: Representa la distribución de la probabilidad conjunta de las variables representadas en la red. Por ejemplo:

43 2. Base de reglas: Cada arco representa un conjunto de reglas que asocian las variables involucradas, Por ejemplo: Si FB,FV entonces FE Dichas reglas están cuantificadas por las probabilidades respectivas.

44 Estructura La topología o estructura de la red nos da información sobre las dependencias probabilísticas entre las variables. La red también representa las independencias condicionales de una variable (o conjunto de variables) dada otra(s) variable(s).

45 Ej.: {FA} es cond. indep. de {FV,FE,ND} dado {FB}
Esto es: P(FA | FV,FE,ND,FB)= P( FA | FB) Esto se representa gráficamente por el nodo FB separando al nodo FA del resto de las variables.

46

47 Verificación de Independencia
En general, el conjunto de variables A es independiente del conjunto B dado C si al remover C hace que A y B se desconecten. Es decir, NO existe una trayectoria entre A y B en que las siguientes condiciones sean verdaderas.

48 1. Todos los nodos con flechas convergentes están o tiene descendientes en C.
2. Todos los demás nodos están fuera de C. Esto se conoce como Separación-D.

49 En una RP todas la relaciones de independencia condicional representadas en el grafo corresponden a relaciones de independencia en la distribución de probabilidad. Dichas independencias simplifican la representación del conocimiento (menos parámetros) y el razonamiento (propagación de las probabilidades).

50 Parámetros Complementa la definición de una red bayesiana las probabilidades condicionales de cada variable dados sus padres. Nodos raíz: vector de probabilidades marginales Otros nodos: matriz de probabilidades condicionales dados sus padres

51 P(FV) P(FB) P(FE|FV,FB) P(FlV|FB) P(ND|FE)

52 Propagación de Probabilidades
El razonamiento probabilístico o propagación de probabilidades consiste en propagar de los efectos de la evidencia a través de la red para conocer la probabilidad a posteriori de las variables.

53 La propagación consiste en darle valores a ciertas variables (evidencia), y obtener la probabilidad posterior de las demás variables dadas las variables conocidas (instanciadas).

54 Algoritmos Los algoritmos de propagación dependen de la estructura de la red: Árboles Poliárboles Redes multiconectadas

55 Propagación en Árboles .
Cada nodo corresponde a una variable discreta, A={A1,A2,…,An) con su respectiva matriz de probabilidad condicional, P(B|A)=P(Bj| Ai)

56 Dada cierta evidencia E --representada por la instanciación de ciertas variables-- la probabilidad posterior de cualquier variable B, por el teorema de Bayes: P( Bi | E)=P( Bi ) P(E | Bi) / P( E )

57 Evidencia Ya que la estructura de la red es un árbol, el Nodo B la separa en dos subárboles, por lo que podemos dividir la evidencia en dos grupos: E-: Datos en el árbol que cuya raíz es B E+: Datos en el resto del árbol

58 Entonces: P( Bi | E ) = P ( Bi ) P ( E-,E+ | Bi ) / P(E) Pero dado que ambos son independientes y aplicando nuevamente Bayes: P( Bi | E ) = a P ( Bi | E+ ) P(E- | Bi )

59 Evidencia H E+ A I B C D E F G E-

60 P (Ai | E+ )=P( Ai ) Donde a es una constante de normalización.
Esto separa la evidencia para actualizar la probabilidad de B. Además vemos que no requerimos de la probabilidad a priori, excepto en el caso de la raíz donde: P (Ai | E+ )=P( Ai )

61 p (Bi)= P (Bi | E+ ) Definiciones:
Si definimos los siguientes términos: l (Bi)= P ( E- | Bi) p (Bi)= P (Bi | E+ ) Entonces: P(Bi | E )= a p (B i) l (B i)

62 Abajo hacia arriba (Lambda)
Dado que los hijos son condicionalmente independientes dado el padre: Donde Ek- corresponde a la evidencia que proviene del hijo k de B, denotado por Sk.

63 Condicionando cada término en la ecuación anterior respecto a todos los posibles valores de cada nodo hijo, obtenemos:

64 Dado que B es condicionalmente de la evidencia bajo cada hijo dado éste y usando la definición de l :

65 Arriba hacia abajo (PI)
En forma análoga obtenemos una ecuación para p . Primero la condicionamos sobre todos los posibles valores del padre:

66 Podemos eliminar E+ del primer termino dada independencia condicional.
El segundo término representa la probabilidad posterior de A sin contar la evidencia de subárbol de B, por lo que podemos expresarla usando la ecuación para P(Bi|E) y la descomposición de l. Donde k incluye a todos los hijos de A excepto B.

67 Algoritmo Mediante estas ecuaciones se integra un algoritmo de propagación de probabilidades en árboles. Cada nodo guarda los valores de los vectores p y l, así como las matrices de probabilidad P.

68 La propagación se hace por un mecanismo de paso de mensajes, en donde cada nodo envía los mensajes correspondientes a su padre e hijos: Mensaje al padre (hacia arriba) -- nodo B a su padre A:

69 Mensaje a los hijos (hacia abajo) -- nodo B a su hijo Sk :

70 Al instanciarse ciertos nodos, éstos envían mensajes a sus padres e hijos, y se propagan hasta a llegar a la raíz u hojas, o hasta encontrar un nodo instanciado. Así que la propagación se hace en un solo paso en un tiempo proporcional al diámetro de la red.

71 Esto se puede hacer en forma iterativa, instanciando ciertas variables y propagando su efecto; y luego instanciando otras y propagando la nueva información, combinando ambas evidencias.

72 Propagación l lI(H) lA(H) lB(A) lC(A) lD(B) lE(B) lF(D) lG(D) H A I B

73 Propagación p pH(I) pH(A) pA(B) pA(C) pB(D) pB(E) pD(F) pD(G) H A I B

74 Condiciones Iniciales
Nodos no conocidos: l (Bi) = [1,1, …] p (Bi) = [1,1, …] Nodos asignados (conocidos): l (Bi) = [0,0, ..1, 0, …, 0] (1 para valor asignado) p (Bi) = [0,0, ..1, 0, …, 0] (1 para valor asignado) Nodo raíz: p (A) = P(A), (probabilidad marginal inicial)

75 Ejemplo P(C) 0.8 0.2 Comida P(E|C) 0.9 0.7 0.1 0.3 Enf. P(F|E) 0.9 0.5
Comida P(E|C) Enf. P(F|E) P(D|E) Fiebre Dolor

76 Ejemplo Comida Enf. F=si l=[1,0] l=[1,1] Fiebre Dolor

77 Ejemplo Comida lF= [1,0] * [.9 .5 | .1 .5] = [.9 .5] lD= [1,1] *
[.7 .4 | .3 .6] = [1 1] Enf. Fiebre Dolor P(F|E) P(D|E)

78 Ejemplo l(C) = [.9 .5] * [.9 .7| .1 .3] = [.86 .78] Comida P(E|C)
.1 .3] = [ ] Comida P(E|C) l(E) = [.9 .5] * [1 1] = [.9 .5] Enf. Fiebre Dolor P(F|E) P(D|E)

79 Ejemplo p(C) = [.8 .2] Comida p(E) = [.8 .2] * [.9 .7| .1 .3]
= [ ] P(E|C) Enf. Fiebre Dolor P(F|E) P(D|E)

80 Ejemplo p(C) = [.8 .2] Comida p(D) = [.86 .14] * [.9 .5] [.7 .4|
.3 .6] = [ ] p(E) = [ ] Enf. Fiebre Dolor P(D|E)

81 Ejemplo p(C) = [.8 .2] Comida p(E) = [.86 .14] l(C) = [.86 .78]
P(C)=a[ ] P(C)= [ ] l(E) = [.9 .5] P(E)=a[ ] P(E)= [ ] Enf. p(D) = [ ] Fiebre Dolor l(D)=[1,1] P(D)=a[ ] P(D)= [ ]

82 Propagación en poliárboles
Un poliárbol es una red en la que un nodo puede tener varios padres, pero sin existir múltiples trayectorias entre nodos (red conectada en forma sencilla - SCG)

83 El algoritmo de propagación es muy similar al de árboles.
La principal diferencia es que se requiere de la probabilidad conjunta de cada nodo dado todos sus padres: P ( Bi | A1,....An )

84 Propagación en Redes Multiconectadas
Una red multiconectada es un grafo no conectado en forma sencilla, es decir, en el que hay múltiples trayectorias entre nodos (MCG). En este tipo de RP los métodos anteriores ya no aplican, pero existen otras técnicas alternativas: Condicionamiento Simulación estocástica Agrupamiento

85 Condicionamiento: Si instanciamos una variable, ésta bloquea las trayectorias de propagación. Entonces asumiendo valores para un grupo seleccionado de variables podemos descomponer la gráfica en un conjunto de SCG. Propagamos para cada valor posible de dichas variables y luego promediamos las probabilidades ponderadas.

86 Condicionamiento 1=V 1=V 1 1 1 3 3 2 2 4 5 4 5

87 Simulación Estocástica:
Se asignan valores aleatorios a las variables no instanciadas, se calcula la distribución de probabilidad y se obtienen valores de cada variable dando una muestra. Se repite el procedimiento para obtener un número apreciable de muestras y en base al numero de ocurrencias de cada valor se determina la probabilidad de dicha variable.

88 Simulación Estocástica:
v 1 f f 3 2 v 4 5 f vfffv

89 Agrupamiento: El método de agrupamiento consiste en transformar la estructura de la red para obtener un árbol, mediante agrupación de nodos usando la teoría de grafos [Lauritzen 88].

90 Ejemplo 1 1 3 2 3 2 4 5 4 5

91 Ordenamiento de Cliques
1 C1 3 2 C3 4 5 C2

92 Árbol de Cliques C1 1,2,3 C2 2,3,4 C3 3,5

93 Complejidad En general, la propagación en una red probabilística con una estructura compleja es un problema de complejidad NP-duro [Cooper 90]; sin embargo, en muchas aplicaciones prácticas la estructura de la red no es tan compleja y los tiempos de propagación son razonables.

94 Ejemplo de Propagación en Redes Bayesianas
Demostración

95 Conclusiones La redes bayesianas son un método adecuado para representar y razonar con incertidumbre. Se han desarrollado diversas aplicaciones basadas en redes bayesianas en áreas como diagnóstico médico e industrial, robótica, sistemas de soporte de decisiones, tutores inteligentes, etc.; e incluso los “ayudantes” de Office están en parte basados en redes bayesianas.

96 Actualmente hay desarrollos en varios áreas, incluyendo la inclusión de aspectos temporales (redes dinámicas), manejo de variables continuas y aprendizaje.

97 Conclusiones Existen, básicamente, otras dos alternativas bien fundamentadas para el manejo de incertidumbre: teoría de Dempster-Shafer y Lógica Difusa. La teoría de Dempster-Shafer permite diferenciar entre ignorancia e iguales probabilidades, aunque para problemas grandes se vuelve demasiado compleja.

98 La lógica difusa tiene la ventaja de que permite representar más facilmente ciertos conceptos no bien definidos y, en particular las reglas difusas se asemejan a los sistemas basados en reglas. Sin embargo, tiene la dificultad de que falta de una semántica clara.

99 Incertidumbre FIN


Descargar ppt "Eduardo Morales / L. Enrique Sucar"

Presentaciones similares


Anuncios Google