Inteligencia Artificial

Inteligencia Artificial
PARTE 5 CONOCIMIENTO INCIERTO Y RAZONAMIENTO

Inteligencia Artificial
5.1 Incertidumbre

CÓMO ACTUAR ANTE LA INCERTIDUMBRE
Los agentes casi nunca tienen acceso a toda la verdad acerca de su ambiente. El agente debe, por lo tanto, actuar bajo condiciones de incertidumbre. La incertidumbre es también producto de la incompletez y de la inexactitud del conocimiento del agente sobre las características del ambiente. La decisión racional dependerá tanto de la importancia relativa de las diversas metas así como de la posibilidad y grado correspondiente en que esperamos que sean logradas.

El manejo del conocimiento incierto
Ejemplo de regla de lógica de primer orden Si queremos más detalle: Cambiando la regla a forma causal:

El uso de la lógica de primer orden en este ejemplo es fallido por: Pereza Listar todos los antecedentes o consecuentes necesarios es mucho trabajo, y las reglas sería difíciles de emplear. Ignorancia teórica La ciencia médica no cuenta aún con una teoría completa sobre este dominio. Ignorancia práctica Aún conociendo todas las reglas, si no es posible hacerle todas las pruebas a un paciente, permanecerían dudas sobre el caso particular de dicho paciente.

En el mejor de los casos, lo que el conocimiento del agente puede ofrecer es sólo un grado de creencia en las oraciones correspondientes. La herramienta principal para manejar los grados de creencia es la teoría de la probabilidad, que asigna a las oraciones un grado numérico de creencia que está entre 0 y 1.

La probabilidad es una forma de resumir la incertidumbre originada en nuestra pereza e ignorancia. Por ejemplo, podemos observar que el 80% de los pacientes que padecen dolores en la dentadura tienen caries. Por lo tanto, existe una probabilidad de 0.8 de que el motivo del dolor de dientes sea caries. El 0.2 restante resume todas las otras posibles causas de dolor dental, las cuales se ignoran o no se confirman por pereza.

Las probabilidades situadas entre 0 y 1 corresponden a grados intermedios de creencia en la verdad de la oración. La oración en sí es, de hecho, verdadera o falsa. No es lo mismo el grado de creencia y el grado de verdad. Si el grado de creencia es 0.8, esto no quiere decir que haya 80% de verdad, sino que hay muchas posibilidades de que la oración sea cierta. El grado de verdad es el tema de estudio de la lógica difusa.

Las aseveraciones probabilísticas no operan el mismo tipo de semántica que la lógica de primer orden. La probabilidad que un agente asigna a una proposición dependerá de las percepciones que éste haya recibido hasta el momento (evidencia). Antes de las evidencias, se habla de la probabilidad a priori o incondicional. Después de las evidencias, se habla de probabilidad a posteriori o condicional.

La incertidumbre y las decisiones racionales
La presencia de la incertidumbre modifica radicalmente la forma de tomar decisiones de un agente. El agente debe tener preferencias por los posibles resultados de cada uno de sus planes. Pera la representación y razonamiento con las preferencias, se requiere de la teoría de la utilidad. El término utilidad se refiere a “la calidad de ser útil”. Esta teoría sostiene que cada estado implica cierto grado de utilidad para un agente, y que el agente prefiere aquellos estados que le representen mayor utilidad.

La incertidumbre y las decisiones racionales
Las preferencias, expresadas en función de las utilidades, se combinan con las probabilidades en la teoría general de las decisiones racionales, conocida como teoría de decisiones: Teoría de decisiones = Teoría de probabilidad + Teoría de utilidad La idea básica de la teoría de decisiones es que un agente será racional si y sólo si elige una acción que le produzca la mayor de las utilidades esperadas, prorrateada ésta tomando en cuenta todos los resultados posibles de la acción.

NOTACIÓN BÁSICA DE PROBABILIDAD
Se requiere un lenguaje formal para representar el conocimiento incierto y trabajar con él. Esta caracterización debe incorporar dos aspectos fundamentales: La naturaleza de las oraciones a las que se asignan gradaciones. La dependencia del grado de creencia en relación con el estado de conocimiento del agente.

Probabilidad a priori La notación P(A) indica la probabilidad a priori o incondicional de que la proposición A es verdadera. P(Caries) = 0.1 P(A) sólo se utiliza cuando no se dispone de más información. En cuanto se disponga de información adicional B, es necesario razonar la probabilidad condicional de A considerando B.

Probabilidad a priori En las proposiciones puede también haber desigualdades que involucren lo conocido como variables aleatorias. P(EstadoDelTiempo=Soleado) = 0.7 P(EstadoDelTiempo=Nublado) = 0.2 P(EstadoDelTiempo=Lluvia) = 0.08 P(EstadoDelTiempo=Nieve) = 0.02

Probabilidad a priori A toda variable aleatoria X le corresponde un dominio de valores que dicha variable puede asumir <x1, ..., xn>. Las proposiciones se pueden considerar también como variables aleatorias y se supone que su dominio es <verdadero, falso> P(Caries) sería una abreviación de P(Caries=verdadero) P(Caries) sería una abreviación de P(Caries=falso)

Probabilidad a priori Por lo general, se usan las letras A, B, etc. Para representar variables aleatorias booleanas (proposiciones) y las letras X, Y, etc. Para variables que pueden tener varios valores. Se puede definir una distribución de probabilidad de una variable aleatoria de la siguiente manera: P(EstadoDelTiempo) = <0.7, 0.2, 0.08, 0.02>

Probabilidad a priori Se pueden usar expresiones como P(EstadoDelTiempo,Caries) para representar las probabilidades de todas las combinaciones de valores del conjunto de variables aleatorias. Podemos usar también conectores lógicos para construir oraciones más complejas y asignarles probabilidades: P(Caries  Asegurado) = 0.06

Probabilidad condicional
Las probabilidades condicionales o a posteriori representadas como P(A|B) se interpretan como “la probabilidad de A, considerando que todo lo que sabemos es B”. P(Caries|DolorDientes) = 0.8 Si se sabe C, ahora debe calcularse P(A|BC) en vez de P(A|B).

Probabilidad condicional
La ecuación Se cumple cuando P(B) > 0. También puede escribirse como: A esto se le conoce como la regla del producto.

LOS AXIOMAS DE PROBABILIDAD
1. Todas las probabilidades están comprendidas entre 0 y 1. 0  P(A)  1 2. La probabilidad de las proposiciones necesariamente verdaderas es de 1, y de las necesariamente falseas es de 0. P(Verdadero) = P(Falso) = 0

LOS AXIOMAS DE PROBABILIDAD
3. La probabilidad de una disyunción se expresa de la siguiente manera: P(A  B) = P(A) + P(B) - P(A  B) Verdadera A B A  B

La distribución de probabilidad conjunta
Mediante la distribución de probabilidad conjunta se especifican completamente las asignaciones probabilísticas que un agente da a todas las proposiciones del dominio (tanto simples como complejas). El modelo probabilista de un dominio está formado por un conjunto de variables aleatorias que asumen determinados valores con ciertas probabilidades. Sean las variables X1, ..., Xn. Un evento atómico es la asignación de valores particulares a todas las variables, es decir, la especificación total del estado del dominio.

La distribución de probabilidad conjunta
Mediante la distribución de probabilidad conjunta P(X1, ..., Xn) se asignan probabilidades a todos los eventos atómicos posibles. La probabilidad conjunta es una tabla n-dimensional, en la que hay un valor en cada celda que especifica la probabilidad de que se produzca un determinado estado. DolorDientes DolorDientes Caries 0.04 0.06 Caries 0.01 0.89

LA REGLA DE BAYES Y SU USO
Las dos formas de la regla del producto son: Igualando los lados derechos y dividiendo entre P(A): A la ecuación se le conoce como regla de Bayes (o ley de Bayes, o teorema de Bayes), y es la base de todos los sistemas modernos de IA para inferencia probabilista.

LA REGLA DE BAYES Y SU USO
Para variables multivaluadas Si se cuenta con cierta evidencia base E:

Cómo aplicar la regla de Bayes
EJEMPLO: Un doctor sabe que la meningitis provoca una rigidez en el cuello del paciente, digamos el 50% de las veces. El doctor también conoce algunos hechos incondicionales: la probabilidad a priori que un paciente sufra de meningitis (M) es de 1 en 50,000, y la probabilidad a priori de que algún paciente sufra rigidez en el cuello (S) es de 1 en 20.

Cómo aplicar la regla de Bayes
Es de esperar que sólo uno de cada 5000 pacientes que padece rigidez de cuello tenga meningitis. ¿Qué pasaría si aumenta repentinamente P(M)?

Normalización Considérese el cálculo de la probabilidad de la meningitis con base a la rigidez del cuello: Supóngase que también interesa la posibilidad que el paciente sienta “latigazos” (W), consecuencia de la rigidez del cuello:

Normalización Comparando las ecuaciones anteriores, se puede calcular la posibilidad relativa de la meningitis y el “latigazo” dado que hay rigidez de cuello. Supongamos que P(S|W) = 0.8 y que P(W) = 1 / 1000 = 0.001 En otras palabras, el “latigazo” tiene 80 veces más posibilidades de presentarse que la meningitis, en el caso de un cuello rígido. En ocasiones la probabilidad relativa es suficiente para tomar una decisión.

Normalización Es posible escribir las ecuaciones correspondientes a M y a M: Si sumamos ambas y consideramos que P(M|S) + P(M|S) = 1: Si sustituimos en la ecuación de P(M|S), tenemos que A esto se le llama normalización, y 1/P(S) se maneja como constante de normalización mediante la que los terminos condicionales suman 1.

Uso de la regla de Bayes: Combinación de la evidencia
Si se sabe que P(Caries|DolorDientes) = 0.8 y que P(Caries|Enganchar)=0.95 ¿Qué se podría concluir si el gancho de acero queda enganchado en un diente que produce dolor? Se desea saber P(Caries|DolorDientes  Enganchar) Usando la regla de Bayes, esto se puede reformular así: ¿Cómo se calcula P(DolorDientes  Enganchar|Caries)? El problema se da además si se requiere el calculo de las probabilidades condicionales de muchas variables y no sólo de dos.

El primer paso consiste en adoptar una perspectiva ligeramente distinta del procedimiento de incorporación de los diversos elementos de evidencia. Mediante el procedimiento de actualización bayesiana se incorporan las evidencias de una en una, y es modificada la creencia anterior relativa a la variable desconocida.

Empezando por DolorDiente: Al observar Enganchar, podemos aplicar nuevamente la regla de Bayes con DolorDiente como contexto uniforme de condicionamiento: Sustituyendo: Este proceso es independiente del orden.

Es necesario aún así hacer una suposición fundamental, para simplificar las expresiones. En este caso, la suposición fundamental es que la caries es la causa directa del dolor de diente y del enganchamiento de la cala en el diente En otras palabras, si se sabe que el paciente tiene caries, no se esperará que la probabilidad de enganchamiento dependa de la presencia de un dolor de diente, ni el enganchamiento modificará la probabilidad de que la caries esté produciendo dolor de diente.

Por lo tanto P(Enganchar|Caries  DolorDientes) = P(Enganchar|Caries) P(DolorDientes|Caries  Enganchar) = P(DolorDientes|Caries) Estas ecuaciones expresan la independencia condicional de DolorDientes y Enganchar, suponiendo la existencia de caries.

ORIGEN DE LAS PROBABILIDADES
Punto de Vista Frecuentista: Las probabilidades solo pueden originarse en experimentos, ejemplo: si después de una revisión a 100 personas, 10 de ellas tienen caries, se puede decir que la probabilidad de caries es 0.1 Punto de Vista Objetivista: Las probabilidades son aspectos reales del universo: la propensión de los objetos a comportarse de cierta forma y no meras descripciones del grado de creencia de un observador. Las mediciones frecuentistas son intentos de obtener el valor real de una probabilidad. Punto de Vista Subjetivista: Las probabilidades son una manera de caracterizar las creencias de un agente y no se les concede ninguna significación externa. Un médico podría decir : “en mi opinión, la probabilidad de que haya caries es 0.1”.

Otro enfoque para el mundo del wumpus
La incertidumbre surge en el mundo del wumpus porque los sensores del agente solo proporcionan información parcial, local, sobre el mundo.

1,4 2,4 3,4 4,4 1,3 2,3 3,3 1,2 B OK 2,2 3,2 4,2 1,1 2,1 3,1 4,1 Después de encontrar brisa tanto en [1,2] como en [2,1], el agente está “atorado” (no hay ningún lugar seguro para explorar).

[1,3], [2,2] y [3,1] podrían tener un precipicio. La inferencia lógica por sí sola no puede concluir nada sobre cual celda es la que tiene más probabilidad de ser segura, así que un agente lógico tendría que elegir forzosamente al azar. Un agente probabilístico lo puede hacer mejor. Nuestro objetivo es calcular la probabilidad de que cada una de las tres celdas contenga un precipicio (por el momento, se ignorará el wumpus y el oro).

Las propiedades relevantes del mundo del wumpus son que (1) Un precipicio causa brisa en todos las celdas adyacentes y (2) Cada celda, excepto la [1,1], tiene un precipicio con una probabilidad de 0.2. El primer paso es identificar el conjunto de variables aleatorias que necesitamos: Como en el caso de la lógica proposicional, se desea una variable booleana Pij para cada celda, la cual es verdadera si y sólo si la celda [i, j] contiene un precipicio. También tenemos las variables booleanas Bij, las cuales son verdaderas si y sólo si hay brisa en [i, j]. Se incluyen estas variables sólo para las celdas observadas (en este caso, [1,1], [1,2] y [2,1]).

El siguiente paso es especificar la distribución conjunta completa, P(P1,1, …, P4,4, B1,1, B1,2, B2,1). Aplicando la regla del producto, se tiene que P(P1,1, …, P4,4, B1,1, B1,2, B2,1) = P(B1,1, B1,2, B2,1 | P1,1, …, P4,4) P(P1,1, …, P4,4)

El primer término es una probabilidad condicional de una configuración de brisas, dada una configuración de precipicios. El segundo término es la probabilidad a priori de una configuración de precipicios. Cada celda contiene un precipicio con una probabilidad de 0.2, independientemente de las otras celdas, por lo que: Para una configuración con n precipicios, esto es justo 0.2n  n.

En nuestra situación , la evidencia consiste de la brisa observada (o su ausencia) en cada celda que es visitada, combinada con el hecho de que cada una de esas celdas no contiene precipicio. Abreviaremos esos hechos como b =  b1,1  b1,2  b2,1 y conocido =  p1,1   p1,2   p2,1 Estamos interesados en responder preguntas tales como P(P1,3|conocido, b): “¿qué tan probable es que haya un precipicio en [1,3], dadas las observaciones que hemos hecho hasta ahora?” Para responder a lo anterior, se pude usar el procedimiento estándar de sumar entradas de la tabla de distribución conjunta completa. Sea desconocido una variable compuesta consistente de las variables Pij correspondientes a las celdas diferentes a las celdas conocidas y la celda de la consulta, [1,3].

Entonces tenemos que: Hay 12 celdas desconocidas, por lo que la sumatoria contiene 212 = 4096 términos. En general, la sumatoria crece exponencialmente con el número de celdas. En la realidad, no todas las celdas desconocidas son relevantes, por ejemplo, el contenido de [4,4] no afecta si [1,3] tiene un precipicio.

Sea Frontera las variables (aparte de las involucradas en la consulta) que son adyacentes a las celdas visitadas, en este caso, sólo son [2,2] y [3,1]. Sean Otras las variables para los otras celdas desconocidas. En este caso, hay 10 otras celdas.

1,4 2,4 3,4 4,4 1,3 2,3 3,3 1,2 B OK 2,2 3,2 4,2 1,1 2,1 3,1 4,1 consulta otras frontera conocido Después de encontrar brisa tanto en [1,2] como en [2,1], el agente está “atorado” (no hay ningún lugar seguro para explorar).

Las brisas observadas son condicionalmente independientes de las otras variables, dados lo conocido, la frontera, y las variables de consulta. otras se elimina por independiencia condicional

Ahora, el primer término de esta expresión no depende de la variable otras, así que se puede mover la sumatoria hacia dentro:

Por independencia, el término previo se puede factorizar, y entonces los términos se reordenan: Donde en el último paso P(conocido) se fusiona en la constante normalizadora y se utiliza el hecho de que otrasP(otras) = 1.

Note que la expresión P(b|conocido, P1,3, frontera) = 1 cuando la frontera es consistene con las observaciones de brisa, y 0 en caso contrario. Por lo tanto, para cada valor de P1,3, sumamos sobre los modelos lógicos para las variables frontera que son consistentes con los hechos conocidos.

1,3 1,2 B OK 2,2 1,1 2,1 3,1 1,3 1,2 B OK 2,2 1,1 2,1 3,1 1,3 1,2 B OK 2,2 1,1 2,1 3,1 0.8 x 0.2 = 0.16 0.2 x 0.2 = 0.04 0.2 x 0.8 = 0.16 Modelos consistentes con las variables frontera P2,2 y P3,1, mostrando P(frontera) para cada modelo. En este caso, los tres modelos suponen que P1,3 = verdadero

1,3 1,2 B OK 2,2 1,1 2,1 3,1 1,3 1,2 B OK 2,2 1,1 2,1 3,1 0.2 x 0.2 = 0.04 0.2 x 0.8 = 0.16 Modelos consistentes con las variables frontera P2,2 y P3,1, mostrando P(frontera) para cada modelo. En este caso, los dos modelos suponen que P1,3 = falso

Tenemos que P(P1,3|conocido,b) = ’0.2( ), 0-8( )   0.31, 0.69 Esto es, [1,3] (y [3,1], por simetría) tiene un precipicio con una probabilidad de 31% (69% que no lo contenga). Un cálculo similar muestra que [2,2] contiene un precipicio con una probabilidad de 86%. El agente inteligente probabilístico definitivamente evitaría irse por [2,2].

Inteligencia Artificial

Presentaciones similares

Presentación del tema: "Inteligencia Artificial"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Inteligencia Artificial

Presentaciones similares

Presentación del tema: "Inteligencia Artificial"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback