Inteligencia Artificial Incertidumbre Primavera 2008 profesor: Luigi Ceccaroni.

Slides:



Advertisements
Presentaciones similares
Cláusulas con si DE PASEO, P. 155 AP SPAN - Dooley
Advertisements

Seminario: Interpretaciones y Modelos Conjuntistas
ANTE TODO In Unidad 9, you learned that the subjunctive is used in adverbial clauses after certain conjunctions. You will now learn how the subjunctive.
______________________ ¿Qué hay en tu insti? L/O: To use the imperfect tense to compare primary school with secondary school. Para empezar: cambia una.
KRIGING.
ALGORÍTMICA Dpto. Ingeniería de Sistemas y Automática
profesor: Luigi Ceccaroni
CAPITULO 2 La Representación del Conocimiento
Algebra Booleana y Compuertas Lógicas
FUNCIONES MATEMATICAS
La Ecuación de Schrödinger
ECONOMÍA DE LA INFORMACIÓN
Incertidumbre Capítulo 13.
The present and past perfect
Los verbos regulares – ar What is an infinitive? An infinitive in both Spanish and English is the base form of the verb. In English, the infinitive.
Sesión 2: Métodos Probabilísticos Básicos
Unidad VI: PRUEBAS DE HIPOTESIS
Metodos de Inferencia Lenin Herrera.
Inteligencia Artificial Incertidumbre
Representación del conocimiento
Sesión 2: Teoría de Probabilidad “Considero que la probabilidad representa el estado de la mente con respecto a una afirmación, evento u otra cosa para.
Parts of the Computer Las partes de la computadora
Español 1 13 de marzo de La Campana  Forma parejas:  1. Quiero ir A. She likes to go  2. Le gusta ir B. They want to go to the beach  3. Vamos.
Telling Time.
Descomposición Factorial Unidad 5
LOGICA DE ENUNCIADO LOGICA DE PREDICADO
Mi tema es la amistad By: Paulina Agenor.
Conceptos Básicos de Probabilidad
Accuracy & Precision. Fundamental principle of measuring: No measurement is exact and the true value is never known Accuracy & Precision.
The Normal Distribution To calculate the probability of a Normal distribution between a and b:
Unidad V: Estimación de
Notes #18 Numbers 31 and higher Standard 1.2
Objetivo: Which form of the verb should we use? Are we pronouncing the vocabulary correctly? Hagan Ahora: El papel de APT P. 69, Actividad 2.
Inteligencia Artificial
The Present Subjunctive The Subjunctive l Up to now you have been using verbs in the indicative mood, which is used to talk about facts or actual events.
Sesión 2: Teoría de Probabilidad
HYPERBOLAS Standard 4, 9, 16, 17 DEFINITION OF A HYPERBOLA
What has to be done today? It can be done in any order. Make a new ALC form Do the ALC Get two popsicle sticks Get 16 feet of yarn. That is 4 arms width.
1 SOLVING RATIONAL EQUATIONS SIMPLIFYING RATIONAL EXPRESSIONS Standards 4, 7, 15, 25 ADDING RATIONAL EXPRESSIONS PROBLEM 1 RATIONAL EXPRESSIONS PROBLEM.
Español 3 Hoy es jueves el 2 de enero de La Campana 1.¿Cómo era tu vacación? 2.¿Adónde fuiste? 3. ¿Qué hiciste? Contesta las preguntas. Usa el.
Razonamiento probabilistico
Capítulo 1. Conceptos básicos de la Estadística
ESTADISTICA II PARTE PRIMERA: PROBABILIDAD Y VARIABLES ALEATORIAS
Present Subjunctive El Presente del Subjuntivo. El Subjuntivo In Spanish, in certain contexts, when you are talking about opinion, how somebody feels.
Digital Photography: Selfie Slides
Probabilidad y Estadística
ALC 155 miércoles el 25 de mayo. Bienvenida Sientense SS – lado a lado Uno lee las preguntas en voz alta la otra persona contesta.
Pruebas de hipótesis.
Sesión 09: Teoría de las Probabilidades
¿Qué haces en la escuela? Question words, objects, yo-go’s.
Tema 6: Distribuciones estadísticas
Distribución de probabilidad conjunta
Las Preguntas (the questions) Tengo una pregunta… Sí, Juan habla mucho con el profesor en clase. No, Juan no habla mucho en clase. s vo s vo Forming.
Sesión 2: Teoría de Probabilidad “Considero que la probabilidad representa el estado de la mente con respecto a una afirmación, evento u otra cosa para.
Tecnología y Estructura de Costos. Technologies u A technology is a process by which inputs are converted to an output. u E.g. labor, a computer, a projector,
Time Telling time is rather easy. You only need to know the numbers up to 59 to be able to tell the time.
+ Four Square Vocabulary. + What it is. Whole class, small group or individual activity that: Presents new vocabulary Reviews vocabulary Practices sentence.
 Un sistema de ecuaciones es un grupo de ecuaciones que representan líneas rectas.  Una ecuación es una igualdad en la que los términos pueden ser conocidos.
Conocimiento incierto y razonamiento
1 2  La Teoría de la Probabilidad constituye la base o fundamento de la Estadística, ya que las ingerencias que hagamos sobre la población o poblaciones.
Associative, Commutative, and Distributive Properties of Addition and Multiplication August 18th Students only need to copy the writing in purple. Students.
Science Fair 2015 Feria de la Ciencia. Monday, April 20 th Night showing: 5- 7pm.
Los pronombres relativos que y quien El subjuntivo en cláusulas adjetivales: con antecedentes indefinidos o que no existen.
Antes de empezar – ¿Cómo se llaman estos quehaceres? (Necesito la tarea.)
Estimación Estadística Tares # 3. Estimación Estadística Conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a.
  Jugó=he/she played  Use the preterite tense for past actions that are viewed as over and are not being connected to the present. ¿Te acuerdas?
¡Buenas tardes clase! Cuando NO estamos de acuerdo Usen una expresión para decir que no estás de acuerdo con las oraciones. Después, explica.
Campanada guidelines in your composition notebook ¿Cómo es tu familia? (10 points) Ex. Hoy es Miercoles el 27 de enero First line will start with the date.
Incertidumbre Capítulo 13. Contenido Incertidumbre Probabilidad Sintaxis y Semántica Inferencia Estocástica Independencia y La Regla de Bayes.
Las Preguntas (the questions) Tengo una pregunta… Sí, Juan habla mucho con el profesor en clase. No, Juan no habla mucho en clase. s vo s vo Forming.
Transcripción de la presentación:

Inteligencia Artificial Incertidumbre Primavera 2008 profesor: Luigi Ceccaroni

Comportamiento bajo incertidumbre Casi nunca se pueden hacer las asignaciones epistemológicas de que las proposiciones son ciertas, falsas o desconocidas. En la práctica, los programas tienen que saber actuar en situaciones de incertidumbre: –usando una teoría del mundo simple pero errónea, que no tiene en cuenta la incertidumbre y que funciona la mayoría de las veces; –manejando el conocimiento incierto y la utilidad de manera racional: Lo correcto a realizar (la decisión racional) depende tanto de la importancia relativa de los distintos objetivos como de la verosimilitud y el grado con el cual se conseguirán.

Manipulación del conocimiento incierto Ejemplo de regla para diagnóstico usando lógica de predicados de primer orden: ∀ p Síntoma(p, Dolor-de-muelas) ⇒ Enfermedad(p, Caries) Esta regla es errónea y, para hacerla cierta, hay que añadir una lista de causas: ∀ p Síntoma(p, Dolor-de-muelas) ⇒ Enfermedad(p, Caries) ∨ Enfermedad(p, Dolor-de-muelas) ∨ Enfermedad(p, Absceso)…

Manipulación del conocimiento incierto Usar la lógica de predicados de primer orden en un dominio como el diagnóstico falla por tres razones principales: Pereza: poner en una lista el conjunto completo de antecedentes y consecuentes que se necesitan para asegurar una regla sin excepciones tiene demasiado trabajo. Ignorancia teórica: la ciencia no tiene una teoría completa para el dominio. Ignorancia práctica: incluso si se conocen todas las reglas, pudiera haber incertidumbre sobre un paciente particular, ya sea porque no se hayan realizado todos los chequeos necesarios o porque no puedan realizarse.

Manipulación del conocimiento incierto En realidad, la conexión entre dolor de muelas y caries no es exactamente una consecuencia lógica en ninguna dirección. En dominios sentenciosos, el conocimiento de un agente proporciona sólo un grado de creencia en las oraciones. La herramienta para tratar con grados de creencia es la teoría de la probabilidad, que asigna a cada oración un grado numérico entre 0 y 1. La probabilidad proporciona una manera de resumir la incertidumbre que se deriva de nuestra pereza e ignorancia.

Manipulación del conocimiento incierto La creencia puede provenir de datos estadísticos o de reglas generales o de una combinación de fuentes de indicios. Asignar probabilidad 0 a una oración determinada corresponde a una creencia inequívoca de que la oración es falsa. Asignar una probabilidad de 1 corresponde a una creencia rotunda de que la oración es cierta. Las probabilidades entre 0 y 1 corresponden a grados intermedios de creencia en la veracidad de la oración.

Manipulación del conocimiento incierto La oración en sí misma es de hecho o verdadera o falsa. El grado de creencia es diferente del grado de veracidad. Una probabilidad de 0.8 no significa “80% verdadero” sino una expectativa muy fuerte (del 80%) de que algo sea verdadero. La teoría de la probabilidad cumple la misma obligación ontológica que la lógica: los hechos del mundo o son verdaderos o no. Los grados de veracidad son la materia de la lógica borrosa.

Manipulación del conocimiento incierto En lógica, una oración tal como “El paciente tiene una caries” es verdadera o falsa. En teoría de la probabilidad, la oración “La probabilidad de que el paciente tiene una caries es 0.8” hace referencia a creencias de un agente, no directamente al mundo. Estas creencias dependen de las percepciones que el agente ha recibido hasta el momento. Estas percepciones constituyen la evidencia sobre la que se basan las probabilidades. Por ejemplo: –Un agente saca una carta de un mazo barajado. –Antes de mirar la carta, el agente asignaría una probabilidad de 1/52 de que se trata del as de picas. –Después de mirar la carta, la probabilidad para la misma proposición debería ser 0 o 1.

Manipulación del conocimiento incierto Asignar una probabilidad a una proposición es análogo a decir si una oración lógica determinada está producida por una base de conocimiento, más que si es o no cierta. Todas las oraciones deben así indicar la evidencia con respecto a la cual se está calculando la probabilidad. Cuando un agente recibe nuevas percepciones/evidencias, sus valoraciones de probabilidad se actualizan. Antes de que la evidencia se obtenga, se habla de probabilidad a priori o incondicional. Después de obtener la evidencia, se habla de probabilidad a posteriori o condicional.

10 Notación básica con probabilidades Proposiciones –Los grados de creencia se aplican siempre a las proposiciones, afirmaciones de que tal o cual es el caso. –El elemento básico del lenguaje es la variable aleatoria, que puede pensarse como algo que se refiere a una “parte” del mundo cuyo estado es desconocido inicialmente. –Por ejemplo, Caries podría referirse a si mi muela del juicio inferior izquierda tiene una caries. –Cada variable aleatoria tiene un dominio de posibles valores que puede tomar.

11 Proposiciones Como con las variables PSR, las variables aleatorias (VAs) están típicamente divididas en tres clases, dependiendo del tipo de dominio: –Las VAs booleanas, tal como Caries, tienen el dominio. –Las VAs discretas, que incluyen las VAs booleanas como un caso especial, toman valores en un dominio contable. –Las VAs continuas toman sus valores de los números reales.

12 Sucesos atómicos Un suceso atómico es una especificación completa del estado del mundo. Es la asignación de valores particulares de todas las variables que componen el mundo. Ejemplo: –Si mi mundo consta sólo de las variables booleanas Caries y Dolor-de-muelas, entonces hay exactamente cuatro sucesos atómicos. –La proposición “Caries = falso ∧ Dolor-de-muelas = cierto” es uno de tales sucesos.

13 Probabilidad a priori La probabilidad a priori o incondicional asociada a una proposición a es el grado de creencia que se le otorga en ausencia de cualquier otra información. Se escribe como P(a). Ejemplo: –P(Caries = cierto) = 0.1 o P(caries) = 0.1 Es importante recordar que P(a) puede usarse sólo cuando no hay otra información.

14 Probabilidad a priori Para hablar de las probabilidades de todos los valores posibles de una VA: –Usaremos una expresión como P(Tiempo), que denota un vector de valores que corresponden a las probabilidades de cada estado individual del tiempo. –P(Tiempo) = (normalizado, i.e., suma 1) –(El dominio de Tiempo es ) Esta expresión define una distribución de probabilidad a priori para la VA Tiempo.

15 Probabilidad a priori Expresiones como P(Tiempo, Caries) se usan para indicar las probabilidades de todas las combinaciones de los valores de un conjunto de VAs. En este caso se hablaría de distribución de probabilidad conjunta de Tiempo y Caries.

La distribución de probabilidad conjunta para un conjunto de VAs proporciona la probabilidad de casa suceso atómico que involucre esas VAs. P(Tiempo, Caries) = una matriz 4 × 2 de valores de probabilidad: Probabilidad a priori Tiempo =soleadolluviosonubosonevado Caries = cierto Caries = falso

Probabilidad a priori Una distribución de probabilidad conjunta que considere el conjunto completo de VAs que se utilicen para describir el mundo se llama distribución de probabilidad conjunta completa. Por ejemplo, si el mundo consta exactamente de las variables Caries, Dolor-de-muelas y Tiempo, entonces: P(Caries, Dolor-de-muelas, Tiempo) 17

Probabilidad a priori La anterior distribución conjunta puede representarse como una tabla de dimensión 2 x 2 x 4 con 16 entradas. Todas las preguntas sobre un dominio se pueden contestar con la distribución conjunta completa. Para variables continuas, no es posible escribir la distribución completa como una tabla, ya que hay infinitos valores. 18

Probabilidad a priori Si la variable X denota la temperatura máxima de mañana en Barcelona, entonces la afirmación P(X=x) = U[13, 20](x) expresa la creencia de que X se distribuye uniformemente entre 13 y 20 grados. Las distribuciones de probabilidad para variables continuas se llaman funciones de densidad de probabilidad. 19

20 Los axiomas de la probabilidad 0 ≤ P(a) ≤ 1 P(cierto) = 1 P(falso) = 0 P(a ∨ b) = P(a) + P(b) - P(a ∧ b)

Probabilidad condicional Una vez que un agente obtiene alguna evidencia referente a las VAs que constituyen el dominio, las probabilidades a priori ya no son aplicables. En vez de esas, se usan probabilidades a posteriori o condicionales. La notación que se usa es P(a|b), donde a y b son proposiciones cualesquiera. El operador “|” tiene la menor precedencia posible, así P(a ∧ b|c ∧ d) significa P((a ∧ b)|(c ∧ d)).

Probabilidad condicional Ejemplo: P(caries|dolor-de-muelas) = 0.8 –Se lee como “la probabilidad de un paciente de tener una caries, supuesto que todo lo que conozco es que tiene un dolor de muelas, es 0.8”. Una probabilidad a priori, tal como P(caries), puede contemplarse como un caso especial de la probabilidad condicional P(caries| ), donde la probabilidad se condiciona a ninguna evidencia.

Probabilidad condicional Las probabilidades condicionales pueden definirse en términos de probabilidades no condicionales. La ecuación que se define es: P(a|b) = P(a ∧ b) / P(b) siempre que P(b) > 0. Esta ecuación puede escribirse también como: P(a ∧ b) = P(a|b) P(b) 23

Probabilidad condicional Notation for conditional distributions: P(Cavity | Toothache) = 2-element vector of 2-element vectors If we know more, e.g., cavity is also given, then we have P(cavity | toothache, cavity) = 1 (trivial) New evidence may be irrelevant, allowing simplification, e.g., P(cavity | toothache, sunny) = P(cavity | toothache) = 0.8 This kind of inference, sanctioned by domain knowledge, is crucial.

Probabilidad condicional Definition of conditional probability: P(a | b) = P(a ∧ b) / P(b) if P(b) > 0 Product rule gives an alternative formulation: P(a ∧ b) = P(a | b) P(b) = P(b | a) P(a) A general version holds for whole distributions, e.g., P(Weather,Cavity) = P(Weather | Cavity) P(Cavity) –(View as a set of 4 × 2 equations, not matrix multiplication) Chain rule is derived by successive application of product rule: P(X 1, …,X n ) = P(X 1,...,X n-1 ) P(X n | X 1,...,X n-1 ) = P(X 1,...,X n-2 ) P(X n-1 | X 1,...,X n-2 ) P(X n | X 1,...,X n-1 ) = … = π i= 1 n P(X i | X 1, …,X i-1 )

Inferencia por enumeración A simple method for probabilistic inference uses observed evidence for computation of posterior probabilities. Start with the joint probability distribution: For any proposition φ, sum the atomic events where it is true: P(φ) = Σ ω:ω╞φ P(ω)

Inferencia por enumeración Start with the joint probability distribution: For any proposition φ, sum the atomic events where it is true: P(φ) = Σ ω:ω╞φ P(ω) P(toothache) = = 0.2

Inferencia por enumeración Start with the joint probability distribution: For any proposition φ, sum the atomic events where it is true: P(φ) = Σ ω:ω╞φ P(ω) P(toothache ∨ cavity) = = 0.28

Inferencia por enumeración Start with the joint probability distribution: Conditional probabilities: P(¬cavity | toothache) = P(¬cavity ∧ toothache) P(toothache) = = 0.4

Normalización Denominator can be viewed as a normalization constant α P(Cavity | toothache) = α P(Cavity, toothache) = α [P(Cavity, toothache, catch) + P(Cavity, toothache, ¬ catch)] = α [ + ] = α = General idea: compute distribution on query variable by fixing evidence variables and summing over hidden variables

Inferencia por enumeración Typically, we are interested in: the posterior joint distribution of the query variables X given specific values e for the evidence variables E. Let the hidden variables be Y Then the required summation of joint entries is done by summing out the hidden variables: P(X | E = e) = αP(X,E = e) = αΣ y P(X,E = e, Y = y) X, E and Y together exhaust the set of random variables. Obvious problems: Worst-case time complexity O(d n ) where d is the largest arity and n is the number of variables Space complexity O(d n ) to store the joint distribution How to define the probabilities for O(d n ) entries, when variables can be millions?

Independencia A and B are independent iff P(A|B) = P(A) or P(B|A) = P(B) or P(A, B) = P(A) P(B) P(Toothache, Catch, Cavity, Weather) = P(Toothache, Catch, Cavity) P(Weather) 32 entries reduced to 12; for n independent biased coins, O(2 n ) →O(n) Absolute independence powerful but rare Dentistry is a large field with hundreds of variables, few of which are independent. What to do?

Independencia condicional P(Toothache, Cavity, Catch) has 2 3 – 1 (because the numbers must sum to 1) = 7 independent entries If I have a cavity, the probability that the probe catches in it doesn't depend on whether I have a toothache: P(catch | toothache, cavity) = P(catch | cavity) The same independence holds if I haven't got a cavity: P(catch | toothache,¬ cavity) = P(catch | ¬ cavity) Catch is conditionally independent of Toothache given Cavity: P(Catch | Toothache,Cavity) = P(Catch | Cavity) Equivalent statements: P(Toothache | Catch, Cavity) = P(Toothache | Cavity) P(Toothache, Catch | Cavity) = P(Toothache | Cavity) P(Catch | Cavity)

Independencia condicional Full joint distribution using chain rule: P(Toothache, Catch, Cavity) = P(Toothache | Catch, Cavity) P(Catch, Cavity) = P(Toothache | Catch, Cavity) P(Catch | Cavity) P(Cavity) = P(Toothache | Cavity) P(Catch | Cavity) P(Cavity) I.e., = 5 independent numbers In most cases, the use of conditional independence reduces the size of the representation of the joint distribution from exponential in n to linear in n. Conditional independence is our most basic and robust form of knowledge about uncertain environments.

Regla de Bayes Product rule P(a ∧ b) = P(a | b) P(b) = P(b | a) P(a) ⇒ Bayes' rule: P(a | b) = P(b | a) P(a) / P(b) or in distribution form P(Y|X) = P(X|Y) P(Y) / P(X) = αP(X|Y) P(Y) Useful for assessing diagnostic probability from causal probability: –P(Cause|Effect) = P(Effect|Cause) P(Cause) / P(Effect) –E.g., let M be meningitis, S be stiff neck: P(m|s) = P(s|m) P(m) / P(s) = 0.8 × / 0.1 = –Note: posterior probability of meningitis still very small!

Regla de Bayes e independencia condicional P(Cavity | toothache ∧ catch) = αP(toothache ∧ catch | Cavity) P(Cavity) = αP(toothache | Cavity) P(catch | Cavity) P(Cavity) This is an example of a naïve Bayes model: P(Cause,Effect 1, …,Effect n ) = P(Cause) π i P(Effect i |Cause) Total number of parameters (the size of the representation) is linear in n.

Resumen Probability is a rigorous formalism for uncertain knowledge. Joint probability distribution specifies probability of every atomic event. Queries can be answered by summing over atomic events. For nontrivial domains, we must find a way to reduce the joint size. Independence and conditional independence provide the tools.