PROCESOS DE DECISION DE MARKOV EN EL DISEÑO DE AGENTES INTELIGENTES GERMAN HERNANDEZ Ing. de Sistemas, Universidad Nacional-Bogota

Slides:



Advertisements
Presentaciones similares
Tiempos óptimos de detención y opciones reales en decisiones agrícolas
Advertisements

Nuestro trabajo: Tomar decisiones Resolver problemas.
Juegos estáticos con información incompleta
(información perfecta)
Introducción a la teoría de juegos Rafael Salas abril de 2010
Teoría de juegos: Tema 1 Rafael Salas febrero de 2013
Tema 4. Juegos simultáneos con información incompleta.
Ejemplo 2: Reparto de 3 objetos indivisibles.
Anuncios Prueba 2: el día 21 de mayo. Capítulo 3..
Diseño y análisis de algoritmos
Inteligenica Artificial I Alejandro Permingeat Inteligencia Artificial de Russell y Norving 1° edición 1996 Parte II Capítulo V.
Investigación de Operaciones
INTRODUCCION Análisis de decisiones: Es una herramienta cuyo objetivo es ayudar en el estudio de la toma de decisiones en escenarios bajo incertidumbre.
Investigación de Operaciones
INSTITUTO TECNOLÒGICO UNIDAD IV CADENAS DE MARKOV
Ingeniería en Ciencias Económicas y Financieras
Ingeniería Matemática
Ingeniería en Ciencias Económicas y Financieras
Tema 1: Programación dinámica
Son problemas secuenciales: El problema se puede dividir en etapas. Definición: Método que permite determinar de manera eficiente las decisiones que optimizan.
Juego repetido Las estrategias de los jugadores son dinámicas y cambiantes. El juego de etapa que se juega en cada interacción es estático e inmutable.
Definición Los Algoritmos Genéticos son métodos adaptativos que pueden usarse para resolver problemas de búsqueda y optimización. los Algoritmos Genéticos.
UNIVERSIDAD COMPLUTENSE DE MADRID D epartamento de Fundamentos del Análisis Económico I Teoría de juegos: Tema 2 Rafael Salas febrero de 2005.
Sesión 12: Procesos de Decisión de Markov
MODELOS DETERMINÍSTICOS VS MODELOS ESTOCÁSTICOS
Jesús Muñoz San Miguel Matemáticas II: Teoría de juegos no cooperativos Tercera parte.
UNIDAD II ANALISIS DE DECISIONES
Cadenas de Markov de Tiempo Discreto
Administración Financiera
Leydy Johanna Hernández
Programación dinámica: Introducción
ELEMENTOS CONCEPTUALES Y COMPONENTES DE LOS SITEMAS
Sesión 6: Campos de Markov
Sesión 12: Procesos de Decisión de Markov. Incertidumbre - MDP, L.E. Sucar2 Procesos de Decisión de Markov Procesos de Decisión Secuenciales Procesos.
Sesión 5: Modelos Ocultos de Markov
Programación Dinámica
Control Estadístico de Procesos Introducción a la Probabilidad.
Ecuaciones de Chapman Kolmogorov
M. Angélica Maulén-Yañez (1) y Eduardo González-Olivares (2)
INVESTIGACION DE OPERACIONES
RIESGO Y ESTRATEGIA. HASTA AHORA HEMOS EVALUADO VARIABLES QUE PUEDEN SER CONSIDERADAS COMO CIERTAS (SALVO EN EL CASO DE INFORMACION ASIMETRICA) SIN EMBARGO.
Toma de Decisiones Toda toma de decisión empieza con la detección de un problema. Para tomar la decisión correcta, se debe: Definir el problema en forma.
Simular: Representar una cosa, fingiendo o imitando lo que no es.
Programación Lineal Entera Antonio H. Escobar Z Universidad Tecnológica de Pereira – Colombia Posgrado en Ingeniería Maestría en Ingeniería Eléctrica.
Capítulo 12: Selección adversa y el desempleo involuntario
Una introducción a la computación evolutiva
Investigación Operativa Introducción Unidad 1
ANÁLISIS Y EVALUACIÓN DE FALLAS
Sesión 12: Procesos de Decisión de Markov
Capítulo 10: Incertidumbre y utilidad esperada
Daniel casas. Profesor de economía matemática. Escuela Colombiana de Ingeniería.
1 Problemas de decisión Tipo particular de problemas de optimización Sistemas que evolucionan con el tiempo Se toman decisiones en momentos sucesivos de.
Econometría Procesos Estocásticos Capitulo IV
INTRODUCCIÓN A JUEGOS (BÚSQUEDA CON ADVERSARIOS)
Sesión 12: Procesos de Decisión de Markov
Identificación de Sistemas El problema de la Identificación de Sistemas.
L. E. Sucar / Alberto Reyes
 Introducción a las decisiones financieras Unidad III.
Entendiendo las partes
Richard de Neufville © Michael Benouaich Slide 1 of 16 Massachusetts Institute of Technology Engineering System Analysis for Design Valoración mediante.
Taller: Inteligencia Computacional
2.1 DEFINICIONES CARACTERÍSTICAS Y SUPOSICIONES.
EII – 405 Investigación de Operaciones
AUTONOMA SAN FRANCISCO
TEMA: DECISIONES BAJO RIESGO –TEORIA DE JUEGOS Ing. Larry D. Concha B.
Inferencia Estadística Conceptos Previos. Conceptos Previos Población: Es la colección de toda la posible información que caracteriza a un fenómeno aleatorio.
UNIDAD II LINEAS DE ESPERA
Repaso del capítulo 10, 11 y 12 Econ Capítulo 10 En este capítulo se introduce el concepto de incertidumbre y de riesgo en la toma de decisiones.
Hernández Camacho Víctor Jesus Islas Sánchez Karla Vanessa
Estrategias Mixtas En teoría de juegos una estrategia mixta, a veces también llamada estrategia mezclada (del nombre en inglés mixed strategy), es una.
Transcripción de la presentación:

PROCESOS DE DECISION DE MARKOV EN EL DISEÑO DE AGENTES INTELIGENTES GERMAN HERNANDEZ Ing. de Sistemas, Universidad Nacional-Bogota ( PROGRAMACION DINAMICA ESTOCASTICA )

INTRODUCCIÓN El objetivo fundamental de la charla es estudiar problemas de decisión secuencial, en los que los resultados de las decisiones o acciones, que se toman en cada paso, no son predecibles completamente; i.e., hay incertidumbre sobre los efectos de las acciones efectuadas. El objetivo en este tipo problemas es encontrar una políticas optima de acción.

Teoría de control  Control optimo de sistemas dinámicos estocásticos. Teoría de la decisión, Inv. de operaciones, Ingeniería financiera  Control de cadenas finitas de Markov. Inteligencia artificial  Decisiones secuénciales “inteligentes” (agentes intligentes).

Temario n Decisiones secuenciales bajo incertidumbre n Programación Dinámica Estocástica n Procesos de Decisión de Markov n Referencias

I. DESICIONES SECUENCIALES BAJO INCERTIDUMBRE La incertidumbre introduce dos características nuevas a un problemas de optimización Riesgo Obtención de información durante el proceso de decisión

(D,N,O,f,) D : conjunto de posibles acciones o decisiones. N : conjunto de estados de la naturaleza (índices de la incertidumbre en el problema). O : conjunto de salidas del problema. f: DNO función de salida.  : relación de preferencia entre salidas. Problema de decisión bajo incertidumbre

Un agente que toma decisiones tiene una función de utilidad o recompensa R u : DN  R u(a,y) es el pago obtenido al tomar la acción a en el estado y de la naturaleza. La naturaleza es modelada como un generador de estados aleatorios con una ley de probabilidad y ~P(). Los agentes se suponen maximixadores de la utilidad. Entonces la estrategia optima  ( x ) es la mejor respuesta del agente a la selección aleatoria y de la naturaleza, con x la información disponible. “Una estrategia optima es la solución de equilibrio a un juego en contra de la naturaleza.”

Estrategias optimas Sin información Con información completa

Con información parcial

Desiciones secuenciales Sistemas dinámicos S utut wtwt ytyt F(u t,w t,x t ) x t+1 F(x t ) x t+1 Autónomo No autónomo +incertidumbre Parcialmente observado

Sistema dinámico (X,U,Y,W,F,S) X conjunto de estados internos U conjunto de entradas Y conjunto de salidas W conjunto de incertidumbre F: UWX  X dinámica del sistema S: X Y función de salida sistema

Ejemplos tomados de [1]

S utut wtwt xtxt F   : Y  U “control de realimentación” “política” “función de decisión” (y t ) ytyt ytyt Control

D= conjunto de posibles controladores  N=W O=(UWY) f: D  N  O (,w)  (u,w,y) dados u 0,x 0  asociado con una función de utilidad R R : O T  R, con T espacio de tiempo. Problema de decisión secuencial bajo incertidumbre D= conjunto de posibles controladores  N=W O=(UWY) f: D  N  O (,w)  (u,w,y) dados u 0,x 0  asociado con una función de utilidad R R : O T  R, con T espacio de tiempo.

La política optima  *, dada una estructura probabilistica sobre (u 0,x 0,w) que modela la incertidumbre, es la que maximiza el funcional de utilidad V  = E w, u 0,x 0 [ R (u,w,y) ], i.e., V  * = max  V 

Problemas de decisión secuencial de tiempo discreto Diagramas de influencia Howard y Matheson 1984[2]

Problemas de Decisión Secuencial Tiempo discreto T={0,1,2,...,N,} Utilidad Tiempo-separables (utilidad aditiva) R R t : XU  R ( x t,a t )  R ( x t,a t ) R =  R t I. PROG. DINAM. ESTOCASTICA

Principio de Optimalidad [Richard Bellman,1956 ] Una política optima tiene la propiedad de que sin importar la decisión y el estado inicial, las decisiones restantes deber ser optimas,con respecto al estado resultante de la decisión inicial en el estado inicial. “If you don't do the best with what you have happened to have got, you will never do the best with what you should have had.” [Rutherford Aris]

Horizonte Finito Infinito Espacio de estados Discreto Finito Infinito Continuo Transiciones Determinísticas Probalísticas

Modelo de juego Cada jugada un jugador puede apostar cualquier cantidad menor o igual su fortuna presente y ganara o perdera esa cantidad con probabilidades p y q=p-1. Al jugador se le permite hacer n apuestas su objetivo es maximizar la esperanza del logaritmo de su fortuna final. Que estrategia debe seguir para conseguir esto?

Sea V n (x) la maxima ganacia esperada del juagor si tiene una fortuna presente x y se le permite n juegos más. con la condicion de frontera V 0 (x) = log(x) tenemos que

Tenemos entonces

Tenemos en general

I. MDP’s

Navegacion de robots Agentes financieros Inventarios Modelos Biologicos Agentes en la web Aplicaciones

Modelos de agentes tomados de [1]

Referencias [1] Dean T. Decision-Theoretic Planning and Markov Decision Porcesses [2] Dean T. Algerbaic Structure in Sequential Decision Processes) ttp:// [3] Bertsekas D.Dynamic Programing and Stochastic Control,Academic Press, 1987 [4] Ross Stochastic Dynamic Programming, John Wiley, [5] Putterman M.L. Markov Descion Processes in Handbook of IO and MS Vol2 Stochastic Models, Eds Heyman Sobel, 1990