REINFORCEMENT LEARNING

Slides:



Advertisements
Presentaciones similares
Tiempos óptimos de detención y opciones reales en decisiones agrícolas
Advertisements

Complejidad Computacional
Planificación de Monoprocesadores
Investigación de Operaciones
ESTIMACION HOLISTICA DEL RIESGO SISMICO URBANO
BDI A GENTS F ROM T HEORY TO P RACTICE Anand S. Rao & Michael P. Georgeff Australian Artificial Intelligence Institute April, 1995 Miguel García-Serrano.
Ingeniería en Ciencias Económicas y Financieras
Ingeniería Matemática
Ingeniería en Ciencias Económicas y Financieras
Tema 1: Programación dinámica
Son problemas secuenciales: El problema se puede dividir en etapas. Definición: Método que permite determinar de manera eficiente las decisiones que optimizan.
Definición Machine learning traducido al español significa el aprendizaje automático o también aprendizaje de las maquinas. A partir de esto podemos darle.
KRIGING.
Pruebas de Especificación en el Modelo de Regresión Múltiple
Versión 2004 Enrique Bañuelos Gómez
Análisis de valores perdidos
Using Localised “Gossip” to Structure Distributed Learning Bruce Edmonds Centre for Policy Modelling Manchester Metropolitan University.
Capitulo 10: La metodología Box-Jenkins
“Persuasive argumentation in negotiation” Katia P. Sycara.
WinQSB Yih-Long Chang Area Coordinator of Operations Management Dupree College of Management Georgia Institute of Technology.
APRENDIZAJE WIDROW- HOFF
Aplicado al seguimiento de objetos Jose Maria Buades Rubio
Algoritmos Genéticos (AG) Integrantes: Rubén Levineri Miguel Rozas Juan Yañez Faltan autores y bibliografía.
ALGORITMO GENÉTICO John Henry Holland (n. 02 de febrero 1929, Fort Wayne, Indiana, EE.UU.) ostenta los títulos de Profesor de Psicología y Profesor de.
Simulacion de sistemas dinamicos
Sesión 12: Procesos de Decisión de Markov
Sesión 2: Métodos Probabilísticos Básicos
Unidad V: Estimación de
Bayesian Inference of Phylogeny
GRUPO DE INVESTIGACION EN CONTROL INDUSTRIAL
Sesión 6: Campos de Markov
Sesión 12: Procesos de Decisión de Markov. Incertidumbre - MDP, L.E. Sucar2 Procesos de Decisión de Markov Procesos de Decisión Secuenciales Procesos.
Diseño y análisis de algoritmos
¿Por que estudiar búsquedas? Recordemos que la mayoría de los problemas en inteligencia artificial, involucran como tema central un proceso de búsqueda.
Unidad V: Estimación de
ESTIMACION En varios pasajes de este libro hemos planteado la dificultad que se confronta en las investigaciones, de llegar a conclusiones sobre una población.
1 MÉTODOS DE SIMULACIÓN Permitien el estudio de propiedades de sistemas complejos. Generación de conjunto de configuraciones distintas para un mismo sistema.
INVESTIGACION DE OPERACIONES
Backtracking 1. Método general. 2. Análisis de tiempos de ejecución.
Universidad Nacional de Colombia Curso Análisis de Datos Cuantitativos.
Act. Carlos Vladimir Rodríguez Caballero HSBC MÉXICO Facultad de Ciencias Riesgo de CréditoUNAM AME p.1/16.
Capítulo 7 Estimación de Parámetros Estadística Computacional
Simular: Representar una cosa, fingiendo o imitando lo que no es.
Métodos de Análisis Ingenieril
Una introducción a la computación evolutiva
Escalabilidad en los Algoritmos de Aprendizaje de Redes Bayesianas ISL – Dpto de Informática – UCLM - Albacete.
Unidad V: Estimación de
Investigación de Operaciones Ing. M.Sc. Eloy Colquehuanca
Sesión 12: Procesos de Decisión de Markov
Teoría Cinética. Mecánica Estadística Lunes 11 de junio de 2007.
1 Problemas de decisión Tipo particular de problemas de optimización Sistemas que evolucionan con el tiempo Se toman decisiones en momentos sucesivos de.
Sabemos reconocerlas, y calcularlas como soluciones de sistemas de ecuaciones, o de desigualdades Buscamos métodos de cálculo generales y eficientes Problemas.
Sesión 12: Procesos de Decisión de Markov
L. E. Sucar / Alberto Reyes
L A ESTIMACION DE PARAMETROS 1. /31 CONTENIDO Principio fundamental de la estimación de parámetros Un metodo grafico para la estimacion de parametros.
DERIVACIÓN NUMÉRICA MÉTODO DE DIFERENCIAS DIVIDIDAS FINITAS.
Introducción a la Robótica
Estimación y contraste de hipótesis
PROCESOS DE DECISION DE MARKOV EN EL DISEÑO DE AGENTES INTELIGENTES GERMAN HERNANDEZ Ing. de Sistemas, Universidad Nacional-Bogota
Introducción a los TADs
Escuela Politécnica Superior Departamento de Ingeniería Eléctrica Directores: Edgardo D. Castronuovo Pablo Ledesma Fecha de inicio: Noviembre de 2011 Fecha.
Heurística. Los procesos que se llevan a cabo en el cerebro pueden ser analizados, a un nivel de abstacción dado, como procesos computacionales de algún.
Vicente Boluda Grau – G.I.M – P.A.T.G
Aspectos generales de la investigación educativa en el SNIT
OPTIMIZACION DEL DESEMPEÑO DE ERROR
Tópicos en Inteligencia Artificial I Universidad Católica San Pablo.
Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.
Estimación Estadística Tares # 3. Estimación Estadística Conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a.
Unsupervised visual learning of three-dimensional objects using a modular network architecture Ando, Suzuki, Fujita Neural Networks 12 (1999)
Conclusiones: En este trabajo se ha demostrado que se pueden aplicar los algoritmos OCH al ajuste de los parámetros de un modelo borroso mediante la discretización.
Transcripción de la presentación:

REINFORCEMENT LEARNING Jesús Fernández Bes Noviembre 2012

REINFORCEMENT LEARNING ÍNDICE ¿Qué es, qué no es y para qué sirve el RL? Formulación: Markov Decision Processes Dynamic Programming Algoritmos clásicos de RL Líneas de Investigación y otros aspectos de interés en RL. Aproximación funcional RL con GP POMDP Otros aspectos REINFORCEMENT LEARNING

REINFORCEMENT LEARNING DEFINICIÓN Reinforcement Learning is the problem faced by an autonomous agent that learns behavior through trial-and-error interactions with a dynamic environment. Kaelbling et al. 1996 Interacción Recompensa Autonomía Muestreo REINFORCEMENT LEARNING

EL PROBLEMA DE REINFORCEMENT LEARNING El agente interactua con el entorno. Acciones modifican el entorno y proporcionan una recompensa. No se conoce la dinámica de estados. Agente trata de aprender comportamiento óptimo. r Environment s’ s  s’ a ¿Qué acción tomar en cada estado para maximizar una recompensa a largo plazo? REINFORCEMENT LEARNING

¿A QUÉ SE PARECE PERO NO ES RL? Supervised Learning. Hay par entrada/salida. No una recompensa inmediata. En RL no se sabe que acción es mejor a largo plazo. Active Learning. Elegir muestras de las que aprender. Siguen siendo pares entrada/salida. Multi – Armed Bandits. En MAB no existe concepto estado. Dynamic Programming. Se conoce toda la dinámica de estados. REINFORCEMENT LEARNING

REINFORCEMENT LEARNING APLICACIONES Rick Sutton. Deconstructing Reinforcement Learning. ICML 09 REINFORCEMENT LEARNING

MARKOV DECISION PROCESSES Un Markov Decision Process (MDP) es un tupla <S,A,T,R> donde: S es un conjunto finito de estados, A es un conjunto finito de acciones, T es una función de transición definida como R es una función de recompensa definida como Dado un MDP definimos una política como una función: Determinista Estocástica REINFORCEMENT LEARNING

OBJETIVOS. CRITERIOS A OPTIMIZAR ¿ Cual es el objetivo del agente? ¿ Cómo tener en cuenta la recompensa a largo plazo? Principalmente hay tres modelos: Horizonte Finito Horizonte Infinito Recompensa Promedio REINFORCEMENT LEARNING

Value Function Assumption: FUNCIONES DE VALOR Discounted returns. Valor esperado de las recompensas futuras (con descuento). State Value function: State-Action Value function: Value Function Assumption: “All efficient methods for solving sequential decision problems estimate value functions as an intermidiate step.” REINFORCEMENT LEARNING

REINFORCEMENT LEARNING ECUACIONES DE BELLMAN Richard Bellman 1957. Ambas funciones se pueden escribir de forma recursiva. La solución óptima satisface: REINFORCEMENT LEARNING

ECUACIONES DE BELLMAN (2) Desarrollo equivalente para Q Existe una relación directa entre V* y Q*: REINFORCEMENT LEARNING

REINFORCEMENT LEARNING DYNAMIC PROGRAMMING Model-Based. Entorno Determinista o estadística conocida. Modelo perfecto de MDP. Útil desde el punto de vista teórico y algorítmico. Relativamente eficientes pero poco útiles en RL o cuando el espacio de estados es muy grande. REINFORCEMENT LEARNING

ALGORITMOS BÁSICOS DE DP (1): POLICY ITERATION REINFORCEMENT LEARNING

ALGORITMOS BÁSICOS DE DP (2): VALUE ITERATION REINFORCEMENT LEARNING

DE DYNAMIC PROGRAMMING A REINFORCEMENT LEARNING Model - Free Estadística desconocida y parcialmente desconocida. Necesidad de muestreo y exploración. Compromiso Exploration vs. Exploitation Necesario explorar el espacio de políticas para encontrar buenas políticas. Necesario usar las políticas buenas el mayor tiempo posible para obtener mucha recompensa. REINFORCEMENT LEARNING

POLÍTICAS DE EXPLORACIÓN Hay políticas sencillas de exploración. Se basan en las utilizadas en problemas de bandits: ε – greedy strategy Elegir acción a según π (mejor acción posible) con probabilidad 1-ε. Elegir acción a aleatoria con probabilidad ε. Boltzmann (softmax) strategy Optimistic Q initialization REINFORCEMENT LEARNING

REINFORCEMENT LEARNING MÉTODOS BÁSICOS DE RL Métodos de Monte Carlo Se estiman las funciones de valor como promedios observados durante la iteración. Sobretodo útiles en horizonte finito. Juegos. Temporal - Difference Learning Se aprenden las estimaciones de los valores a partir de otras estimaciones. Online. No necesitan barrer todo el espacio de estado. REINFORCEMENT LEARNING

REINFORCEMENT LEARNING TD (0) Sólo modifica la policy evaluation. REINFORCEMENT LEARNING

REINFORCEMENT LEARNING SARSA On-policy. Útil en entornos no estacionarios. REINFORCEMENT LEARNING

REINFORCEMENT LEARNING Q - LEARNING Algoritmo más popular con diferencia. Off-Policy. REINFORCEMENT LEARNING

ACTOR-CRITIC LEARNING El agente se compone de dos partes. Actor: selecciona la política de acuerdo a las preferencias p(st,at). Critic: Evalúa las acciones. Mediante el TD-error: Se actualizan las Preferencias: REINFORCEMENT LEARNING

APROXIMACIÓN FUNCIONAL Si el número de estados es GRANDE o INFINITO. No se puede representar V o Q como una tabla. Aproximación Least Squares Se representa la Value function ( V o Q ) como una combinación lineal de funciones. Se aproxima minimizando una norma LS REINFORCEMENT LEARNING

Reinforcement Learning con GP Bayesiano: Se mantiene una distribución de probabilidad sobre distintos valores. Permiten incluir conocimiento a priori, exploración, … Existen otras aproximaciones bayesianas además de los GP: BQL,… Rassmussen C.E., Kuss M. Distribución sobre discounted returns, no sólo Esperanza (V = E{D}) mediante un GP. Aprende también las transiciones como GP. Solución cerrada para algunas distribuciones de recompensas. Engel Y., Mannor S., Mier R. TD + Aproximación de V con GP. Implementación online. Kernel Sparsification. REINFORCEMENT LEARNING

PARTIALLY OBSERVABLE MDP Relajar asunción de los MDP: Parte del estado puede ser oculta. Estado S ya no es Markoviano. En POMDP además de <S,A,T,R> se define el conjunto de observaciones Ω y la función O. R y T siguen dependiendo de s, no de o, decidir acción en base a 1 observación ya no es óptimo. Necesita memoria. Belief vector b(s). REINFORCEMENT LEARNING

REINFORCEMENT LEARNING POMDP En general se necesita modelo de T y R. DP o Model-based RL. Diferentes heurísticos para obtener las políticas a partir de los b(s) Métodos de búsqueda de política basados en simulaciones. PEGASUS: Andrew Ng. & Michael Jordan. REINFORCEMENT LEARNING

OTROS ASPECTOS IMPORTANTES Conexiones con la Psicología Cognitiva y la Neurociencia. Los inicios de RL se basan en investigaciones en comportamiento animal. TD basado en “condicionamiento clásico”. Algunos mecanismos del cerebro son muy similares a los algoritmos RL. “Actividad neuronal dopaminérgica”. Resultados Teóricos. Resultados de convergencia asintóticos. Algoritmos básicos. Cotas de complejidad (muestras finitas): PAC-MDP. RL Multiagente. Batch Reinforcement Learning. REINFORCEMENT LEARNING

REINFORCEMENT LEARNING ALGUNAS REFERENCIAS LIBROS Reinforcement Learning: An Introduction. Sutton R. S. & Barto A. G. (1998). Reinforcement Learning: State-of-the-art. Wiering M. & van Otterlo M. (2012). { Capítulo 1 } TUTORIALES Reinforcement Learning: A Survey. Leslie Pack Kaelbling, Michael L. Littman, Andrew W. Moore. Journal of Artificial Intelligence Research , 1996 A tutorial on reinforcement learning techniques. C. H. C. Ribeiro. Proceedings of International Conference on Neural Networks, INNS Press, Washington, DC, USA, July 1999. REINFORCEMENT LEARNING

REINFORCEMENT LEARNING BIBLIOGRAFÍA EXTRA Engel, Y., Mannor, S., Meir, R. Reinforcement Learning with Gaussian Processes. In: Proceedings of the 22nd International Conference on Machine Learning. Vol. 22. Bonn, Germany, pp. 201–208, August 2005. C.E. Rasmussen and M. Kuss. Gaussian Processes in Reinforcement Learning. Advances in Neural Information Processing Systems 16—Proc. Ann. Conf. Neural Information Processing Systems, pp. 751-759, 2004.  Andrew Y. Ng , Michael I. Jordan. PEGASUS: A policy search method for large MDPs and POMDPs. Proceedings of the 16th Conference on Uncertainty in Artificial Intelligence, p.406-415, June 30-July 03, 2000 VIDEOLECTURES.NET TALK. Rick Sutton. Deconstructing Reinforcement Learning. ICML 2009 http://videolectures.net/icml09_sutton_itdrl/ REINFORCEMENT LEARNING