La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

L. E. Sucar / Alberto Reyes

Presentaciones similares


Presentación del tema: "L. E. Sucar / Alberto Reyes"— Transcripción de la presentación:

1 L. E. Sucar / Alberto Reyes
Aprendizaje L. E. Sucar / Alberto Reyes

2 Aprendizaje por Refuerzo
Aprendizaje por Refuerzo es (RL) es: “El problema que enfrenta un agente para aprender a tomar decisiones mediante interacciones a prueba y error con un ambiente dinámico ” [Kaelbling, Littman, Moore, 1995]. “Aprender a asociar situaciones con acciones de modo que se maximice una señal numérica de refuerzo mediante la experimentación ” [Sutton, 98]. © L. E. Sucar & A. Reyes

3 Aprendizaje por Refuerzo
“RL responde la pregunta de como un agente autonomo que sensa y actua en su ambiente puede aprender a escoger acciones optimas para alcanzar sus metas”. [Mitchell, 97]. Ejemplo: Al entrenar un agente para jugar un juego, el entrenador debe asignarle una recompensa positiva al ganar el juego, una negativa al perder, y cero en cualquier otro estado. © L. E. Sucar & A. Reyes

4 Aprendizaje por Refuerzo (RL)
Dado un MDP de tiempo discreto con un conjunto S de estados finitos y un conjunto A de acciones finitas. En cada instante de tiempo t un agente se encuentra en algún estado st. El agente escoge una acción at de A(st) causando una transición de estado a st+1, y observa una recompensa escalar R(st,at) posiblemente aleatoria. La meta es encontrar una asociación de estados a acciones tal que se maximice la recompensa esperada en el tiempo. © L. E. Sucar & A. Reyes

5 Aprendizaje por Refuerzo
© L. E. Sucar & A. Reyes

6 Cual es la diferencia entre un MDP y el RL ?
En ambos casos se desea controlar secuencialmente un sistema para maximizar una recompensa. Para aplicar los métodos de programación dinámica asumimos que: Se conoce la dinámica del sistema y las recompensas esperadas (futuras) Podemos observar el estado perfectamente. El tamaño del espacio de estados no es muy grande- computacionalmente el problema es tratable. Las técnicas de RL operan sin estas suposiciones. © L. E. Sucar & A. Reyes

7 Compromiso entre exploración y explotación
Cuando un modelo (mundo) es desconocido surgen dos objetivos para la selección de acción que se contraponen : Obtener altas recompensas a corto plazo mediante la selección de acciones que lleven a estados buenos por conocidos (explotar) Aprender a relacionar el estado, la acción, y la recompensa seleccionando acciones no antes probadas, o acciones que conduzcan a estados desconocidos (explorar). © L. E. Sucar & A. Reyes

8 Compromiso entre exploración y explotación
Compromiso entre recompensas a corto y a largo plazo. Normalmente se prefiere explorar que explotar. Difícil de lograr un balance óptimo. © L. E. Sucar & A. Reyes

9 Métodos libres de modelos y basado en modelos
Las técnicas de RL para problemas con recompensa no inmediata tienen dos formas: Métodos Libres de Modelo Aprender una política optima sin intentar estimar la recompensa esperada y las probabilidades de transición. Solo se guardan los valores de los estados o de los pares estado-acción. Métodos basados en Modelos intentan aprender un modelo explicito del sistema, y derivar una política de este modelo. Los métodos basados en modelos pueden converger mas rápido, pero requieren mas memoria y tiempo de cómputo. © L. E. Sucar & A. Reyes

10 Q-Learning Q-Learning es un algoritmo popular para RL mediante el cual un agente actualiza una función de utilidad-Q cada época de tiempo. Esta función Q asocia pares estado-acción con la recompensa esperada al tomar dicha acción. Q-learning es un método libre de modelo. © L. E. Sucar & A. Reyes

11 Aprendizaje de Políticas Optimas: Q-Learning
Definir Q*(s,a)=r(s,a)+λ Σj p(j|s,a) V*(j) “valor de tomar la acción a partiendo del estado s y siguiendo la politíca optima.” Algoritmo Q-Learning (Watkings, 1989): Qn+1(s,a)=Qn(s,a)+α(Rn + λ maxa’ Qn(s’,a’)-Qn(s,a)) Si se visita cada par de estados infinito número de veces, Q-learning converge a Q* con probabilidad 1. © L. E. Sucar & A. Reyes

12 Aplicaciones RL Backgammon Ajedrez Control Robótico
Control de Elevadores Asignación dinámica de canales de telecomunicaciones. Etcétera. © L. E. Sucar & A. Reyes


Descargar ppt "L. E. Sucar / Alberto Reyes"

Presentaciones similares


Anuncios Google