L. E. Sucar / Alberto Reyes

Slides:



Advertisements
Presentaciones similares
Representación del conocimiento
Advertisements

Búsqueda en un espacio de Estado
Ejemplo 2: Reparto de 3 objetos indivisibles.
Inteligencia Artificial
Planificación de Monoprocesadores
REGRESION LINEAL SIMPLE
Algoritmos Voraces.
Plan de Negocios Julio Vela.
Diseño y Elaboración de Proyectos
Mate 3042 Probabilidad El concepto de probabilidad nace con el deseo del hombre de conocer con certeza los eventos futuros. Es por ello que el estudio.
Bivariadas y Multivariadas
Trivia del servicio JUEGO INICIAR  Instrucciones: Aplicación práctica
COSTOS ESTANDAR DEFINCIÓN
INFERENCIA ESTADISTICA
CONCEPTOS ESCENCIALES  Planeación: Proceso de establecer objetivos y escoger el medio mas apropiado para desarrollarlo antes de la acción.  Estrategia:
Equipo # 1 Norma Pimentel Wendy Hernandez Julisa Javier Mario Tristán.
JUEGOS DE PRESENTACIÓN JUEGOS DE CONOCIMIENTO
Sesión 12: Procesos de Decisión de Markov
CAPÍTULO 7: LA TEORÍA Y LA ESTIMACIÓN DE LA PRODUCCIÓN.
Control estadístico de Proceso
Sesión 2: Métodos Probabilísticos Básicos
Decisiones bajo Incertidumbre Teoría de Juegos
Leydy Johanna Hernández
Agentes Inteligentes Capítulo 2.
VARIABLE ALEATORIA Y DISTRIBUCION DE PROBABILIDAD
Bases de Conocimientos Tema: Arquitectura de pizarrón Maestro: Guido Fidel Flores Pérez Alumnos: Arlethe Anahí Espinosa Glez. Rosa Estela Castillo Negrín.
Sesión 12: Procesos de Decisión de Markov. Incertidumbre - MDP, L.E. Sucar2 Procesos de Decisión de Markov Procesos de Decisión Secuenciales Procesos.
Instrumento Audiovisual Inteligente Intelligent Grafikton.
Probabilidad. Variables aleatorias.
Organización y Administración II Problemas Universo Indeterminado
Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos.
Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE Julio 2009
Aprendizaje (Machine Learning)  Pregunta interesante: Podemos hacer que las computadoras aprendan?  Aprender: mejorar automáticamente con la experiencia.
MÉTODO DE PIXELES DE BORDE
Planificación de Procesos
Sistemas Inteligentes Distribuidos Sistemas Inteligentes Distribuidos Sesión 13 L. Enrique Sucar / Marco López Sesión 13 L. Enrique Sucar / Marco López.
Unidad V: Estimación de
Teoría de Colas.
Sistemas Inteligentes Distribuidos Sistemas Inteligentes Distribuidos Sesión 8 Eduardo Morales / L. Enrique Sucar Sesión 8 Eduardo Morales / L. Enrique.
MUESTREO Enseñar no garantiza el "aprender"....
Robótica Inteligente L. Enrique Sucar Leonardo Romero Marco López ITESM Cuernavaca.
Programación Lineal Entera Antonio H. Escobar Z Universidad Tecnológica de Pereira – Colombia Posgrado en Ingeniería Maestría en Ingeniería Eléctrica.
Estadística Administrativa II
Una introducción a la computación evolutiva
Unidad V: Estimación de
Sesión 12: Procesos de Decisión de Markov
1 Problemas de decisión Tipo particular de problemas de optimización Sistemas que evolucionan con el tiempo Se toman decisiones en momentos sucesivos de.
Semana 1 Riesgo y Rendimiento Finanzas Administrativas III
Modelos Gráficos Probabilistas
Sesión 12: Procesos de Decisión de Markov
PRUEBAS ESTADISTICAS NO PARAMETRICAS
Robótica Inteligente L. Enrique Sucar Marco López ITESM Cuernavaca.
Introducción a la Robótica
PROCESOS DE DECISION DE MARKOV EN EL DISEÑO DE AGENTES INTELIGENTES GERMAN HERNANDEZ Ing. de Sistemas, Universidad Nacional-Bogota
POLÍTICAS TURÍSTICAS Y DESARROLLO REGIONAL. PLANEACIÓN Involucra la necesidad de cambiar la situación actual por otra supuestamente mejor, y para ello.
Agentes e IA Distribuida L. E. Sucar / Alberto Reyes Robótica Inteligente.
Tomando decisiones sobre las unidades de análisis
DISEÑAR Y ELABORAR ALGORITMOS NOMBRE: LAURA PAEZ GARCIA GRADO Y GRUPO: 1 “3” MATERIA: INFORMÁTICA Y COMPUTACIÓN MAESTRO: ÁNGEL BUENDÍA TURNO: VESPERTINO.
TIPO DE APRENDIZAJE La siguiente es una lista de los tipos de aprendizaje más comunes citados por la literatura de pedagogía: Aprendizaje receptivo: en.
Taller: Inteligencia Computacional
Método de mínimos cuadrados
1.Introducción a la Estadística 2.Descripción de los conjuntos de datos 3.Uso de la Estadística para sintetizar conjuntos de datos 4.Probabilidad 5.Variables.
RIESGO, RENDIMIENTO Y VALOR
Control Moderno de Motores Eléctricos
P y E 2012 Clase 15Gonzalo Perera1 Repaso de la clase anterior. Métodos de estimación.
Pruebas paramétricas y no paramétricas
Método Simplex Es un procedimiento sistemático y eficiente para encontrar y probar soluciones situadas en los puntos extremos de la región de soluciones.
REGRESIÓN LINEAL SIMPLE
APRENDIZAJE Somos aprendices: sistemas abiertos de interacción con el ambiente del cual se obtiene información. Supone transformación Los procesos de cambio.
TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.
Transcripción de la presentación:

L. E. Sucar / Alberto Reyes Aprendizaje L. E. Sucar / Alberto Reyes

Aprendizaje por Refuerzo Aprendizaje por Refuerzo es (RL) es: “El problema que enfrenta un agente para aprender a tomar decisiones mediante interacciones a prueba y error con un ambiente dinámico ” [Kaelbling, Littman, Moore, 1995]. “Aprender a asociar situaciones con acciones de modo que se maximice una señal numérica de refuerzo mediante la experimentación ” [Sutton, 98]. © L. E. Sucar & A. Reyes

Aprendizaje por Refuerzo “RL responde la pregunta de como un agente autonomo que sensa y actua en su ambiente puede aprender a escoger acciones optimas para alcanzar sus metas”. [Mitchell, 97]. Ejemplo: Al entrenar un agente para jugar un juego, el entrenador debe asignarle una recompensa positiva al ganar el juego, una negativa al perder, y cero en cualquier otro estado. © L. E. Sucar & A. Reyes

Aprendizaje por Refuerzo (RL) Dado un MDP de tiempo discreto con un conjunto S de estados finitos y un conjunto A de acciones finitas. En cada instante de tiempo t un agente se encuentra en algún estado st. El agente escoge una acción at de A(st) causando una transición de estado a st+1, y observa una recompensa escalar R(st,at) posiblemente aleatoria. La meta es encontrar una asociación de estados a acciones tal que se maximice la recompensa esperada en el tiempo. © L. E. Sucar & A. Reyes

Aprendizaje por Refuerzo © L. E. Sucar & A. Reyes

Cual es la diferencia entre un MDP y el RL ? En ambos casos se desea controlar secuencialmente un sistema para maximizar una recompensa. Para aplicar los métodos de programación dinámica asumimos que: Se conoce la dinámica del sistema y las recompensas esperadas (futuras) Podemos observar el estado perfectamente. El tamaño del espacio de estados no es muy grande- computacionalmente el problema es tratable. Las técnicas de RL operan sin estas suposiciones. © L. E. Sucar & A. Reyes

Compromiso entre exploración y explotación Cuando un modelo (mundo) es desconocido surgen dos objetivos para la selección de acción que se contraponen : Obtener altas recompensas a corto plazo mediante la selección de acciones que lleven a estados buenos por conocidos (explotar) Aprender a relacionar el estado, la acción, y la recompensa seleccionando acciones no antes probadas, o acciones que conduzcan a estados desconocidos (explorar). © L. E. Sucar & A. Reyes

Compromiso entre exploración y explotación Compromiso entre recompensas a corto y a largo plazo. Normalmente se prefiere explorar que explotar. Difícil de lograr un balance óptimo. © L. E. Sucar & A. Reyes

Métodos libres de modelos y basado en modelos Las técnicas de RL para problemas con recompensa no inmediata tienen dos formas: Métodos Libres de Modelo Aprender una política optima sin intentar estimar la recompensa esperada y las probabilidades de transición. Solo se guardan los valores de los estados o de los pares estado-acción. Métodos basados en Modelos intentan aprender un modelo explicito del sistema, y derivar una política de este modelo. Los métodos basados en modelos pueden converger mas rápido, pero requieren mas memoria y tiempo de cómputo. © L. E. Sucar & A. Reyes

Q-Learning Q-Learning es un algoritmo popular para RL mediante el cual un agente actualiza una función de utilidad-Q cada época de tiempo. Esta función Q asocia pares estado-acción con la recompensa esperada al tomar dicha acción. Q-learning es un método libre de modelo. © L. E. Sucar & A. Reyes

Aprendizaje de Políticas Optimas: Q-Learning Definir Q*(s,a)=r(s,a)+λ Σj p(j|s,a) V*(j) “valor de tomar la acción a partiendo del estado s y siguiendo la politíca optima.” Algoritmo Q-Learning (Watkings, 1989): Qn+1(s,a)=Qn(s,a)+α(Rn + λ maxa’ Qn(s’,a’)-Qn(s,a)) Si se visita cada par de estados infinito número de veces, Q-learning converge a Q* con probabilidad 1. © L. E. Sucar & A. Reyes

Aplicaciones RL Backgammon Ajedrez Control Robótico Control de Elevadores Asignación dinámica de canales de telecomunicaciones. Etcétera. © L. E. Sucar & A. Reyes