L. E. Sucar / Alberto Reyes

Slides:

Advertisements

Presentaciones similares

Representación del conocimiento

Advertisements

Búsqueda en un espacio de Estado

Ejemplo 2: Reparto de 3 objetos indivisibles.

Inteligencia Artificial

Planificación de Monoprocesadores

REGRESION LINEAL SIMPLE

Algoritmos Voraces.

Plan de Negocios Julio Vela.

Diseño y Elaboración de Proyectos

Mate 3042 Probabilidad El concepto de probabilidad nace con el deseo del hombre de conocer con certeza los eventos futuros. Es por ello que el estudio.

Bivariadas y Multivariadas

Trivia del servicio JUEGO INICIAR  Instrucciones: Aplicación práctica

COSTOS ESTANDAR DEFINCIÓN

INFERENCIA ESTADISTICA

CONCEPTOS ESCENCIALES  Planeación: Proceso de establecer objetivos y escoger el medio mas apropiado para desarrollarlo antes de la acción.  Estrategia:

Equipo # 1 Norma Pimentel Wendy Hernandez Julisa Javier Mario Tristán.

JUEGOS DE PRESENTACIÓN JUEGOS DE CONOCIMIENTO

Sesión 12: Procesos de Decisión de Markov

CAPÍTULO 7: LA TEORÍA Y LA ESTIMACIÓN DE LA PRODUCCIÓN.

Control estadístico de Proceso

Sesión 2: Métodos Probabilísticos Básicos

Decisiones bajo Incertidumbre Teoría de Juegos

Leydy Johanna Hernández

Agentes Inteligentes Capítulo 2.

VARIABLE ALEATORIA Y DISTRIBUCION DE PROBABILIDAD

Bases de Conocimientos Tema: Arquitectura de pizarrón Maestro: Guido Fidel Flores Pérez Alumnos: Arlethe Anahí Espinosa Glez. Rosa Estela Castillo Negrín.

Sesión 12: Procesos de Decisión de Markov. Incertidumbre - MDP, L.E. Sucar2 Procesos de Decisión de Markov Procesos de Decisión Secuenciales Procesos.

Instrumento Audiovisual Inteligente Intelligent Grafikton.

Probabilidad. Variables aleatorias.

Organización y Administración II Problemas Universo Indeterminado

Bioinformática: Fundamentos y aplicaciones de actualidad Curso de verano 2005 Revisión de algunos modelos probabilísticos de evolución genética (Procesos.

Elementos Básicos de Probabilidad y Estadística Javier Aparicio División de Estudios Políticos, CIDE Julio 2009

Aprendizaje (Machine Learning)  Pregunta interesante: Podemos hacer que las computadoras aprendan?  Aprender: mejorar automáticamente con la experiencia.

MÉTODO DE PIXELES DE BORDE

Planificación de Procesos

Sistemas Inteligentes Distribuidos Sistemas Inteligentes Distribuidos Sesión 13 L. Enrique Sucar / Marco López Sesión 13 L. Enrique Sucar / Marco López.

Unidad V: Estimación de

Teoría de Colas.

Sistemas Inteligentes Distribuidos Sistemas Inteligentes Distribuidos Sesión 8 Eduardo Morales / L. Enrique Sucar Sesión 8 Eduardo Morales / L. Enrique.

MUESTREO Enseñar no garantiza el "aprender"....

Robótica Inteligente L. Enrique Sucar Leonardo Romero Marco López ITESM Cuernavaca.

Programación Lineal Entera Antonio H. Escobar Z Universidad Tecnológica de Pereira – Colombia Posgrado en Ingeniería Maestría en Ingeniería Eléctrica.

Estadística Administrativa II

Una introducción a la computación evolutiva

Unidad V: Estimación de

Sesión 12: Procesos de Decisión de Markov

1 Problemas de decisión Tipo particular de problemas de optimización Sistemas que evolucionan con el tiempo Se toman decisiones en momentos sucesivos de.

Semana 1 Riesgo y Rendimiento Finanzas Administrativas III

Modelos Gráficos Probabilistas

Sesión 12: Procesos de Decisión de Markov

PRUEBAS ESTADISTICAS NO PARAMETRICAS

Robótica Inteligente L. Enrique Sucar Marco López ITESM Cuernavaca.

Introducción a la Robótica

PROCESOS DE DECISION DE MARKOV EN EL DISEÑO DE AGENTES INTELIGENTES GERMAN HERNANDEZ Ing. de Sistemas, Universidad Nacional-Bogota

POLÍTICAS TURÍSTICAS Y DESARROLLO REGIONAL. PLANEACIÓN Involucra la necesidad de cambiar la situación actual por otra supuestamente mejor, y para ello.

Agentes e IA Distribuida L. E. Sucar / Alberto Reyes Robótica Inteligente.

Tomando decisiones sobre las unidades de análisis

DISEÑAR Y ELABORAR ALGORITMOS NOMBRE: LAURA PAEZ GARCIA GRADO Y GRUPO: 1 “3” MATERIA: INFORMÁTICA Y COMPUTACIÓN MAESTRO: ÁNGEL BUENDÍA TURNO: VESPERTINO.

TIPO DE APRENDIZAJE La siguiente es una lista de los tipos de aprendizaje más comunes citados por la literatura de pedagogía: Aprendizaje receptivo: en.

Taller: Inteligencia Computacional

Método de mínimos cuadrados

1.Introducción a la Estadística 2.Descripción de los conjuntos de datos 3.Uso de la Estadística para sintetizar conjuntos de datos 4.Probabilidad 5.Variables.

RIESGO, RENDIMIENTO Y VALOR

Control Moderno de Motores Eléctricos

P y E 2012 Clase 15Gonzalo Perera1 Repaso de la clase anterior. Métodos de estimación.

Pruebas paramétricas y no paramétricas

Método Simplex Es un procedimiento sistemático y eficiente para encontrar y probar soluciones situadas en los puntos extremos de la región de soluciones.

REGRESIÓN LINEAL SIMPLE

APRENDIZAJE Somos aprendices: sistemas abiertos de interacción con el ambiente del cual se obtiene información. Supone transformación Los procesos de cambio.

TAMAÑO DE LA MUESTRA. Para definir el tamaño de la muestra se debe tener en cuenta los recursos disponibles y las necesidades del plan de análisis, el.

Transcripción de la presentación:

L. E. Sucar / Alberto Reyes Aprendizaje L. E. Sucar / Alberto Reyes

Aprendizaje por Refuerzo Aprendizaje por Refuerzo es (RL) es: “El problema que enfrenta un agente para aprender a tomar decisiones mediante interacciones a prueba y error con un ambiente dinámico ” [Kaelbling, Littman, Moore, 1995]. “Aprender a asociar situaciones con acciones de modo que se maximice una señal numérica de refuerzo mediante la experimentación ” [Sutton, 98]. © L. E. Sucar & A. Reyes

Aprendizaje por Refuerzo “RL responde la pregunta de como un agente autonomo que sensa y actua en su ambiente puede aprender a escoger acciones optimas para alcanzar sus metas”. [Mitchell, 97]. Ejemplo: Al entrenar un agente para jugar un juego, el entrenador debe asignarle una recompensa positiva al ganar el juego, una negativa al perder, y cero en cualquier otro estado. © L. E. Sucar & A. Reyes

Aprendizaje por Refuerzo (RL) Dado un MDP de tiempo discreto con un conjunto S de estados finitos y un conjunto A de acciones finitas. En cada instante de tiempo t un agente se encuentra en algún estado st. El agente escoge una acción at de A(st) causando una transición de estado a st+1, y observa una recompensa escalar R(st,at) posiblemente aleatoria. La meta es encontrar una asociación de estados a acciones tal que se maximice la recompensa esperada en el tiempo. © L. E. Sucar & A. Reyes

Aprendizaje por Refuerzo © L. E. Sucar & A. Reyes

Cual es la diferencia entre un MDP y el RL ? En ambos casos se desea controlar secuencialmente un sistema para maximizar una recompensa. Para aplicar los métodos de programación dinámica asumimos que: Se conoce la dinámica del sistema y las recompensas esperadas (futuras) Podemos observar el estado perfectamente. El tamaño del espacio de estados no es muy grande- computacionalmente el problema es tratable. Las técnicas de RL operan sin estas suposiciones. © L. E. Sucar & A. Reyes

Compromiso entre exploración y explotación Cuando un modelo (mundo) es desconocido surgen dos objetivos para la selección de acción que se contraponen : Obtener altas recompensas a corto plazo mediante la selección de acciones que lleven a estados buenos por conocidos (explotar) Aprender a relacionar el estado, la acción, y la recompensa seleccionando acciones no antes probadas, o acciones que conduzcan a estados desconocidos (explorar). © L. E. Sucar & A. Reyes

Compromiso entre exploración y explotación Compromiso entre recompensas a corto y a largo plazo. Normalmente se prefiere explorar que explotar. Difícil de lograr un balance óptimo. © L. E. Sucar & A. Reyes

Métodos libres de modelos y basado en modelos Las técnicas de RL para problemas con recompensa no inmediata tienen dos formas: Métodos Libres de Modelo Aprender una política optima sin intentar estimar la recompensa esperada y las probabilidades de transición. Solo se guardan los valores de los estados o de los pares estado-acción. Métodos basados en Modelos intentan aprender un modelo explicito del sistema, y derivar una política de este modelo. Los métodos basados en modelos pueden converger mas rápido, pero requieren mas memoria y tiempo de cómputo. © L. E. Sucar & A. Reyes

Q-Learning Q-Learning es un algoritmo popular para RL mediante el cual un agente actualiza una función de utilidad-Q cada época de tiempo. Esta función Q asocia pares estado-acción con la recompensa esperada al tomar dicha acción. Q-learning es un método libre de modelo. © L. E. Sucar & A. Reyes

Aprendizaje de Políticas Optimas: Q-Learning Definir Q*(s,a)=r(s,a)+λ Σj p(j|s,a) V*(j) “valor de tomar la acción a partiendo del estado s y siguiendo la politíca optima.” Algoritmo Q-Learning (Watkings, 1989): Qn+1(s,a)=Qn(s,a)+α(Rn + λ maxa’ Qn(s’,a’)-Qn(s,a)) Si se visita cada par de estados infinito número de veces, Q-learning converge a Q* con probabilidad 1. © L. E. Sucar & A. Reyes

Aplicaciones RL Backgammon Ajedrez Control Robótico Control de Elevadores Asignación dinámica de canales de telecomunicaciones. Etcétera. © L. E. Sucar & A. Reyes