Algoritmo A3C con optimizador Adam con redes neuronales convolucionales Autor: Jorge Alberto Pacheco Senard Tutores: MSc. Lester Guerra Denis

Algoritmo A3C con optimizador Adam con redes neuronales convolucionales Autor: Jorge Alberto Pacheco Senard Tutores: MSc. Lester Guerra Denis (lguerra@ceis.cujae.edu.cu) Dr. C. Humberto Díaz Pando (hdiazp@ceis.cujae.edu.cu)

Introducción AprendizajeReforzado AprendizajeProfundo+ AprendizajeReforzadoProfundo

RMSprop Situación Problemática Asynchronous Advantage Actor-Critic (A3C) AdamAdaMax utiliza

Problema ¿ Qué desempeño en el tiempo de ejecución y en la curva de aprendizaje tendría el A3C al utilizarse los optimizadores Adam y AdaMax para el descenso del gradiente ?

Objetivo general Desarrollar el algoritmo A3C para su uso en distintas aplicaciones de aprendizaje reforzado profundo y probar su desempeño en los optimizadores Adam y AdaMax.

Objetivos específicos 1 2 3 4 Estudiar de los elementos teóricos del aprendizaje reforzado profundo. Comprender el algoritmo A3C. Estudiar de los patrones de computación paralela en que se basa la tecnología usada. Revisar el algoritmo A3C utilizando el modelo de red neuronal convolucional.

Objetivos específicos 5 6 7 8 Diseñar de la solución. Validar la solución propuesta. Implementar de la solución. Realizar y documentar pruebas de desempeño.

Modelo del dominio

Requisitos Funcionales PrioridadNombre del requerimientoTipo del requerimiento 1El sistema ejecuta A3C.Normal 1El sistema ejecuta A3C distribuido.Normal 1 El sistema debe ser capaz de recuperarse de fallos en tiempo de ejecución. Esperado 1 El sistema debe ser capaz de distribuir la carga de trabajo equitativamente. Esperado 1El sistema debe ser multiplataforma.Esperado 1El sistema debe ser capaz de ejecutar los algoritmos sobre una arquitectura distribuida. Esperado

Requisitos no funcionales Problemas frecuentes Interfaz interna Estructuración y subdivisión del sistema en partes más pequeñas. ConfiabilidadTolerancia a fallos Rendimiento Utilizar todos los elementos de procesamiento que provea la arquitectura sobre la que se ejecute la solución. PortabilidadMultiplataforma SoftwareDisponer del intérprete de Python versión 3.7 o superior. Hardware Requisito mínimo: sistema multiprocesador. Requisito recomendado: sistema multicomputador. Restricciones en el diseño y la implementaciónUtilizar Python como lenguaje de programación. Utilizar el framework Tensorflow en su versión 1.13.1. Utilizar el framework Keras en su versión 2.2.4.

Enfoque Multiagente

Fase de distribuir agentes

Fase de Entrenamiento

Diagrama de Clases

Unidad Experimental Utilizada CaracterísticaValor ProcesadorIntel(R) Celeron(R) CPU N3060 Velocidad del Procesador1,60GHz Números de Procesadores Lógicos2 Memoria RAM4GB DDR3 RAM Velocidad de la RAM1333MHz

Configuración de hiperparámetros 1 2 3 4 Frecuencia de entrenamiento de la red neuronal (training_interval): 30. Número de marcos consecutivos, cantidad de veces que se repiten las acciones (consecutive_frames): 4. Número de episodios que ejecutará el algoritmo (nb_episodes): 10000. Factor de descuento de la recompensa (gamma): 0.99. 5 Número de hilos de ejecución del algoritmo (n_threads): 16.

Configuración de hiperparámetros 6 7 8 La política de descenso del gradiente utilizado se construyó con el método policy_action (ver código fuente para más información). Índice de aprendizaje del modelo, determina el paso de ajuste de la función del error hacia el mínimo local más cercano (lr): 0.0001. Variable épsilon utilizada en los optimizadores numéricos, su función es la de ser una constante que evita la división por cero (epsilon): 0.0000001. 9 Variable que disminuye el valor del gradiente utilizado en el optimizador numérico RMSprop (rho): 0.99.

Entornos utilizados para las pruebas Space InvadersCartPole

Resultados RMSprop en Space Invaders Tiempo de ejecución: 10h 5m 33s

Resultados RMSprop en CartPole Tiempo de ejecución: 54m 30s

Resultados Adam en Space Invaders Tiempo de ejecución: 7h 34m 39s

Resultados Adam en CartPole Tiempo de ejecución: 53m 44s

Resultados AdaMax en Space Invaders Tiempo de ejecución: 9h 37m 10s

Resultados AdaMax en CartPole Tiempo de ejecución: 6m 56s

Tiempos de ejecución de las variantes

Configuración de la prueba estadística Se realizó una prueba Friedman para comparar todos los optimizadores entre sí (Friedman NxN) con el objetivo de saber si existían diferencias significativas entre las distribuciones de los optimizadores Nivel de significancia = 0,05 Los datos recolectados para Friedman constan de tres ejecuciones por optimizador numérico en cada entorno de prueba dando un total de 18 medidas Post Hoc aplicados: Iman-Davenport, Holm, Nemenyi, Shaffer y Bergman 1 234

Resultados de la prueba de Friedman

Conclusiones Los frameworks Keras y Tensorflow del el lenguaje de programación Python son útiles para la implementación de algoritmos de aprendizaje reforzado profundo. El uso del optimizadores numéricos influye en gran medida en el resultado del experimento. El optimizador Adam se considera el más estable entre los optimizadores numéricos utilizados. 1 23

Conclusiones Las operaciones utilizadas por modelos de deep reinforcement learning con modelos de redes neuronales convolucionales para el procesamiento de imágenes son computacionalmente costosas. Se pudo implementar el algortimo A3C utilizando el modelo de programación paralela MapReduce. 4 5

Recomendaciones Realizar una selección de tecnologías de los principales frameworks para deep reinforcement learning. 123 Volver a ejecutar las pruebas con los recursos necesarios para obtener un mejor resultado, ej: Un sistema distribuido de 16 núcleos. Analizar el rendimiento de las variantes del algoritmo sobre GPU. 4 Realizar más experimentos sobre los entornos mostrados para tener más medidas sobre las que realizar las pruebas no paramétricas. 5 Realizar pruebas sobre otro tipo de entornos, ej: entornos continuos de la Arcade Learning Enviroment.

Asynchronous Advantage Actor Critic (A3C) con optimizador Adam con redes neuronales convolucionales Autores: Jorge Alberto Pacheco Senard Tutores: MSc. Lester Guerra Denis (lguerra@ceis.cujae.edu.cu) Dr. C. Humberto Díaz Pando (hdiazp@ceis.cujae.edu.cu)

Algoritmo A3C con optimizador Adam con redes neuronales convolucionales Autor: Jorge Alberto Pacheco Senard Tutores: MSc. Lester Guerra Denis

Presentaciones similares

Presentación del tema: "Algoritmo A3C con optimizador Adam con redes neuronales convolucionales Autor: Jorge Alberto Pacheco Senard Tutores: MSc. Lester Guerra Denis"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Algoritmo A3C con optimizador Adam con redes neuronales convolucionales Autor: Jorge Alberto Pacheco Senard Tutores: MSc. Lester Guerra Denis

Presentaciones similares

Presentación del tema: "Algoritmo A3C con optimizador Adam con redes neuronales convolucionales Autor: Jorge Alberto Pacheco Senard Tutores: MSc. Lester Guerra Denis"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback