Redes neuronales feed-forward El algoritmo Back Propagation From Tai-Wen Yue’s slides http://aimm02.cse.ttu.edu.tw
Contenido Estructura de las redes feed-forward Funciones de activacion Aprendizaje supervisado El algoritmo de aprendizaje back-propagation Factores del aprendizaje
Estructura de las redes feed-forward
Estructura Capa de salida Capas ocultas Capa de entrada x1 x2 xm y1 y2 . . . x1 x2 xm y1 y2 yn Capa de salida Capas ocultas Capa de entrada
Funciones de activacion
Funcion de activacion— Lineal x1 x2 xm wi1 wi2 wim .
Sigmoide unipolar x1 x2 xm wi1 wi2 wim .
Sigmoide bipolar x1 x2 xm wi1 wi2 wim .
Derivada de la sigmoide net 1 0.5 Recordar esto
Aprendizaje supervisado
Aprendizaje supervisado Conjunto de entrenamiento; entrada y target
Aprendizaje supervisado Conjunto de entrenamiento Aprendizaje supervisado . . . x1 x2 xm o1 o2 on d1 d2 dn Capa de salida Capa oculta Capa de entrda
Aprendizaje supervisado Conjunto de entrenamiento Aprendizaje supervisado . . . x1 x2 xm o1 o2 on Suma de los errores al cuadrado d1 d2 dn Objetivo: Minimizar
El algoritmo back-propagation
El algoritmo back-propagation Un procedimiento de aprendizaje que premite entrenar a las redes feedforward multicapa En teoria se puede capturar “cualquier” mapeo de entrada-salida
Descenso por el gradiente El back-propagation es un ejemplo de una tecnica del descenso por el gradiente (w1,w2) (w1+w1,w2 +w2) Para minimizar E, w = E
El algoritmo back-propagation . . . x1 x2 xm o1 o2 on d1 d2 dn Aprendizaje de las neuronas de salida Aprendizaje de las neuronas ocultas
Aprendizaje de las neuronas de salida . . . j i o1 oj on d1 dj dn wji ? ?
Aprendizaje de las neuronas de salida . . . j i o1 oj on d1 dj dn wji depende de la funcion de activacion
Aprendizaje de las neuronas de salida . . . j i o1 oj on d1 dj dn wji Usando la sigmoide,
Aprendizaje de las neuronas de salida . . . j i o1 oj on d1 dj dn wji Usando la sigmoide,
Aprendizaje de las neuronas de salida . . . j i o1 oj on d1 dj dn wji
Aprendizaje de las neuronas de salida . . . j i o1 oj on d1 dj dn wji ¿Cómo entrenar los pesos de las neuronas de salida?
Aprendizaje en las neuronas ocultas . . . j k i wik wji ? ?
Aprendizaje en las neuronas ocultas . . . j k i wik wji
Aprendizaje en las neuronas ocultas . . . j k i wik wji ?
Aprendizaje en las neuronas ocultas . . . j k i wik wji
Aprendizaje en las neuronas ocultas . . . j k i wik wji
Back Propagation o1 oj on . . . j k i d1 dj dn x1 xm
Back Propagation o1 oj on . . . j k i d1 dj dn x1 xm
Back Propagation o1 oj on . . . j k i d1 dj dn x1 xm
Factores del aprendizaje
Factores del aprendizaje Pesos iniciales Velocidad de aprendizaje () Funciones de costo Momento Reglas de actualizacion Datos de entrenamiento y generalizacion Numero de capas Numero de nodos ocultos
Técnicas prácticas para mejorar Backpropagation Normalizar la entrada Podemos normalizar cada entrada para que tenga media cero y la misma varianza Valores del target Para aplicaciones de reconocimiento de patrones, usar +1 para la clase deseada y -1 para la otra Entrenamiento con el ruido
Técnicas prácticas para mejorar Backpropagation Inicializacion de los pesos Si usamos datos normalizados, deseamos pesos positivos y negativos, asi como una distribución uniforme Aprendizaje uniforme
Técnicas prácticas para mejorar Backpropagation Protocolos de entrenamiento Una época corresponde a la presentación de todos los datos del conjunto de entrenamiento Entrenamiento estocástico Las muestras son elegidas al azar del conjunto de entrenamiento y los pesos se actualizan por cada muestra Entrenamiento por lotes Todas las muestras de entrenamiento (epoca) son presentadas a la red antes de que los pesos sean actualizados
Técnicas prácticas para mejorar Backpropagation Protocolos de entrenamiento Entrenamiento en línea Cada muestra de entrenamiento es presentada una vez y solamente una vez No hay memoria para guardar muestras de entrenamiento
Aumentar la velocidad de convergencia Heuristica Momentum Velocidad de aprendizaje variable Gradiente conjugado Metodos de segundo orden Metodo de Newton Algoritmo de Levenberg-Marquardt
Reconocimiento Tomado de Tai-Wen Yue, “Artificial Neural Networks” course slides Tatung University. Taipei, Taiwan. 5th june 2006