La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Algoritmo de Retropropagación. Conclusiones de Retropropagación n 1. Si la neurona j es un nodo de salida es igual al producto de la derivada y la señal.

Presentaciones similares


Presentación del tema: "Algoritmo de Retropropagación. Conclusiones de Retropropagación n 1. Si la neurona j es un nodo de salida es igual al producto de la derivada y la señal."— Transcripción de la presentación:

1 Algoritmo de Retropropagación

2 Conclusiones de Retropropagación n 1. Si la neurona j es un nodo de salida es igual al producto de la derivada y la señal de error. Ambas están asociadas a la neurona j.

3 Conclusiones de Retropropagación n 2. Si la neurona j es un nodo escondido, n es igual al producto de la derivada asociada n y la suma pesada de las n calculada para las neuronas de la siguiente capa escondida o de salida que se conectan a la neurona j.

4 Conclusiones de Retropropagación n La corrección aplicada a está definida por la regla delta: n y:

5 Conclusiones n Cuando el nodo j es de salida: n Cuando el nodo j es escondido:

6 Conclusiones

7 Logística n Ya que

8 Logística n Entonces n y n para una neurona de salida

9 Logística n Análogamente n y, para una neurona escondida:

10 Logística n Nótese que es máxima en 0.5 y mínima en o (de (1)). n Para una logística, entonces, los pesos sinápticos se cambian más para aquellas neuronas en donde las señales de la función están en los rangos medios.

11 Tangente Hiperbólica

12 n Para la capa de salida

13 Tangente Hiperbólica n Para una capa escondida:

14 Momento n El algoritmo de RP “aproxima” la trayectoria en el espacio de los pesos por el método de gradiente máximo. n A una pequeña corresponden pequeños cambios en la trayectoria del descenso y éstos son más suaves. Si es grande los cambios pueden ser inestables (oscilatorios).

15 Momento n Una forma de incrementar y evitar inestabilidad consiste en modificar la regla delta, de esta manera: n En donde es la constante de momento. Controla el lazo de retroalimentación que se ilustra en la siguiente figura. En ésta es el operador de retardo unitario.

16 Momento

17 n Si re-escribimos (2) como una serie de tiempo con un índice t, en donde t va desde el instante 0 hasta el tiempo actual n, tenemos:

18 Momento n Ya que n y n vemos que

19 Momento n y podemos escribir, entonces

20 Momento n Comentarios: –El ajuste actual representa la suma de una serie de tiempo ponderada exponen- cialmente. Para que converja: –Cuando tiene el mismo signo en iteraciones consecutivas, crece en magnitud y se ajusta en cantidades grandes.

21 Momento –Cuando tiene signos diferentes en iteraciones consecutivas, la suma –disminuye de tamaño y se ajusta en pequeñas cantidades. n El momento acelera el descenso en direcciones de bajada constantes n El momento estabiliza el proceso en direcciones que cambian de sentido

22 Heurísticos n pequeño es más lento pero permite convergen- cia más profunda n entonces produces una conver- gencia más rápida. n implica que para garantizar convergencia

23 Heurísticos n Tamaño del conjunto de prueba –N = tamaño de conjunto de entrenamiento –W = número de pesos en la red – (razón de entrenamiento) –W>>1

24 Heurísticos n Ejemplo: n W=150 n r opt =0.07 n 93% de los datos (140) se usan para entrenamiento n 7% de los datos (10) se usan para prueba

25 Heurísticos n Función de Activación –Una red RP puede aprender más rápidamente si la sigmoide es antisimétrica: –por ejemplo

26 Heurísticos n Valores adecuados para a y b (determinados experimentalmente) son: –a=1.7159 –b=2/3 n Por lo tanto: –a) –b)

27 Heurísticos n Es decir, en el origen, la pendiente (la ganancia activa) es cercana a la unidad –c) La segunda derivada de es máxima en v=1.

28 Heurísticos

29 n Los valores objetivo deben ser elegidos en el rango de la función de activación n La respuesta deseada en la capa L debe de ser desplazada del valor límite. n Por ejemplo:

30 Heurísticos n El valor medio (sobre el conjunto de entrenamiento) debe ser 0 o pequeño comparado con n Los valores no debe estar correlacionados n Las variables deben escalarse de manera que sus covarianzas sean aproximadamente iguales. –Esto garantiza que las ws se aprendan a las mismas velocidades aproximadamente.

31 Heurísticos n Las variables deben ser equi-espaciadas en el intervalo de observación –Si esto no es posible, es conveniente usar un spline natural para completar los datos faltantes

32 Heurísticos ( Inicialización ) n Consideremos una RPR con tanh como función de activación. Si el umbral es 0 : n Sea n y

33 Heurísticos n Si las entradas no están correlacionadas n Tomemos las de una distribución uniforme con

34 Heurísticos n Entonces la media y la varianza de son: n y

35 Heurísticos

36 n en done m es el número de conexiones sinápticas a una neurona. n Es decir, queremos inicializar de manera que n esté en la transición de la parte lineal y saturada de su función de activación tanh. Para tanh, como se especificó antes, esto se logra (a=1.7159; b=0.6667) haciendo que en n y

37 Heurísticos n Es decir, deseamos una distribución de la cual las n se tomen con y igual al recíproco del número de conexiones sinápticas

38 Heurísticos


Descargar ppt "Algoritmo de Retropropagación. Conclusiones de Retropropagación n 1. Si la neurona j es un nodo de salida es igual al producto de la derivada y la señal."

Presentaciones similares


Anuncios Google