La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Introduccion a los Modelos de Redes Neuronales Artificiales Ricardo Alonso Image Source: ww.physiol.ucl.ac.uk/fedwards/ ca1%20neuron.jpg.

Presentaciones similares


Presentación del tema: "Introduccion a los Modelos de Redes Neuronales Artificiales Ricardo Alonso Image Source: ww.physiol.ucl.ac.uk/fedwards/ ca1%20neuron.jpg."— Transcripción de la presentación:

1 Introduccion a los Modelos de Redes Neuronales Artificiales Ricardo Alonso Image Source: ww.physiol.ucl.ac.uk/fedwards/ ca1%20neuron.jpg

2 Autor : Ricardo Alonso ralonso@unitec.edu.ve Redes Neurales Una amplia calse de modelos que reproducen el funcionamiento del tejido Neural del Cerebro Existen varias clases de modelos NN. Ellos son diferentes entre si, dependiendo de :  Tipo de problemas asociados: Prediccion, Clasificacion, Aglomeracion  Estructura del modelo  Algoritmo de construccion del modelo Para esta charla, nos vamos a enfocar en Redes Neuronales de propagacion hacia adelante (usados en los problemas de clasificacion y prediccion) Definicion

3 Autor : Ricardo Alonso ralonso@unitec.edu.ve La unidad funcional mas importante del Cerebro – una celula llamada – NEURONA Dendritas – Reciben información Un poco de Biologia... Celula Neuronal Fuente: heart.cbl.utoronto.ca/ ~berj/projects.html Cuerpo celular – Procesa información Axón – Transporta informacion procesada a otras Neuronas Sinapsis – Union Axón – Dendritas de otras Neuronas Dendritas Cuerpo celular Axón Esquema Sinapsis

4 Autor : Ricardo Alonso ralonso@unitec.edu.ve Una Neurona Artificial Recibe entradas X 1 X 2 … X p de otras Neuronas o el ambiente. Entradas se alimentan a traves de conexiones con peso. Entrada Total = Suma ponderada de las entradas de otras fuentes. Funcion de transferencia (funcion Activacion) convierte entradas a en salidas. La salida va a las entradas de otras Neuronas. f X1X1 X2X2 XpXp I I = w 1 X 1 + w 2 X 2 + w 3 X 3 +… + w p X p V = f(I) w1w1 w2w2...... wpwp DendritasCuerpo CelulaAxón Dirección flujo informació

5 Autor : Ricardo Alonso ralonso@unitec.edu.ve Hay varios tipos de opciones para seleccionar la funcion de transferencia o funcion de activación Tanh f(x) = (e x – e -x ) / (e x + e -x ) 1 0 1 0.5 0 1 Logistic f(x) = e x / (1 + e x ) Threshold 0 if x< 0 f(x) = 1 if x >= 1 Funciones de Transferencia

6 Autor : Ricardo Alonso ralonso@unitec.edu.ve ANN – Red Neuronal con alimentacion hacia adelante Una coleccion de Neuronas conforma una ‘ Capa’ Dirección de flujo información X1X1 X2X2 X3X3 X4X4 y1y1 y2y2 Capa de Conección - Cada Neurona adquiere SOLO una entrada directamente del medio Capa de Salida - La salida de cada Neurona va directamente hacia afuera de la Neurona. Capa de Entrada / Intermedia - Conecta la capa de Coneccion con las unidades de procesamiento

7 Autor : Ricardo Alonso ralonso@unitec.edu.ve El numero de capas ocultas puede ser Ninguna Una Muchas ANN – Red Neuronal con alimentacion hacia adelante

8 Autor : Ricardo Alonso ralonso@unitec.edu.ve Un par de cosas que se debe decir X1X1 X2X2 X3X3 X4X4 y1y1 y2y2 Dentro de la Red, las Neuronas no estan interconectadas una con otra. Las Neuronas de una capa solamente se conectan con las de la capa superior. (Feed-forward) No se permite el salto de Neuronas. ANN – Red Neuronal con alimentacion hacia adelante

9 Autor : Ricardo Alonso ralonso@unitec.edu.ve Que queremos decir con un model particular de ANN? Entradas: X 1 X 2 X 3 Salidas: YModelo: Y = f(X 1 X 2 X 3 ) Para una ANN :La forma algebraica de f es muy complicada para ser escrita. Sin embargo, esta caracterizadas por : # Neuronas de entrada y coneccion # Capas ocultas o intermedias # Neuronas en cada cada oculta # Neuronas de salidas PESOS de cada coneccion Ajuste de un model ANN = Especificar los valores de estos parametros Un modelo de ANN en particular

10 Autor : Ricardo Alonso ralonso@unitec.edu.ve Parametos libres Decidido por la estructura del problema # de variables # de salidas Un modelo en particular – un ejemplo Entradas: X 1 X 2 X 3 Salidas: Y Modelo: Y = f(X 1 X 2 X 3 ) X1X1 X2X2 X3X3 Y 0.5 0.6 -0.1 0.1 -0.2 0.7 0.1-0.2 ParametrosEjemplo # Neuronas entrada 3 # Capas ocultas 1 # Neuronas CO 3 # Neuronas sal. 3 Pesos Especificados

11 Autor : Ricardo Alonso ralonso@unitec.edu.ve Prediccion usando un modelo ANN en particular Entradas: X 1 X 2 X 3 Salidas: YModelo: Y = f(X 1 X 2 X 3 ) 0.5 0.6 -0.1 0.1 -0.2 0.7 0.1-0.2 X 1 =1X 2 =-1X 3 =2 0.2 f (0.2) = 0.55 0.55 0.9 f (0.9) = 0.71 0.71 -0.087 f (-0.087) = 0.478 0.478 0.2 = 0.5 * 1 –0.1*(-1) –0.2 * 2Y predicha = 0.478 Suponga que en realidad Y = 2 Entronces Error prediccion = (2-0.478) =1.522 f(x) = e x / (1 + e x ) f( 0.2 ) = e 0.2 / (1 + e 0.2 ) = 0.55

12 Autor : Ricardo Alonso ralonso@unitec.edu.ve Como se construye el modelo ? Entradas: X 1 X 2 X 3 Salidas: Y Modelo: Y = f(X 1 X 2 X 3 ) # N. entrada = # entradas = 3 # N. Salida = # Salidas = 1 # capas ocultas = ??? Use 1 # N. capa oculta = ??? Use 2 No hay estrategia fija. Solo ensayo y error La arquitectura esta definida … Como se obtienen los pesos??? Hay 8 pesos que estimar. W = (W 1, W 2, …, W 8 ) Data de adiestramiento: (Yi, X1i, X2i, …, Xpi ) i= 1,2,…,n Dada una eleccion particular de W, obtendremos las Y predichas ( V 1,V 2,…,V n ) Ellas son función de W. Elegimos W tal que el error de prediccion E sea minimo E =  (Yi – Vi) 2 Building ANN Model

13 Autor : Ricardo Alonso ralonso@unitec.edu.ve Como adiestrar el modelo ? E =  (Yi – Vi) 2 Empiece con un conjunto aleatorio de pesos. Calculo los valores estimados de la salida y obtenga V 1 en funcion del patron X 1 ; Error = (Y 1 – V 1 ) Ajuste los pesos a fin de reducir el error ( la red ajusta el primer patron de datos ). Haga lo mismo con el segundo patron de datos Prosiga hasta el ultimo patron de datos. Con esto se finaliza un ciclo. Repita otro ciclo, una y otra vez hasta que el error Total obtenido para cada patron ( E ) sea minimo Feed forward Back Propagation Entrenamiento del modelo

14 Autor : Ricardo Alonso ralonso@unitec.edu.ve Unos detalles adicionales respecto a la retropropagacion E =  (Yi – Vi) 2 Cada peso tiene su parte de culpa con respecto al mayor o menor error de prediccion ( E). El mecanismo de Retropropagacion decide cuales de los pesos tiene mayor culpa al respecto. Poca culpa, representa poco ajuste. Mucha culp, mucho ajuste. Retropropagacion

15 Autor : Ricardo Alonso ralonso@unitec.edu.ve Formula de ajuste de W en la Retropropagacion Metodo de descenso por gradiente : Para cada peso individual W i, la formula de ajuste es : W new = W old +  * (  E /  W) | Wold  = parametro de aprendizaje (entre 0 and 1) W (t+1) = W (t) +  * (  E /  W) | W(t) +  * (W (t) - W (t-1) )  = Momentum (entre 0 and 1) E( W ) =  [ Yi – Vi( W ) ] 2 V i – la prediccion de la I-esima observacion – Es una funcion de W = ( W 1, W 2,….) Por consiguiente, E, el error total de la prediccion es funcion de W A veces se utiliza otra variacion leve Ajuste de pesos durante la Retropropagacion

16 Autor : Ricardo Alonso ralonso@unitec.edu.ve Interpretacion Geometrica del Ajuste de Pesos E( w 1, w 2 ) =  [ Yi – Vi(w 1, w 2 ) ] 2 Considere una Red simple de 2 entradas y 1 salida. No hay capas ocultas. Solo hay dos pesos, los cuales deben ser calculados. w1w1 w2w2 El par ( w 1, w 2 ) es un punto en un plano 2-D. Para cada par, se asocia un valor de E. Ploteemos E vs ( w 1, w 2 ) – una superficie 3-D – llamada ‘Superficie de Error’ La meta es identificar que par de valores minimiza E Eso quiere decir, que punto de W minimiza la altura de la funcion E Algoritmo de Descenso en Gradiente Comience con un punto al azar ( w 1, w 2 ) Muevase a un punto mejor ( w’ 1, w’ 2 ) como mejor se entiende un punto de menor valor E. Muevase hasta lograr un punto el cual no pueda ser mejorado.

17 Autor : Ricardo Alonso ralonso@unitec.edu.ve Reptando por la Superficien de Error w*w* w0w0 Superficie de Error Minimo local Espacio de Pesos Minimo Global

18 Autor : Ricardo Alonso ralonso@unitec.edu.ve E =  (Yi – Vi) 2 Decida la Arquitectura de la Red (# Capas ocultas, #N. en cada capa). Algoritmo de Entrenamiento Inicializa los pesos con valores aleatorios. Feed forward el i-esima patron y calcule el error Back propagate el error y ajuste los pesos Verifique convergencia For I = 1 to # Patrones adiestramiento Next I Do hasta que el criterio de convergencia no se cumpla End Do Decida los Parametros de momentum y adiestramientoarning parameter and Momentum.

19 Autor : Ricardo Alonso ralonso@unitec.edu.ve Cuando parar el algoritmo ? Criterio de Convergencia Idealmente – cuando se alcance el minimo global ode la Superficie de Errores Sugerencia: 1.Pare cuando el valor de E no disminuye significativamente. 2.Pare si los cambios globales en los pesos no son significativos. Como sabemos que hemos llegado a ese minimo ? ………….. No lo sabemos Problemas: El Error se mantiene decreciento. Obtenemos un buen ajuste en la data. PERO … la red obtenida tiene un ppobre poder de generalizacion ante data nueva. Este fenomeno se denomina - Over fitting de la data de adiestramiento. Se dice que la red Memoriza la data de adiestramiento. - Es por esto que al dar un valor de X conocido, la red reproduce el valor de Y asociado a la data. - La red, en realidad, no ha captado realmente la relacion entre X y Y.

20 Autor : Ricardo Alonso ralonso@unitec.edu.ve Criterio de Convergencia Sugerencia modificada: Divida la data en dos subconjuntos conjunto de adiestramiento y conjunto de validacion. Use El conjunto de adiestramiento para construir la Red El conjunto de validacion para chequear el comportamiento de la Red Tipicamente, a medida que tenemos mas y mas ciclos de adiestamiento El error del conjunto de adiestramiento disminuye. El error del conjunto de validacion disminuye y luego se incrementa. Error Ciclo Validacion Adiestramiento Pare el adiestramiento cuando el error de validacion se incrementa

21 Autor : Ricardo Alonso ralonso@unitec.edu.ve Eleccion de los Parametros de Adiestramiento Parametro Adiestramiento Demasiado grande – grandes saltos en el espacion de pesos –riesgo de no detectar el minimo local. Muy pequeño – - Toma mucho tiempo en alcanzar el minimo global - Si cae en un minimo local, es imposible salir de el. Parametro de adiestramiento y momentum - debe ser suplido por el usuario. Esta en el rango 0 - 1 Cuales son sus valores optimos ? - No hay consenso en uan estrategia fija. - Sin embargo se ha estudiado el efecto de una mala eleccion. Sugerencia Ensayo y Error – Ensaye varios valores de ambos parametros y vea cual es el mejor.

22 Autor : Ricardo Alonso ralonso@unitec.edu.ve Repaso  Artificial Neural network (ANN) – Una clase de modelo basado en simil biologico con el sistema nervioso central.  Usados para varios tipos de modelos – Prediccion, Clasificacion, Aglomeracion,..  Una clase particular de ANN – Red de propagacion hacia adelante  Organizado en capas.  Cada capa tiene un numero de Neuronas artificiales.  Las Neuronas en cada capa se conecta con las Neuronas de otras capas.  Las conecciones tienen pesos.  El ajuste de una Red consiste en buscar los pesos de estas conecciones.  Dados varios patrones adiestramiento – los pesos son estimados mediante el metodo de Retropropagacion el cual es una forma del metodo de Descenso por Gradiente – la cual es una tecnica popular de minimizacion.  La arquitectura de la Red asi como sus parametros de adiestramiento son seleccionados mediante ensayo y error.


Descargar ppt "Introduccion a los Modelos de Redes Neuronales Artificiales Ricardo Alonso Image Source: ww.physiol.ucl.ac.uk/fedwards/ ca1%20neuron.jpg."

Presentaciones similares


Anuncios Google