La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

1/37 Redes Neuronales INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto DíazLima, 28 de Diciembre 2005.

Presentaciones similares


Presentación del tema: "1/37 Redes Neuronales INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto DíazLima, 28 de Diciembre 2005."— Transcripción de la presentación:

1 1/37 Redes Neuronales INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto DíazLima, 28 de Diciembre 2005

2 2/37 Tabla de Contenido 1.Neuronas ArtificialesNeuronas Artificiales 2.Análisis de las Redes NeuronalesAnálisis de las Redes Neuronales

3 3/37 NEURONAS ARTIFICIALES Redes Neuronales

4 4/37 Modelo matemático inspirados en el funcionamientos de las neuronas biológicas. Aprendizaje basado en la experiencia. Compuesta por unidades de procesamiento (neuronas) Las unidades están ligadas por conexiones (sinapsis) Modela funciones complejas y no-lineales. Herramienta matemática, similar al análisis estadístico. Apoyada por computadoras de alta velocidad.

5 5/37 Neuronas Artificiales Súper-simplificación Analogía Metafórica Sorprendente poder de cómputo

6 6/37 Características El estilo de procesamiento como el de procesamiento de señales, no simbólico. No hay instrucciones. La información se almacena en un conjunto de pesos, no en un programa. Los pesos se adaptan. Tolerantes a ruido: pequeños cambios en la entrada no afecta drásticamente la salida de la red. La memoria se trata como patrones de actividad almacenada en toda la red y no como el contenido de pequeños grupos de celdas de memoria. La red puede generalizar el conjunto de entrenamiento y así tratar con ejemplos no conocidos. Son buenas para tareas perceptuales y asociaciones. Difícil para la computación tradicional.

7 7/37 TIPOS DE REDES NEURONALES

8 8/37 Redes Neuronales Artificiales Interconexión entre neuronas –Decide flujo de información en red –Total genera lazos en flujo de datos redes recurrentes –Parcial en capas: entrada, internas, salida Recurrente: contiene lazos Feedforward: no contiene lazos Junto con pesos y funciones de salida de cada neurona definen comportamiento global de la red Se debe definir la forma de actualización de estados de cada neurona en la red –secuencial, asíncrono, sincrónico –especialmente importante en redes recurrentes o con dinámica temporal u y

9 9/37 Perceptron –Separa espacio con hiperplano – y = f ( w 1 u 1 + w 2 u w n u n ), – f(s) = { 1 si s 0, 0 si s<0 } –Puede incluir offset w 0. –Importante históricamente estudiado muy detalladamente (Minsky y Papert 69) –Es un clasificador lineal en 2 clases. bueno si patrones linealmente separables XOR problem –Análogo a clasificador de Bayes gaussiano. minimiza probabilidad de error clasificador denominado paramétrico w t.u =0 u1u1 u2u2

10 10/37 Perceptron

11 11/37

12 12/37 Adaline Adaptive Linear Element Estructura: –Como un Perceptron pero con función lineal a la salida. Permite trabajar con problemas mas generales –Widrow y Hoff propusieron un método más eficiente computacionalmente denominado LMS para determinar parámetros del Adaline (1962). similar a aplicar gradiente descendente muy intuitivo y=0

13 13/37 ADALINE

14 14/37

15 15/37 Perceptron Multicapa Representación ordenada –Werbos (1972) –Red lineal –Activaciones dependen: entradas activaciones de neuronas precedentes –Derivadas ordenadas backpropagation W ij 1 W ij 2 u1u1 u2u2 y1y1 y2y2 W ij 3 u1u1 u2u2 y1y1 y2y

16 16/37 Perceptron Multicapa w11=1 w12=1 w21=1 w22=1 w31=1 w32=-1.5 b1=0.5 b2=1.5 b3=0.5

17 17/37 Retropropagación Procedimiento para encontrar el vector gradiente de una función error asociada a la salida de la red con respecto a los parámetros de la misma El nombre backpropagation surge pues el cálculo se hace en el sentido inverso de la red, propagándose desde los nodos de salida hacia los nodos de entrada Esto permite poder aplicar a posteriori alguno de los muchos métodos de optimización con gradiente para obtener el comportamiento deseado de la red

18 18/37 Retropropagación f() entradas Pesos k = capa sumatoria constante b función de transferencia resultado net =o k (n) salida calculada y k (n) x 1 (n) w k1 (n) x 2 (n) x 3 (n) w k2 (n) w k3 (n) e k (n) = d k (n) – y k (n) salida deseada d k (n) e k (n)

19 19/37 Función de transferencia

20 Funciones de transferencia

21 21/37 Aprendizaje entrada neta a i j i salida de i error de la salida k error total regla de aprendizaje η: velocidad de aprendizaje

22 22/37 Regla de Aprendizaje Si j es una unidad de salida Si no

23 23/37 ANALISIS DE LAS ANN

24 24/37 Propiedades: Mapeo Universal Pregunta: –Qué tipo de funciones puedo representar con una ANN? La idea se remonta al problema #13 de Hilbert (1900). –Representar función de N variables como combinación lineal de funciones en una variable (bajar dimensionalidad del problema) Respuesta : –Puedo representar el conjunto de funciones suaves. –Hay varias pruebas para diferentes arquitecturas –Kolgomorov (1957) –Cybenko (1960) –Hornik (1989) –Chen (1991)

25 25/37 Propiedades: Mapeo Universal Idea: –Usando red con 2 capas ocultas es posible crear funciones tipo localizadas que combinadas pueden formar cualquier función suave Prueba intuitiva: –Fácil de ver en R 2 R. –Red: y = ANN (x 1,x 2 ) Paso 1: –Que mapeo obtengo con una sola neurona? y = logsig(.x 1 ) y = logsig(.x 2 )

26 26/37 Propiedades: Mapeo Universal Paso 2: –Uso Perceptron Multicapa –Puedo lograr pico en cualquier valor de x 1 con red de 1 sola capa oculta el ancho del pico depende del valor de b. –Puedo hacer lo mismo con x 2. x1x1 1 y b b b -b 1 1

27 27/37 Propiedades: Mapeo Universal Paso 3: –Agrupo redes en cada entrada en una sola red para combinar picos en x 1 y x 2. –Ajustando parámetros puedo obtener un pico bien definido centrado en cualquier punto de R 2. x1x1 1 y b b b -b x2x2 1 b b b -b 1 1

28 28/37 Propiedades: Mapeo Universal Paso 4: –Agregando una capa adicional 2 capas ocultas –Combinando estos picos se puede aproximar cualquier función de R 2 R con el grado de error que desee. x1x1 1 a b1 c1 -a x2x2 1 a d1 e1 -a 1 1 x1x1 1 a bn cn -a x2x2 1 a dn en -a 1 1 y f1f1 fnfn

29 29/37 Teorema de Kolmogorov Dada cualquier función continua f: [0 1] n R m, y = f(x), f puede ser implementada exactamente por una red neuronal de tres capas sin retroalimentación que tiene una capa de entrada de n elementos que unicamente copian las entradas a la siguiente capa, (2n + 1) elementos de procesamiento en la capa intermedia y me elementos de procesamiento en la capa de salida

30 30/37 Mapeo no lineal Una red de retropropagación intenta encontrar un mapeo no lineal entre el espacio de entradas de n dimensiones y el espacio de salida de m dimensiones. Este mapeo se induce a través de patrones de entrenamiento que son puntos correspondientes en los espacios de entrada y salida. y1y1 y3y3 y2y2 y4y4 x1x1 x3x3 x2x2 x4x4

31 31/37 Sobreajuste y subajuste La red de retropropagación es en cierta medida un método de ajuste de curvas. La red ya entrenada implementa un mapeo no lineal entre el espacio de entradas y salidas de manera que entradas cercanas entre sí producen salidas cercanas, por lo tanto una ANN es interpolativa.

32 32/37 Subajuste La red produce un mapeo mas sencillo de lo que se requiere para implementar la relación entrada/salida Sintoma. Error alto. Solución. Aumentar los ciclos de entrenamiento, más neuronas capa intermedia, más capas

33 33/37 Sobreajuste La red produce un mapeo más complicado de lo que se requiere para implementar la relación entrada/salida. Sintoma. Error ante patrones de entrenamiento pequeño y error ante patrones de prueba alto. Solución. Menos ciclos de entrenamiento, menos capas, menos neuronas

34 34/37 Epoca Pasar varias veces los patrones de entrada a la red.

35 35/37 Offset de f Las funciones de transferencia sigmoidal o tangente hiperbólica se pueden saturar, se saturan cuando los valores absolutos de sus entradas son grandes. Dado que la derivada participa en la regla de aprendizaje, puede suceder que ya no aprendan. Normalización de datos

36 36/37 PREGUNTAS

37 37/37 Mg. Samuel Oporto Díaz

38 38/37 APRENDIZAJE ARTIFICIAL PARTE III

39 39/37 Aprendizaje Supervisado Por Corrección de Error x (n) Synaptic weights Summing function Activation function Local Field v k (n) Output y k (n) x 1 (n) w k1 (n) x 2 (n) x 3 (n) w k2 (n) w k3 (n) e k (n) = d k (n) – y k (n)

40 40/37 Error(n) = y(n) - Y(n) x1x1 x2x2 v 11 m 1 = x 1. v 11 + x 2. v 21 v 12 v 13 w 11 w 21 w 31 m1m1 m2m2 m3m3 n1n1 n2n2 n3n3 v 21 v 22 v 23 Y Y = f(n 1 w 11 + n 2 w 21 + n 3 w 31 ) n 1 = f ( m 1 ) Pesos o Coeficientes Vij, Wij A.S. Por Corrección de Error J = (Y 1 - y 1 ) Y 1 / V 11 + (Y 2 - y 2 ) Y 2 / V 11 + …. V 11 Y = W 11 n 1 / V 11 + W 21 n 2 / V 11 + W 31 n 3 / V 11 V 11 n1 = n1 m1 = n1 x1 V 11 m1 V 11 m 11 Si n es SIGMOIDEA : n = ( 1+ e –m ) –1 n = - ( 1+ e –m ) -2 e -m (-1) = n (1 – n ) m Y = W 11 n ( 1 – n ) X1 V11 J = (Y 1 -y 1 ) W 11 n 11 (1- n 11 ) X 11 + (Y 2 - y 2 ) W 11 n 12 (1- n 12 ) X 12 + …. V11

41 41/37 Dados Iniciales = Experiencia de la RN A.S. Por Corrección de Error

42 42/37 : Umbral de aprendizaje que regula la velocidad de precisión (0 < <= 1) Yi : Salida del i-esimo Nodo Yj : Salida del j-esimo Nodo dj : Valor de salida deseado de la j-esima unidad de procesamiento A.S. Por Corrección de Error

43 43/37 El aprendizaje consiste en mejorar los coeficientes de la red hasta minimizar la FUNCION DE ERROR dada por J = Σ 1 / 2 (Y k - y k ) 2 A.S. Por Corrección de Error Wij = Wij - η J Wij Ratio de Aprendizaje

44 44/37 Algoritmo BackPropagation Camada de Saída Camada de Entrada Camada Escondida +1 PatronesPatrones PatronesPatrones ej(n) = dj(n) - yj(n)

45 45/37 Algoritmo BackPropagation (W) En Particular : W11 = W11 - η J W11 J = (Y 1 -y 1 ) Y 1 / W 11 + (Y 2 - y 2 ) Y 2 / W 11 + …. W11 = (Y 1 - y 1 ) n 11 + (Y 2 - y 2 ) n 12 + …. En General : J = Σ (Y k - y k ) n jk Wj1

46 46/37 Algoritmo BackPropagation (V) En Particular : V11 = V11 - η J V11 J = (Y 1 - y 1 ) Y 1 / V 11 + (Y 2 - y 2 ) Y 2 / V 11 + …. V 11 Y = W 11 n 1 / V 11 + W 21 n 2 / V 11 + W 31 n 3 / V 11 V 11 n1 = n1 m1 = n1 x1 V 11 m1 V 11 m 11 Si n es SIGMOIDEA : n = ( 1+ e –m ) –1 n = - ( 1+ e –m ) -2 e -m (-1) = n (1 – n ) m Y = W 11 n ( 1 – n ) X1 V11 J = (Y 1 -y 1 ) W 11 n 11 (1- n 11 ) X 11 + (Y 2 - y 2 ) W 11 n 12 (1- n 12 ) X 12 + …. V11

47 47/37 Algoritmo BackPropagation J. V11 = Error Retropropagado Entrada Correspondiente * REGLA DELTA : = Error * Peso * f X1 * = (Y1 – y1) * W11 * n1 (1 –n1) X1 *

48 48/37 x1x1 x2x2 w 11 m1m1 m2m2 n1n1 n2n2 Ejemplo w 12 w 21 w 22 u 11 u 12 u 21 u 22 y1y1 y2y2 W 11 = W 11 + η (y1 - ÿ1) n1 W 12 = W 12 + η (y2 - ÿ2) n2 U 11 = U 11 + η [ (y1 - ÿ1) W 11 + (y2 - ÿ2) W 12 ] * n1(1-n1) * x1

49 49/37 x1x1 x2x2 v 11 v 12 w 11 m1m1 m2m2 n1n1 n2n2 v 21 v 22 Ejercicios w 12 w 21 w 22 u 11 u 12 u 21 u 22 p1p1 p2p2 q1q1 q2q2 y1y1 y2y2 U 12 = U 12 + η [ error * peso * f ] * x1 U 12 = U 12 + η [ ( (y1-ÿ1) W 11 + (y2-ÿ2) W 12 ) * q1(1-q1) * V21 + ( (y1-ÿ1) W 21 + (y2-ÿ2) W 22 ) * q2(1-q2) * V22 ] n2 (1-n2) * x1


Descargar ppt "1/37 Redes Neuronales INTRODUCCION A TECNICAS DE MINERIA DE DATOS Mg. Samuel Oporto DíazLima, 28 de Diciembre 2005."

Presentaciones similares


Anuncios Google