La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Perceptrones multicapa y retropropagacion del gradiente (Backpropagation) Hertz, krogh, Palmer, Introduction to the theory of neural computation, Addison.

Presentaciones similares


Presentación del tema: "Perceptrones multicapa y retropropagacion del gradiente (Backpropagation) Hertz, krogh, Palmer, Introduction to the theory of neural computation, Addison."— Transcripción de la presentación:

1 Perceptrones multicapa y retropropagacion del gradiente (Backpropagation)
Hertz, krogh, Palmer, Introduction to the theory of neural computation, Addison Wesley, 1992

2 Contenidos Redes simples Redes multicapa
Aplicación a la detección de caras

3 Perceptrón o redes de propagación hacia adelante
Perceptron simpe: una capa output Perceptron multicapa o red feedforward: una o varias capas ocultas y una capa output. La entrada se propaga hacia la salida. Respuesta de la unidad Función de activación Incluyendo umbrales: Respuesta obtenida de la red Respuesta deseada

4 Unidades umbral (threshold units)
Patrones binarios

5 Separabilidad lineal

6 Algoritmo de aprendizaje del perceptrón binario simple
La regla de aprendizaje del perceptron Función escalón

7 Unidades lineales Consideramos la función de activación contínua y diferenciable. El caso más sencillo son las unidades lineales Las salidas son continuas y los inputs binarios ±1 Si los patrones son linealmente independientes se puede calcular explicitamente los pesos que cumplen la condición de devolver el output deseado

8 Descenso de gradiente en las unidades lineales (aprendizaje)
Error o función de costo La minimización por descenso de gradiente de la función de costo El descenso de gradiente instantaneo, aplicado a cada patrón por separado. Widrow-Hoff, LMS, Adaline

9 La función de costo cuadrática define una superficie con un mínimo global, la convergencia estágarantizada. Si los patrones son linealmente independientes el error mínimo es cero, sino es mayor que cero

10 Unidades no lineales Función de activación diferenciable. La función de costo: El aprendizaje por descenso de gradiente Funciones de activación interesantes por la forma de sus derivadas Unidades {0,1}

11 Redes multicapa y backpropagation
Propagación hacia delante de la estimulación en las unidades input Entrada unidad hidden Salida unidad hidden Entrada unidad outpur Salida unidad output

12 función de error o costo
El descenso por el gradiente permite definir la actualización de los pesos de las unidades ocultas a las de salida

13 La actualización de los pesos de las unidades de entrada a las ocultas
El efecto que se obtiene es que se propaga el error detectado a la salida hacia la entrada. Puede definirse una regla instantanea basada en descenso por el gradiente Las funciones de activación son las sigmoideas.

14 Procedimiento backpropagation
V es la salida de una unidad m denota la capa de unidades

15 Detección de caras Problema básico: la detección de caras es un problema de clasificación en dos clases que necesita infinitos ejemplos negativos. Solución “bootsrap” Descripción general del sistema. Tiene dos etapas 1 Aplica filtros basados en redes neuronales, a diferentes escalas 2 Un árbitro evalua los resultados de la detección mediante los filtros y elimina detecciones solapadas

16 Preproceso de las ventanas de 20x20
Ignora los pixels de fondo Ajusta una función lineal para modelar los efectos de la iluminación y la substrae para corregir Ecualiza la imagen

17 Algunas caracteristicas de la red neuronal
3 tipos de unidades ocultas 4 que observan subregiones 10x10 16 que observan regiones 5x5 6 que observan bandas 20x5 con solapamiento (para detectar ojos, boca,etc Entrenamiento: 1050 patrones de caras Los ojos, punta de la nariz, esquinas y centro de la boca se etiquetaron manualmente y se usaron para normalizar a la misma escala, orientación y posición a las imágenes de caras. La normalización se realiza con un algoritmo iterativo que estima la posición promedio de cada caracteristica de la cara (5 iterac.)

18 De cada imagen original se generan 15 imágenes mediante rotación (menos de 10º) traslaciones (hasta medio pixel), espejo, escalado (entre 90% y 110%)

19 Generación de ejemplos negativos durante el entrenamiento (bootstraping)
1 Conjunto inicial de no caras: 100o imágenes aleatorias con el mismo preproceso 2 Entrenamieno inicial de la red. 3 Aplicar el sistema a imágenes que no contienen caras. Seleccionar los falsos positivos y añadirlos al conjunto de entrenamiento. Repetir

20 Arbitraje: resolución de múltiples detecciones y falsos positivos
Se observa que se producen detecciones redundantes y solapadas y esta redundancia es menor en los falsos positivos. Contabiliza el numero de detecciones en un entorno si supera el umbral se decide deteccion. El centroide del cluster de detecciones es la posición de la detección. sino es un falso positivo Las detecciones que se solapan se eliminan

21

22 Arbitraje entre multiples redes: no coincidiran en los falso positivos

23 Uso de una red para realizar el arbitraje
Uso de una red para realizar el arbitraje. Es consistente con el heurístico

24

25

26

27

28

29

30

31 Detección invariante a rotación rowley, baluja, kanade

32 Las imágenes son procesadas por el router que detecta el ángulo de rotación.
La imagen se corrige invirtiendo la rotación Se aplica el algoritmo de detección frontal

33 La red router: input imágenes 20x20, output 36 unidades de ángulo cuya salida deseada es
La salida de la red es de la forma Entrenamiento: las imágenes regularizadas empleadas (1048) se rotan aleatoriamente 15 veces (15720 casos) y se emplean para entrenar el router Arquitectura: input 400, hidden 15, output 36

34 Detección de la imagen con la rotación corregida: igual que en el sistema anterior
Esquema de arbitraje: cada detección es un punto en un espacio 4D (posición, escala y ángulo) se establece un umbral de detección en el espacio 4D cuantizado detecciones con solapamiento se ignoran. se utilizan dos redes de detección en paralelo.

35

36

37 Example based learning for view based human face detection
K.K. Sung, T Poggio

38 Sistema de detección de caras basado en muestras/ejemplos
Robusted frente a variaciones de escala: procesa un piramide de imágenes Se basa en trozos de imagen que contienen la boca y los ojos Imágenes de 19x19, se modela la distribución de las caras en función de las muestras. La detección se basa en la extracción de ventanas 19x19, el cálculo de diferencias respecto del modelo de distribución de las caras y un clasificador .

39

40 Superficie (manifold) canónica de las caras: Volumen ocupado por las imágenes 19x19 de caras.
Pocos (6) clusters de caras y pocos (6) clusters de no caras Aproximación por partes a la distribución de caras y no caras. Cada cluster es una gausiana con centroide y matriz de covarianza. Preproceso Toma ventanas de 19x19 Aplica una máscara para eliminar los pixels en las esquinas (reduce la dimensión) Corrección de gradiente de iluminación mediante el ajuste de un plano. Ecualización de la imagen

41

42 Construcción del modelo de la distribución de las caras:
Se usan 4150 patrones normalizados de caras frontales, 1067 son reales, los restantes son generados mediante rotación y simetría. Se calculan 6 clusters de caras (la determinación del número es empírica) Utilizan un método k-means elíptico, usando una métrica de distancia normalizada de Mahalanobis adaptativa. Estimación: k-means con estimación de la matriz de covarianza Parte de centroides iniciales arbitrarios y matrices de covarianza identidad Itera la reestimación de los centroide con covarianza fija Acttualiza la covarianza cuando converge el k-means simple.

43 Modelado de la distribución de las imágenes de no caras:
Modelado con 6 clusters gausianos (empírico) La muestra inicial es de 6189 imágenes de no caras La muestra de no caras se incrementa mediante bootstraping.

44 El vector de diferencia son las distancias a los centros de cluster que modelan las caras y no caras. Las distancias se consideran en el subespacio generado por los 75 autovectores principales localmente a cada cluster. La distancia entre un patron de test y cada cluster tiene dos componentes: La distancia en el subespacio relativa a los autovectores principales del cluster respecto del centroide del cluster. La distancia entre el patrón y su proyección en el subespacio de los autovectores principales.

45 El clasificador MLP con 12 pares de unidades input, 24 unidades ocultas, un a unidad de salida Entrenamiento: patrones (4150 ejemplos positivos) Backprop standard. Generación de patrones negativos: bootstraping. Añade a la base de datos de entranamiento los patrones que dan falso positivo.

46 Bases de datos de entrenamiento
301 mugshots de 71 personas con imagenes de alta calidad 23 imágenes con 149 patrones de caras de calidad variable. Experimentos de sensibilidad Clasificador: MLP multicapa, un único perceptron lineal y vecino más cercano Distancia: sólo uno de los componentes de la distancia versus la distancia de Mahalanobis estándar. Modelos de las distribuciones: con el modelado explicito de las no caras (12 clusters) y sin él (6 clusters).

47

48

49

50 Organization of face and object recognition in modular neural network models dailey, cottrell, NN 12( ) En base al fenómeno de la prosopagnosia (la imposibilidad de reconocer caras) postulan la existencia de modulos especificos de reconocimiento de caras en el cerebro. Proponen un sistema basado en mezcla de expertos. Comparan una mezcla de expertos pura con su método. El objetivo es reproducir la prosopagnosia al destruir parte de la estructura de los expertos.

51

52

53 Mezcla de expertos Red lineal de una capa: experto Gating: ponderación exponencial de las salidas salida de la red Adaptación de la combinación de expertos Adaptación de los pesos de los expertos Verosimilitud de una salida de la red

54 Mezcla de capas ocultas
Capa oculta Gating: Salida de la red

55 Objetos: 12 caras, 12 copas, 12 libros, 12 soda cans, 5 imágenes de cada
64x64 pixels monocromos Preproceso: filtros de Gabor

56 Entrenamiento de la mezcla de expertos Modelo I (sobre vectores reducidos desde el resultado de los filtros de Gabor mediante PCA a 192 coeficientes) Entrena por separado las dos redes expertas. La tarea es diferenciar todas las caras y los objetos como grupo (lata, libro, copa). Escoge a posteriori como experta en caras la que da los mejores resultados sobre caras Necesita un ajuste fino de las velocidades de aprendizaje en cada capa. Consigue 100% de aciertos

57 Pesos asignados en la puerta a los expertos en relación con el nivel de error en la tarea.

58 Efecto de la eliminación de pesos en los expertos.
Se observa un cierto efecto de prosopagnosia.

59 Entrenamiento del modelo II
Los vectores obtenidos mediante filtros de Gabor se procesa mediante PCA aplicado a cada escala por separado, para preservar caracteristicas frecuenciales. Se obtienen vectores de 40 coeficientes Tres tareas: 1- clasificación de tipos de objetos (superordinate) 2- clasificación subordinada de libros, superordenada del resto 3- clasificación subordenada de caras, sup. del resto. Modos: A-todos reciben todos los inputs B- Las puertas reciben todos los inputs, los módulos reciben los componentes de alta frecuencia o los de baja frecuencia

60 En la partición frecuencial del entrenamiento se observa una especialización en las caras del módulo que recibe las bajas frecuencias. No ocurre lo mismo con la discriminación de libros.

61 Los daños en el modulo de alta frecuencia no afectan al reconcimiento de caras, sin embargo los daños al módulo de baja frecuencia son catastróficos.

62 Verificación de la capacidad de discriminación de las bajas frecuencias.
Entrenamiento de una red monolitica con backprop. para las tareas de identificación de caras e identificación de libros. Se entrenan con los componentes de altas frecuencias y de bajas frecuencias alternativamente atenuados Entrena 10 redes en cada condición/tarea Condición de parada del entrenamiento: convergencia en el error del conjunto de validación. Resultados: resulta dificil entrenar las redes en base a la información de altas frecuencias

63

64

65 Resultados aplicando la estrategia del vecino más cercano a la identificación
Se confirma la importancia de los componentes de baja frecuencia para la discriminación.

66 Segmentation of virus-infected areas in retinal angiograms using a learning-by-example approach
D. Brahmi y otros, ICJCNN’2000 Los angiogramas presentan fuertes variaciones de contraste, brillo y enfoque

67 Estructura del sistema:
Analiza ventanas 32x32: realiza la transformación en componentes principales ( muestras) clasifica con un MLP Funciones de base descubiertas por la transformada en componentes principales

68

69 sobreexpuesta irregular borrosas

70


Descargar ppt "Perceptrones multicapa y retropropagacion del gradiente (Backpropagation) Hertz, krogh, Palmer, Introduction to the theory of neural computation, Addison."

Presentaciones similares


Anuncios Google