Perceptrones multicapa y retropropagacion del gradiente (Backpropagation) Hertz, krogh, Palmer, Introduction to the theory of neural computation, Addison.

Slides:



Advertisements
Presentaciones similares
Introducción a las Redes neuronales
Advertisements

PROCESAMIENTO DE IMAGENES
Contraste de Hipótesis
Silvana Arias Carla Espinosa Livia Loaiza INGENIERIA EN SISTEMAS
MATLAB MAYO 5 DEL 2005 IMPLEMENTACION DE LA FUNCION LOGICA XOR, MEDIANTE UN MODELO NEURONAL Y EL ALGORITMO BACKPROPAGATION EXPOSITORES: ANDRES FELIPE RESTREPO.
Redes neuronales2 José Edinson Aedo Cobo Depto. de Ing. Electrónica.
KRIGING.
Clustering (Agrupamiento)
APRENDIZAJE WIDROW- HOFF
Determinacion de endmembers CCA1 Determinación de endmembers mediante una transformacion cónica.
Juan Pablo Vásquez Ralf Wilke 18 de Diciembre 2008.
Introducción Calculabilidad clásica Computación celular
J. Trinidad Guillen Bonilla, H. Guillen Bonilla, A. Guillen Bonilla,
CONTRASTE Y VALIDACIÓN DE UN MODELO
Redes Neuronales Monocapa
El Perceptrón Multicapa
Modelos de iluminación
Ejemplo de aplicación de las ANN
1 Problema no separable linealmente Se busca obtener un algoritmo más general que permita integrar el aprendizaje entre las dos capas.
Redes Neuronales Artificiales Autoorganizadas
Tipos de redes neuronales Perceptrón multicapa Redes de respuesta radial Competitivas Clasificación Mapa topológico.
GRUPO DE INVESTIGACION EN CONTROL INDUSTRIAL
3. Funciones discriminantes para la f.d.p normal.
Reconocimiento de Patrones
Cecilia Aguerrebere – Germán Capdehourat Proyecto Final de Reconocimiento de Patrones Reconocimiento de Caras con características locales.
Combinación de Clasificadores
Redes Asociativas.
Perceptrón Multicapa Aplicaciones. Perceptrón Multicapa MLP Latitud Longitud... Altitud Radiación solar Aproximación de funciones MLP Estado de un reactor.
ALGORITMOS GEN É TICOS: DETECCI Ó N DE BORDES EN IM Á GENES Daniel Mej í as Pinto Luis Manuel Merino Su á rez.
Redes Competitivas.
REDES NEURONALES.
Titular: Agustín Salvia
Aprendizaje Automatizado
Redes Neuronales Artificiales 2 - Aprendizaje
Redes Neuronales Artificiales 3 - Perceptrones Dr. Juan José Flores Romero División de Estudios de Posgrado Facultad de Ingeniería Eléctrica
MoMento S Grupo 33: Ignacio Ayllón Benito Félix A. Velázquez Salas.
Filtros.
REDES NEURONALES ARTIFICIALES TEORÍA Y APLICACIONES
1 Image Segmentation Chapter 9 Dr. Mario Chacón DSP & Vision Lab.
Analisis de datos en imagenes hiperespectrales: intro 1 Analisis de datos hiperespectrales: otra revisión Hyperespectral image data analysis, D. Landgrebe,
Sabemos reconocerlas, y calcularlas como soluciones de sistemas de ecuaciones, o de desigualdades Buscamos métodos de cálculo generales y eficientes Problemas.
Aprendizaje No Supervisado y Redes de Kohonen
Multiple Camera Tracking of Interacting and Occluded Human Motion SHILOH L. DOCKSTADER, STUDENT MEMBER, IEEE, AND A. MURAT TEKALP, SENIOR MEMBER, IEEE.
Introducción al análisis de expresiones
Redes Neuronales BPN - Backpropagation Networks
Redes Neuronales Artificiales Entrenamiento por Retropropagación del Error-Backpropagation Dr. Pedro Ponce Cruz EGIA-MCI.
Redes neuronales feed-forward
Reconocimiento de caras usando Histogramas de Gradientes Orientados
Identificacion con redes neuronales
Algoritmo de Retropropagación. Notación n i, j, k son índices de las neuronas en las distintas capas.
Reconocimiento de cara basado en “espectrocara”
Ángel Berihuete Francisco Álvarez
OPTIMIZACION DEL DESEMPEÑO DE ERROR
NÚMEROS ALEATORIOS DEPARTAMENTO DE INFORMATICA UNSL-2007.
Detecccion de caras1 Deteccion de caras-2 A fast and accurate face detector based on neural networks, R. Feraud, O.J. Bernier, J.E. Viallet, M. Collobert,
La ciencia y su estudio Magnitudes y Unidades Medida Vectores.
Redes de Hopfield 1 Red de Hopfield Hertz. Kroght, Palmer Introduction to the theory of neural computation.
Robótica Móvil CC5316 Clase 13: EKF y UKF Semestre Primavera 2012 Profesor: Pablo Guerrero.
Visually guided movements: learning with modular neural maps in robotics Jean-Luc Buessler, Jean Philippe Urban Neural Networks 11(1998)
REGRESIÓN Y CORRELACIÓN LINEAL, SERIES DE TIEMPO Msc. Esmelda Aguirre Téllez Master en Administración de Negocios.
Perceptrón multicapa 1 Detección de caras Descripción general del sistema. Tiene dos etapas 1 Aplica filtros basados en redes neuronales, a diferentes.
BIOESTADÍSTICA Y ESTADÍSTICA BÁSICA CHILLÁN, SEGUNDO SEMESTRE PROF. SOC. M© KEVIN VILLEGAS.
Representación en espacio de estado
Tema 3. Secuencias y transformada z
Redes Neuronales Artificiales (ANN)

Unsupervised visual learning of three-dimensional objects using a modular network architecture Ando, Suzuki, Fujita Neural Networks 12 (1999)
PROGRAMA DE INNOVACIÓN Y DESARROLLO TECNOLÓGICO PRODUCTIVO – CONVENIO : SENA-NEW STETIC Proyecto: Sistema de visión industrial para inspección.
APLICACIONES TAI EN TELEFORMACIÓN. ¿Qué es la teleformación? La Teleformación o el e-learning permite realizar acciones formativas a través de Internet.
Lorenzo Bruzzone IEEE Geoscience and remote sensing 38,1pp429
Transcripción de la presentación:

Perceptrones multicapa y retropropagacion del gradiente (Backpropagation) Hertz, krogh, Palmer, Introduction to the theory of neural computation, Addison Wesley, 1992

Contenidos Redes simples Redes multicapa Aplicación a la detección de caras

Perceptrón o redes de propagación hacia adelante Perceptron simpe: una capa output Perceptron multicapa o red feedforward: una o varias capas ocultas y una capa output. La entrada se propaga hacia la salida. Respuesta de la unidad Función de activación Incluyendo umbrales: Respuesta obtenida de la red Respuesta deseada

Unidades umbral (threshold units) Patrones binarios

Separabilidad lineal

Algoritmo de aprendizaje del perceptrón binario simple La regla de aprendizaje del perceptron Función escalón

Unidades lineales Consideramos la función de activación contínua y diferenciable. El caso más sencillo son las unidades lineales Las salidas son continuas y los inputs binarios ±1 Si los patrones son linealmente independientes se puede calcular explicitamente los pesos que cumplen la condición de devolver el output deseado

Descenso de gradiente en las unidades lineales (aprendizaje) Error o función de costo La minimización por descenso de gradiente de la función de costo El descenso de gradiente instantaneo, aplicado a cada patrón por separado. Widrow-Hoff, LMS, Adaline

La función de costo cuadrática define una superficie con un mínimo global, la convergencia estágarantizada. Si los patrones son linealmente independientes el error mínimo es cero, sino es mayor que cero

Unidades no lineales Función de activación diferenciable. La función de costo: El aprendizaje por descenso de gradiente Funciones de activación interesantes por la forma de sus derivadas Unidades {0,1}

Redes multicapa y backpropagation Propagación hacia delante de la estimulación en las unidades input Entrada unidad hidden Salida unidad hidden Entrada unidad outpur Salida unidad output

función de error o costo El descenso por el gradiente permite definir la actualización de los pesos de las unidades ocultas a las de salida

La actualización de los pesos de las unidades de entrada a las ocultas El efecto que se obtiene es que se propaga el error detectado a la salida hacia la entrada. Puede definirse una regla instantanea basada en descenso por el gradiente Las funciones de activación son las sigmoideas.

Procedimiento backpropagation V es la salida de una unidad m denota la capa de unidades

Detección de caras Problema básico: la detección de caras es un problema de clasificación en dos clases que necesita infinitos ejemplos negativos. Solución “bootsrap” Descripción general del sistema. Tiene dos etapas 1 Aplica filtros basados en redes neuronales, a diferentes escalas 2 Un árbitro evalua los resultados de la detección mediante los filtros y elimina detecciones solapadas

Preproceso de las ventanas de 20x20 Ignora los pixels de fondo Ajusta una función lineal para modelar los efectos de la iluminación y la substrae para corregir Ecualiza la imagen

Algunas caracteristicas de la red neuronal 3 tipos de unidades ocultas 4 que observan subregiones 10x10 16 que observan regiones 5x5 6 que observan bandas 20x5 con solapamiento (para detectar ojos, boca,etc Entrenamiento: 1050 patrones de caras Los ojos, punta de la nariz, esquinas y centro de la boca se etiquetaron manualmente y se usaron para normalizar a la misma escala, orientación y posición a las imágenes de caras. La normalización se realiza con un algoritmo iterativo que estima la posición promedio de cada caracteristica de la cara (5 iterac.)

De cada imagen original se generan 15 imágenes mediante rotación (menos de 10º) traslaciones (hasta medio pixel), espejo, escalado (entre 90% y 110%)

Generación de ejemplos negativos durante el entrenamiento (bootstraping) 1 Conjunto inicial de no caras: 100o imágenes aleatorias con el mismo preproceso 2 Entrenamieno inicial de la red. 3 Aplicar el sistema a imágenes que no contienen caras. Seleccionar los falsos positivos y añadirlos al conjunto de entrenamiento. Repetir

Arbitraje: resolución de múltiples detecciones y falsos positivos Se observa que se producen detecciones redundantes y solapadas y esta redundancia es menor en los falsos positivos. Contabiliza el numero de detecciones en un entorno si supera el umbral se decide deteccion. El centroide del cluster de detecciones es la posición de la detección. sino es un falso positivo Las detecciones que se solapan se eliminan

Arbitraje entre multiples redes: no coincidiran en los falso positivos

Uso de una red para realizar el arbitraje Uso de una red para realizar el arbitraje. Es consistente con el heurístico

Detección invariante a rotación rowley, baluja, kanade

Las imágenes son procesadas por el router que detecta el ángulo de rotación. La imagen se corrige invirtiendo la rotación Se aplica el algoritmo de detección frontal

La red router: input imágenes 20x20, output 36 unidades de ángulo cuya salida deseada es La salida de la red es de la forma Entrenamiento: las imágenes regularizadas empleadas (1048) se rotan aleatoriamente 15 veces (15720 casos) y se emplean para entrenar el router Arquitectura: input 400, hidden 15, output 36

Detección de la imagen con la rotación corregida: igual que en el sistema anterior Esquema de arbitraje: cada detección es un punto en un espacio 4D (posición, escala y ángulo) se establece un umbral de detección en el espacio 4D cuantizado detecciones con solapamiento se ignoran. se utilizan dos redes de detección en paralelo.

Example based learning for view based human face detection K.K. Sung, T Poggio

Sistema de detección de caras basado en muestras/ejemplos Robusted frente a variaciones de escala: procesa un piramide de imágenes Se basa en trozos de imagen que contienen la boca y los ojos Imágenes de 19x19, se modela la distribución de las caras en función de las muestras. La detección se basa en la extracción de ventanas 19x19, el cálculo de diferencias respecto del modelo de distribución de las caras y un clasificador .

Superficie (manifold) canónica de las caras: Volumen ocupado por las imágenes 19x19 de caras. Pocos (6) clusters de caras y pocos (6) clusters de no caras Aproximación por partes a la distribución de caras y no caras. Cada cluster es una gausiana con centroide y matriz de covarianza. Preproceso Toma ventanas de 19x19 Aplica una máscara para eliminar los pixels en las esquinas (reduce la dimensión) Corrección de gradiente de iluminación mediante el ajuste de un plano. Ecualización de la imagen

Construcción del modelo de la distribución de las caras: Se usan 4150 patrones normalizados de caras frontales, 1067 son reales, los restantes son generados mediante rotación y simetría. Se calculan 6 clusters de caras (la determinación del número es empírica) Utilizan un método k-means elíptico, usando una métrica de distancia normalizada de Mahalanobis adaptativa. Estimación: k-means con estimación de la matriz de covarianza Parte de centroides iniciales arbitrarios y matrices de covarianza identidad Itera la reestimación de los centroide con covarianza fija Acttualiza la covarianza cuando converge el k-means simple.

Modelado de la distribución de las imágenes de no caras: Modelado con 6 clusters gausianos (empírico) La muestra inicial es de 6189 imágenes de no caras La muestra de no caras se incrementa mediante bootstraping.

El vector de diferencia son las distancias a los centros de cluster que modelan las caras y no caras. Las distancias se consideran en el subespacio generado por los 75 autovectores principales localmente a cada cluster. La distancia entre un patron de test y cada cluster tiene dos componentes: La distancia en el subespacio relativa a los autovectores principales del cluster respecto del centroide del cluster. La distancia entre el patrón y su proyección en el subespacio de los autovectores principales.

El clasificador MLP con 12 pares de unidades input, 24 unidades ocultas, un a unidad de salida Entrenamiento: 47316 patrones (4150 ejemplos positivos) Backprop standard. Generación de patrones negativos: bootstraping. Añade a la base de datos de entranamiento los patrones que dan falso positivo.

Bases de datos de entrenamiento 301 mugshots de 71 personas con imagenes de alta calidad 23 imágenes con 149 patrones de caras de calidad variable. Experimentos de sensibilidad Clasificador: MLP multicapa, un único perceptron lineal y vecino más cercano Distancia: sólo uno de los componentes de la distancia versus la distancia de Mahalanobis estándar. Modelos de las distribuciones: con el modelado explicito de las no caras (12 clusters) y sin él (6 clusters).

Organization of face and object recognition in modular neural network models dailey, cottrell, NN 12(1053-1073) En base al fenómeno de la prosopagnosia (la imposibilidad de reconocer caras) postulan la existencia de modulos especificos de reconocimiento de caras en el cerebro. Proponen un sistema basado en mezcla de expertos. Comparan una mezcla de expertos pura con su método. El objetivo es reproducir la prosopagnosia al destruir parte de la estructura de los expertos.

Mezcla de expertos Red lineal de una capa: experto Gating: ponderación exponencial de las salidas salida de la red Adaptación de la combinación de expertos Adaptación de los pesos de los expertos Verosimilitud de una salida de la red

Mezcla de capas ocultas Capa oculta Gating: Salida de la red

Objetos: 12 caras, 12 copas, 12 libros, 12 soda cans, 5 imágenes de cada 64x64 pixels monocromos Preproceso: filtros de Gabor

Entrenamiento de la mezcla de expertos Modelo I (sobre vectores reducidos desde el resultado de los filtros de Gabor mediante PCA a 192 coeficientes) Entrena por separado las dos redes expertas. La tarea es diferenciar todas las caras y los objetos como grupo (lata, libro, copa). Escoge a posteriori como experta en caras la que da los mejores resultados sobre caras Necesita un ajuste fino de las velocidades de aprendizaje en cada capa. Consigue 100% de aciertos

Pesos asignados en la puerta a los expertos en relación con el nivel de error en la tarea.

Efecto de la eliminación de pesos en los expertos. Se observa un cierto efecto de prosopagnosia.

Entrenamiento del modelo II Los vectores obtenidos mediante filtros de Gabor se procesa mediante PCA aplicado a cada escala por separado, para preservar caracteristicas frecuenciales. Se obtienen vectores de 40 coeficientes Tres tareas: 1- clasificación de tipos de objetos (superordinate) 2- clasificación subordinada de libros, superordenada del resto 3- clasificación subordenada de caras, sup. del resto. Modos: A-todos reciben todos los inputs B- Las puertas reciben todos los inputs, los módulos reciben los componentes de alta frecuencia o los de baja frecuencia

En la partición frecuencial del entrenamiento se observa una especialización en las caras del módulo que recibe las bajas frecuencias. No ocurre lo mismo con la discriminación de libros.

Los daños en el modulo de alta frecuencia no afectan al reconcimiento de caras, sin embargo los daños al módulo de baja frecuencia son catastróficos.

Verificación de la capacidad de discriminación de las bajas frecuencias. Entrenamiento de una red monolitica con backprop. para las tareas de identificación de caras e identificación de libros. Se entrenan con los componentes de altas frecuencias y de bajas frecuencias alternativamente atenuados Entrena 10 redes en cada condición/tarea Condición de parada del entrenamiento: convergencia en el error del conjunto de validación. Resultados: resulta dificil entrenar las redes en base a la información de altas frecuencias

Resultados aplicando la estrategia del vecino más cercano a la identificación Se confirma la importancia de los componentes de baja frecuencia para la discriminación.

Segmentation of virus-infected areas in retinal angiograms using a learning-by-example approach D. Brahmi y otros, ICJCNN’2000 Los angiogramas presentan fuertes variaciones de contraste, brillo y enfoque

Estructura del sistema: Analiza ventanas 32x32: realiza la transformación en componentes principales (10.000 muestras) clasifica con un MLP Funciones de base descubiertas por la transformada en componentes principales

sobreexpuesta irregular borrosas