Unsupervised visual learning of three-dimensional objects using a modular network architecture Ando, Suzuki, Fujita Neural Networks 12 (1999) 1037-1051.

Unsupervised visual learning of three-dimensional objects using a modular network architecture Ando, Suzuki, Fujita Neural Networks 12 (1999) 1037-1051

Indice Introduccion Descripción de la red modular Experimentos y discusión

Introducción Objetivo: reconocimiento 3D de objetos invariante a pose Aproximación: basada en vistas (view-based) Los objetos se representan por un conjunto de vistas en el sistema de coordenadas centradas en el observador Un conjunto de vistas se usan para el entrenamiento, y se obtiene la invarianza mediante interpolación

Introducción Justificación biológica: –Estudios sicofisiolócos demuestran que las representaciones de objetos 3D en el humano son especificas del punto de vista –Experimentos electrofisiológicos: el cortex inferotemporal de los primates emplea representaciones centradas en el punto de vista

Introducción Aportación: modelo de aprendizaje no supervisado para el agrupamiento automático de las vistas en clases de objetos

Introducción Dificultades: –Alta dimensionalidad –La distribución de las vistas en el espacio de los datos es muy compleja –Las distribuciones de las vistas de objetos distintos no son facilmente separables

Introducción Propiedades favorables de los datos –Los datos de las vistas de un objeto a menudo residen en un subespacio de baja dimensión –La distribución de las vistas de un objeto es continua inherentemente

Introducción Estrategia: identificar multiples sub- espacios no lineales La distancia de los datos se calcula respecto de un sub-espacio no lineal que contiene multiples vistas Cuando se identifica el subespacio, la vista se clasifica en la clase de objetos más cercana

Introducción Realización: red de arquitectura modular que consiste en una combinación de autoencoders Cada autoencoder descubre el sub-espacio no lineal de cada clase de objetos Los pesos se estiman iterativamente en base a la estimación de máxima verosimilitud

Modelo de red modular K-means Gaussian mixture models Mezclas de autoencoders –Reducción de dimensión –Red modular

Red modular K-means –Busca K vectores dados N puntos –Particiona los datos enK clases, minimizando la distorsion Batch (Isodata) Online (SCL)

Red modular Mezclas de gaussianas –Cada clase de objetos corresponde con una distribución gausiana de las caracteristicas –Se estiman los parametros de las mezclas y de los componentes mediante Estimación de máxima verosimilitud Expectation-maximization –Inconveniente: clases con distribuciones unimodales

Red modular Estimación de máxima verosimilitud –Se estiman las medias, varianzas y probabilidades a priori. –Minimización de la energía por descenso del gradiente estocástico. –Para estimar la probabilidad a priori se introduce una restricción de probabilidad

Red modular Expectación-maximización –El paso E de expectación corresponde con el cálculo de las probabilidades a posteriori –El paso M de maximización consiste en el cálculo de la actualización de las estimaciones de los centros, varianzas y probabilidades a priori.

Red modular Mezclas de autoencoders –Cuando los datos son vistas de un objeto 3D, los datos están distribuidos continuamente en el espacio de los datos –Cada objeto se corresponde con una variedad que no puede separarse facilmente –Los autoencoders modelan las variedades por un proceso de compresión descompresión

Red modular Autoencoder: MLP con una capa hidden de dimensión reducida –Implementa la compresión/recuperación de los datos –Cada autoencoder se entrena minimizando el error de recuperación –Cada autoencoder modela inplícitamente una variedad posiblemente no lineal

Red modular Autoencoders –La distancia a la variedad se corresponde con la diferencia entre la entrada y la salida –3 capas: corresponde a la proyección lineal –5 capas: modelo no lineal

Red modular Mezcla de autoencoders –Cada módulo se entrena con multiples vistas del mismo objeto –La clasificación está dada por el softmax de las diferencias entre las entradas y las salidas de los autoencoders

Red modular Entrenamiento no supervisado de máxima verosimilitud –Las vistas son agrupadas (clustered) sin conocimiento de la identidad de los objetos –Para definir la función de verosimilitud se consideran distribuciones gausianas de varianza unitaria y media la salida del autoencoder –Se minimiza mediante descenso por el gradiente

Red modular El aprendizaje fuerza a que al menos un módulo se identifique con el dato y trate de ajustarlo, mientras los otros módulos aumentan su distancia Asigna distintos módulos a distintas regiones input

Experimentos Múltiples vistas de los objetos 3D se presentan aleatoriamente, sin etiquetar Dificultad: a veces vistas de diferentes objetos son más similares que vistas del mismo objeto La red aprende a discriminar los objetos

Experimentos Indice –Agrupamiento de modelos de mallas Información disponible: vertices y ángulos Análisis de la representación interna –Imágenes en niveles de gris de objetos reales

Wire-frame objects Los objetos consisten de 5 segmentos cuyos 6 vértices son aleatoriamente selecionados en el cubo unidad

Wire-frames La vista está definida por dos parámetros de elvación y azimut Dos tipos de caracteristicas –Las coordenadas de los vértices –Los cosenos de los ángulos

Wire-frames Número de módulos: número de objetos Número de unidades en la capa intermedia: número de parámetros de la vista (2) En el entrenamiento los objetos y las vistas se seleccionan aleatoriamente El número de unidades en las capas no centrales llega hasta las 20 unidades

Wire-frame Las vistas se inician en rango reducido que se va ampliando durante el entrenamiento La generalización se estudia restringiendo las vistas de entrenamiento Inicialmente con tres objetos

Wire-frame Los dos tipos de características dan resultados similares Resultados de presentarle 2500 vistas, al observar el error de recuperación se puede asocia modulo2 y objeto 3

Wire-frame Analisis de la información en la capa oculta intermedia –La información de pose se extrae y describe en la capa intermedia –Hay correspondencia uno a uno entre los datos de las vistas y la representación en la capa oculta

Wire frame Gereralización: entrenamiento con un rango reducido de vistas –Buenos resultados fuera de la región de entrenamiento

Wire-frame Aumentar el número de objetos 3,5 y 10 12 réplicas con conjuntos distintos d edatos Para cada intento el ratio de clasificación es el mejor de todas las posibles combinaciones de objetos y clases.

Imganes reales Una muñea y peluches V istas: mesa motorizada 1 cada grado Iluminación: dos fuentes en el frente Filtrado Gausiano de 4.0 Submuestreo 16x15 Distancia euclidea entre las mismas vistas de distintos objetos

Real images Autoasociadores de 5 capas, 240 input/output units, 5 para las capas ocultas y 2 para la intermedia Los resultados muestran la capacidad de identificar el objeto A en la clase 1, el B en la clase 2 Razones para la mala clasificación: los objetos B y C son muy simialres

Unsupervised visual learning of three-dimensional objects using a modular network architecture Ando, Suzuki, Fujita Neural Networks 12 (1999) 1037-1051.

Presentaciones similares

Presentación del tema: "Unsupervised visual learning of three-dimensional objects using a modular network architecture Ando, Suzuki, Fujita Neural Networks 12 (1999) 1037-1051."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Unsupervised visual learning of three-dimensional objects using a modular network architecture Ando, Suzuki, Fujita Neural Networks 12 (1999) 1037-1051.

Presentaciones similares

Presentación del tema: "Unsupervised visual learning of three-dimensional objects using a modular network architecture Ando, Suzuki, Fujita Neural Networks 12 (1999) 1037-1051."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback