Unsupervised visual learning of three-dimensional objects using a modular network architecture Ando, Suzuki, Fujita Neural Networks 12 (1999) 1037-1051.

Slides:



Advertisements
Presentaciones similares
Jacqueline Chávez Cuzcano
Advertisements

Introducción a las Redes neuronales
Silvana Arias Carla Espinosa Livia Loaiza INGENIERIA EN SISTEMAS
Definición Machine learning traducido al español significa el aprendizaje automático o también aprendizaje de las maquinas. A partir de esto podemos darle.
KRIGING.
Dpto. Señales, Sistemas y Radiocomunicaciones
Prof. Ramón Garduño Juárez Modelado Molecular Diseño de Fármacos
MODELO DE REGRESIÓN MÚLTIPLE
Representación en espacio de estado
Tema 6: Compresión de imagen
Máquinas con Vectores de Soporte - SVM
Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 Suscribase a o escríbanos a
Imagenes hiperespectrales: introducción
RECONOCIMIENTO DE OBJETOS
Propiedades curiosas de los espacios de alta dimensión
Clustering (Agrupamiento)
ANÁLISIS DISCRIMINANTE
APRENDIZAJE WIDROW- HOFF
David G. Lowe Distinctive Image Features from Scale-Invariant Keypoints Aradí Rosales Cruz Visión de alto nivel Enrique Sucar.
Determinacion de endmembers CCA1 Determinación de endmembers mediante una transformacion cónica.
Tracking de objetos articulados Model-Based Tracking of Complex Articulated Objects Kevin Nickels, Member, IEEE, and Seth Hutchinson, Senior Member, IEEE.
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
Tema 2: Métodos de ajuste
RECONOCIMIETO DE PATRONES
FUNCIONES DE DENSIDAD DE PROBABILIDAD
Sesión 2: Métodos Probabilísticos Básicos
Diplomado "Gestión de Negocios con Data Warehouse y Data Mining".
Redes Neuronales Monocapa
El Perceptrón Multicapa
Ejemplo de aplicación de las ANN
Image Processing Using FL and ANN Chapter 10 Dr. Mario Chacón DSP & Vision Lab.
1 Problema no separable linealmente Se busca obtener un algoritmo más general que permita integrar el aprendizaje entre las dos capas.
Tipos de redes neuronales Perceptrón multicapa Redes de respuesta radial Competitivas Clasificación Mapa topológico.
Inicialización de Superficies Deformables mediante Elipsoides Generalizados R. Dosil, X. M. Pardo, A. Mosquera, D. Cabello Grupo de Visión Artificial Departamento.
3. Funciones discriminantes para la f.d.p normal.
Sesión 6: Campos de Markov
Reconocimiento de Patrones
Cecilia Aguerrebere – Germán Capdehourat Proyecto Final de Reconocimiento de Patrones Reconocimiento de Caras con características locales.
Combinación de Clasificadores
Introducción a los conceptos necesarios del álgebra lineal R. Meziat
Perceptrón Multicapa Aplicaciones. Perceptrón Multicapa MLP Latitud Longitud... Altitud Radiación solar Aproximación de funciones MLP Estado de un reactor.
Modelos Computacionales
Redes Competitivas.
Técnicas Supervisadas Aproximación no paramétrica Reconocimiento de Patrones 2003 Notas basadas en el curso Reconocimiento de Formas de F.Cortijo, Univ.
REDES NEURONALES.
Simular: Representar una cosa, fingiendo o imitando lo que no es.
Redes Neuronales Artificiales
Grupo Continental Control de Procesos.
Una introducción a la computación evolutiva
Introduccion a las Redes de Funciones de Base Radial
Inferencia Multivariante Cap 10 y 11
Analisis de datos en imagenes hiperespectrales: intro 1 Analisis de datos hiperespectrales: otra revisión Hyperespectral image data analysis, D. Landgrebe,
Correccion de la iluminacion. Variaciones de iluminación en MRI debidas a no uniformidad de la bobina de radio frecuencia, corrientes parasitarias, anatomía.
6. ANÁLISIS DISCRIMINANTE
Sabemos reconocerlas, y calcularlas como soluciones de sistemas de ecuaciones, o de desigualdades Buscamos métodos de cálculo generales y eficientes Problemas.
Extracción de características
Aprendizaje No Supervisado y Redes de Kohonen
Procesamiento Digital de Imágenes
Redes Neuronales BPN - Backpropagation Networks
Reconocimiento de caras usando Histogramas de Gradientes Orientados
Reconocimiento de cara basado en “espectrocara”
Ángel Berihuete Francisco Álvarez
DETECCION DE SEÑALES BINARIAS EN RUIDO GAUSSIANO El criterio de toma de decisión fue descrito por la ecuación Un criterio muy usado para escoger el nivel.
Detecccion de caras1 Deteccion de caras-2 A fast and accurate face detector based on neural networks, R. Feraud, O.J. Bernier, J.E. Viallet, M. Collobert,
Support Vector Machines.  Vocabulario básico: ◦ Repositorio de datos ◦ Atributos y Instancias ◦ Aprendizaje supervisado  Clasificación (Clase) ◦ Aprendizaje.
Aprendiendo a pensar Espacialmente: La naturaleza y funciones del pensamiento espacial National Academy of Sciences The Nature of Spatial Thinking.
Estimación Estadística Tares # 3. Estimación Estadística Conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a.
REDES NEURONALES ARTIFICIALES (SOM - Kohonen)
Perceptrón multicapa 1 Detección de caras Descripción general del sistema. Tiene dos etapas 1 Aplica filtros basados en redes neuronales, a diferentes.
PROGRAMA DE INNOVACIÓN Y DESARROLLO TECNOLÓGICO PRODUCTIVO – CONVENIO : SENA-NEW STETIC Proyecto: Sistema de visión industrial para inspección.
Transcripción de la presentación:

Unsupervised visual learning of three-dimensional objects using a modular network architecture Ando, Suzuki, Fujita Neural Networks 12 (1999)

Indice Introduccion Descripción de la red modular Experimentos y discusión

Introducción Objetivo: reconocimiento 3D de objetos invariante a pose Aproximación: basada en vistas (view-based) Los objetos se representan por un conjunto de vistas en el sistema de coordenadas centradas en el observador Un conjunto de vistas se usan para el entrenamiento, y se obtiene la invarianza mediante interpolación

Introducción Justificación biológica: –Estudios sicofisiolócos demuestran que las representaciones de objetos 3D en el humano son especificas del punto de vista –Experimentos electrofisiológicos: el cortex inferotemporal de los primates emplea representaciones centradas en el punto de vista

Introducción Aportación: modelo de aprendizaje no supervisado para el agrupamiento automático de las vistas en clases de objetos

Introducción Dificultades: –Alta dimensionalidad –La distribución de las vistas en el espacio de los datos es muy compleja –Las distribuciones de las vistas de objetos distintos no son facilmente separables

Introducción Propiedades favorables de los datos –Los datos de las vistas de un objeto a menudo residen en un subespacio de baja dimensión –La distribución de las vistas de un objeto es continua inherentemente

Introducción Estrategia: identificar multiples sub- espacios no lineales La distancia de los datos se calcula respecto de un sub-espacio no lineal que contiene multiples vistas Cuando se identifica el subespacio, la vista se clasifica en la clase de objetos más cercana

Introducción Realización: red de arquitectura modular que consiste en una combinación de autoencoders Cada autoencoder descubre el sub-espacio no lineal de cada clase de objetos Los pesos se estiman iterativamente en base a la estimación de máxima verosimilitud

Modelo de red modular K-means Gaussian mixture models Mezclas de autoencoders –Reducción de dimensión –Red modular

Red modular K-means –Busca K vectores dados N puntos –Particiona los datos enK clases, minimizando la distorsion Batch (Isodata) Online (SCL)

Red modular Mezclas de gaussianas –Cada clase de objetos corresponde con una distribución gausiana de las caracteristicas –Se estiman los parametros de las mezclas y de los componentes mediante Estimación de máxima verosimilitud Expectation-maximization –Inconveniente: clases con distribuciones unimodales

Red modular Estimación de máxima verosimilitud –Se estiman las medias, varianzas y probabilidades a priori. –Minimización de la energía por descenso del gradiente estocástico. –Para estimar la probabilidad a priori se introduce una restricción de probabilidad

Red modular Expectación-maximización –El paso E de expectación corresponde con el cálculo de las probabilidades a posteriori –El paso M de maximización consiste en el cálculo de la actualización de las estimaciones de los centros, varianzas y probabilidades a priori.

Red modular Mezclas de autoencoders –Cuando los datos son vistas de un objeto 3D, los datos están distribuidos continuamente en el espacio de los datos –Cada objeto se corresponde con una variedad que no puede separarse facilmente –Los autoencoders modelan las variedades por un proceso de compresión descompresión

Red modular Autoencoder: MLP con una capa hidden de dimensión reducida –Implementa la compresión/recuperación de los datos –Cada autoencoder se entrena minimizando el error de recuperación –Cada autoencoder modela inplícitamente una variedad posiblemente no lineal

Red modular Autoencoders –La distancia a la variedad se corresponde con la diferencia entre la entrada y la salida –3 capas: corresponde a la proyección lineal –5 capas: modelo no lineal

Red modular Mezcla de autoencoders –Cada módulo se entrena con multiples vistas del mismo objeto –La clasificación está dada por el softmax de las diferencias entre las entradas y las salidas de los autoencoders

Red modular Entrenamiento no supervisado de máxima verosimilitud –Las vistas son agrupadas (clustered) sin conocimiento de la identidad de los objetos –Para definir la función de verosimilitud se consideran distribuciones gausianas de varianza unitaria y media la salida del autoencoder –Se minimiza mediante descenso por el gradiente

Red modular El aprendizaje fuerza a que al menos un módulo se identifique con el dato y trate de ajustarlo, mientras los otros módulos aumentan su distancia Asigna distintos módulos a distintas regiones input

Experimentos Múltiples vistas de los objetos 3D se presentan aleatoriamente, sin etiquetar Dificultad: a veces vistas de diferentes objetos son más similares que vistas del mismo objeto La red aprende a discriminar los objetos

Experimentos Indice –Agrupamiento de modelos de mallas Información disponible: vertices y ángulos Análisis de la representación interna –Imágenes en niveles de gris de objetos reales

Wire-frame objects Los objetos consisten de 5 segmentos cuyos 6 vértices son aleatoriamente selecionados en el cubo unidad

Wire-frames La vista está definida por dos parámetros de elvación y azimut Dos tipos de caracteristicas –Las coordenadas de los vértices –Los cosenos de los ángulos

Wire-frames Número de módulos: número de objetos Número de unidades en la capa intermedia: número de parámetros de la vista (2) En el entrenamiento los objetos y las vistas se seleccionan aleatoriamente El número de unidades en las capas no centrales llega hasta las 20 unidades

Wire-frame Las vistas se inician en rango reducido que se va ampliando durante el entrenamiento La generalización se estudia restringiendo las vistas de entrenamiento Inicialmente con tres objetos

Wire-frame Los dos tipos de características dan resultados similares Resultados de presentarle 2500 vistas, al observar el error de recuperación se puede asocia modulo2 y objeto 3

Wire-frame Analisis de la información en la capa oculta intermedia –La información de pose se extrae y describe en la capa intermedia –Hay correspondencia uno a uno entre los datos de las vistas y la representación en la capa oculta

Wire frame Gereralización: entrenamiento con un rango reducido de vistas –Buenos resultados fuera de la región de entrenamiento

Wire-frame Aumentar el número de objetos 3,5 y réplicas con conjuntos distintos d edatos Para cada intento el ratio de clasificación es el mejor de todas las posibles combinaciones de objetos y clases.

Imganes reales Una muñea y peluches V istas: mesa motorizada 1 cada grado Iluminación: dos fuentes en el frente Filtrado Gausiano de 4.0 Submuestreo 16x15 Distancia euclidea entre las mismas vistas de distintos objetos

Real images Autoasociadores de 5 capas, 240 input/output units, 5 para las capas ocultas y 2 para la intermedia Los resultados muestran la capacidad de identificar el objeto A en la clase 1, el B en la clase 2 Razones para la mala clasificación: los objetos B y C son muy simialres