La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para.

Presentaciones similares


Presentación del tema: "Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para."— Transcripción de la presentación:

1 Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para sistemas de diálogo hablado multidominio Reunión Valencia – 24 y 25 de noviembre de 2011 Javier Macías Guarasa Departamento de Electrónica – Universidad de Alcalá

2 2 de 34SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Índice Introducción Revisión de tareas UAH en curso Descripción técnica: Localización de locutores activos usando técnicas de compressive sensing Mejoras en seguimiento de posición de articulaciones basada en vídeo Estimación de pose y movimiento de manos en tareas de inferencia psicológica

3 3 de 34SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Introducción Presupuesto, personal, objetivo Presupuesto: Personal: Sistemas robustos de detección, localización, seguimiento y estimación de pose multimodal de múltiples locutores en espacios inteligentes: fusión sensorial Marta Marrón RomeraJosé Luis Martín SánchezJavier Macías Guarasa

4 4 de 34SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Tareas en curso M24-M36: Repaso general

5 5 de 34SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Tareas en curso Módulo 1 M1. Tecnologías para la detección de entorno, la autoevaluación y el aprendizaje autónomo: T1.1. Tecnologías para el tratamiento de entradas multimodales (M1-M27) Localización audio, vídeo, audio+vídeo Nuevo: Estimación de pose + movimiento manos T1.3. Tecnologías para la autoevaluación e integración en el proceso de aprendizaje (M4-M33) Medidas fiabilidad estimación localización

6 6 de 34SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Tareas en curso Módulos 2 y 3 M2. Tecnologías para la interacción y cooperación: T2.1 Tecnologías para la obtención automática de información de la tarea y del usuario (M1-M30) Identificación del estado emocional de los locutores: Análisis de viabilidad del uso de información visual para identificación del usuario y su estado emocional (capturas vídeo buena resolución). Nuevo: Estimación de movimiento de manos para inferencia psicológica Pendiente evaluación con capturas de SEV: No se abordará M3. Arquitectura T3.2 Integración de la multimodalidad (M9-M30) Pendiente consorcio (definición metodología integración y sincronización)

7 7 de 34SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Tareas en curso Módulo 4 M4. Aplicaciones y demostradores T4.1 Desarrollo SW de la arquitectura e integración de componentes (M1-M33) Pendiente: implementación módulos suministro secuencias vídeo e identificación de gestos T4.2 Sistemas de diálogo dinámicos para el acceso a servicios desde el hogar (M13-M36) Planificación y equipamiento de la instalación de captura y procesamiento de audio y vídeo multicanal para su integración en el espacio inteligente de demostración del grupo de la UAH Generación de demostradores de seguimiento audio (disponible para evaluación proyecto), vídeo (disponible para evaluación proyecto) y fusión (disponibles dos prototipos para evaluación proyecto) Pendiente: Integración con demostrador control equipos multimedia

8 8 de 34SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Localización basada en compressive sensing Planteamiento: Problema de estimación de posición de un número reducido de locutores en un espacio puede caracterizarse como un problema resoluble con técnicas de compressive sensing Evaluaremos su rendimiento en competencia con la mejor técnica disponible: SRP-PHAT Objetivo: Usar técnicas alternativas de estimación de posición basadas en compressive sensing José Velasco, Daniel Pizarro, Javier Macías

9 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Localización basada en compressive sensing SRP-PHAT: Basado en la estimación de la potencia acústica analizada en un conjunto discreto de puntos del espacio Posición del hablante Posición de máximo SRP

10 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Localización basada en compressive sensing SRP-PHAT: Estimación genera soluciones que se organizan en hipérbolas generadas por cada par de micros para cada fuente activa Ventajas: Procesado Sencillo Preciso Desventajas: Difícil distinguir múltiple hablantes Análisis local: No aprovecha la redundancia espacial que caracteriza al problema

11 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Localización basada en compressive sensing Nuevo método: Espacio generativo de SRP

12 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Localización basada en compressive sensing Nuevo método: Espacio generativo de SRP

13 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Localización basada en compressive sensing Nuevo método: Espacio generativo de SRP Idea subyacente: Cada fuente activa genera tantas hipérbolas como pares de micros Objetivo: Tratar de explicar la imagen como un conjunto de hipérbolas ¿Cómo?

14 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Localización basada en compressive sensing Antecedentes: El desarrollo de Fourier trata de explicar una señal a partir de sumas de sinusoidales Misma idea para wavelets, … Todas ellas representaciones lineales: Y=A·X

15 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Localización basada en compressive sensing Modelo:

16 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Localización basada en compressive sensing Consideraciones: El vector posición del hablante (X) toma valor no nulo en las posiciones donde existe un locutor En una situación real la mayor parte del espacio está desocupado Esto es equivalente a exigir que el vector X sea 'Sparse', es decir, pocos elementos no nulos.

17 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Localización basada en compressive sensing Objetivo: Encontrar vector X lo más sparse posible que consiga Equivalente a minimizar la siguiente función de coste: Costoso computacionalmente (np-hard).

18 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Localización basada en compressive sensing Aproximación: Solución similar Problema convexo Existen algoritmos eficientes Ampliamente utilizado en Compressive Sensing

19 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Localización basada en compressive sensing Resultados del problema juguete:

20 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Localización basada en compressive sensing Resultados del problema juguete:

21 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Localización basada en compressive sensing Resultados del problema real: AV16.3 secuencia 01

22 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Localización basada en compressive sensing Resultados del problema real: AV16.3 secuencia 01

23 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Localización basada en compressive sensing Resultados del problema real: AV16.3 secuencia 01

24 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Localización basada en compressive sensing Resultados del problema real: AV16.3 secuencia 01

25 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Mejoras en seguimiento articulaciones usando vídeo Objetivos: Capturar movimiento de múltiples personas sin equipamiento MOCAP Propuesta: - HumanEva I & II - Estándar de la comunidad - 4 sujetos - Posición 3D de las articulaciones - Secuencias de entrenamiento y de test - GPLVM - 46D -> 3D Álvaro Marcos Marta Marrón Daniel Pizarro

26 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Mejoras en seguimiento articulaciones usando vídeo Seguimiento en espacio reducido:

27 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Mejoras en seguimiento articulaciones usando vídeo Seguimiento en espacio reducido: Cuánta información hace falta

28 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Mejoras en seguimiento articulaciones usando vídeo Resultados:

29 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Estimación de movimiento para inferencia psicológica Work in collaboration with IDIAP Database: Single camera Long sequences (around 15 minutes each) Constraints: 1 person Only torso Static background Objective: We will try to find out if it is possible to reconstruct the whole upper body in monocular sequences This information could be used in psicological inference studies (emotional state, intended attitude) Álvaro Marcos Marta Marrón Daniel Pizarro

30 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Estimación de movimiento para inferencia psicológica Idea: Extremities of the human body show more movement along a video sequence than the rest of the body. Face localization is possible with state of the art algorithms A priori information about human motion is available via dataset training data Hand properties: Along a sequence, they move quicker and in different directions than the average whole body speed vector They are usually skin colored, but the face also is Assuming a static background, hands will be part of the foreground data Combining all this information, we build a probability function for the hands

31 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Estimación de movimiento para inferencia psicológica Optimization algorithm: We have the whole sequence since the beginning We should take advantage of that: use an optimization algorithm to avoid local minima and solve tracking errors. We propose Ant Colony Optimization. Ant agents: like in nature, they look for the quickest route in a problem. They drop pheromone in their path The best path will have lots of phermone. Until now, only applied to discrete problems. We have to define a distance measure: the higher the probability of a pixel, and the nearer that pixel is, the shorter the distance.

32 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Estimación de movimiento para inferencia psicológica Dealing with the database: Encode via PCA or other dimensionality reduction algorithm the dynamics of the human movement The more information about different movements there are, the better With the help of psychologists, we have defined the most relevant movements in our job interview situation With the help of a range sensor (Kinect) we obtained the information of the joint movements in 3D

33 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Estimación de movimiento para inferencia psicológica Training:

34 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Estimación de movimiento para inferencia psicológica Hands probability function:

35 SD-TEAM UAH – Reunión Valencia 24 y 25 de noviembre de 2011 Descripción técnica Estimación de movimiento para inferencia psicológica Ant colony optimization:


Descargar ppt "Grupo de Ing. Electrónica aplicada a Espacios INteligentes y TRAnsporte – Área Audio-Visual SD-TEAM UAH Tecnologías de fusión sensorial audio-visual para."

Presentaciones similares


Anuncios Google