 Audio  Localización basada en diferencias de tiempos de llegada de la voz a los micrófonos  Steered Response Power (SRP): evalúa actividad acústica.

Slides:



Advertisements
Presentaciones similares
Evaluar el efecto de un tratamiento (1)
Advertisements

El ciclo de vida de un proyecto
Planificación de Monoprocesadores
HYCUBE HYPACK 2013.
Contraste de Hipótesis
Introducción a las mediciones
TRABAJO FIN DE CARRERA Generación de Máscaras Soft para Compensación de Características en Reconocimiento Robusto del Habla I v á n L ó p e z E s p.
ENCUESTA INDUSTRIAL MENSUAL
Visión de Máquina: Aplicaciones a la Industria
Autora: Carmen Alonso Montes Director: Manuel González Penedo
1. Visión Artificial Industrial. Introducción.
PROYECTO FIN DE CARRERA.  Introducción y Motivación  Fundamentos del Sistema QbH  Diseño e Implementación  Test y Resultados  Conclusiones  Trabajo.
DETECCIÓN DE INTRUSOS rodríguez García Juan Carlos 3812
MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS
Detección y extracción de placas de vehículos en señales de video
“ANÁLISIS DE EFICIENCIA EN ALGORITMOS DE RECONOCIMIENTO DE IMÁGENES DIGITALES APLICABLES A DISPOSITIVOS MÓVILES BAJO LA PLATAFORMA ANDROID” Miguel Ñauñay.
Tema 3 Revisión de diversos métodos robustos aplicados en algunos problemas fotogramétricos.
ALGORÍTMICA Dpto. Ingeniería de Sistemas y Automática
PROYECTO FIN DE MÁSTER Estimación de Ruido Acústico Mediante Filtros de Partículas para Reconocimiento Robusto de Voz I v á n L ó p e z E s p e j o.
PROYECTO FIN DE CARRERA Visión por Computador en iPhone4 Autor: Pablo Roldán Ruz Tutor: Sergio Escalera.
M. en C. ANDRÉS GERARDO FUENTES COVARRUBIAS
Grupo de Ingeniería Electrónica aplicada a Espacios INteligentes y TRAnsporte Modelado de arrays de micrófonos como cámaras de perspectiva en aplicaciones.
APLICACIONES DEL DSPI DESARROLLADAS EN EL CIOp. Medición de focales de lentes o sistemas Medida de espaciados.
APRENDIZAJE WIDROW- HOFF
UNIVERSIDAD CATÓLICA DEL MAULE FACULTAD DE CIENCIAS DE LA INGENIERÍA ESCUELA DE INGENIERÍA CIVIL INFORMÁTICA PROFESOR GUÍA: HUGO ARAYA CARRASCO. ALUMNO.
Instrumentación Electrónica: Introducción
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA.
Tema 3: Sensores y Actuadores
Recuperaci ó n Basada en Contenido M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
Automatización I Instrumentación.
La segmentación de imágenes se ocupa de descomponer una imagen en sus partes constituyentes, es decir, los objetos de interés y el fondo, basándose en.
Grupo de investigación Applied Signal Processing Departamento de Teoría de la Señal y Comunicaciones Escuela Politécnica Superior Universidad de Alcalá.
Implementación de Capacidades Predictivas en un Teclado Virtual INTERACCIÓN 2009 X Congreso de Interacción Persona-Ordenador 7,8 y 9 de Septiembre Tomàs.
Inicialización de Superficies Deformables mediante Elipsoides Generalizados R. Dosil, X. M. Pardo, A. Mosquera, D. Cabello Grupo de Visión Artificial Departamento.
Tema 3: Sensores L. Enrique Sucar Alberto Reyes ITESM Cuernavaca
Reconocimiento de Patrones
Cecilia Aguerrebere – Germán Capdehourat Proyecto Final de Reconocimiento de Patrones Reconocimiento de Caras con características locales.
Descripción de Contenidos con Wavelets Jaime Gaviria.
Seguimiento visual por imitación INAOE Curso: “Robótica Probabilística” Dr. Luis Enrique Sucar Succar Apolinar Ramírez S Julio, 2007.
PROGRAMACIÓN PROCEDIMENTAL
El grupo de Física Experimental de Altas Energías en el experimento CMS CMS es uno de los cuatro experimentos del LHC en el que colaboran unos 3000 científicos.
Detectores de Borde. Extracción de Características Detección de Líneas. Detección de Puntos de Borde. Detección de Contornos.
EXTRACCIÓN DE CARACTERISTICAS
Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote
Capitulo 3 Segmentación.
Detección de Silencio Basado en Umbral de Energía Auto-Ajustable Redes de Alta Velocidad Presentan:Felipe Galaz Cristian Romero Profesora: Marta Barría.
MÉTODO DE PIXELES DE BORDE
Est 15 Desviación estandar
Cognitens-WLS400M Análisis. 2 Cognitens-WLS400M  Comprender la función del Análisis en el proceso de medición.  Revisar y practicar las diferentes herramientas.
27/04/2015 Seminario Entrenamiento Multihaz HYPACK®1 HYCUBE CURSO MULTIHAZ HYPACK ®
Instrumentación Electrónica: Introducción
Informática Médica: Procesamiento de imágenes
Introducción a la Robótica mecanismos avanzados Coordinación de Ciencias Computacionales, INAOE Dra Angélica Muñoz Dr Eduardo Morales
CARPLATE Reconocimiento del marco de la matrícula de un coche
Una aproximación a la visión
Programación de Computadores (IWI-131)
Introducción al análisis de expresiones
SISTEMA PARA LA CATEGORIZACIÓN AUTOMÁTICA DE CORREO ELECTRÓNICO Camilo Rodríguez, Departamento de Ingeniería de Sistemas, Universidad Nacional de Colombia.
Introducción a la Robótica mecanismos avanzados Coordinación de Ciencias Computacionales, INAOE Dra Angélica Muñoz Dr Eduardo Morales
Juan Antonio Cano Salado Borja Moreno Fernández
PC BD Alexandra Buri H José Rivera De La Cruz.
PROYECTO FIN DE CARRERA Visión por Computador en iPhone4 Autor: Pablo Roldán Ruz Tutor: Sergio Escalera.
EVALUACIÓN DE CAPACIDADES Y VALORES EN EL AULA
DETECCION DE SEÑALES BINARIAS EN RUIDO GAUSSIANO El criterio de toma de decisión fue descrito por la ecuación Un criterio muy usado para escoger el nivel.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
DEPARTAMENTO DE ELÉCTRICA Y ELECTRÓNICA INGENIERÍA EN ELECTRÓNICA Y TELECOMUNICACIONES TEMA: ‘CARACTERIZACIÓN DE SEÑALES SÍSMICAS DEL VOLCÁN COTOPAXI UTLIZANDO.
Detecccion de caras1 Deteccion de caras-2 A fast and accurate face detector based on neural networks, R. Feraud, O.J. Bernier, J.E. Viallet, M. Collobert,
LE, EI, Profesor Ramón Castro Liceaga UNIVERSIDAD LATINA (UNILA) IV. IMPLANTACION DE ALGORITMOS.
PROGRAMA DE INNOVACIÓN Y DESARROLLO TECNOLÓGICO PRODUCTIVO – CONVENIO : SENA-NEW STETIC Proyecto: Sistema de visión industrial para inspección.
Análisis resultados KNAPP test
Transcripción de la presentación:

 Audio  Localización basada en diferencias de tiempos de llegada de la voz a los micrófonos  Steered Response Power (SRP): evalúa actividad acústica en localizaciones específicas, orientando el patrón de directividad del array (beamforming)  Desventaja:  precisión   densidad de localizaciones   costo computacional  Alternativa: detección basada en sectores  Video  Detección: detección de rostros en 2D (color, apariencia, etc.)  Visual Hull: Proyección y combinación de detecciones por cámara a 3D  Fusión audiovisual  Orientados a Sistema vs. Orientados a Modelo  Novedades de la propuesta  Detección y localización conjunta + SRP  Filtro de partículas extendido con proceso de clasificación (XPFCP) en contexto de seguimiento audiovisual INTRODUCCIÓN  Espacios Inteligentes:  Entornos dotados de un conjunto de sistemas sensoriales, de comunicación, y de cómputo transparentes e imperceptibles a los usuario  Perciben el entorno y cooperan entre sí para ayudar en la interacción con los usuarios  La información es extraída con un conjunto de sensores ubicados en el entorno, fundamentalmente cámaras de vídeo y agrupaciones de micrófonos (arrays)  En este contexto se busca la detección, localización y seguimiento de los ocupantes del entorno  Los métodos que realizan seguimiento de personas combinando información de varias fuentes se denominan de seguimiento multimodal SEGUIMIENTO AUDIOVISUAL SEGUIMIENTO AUDIOVISUAL DE LOCUTOR USANDO UN FILTRO DE PARTÍCULAS EXTENDIDO CON PROCESO DE CLASIFICACIÓN F. Sanabria-Macías 1, J. Macías-Guarasa 2, M. Marrón-Romera 2, D. Pizarro 2 y E. Marañón-Reyes 1 1 Grupo de Procesamiento de Voz, CENPIS – Universidad de Oriente, Santiago de Cuba – Cuba 2 Grupo GEINTRA - Departamento de Electrónica – Universidad de Alcalá, Alcalá de Henares – España PROPUESTA DESARROLLADA RESULTADOS Y DISCUSIÓN CONCLUSIONES Y LÍNEAS FUTURAS Evaluación de detección por sectores  Como detector y detector-localizador de voz  Curva ROC no presenta buenas prestaciones  Comportamiento similar con y sin intersección de sectores Evaluación del bloque de localización puntual  SBD+SRP superior en localización, a costa de aumento en tasa de borrados con respecto a SRP Evaluación del sistema de seguimiento  AV supera significativamente a Audio, no así al seguimiento con Vídeo  SBD falla en la detección de inicio y fin de tramos de voz. Posibles soluciones:  combinar métrica SSM con otras características propias de la voz.  Umbral adaptativo  Localización 2D no modela variaciones de altura de un mismo locutor y entre locutores.  Fusión “lógica” de audio y vídeo, no es suficiente para modelar la relación AV Alternativas:  Pesado de importancia de las medidas 1.Método de seguimiento audiovisual con propuestas de:  “Intersección de sectores activos” de múltiples arrays,  reducción mayor del espacio de búsqueda  Uso por primera vez del XPFCP en un contexto de fusión audiovisual 2.Resultados AV superior a audio, similar a vídeo, debido a alta tasa de borrados en audio 3.Modelo de fusión mejorable 4.Localización 3D en versiones futuras RESUMEN  Se describe el diseño, implementación y evaluación de un sistema de seguimiento de locutores usando fusión audiovisual  Un bloque de audio detecta regiones con actividad a partir de una búsqueda por intersección de sectores y el algoritmo Steered Response Power  Un bloque de vídeo detecta rostros en cada cámara, con Viola & Jones, y los proyecta sobre un plano  Un filtro de partículas extendido realiza el seguimiento de los datos fusionados  El sistema ha sido evaluado usando la base de datos AV16.3 con resultados prometedores 3. Grid de actividad visual 4. Fusión audiovisual y XPFCP:  AV16.3: 3 secuencias de vídeo a 25 fps 2 arrays circulares de 8 micrófonos, con frecuencia de muestreo 16kHz  Secuencias seleccionadas  Se aplica el algoritmo Viola & Jones a cada imagen por cámaras  Los rostros detectados en cada imagen son proyectados mediante homografía, al plano de ocupación  El resultado es la unión de las intersecciones dos a dos entre las detecciones de cada cámara 1.Esquema General: El sistema combina dos mapas (grid), uno de ocupación y otro de actividad sonora en un plano:  Detección basada en sectores esféricos y centrados en cada array  SAM SPARSE MEAN, evalúa índice de actividad en el volumen del sector a partir de una métrica de fase SAAEI’2011 – Seminario Anual de Automática, Electrónica Industrial e Instrumentación – Badajoz, 6-8 de julio de 2011  El grid de ocupación se genera con la información visual mientras que el de actividad se obtiene a partir de las señales de los micrófonos  La altura del plano es constante y se selecciona de modo que coincida aproximadamente con la de la fuente de actividad, en este caso la boca de los locutores CONFIGURACIÓN EXPERIMENTAL  OR-lógico de ambos grids de actividad  XPFCP filtra los datos fusionados  Clasificación de las medidas de entrada  Clasificación de las partículas Métricas de evaluación  Pcor: porcentaje de tramas activas con un error inferior a 50cm.  Error promedio de localización: Promedio de los errores de localización con respecto a la posición etiquetada manualmente [mm]  Tasa de borrados: Falsos negativos, ventanas acústicamente activas no detectadas como tales  TPR: Tasa de verdaderos positivos, calculada como el porcentaje de tramas con actividad de voz detectados como activos  FPR: Tasa de falsos positivos, calculada como el porcentaje de tramas sin actividad de voz detectados como activos secuenciaduraciónmodalidad seq01-1p ST seq02-1p ST seq03-1p ST seq11-1p MV seq15-1p MV SBD+SCGSBD+SRPSRP Pcor[ %] Error promedio [mm] Tasa borrados [ %]33 0 AudioVídeoA+V Pcor[ %] Error promedio [mm] Tasa borrados [ %] Grid de actividad acústica:  Umbral fijo para detectar sectores activos  En regiones de “Intersección de sectores activos” del plano de actividad se realiza una búsqueda puntual del máximo de actividad por dos métodos:  Búsqueda exhaustiva con SRP  Minimización de métrica de fase  Crecimiento de regiones alrededor de los máximos Base de datos  Centroide de las clases de partículas definen la posición de los usuarios