Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote

Slides:



Advertisements
Presentaciones similares
DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
Advertisements

Colegio Alexander Fleming
Códigos.
UNIDAD Algunas Jergas de los chilenos
Ik 10 Chen. Recogida de información sobre el tema u objeto de estudio Recogida de información sobre el tema u objeto de estudio Hipótesis.
DISEÑO DE EXPERIMENTOS
Director: Julio Pindado Profesorado: Dr. Julio Pindado
La producción y la tecnología
La prosodia.
Expresión Oral y Escrita II
PROYECTO FIN DE CARRERA.  Introducción y Motivación  Fundamentos del Sistema QbH  Diseño e Implementación  Test y Resultados  Conclusiones  Trabajo.
Comunicación no verbal de emociones.
Modelo de Datos Unidad II.
“ANÁLISIS DE EFICIENCIA EN ALGORITMOS DE RECONOCIMIENTO DE IMÁGENES DIGITALES APLICABLES A DISPOSITIVOS MÓVILES BAJO LA PLATAFORMA ANDROID” Miguel Ñauñay.
Dpto. Señales, Sistemas y Radiocomunicaciones
Dpto. Señales, Sistemas y Radiocomunicaciones
DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:
Autor: Nuria Pérez Magariños Tutor: Juan Manuel Montero Martínez
DESARROLLO DE UN SEGMENTADOR FONÉTICO AUTOMÁTICO PARA HABLA EXPRESIVA BASADO EN MODELOS OCULTOS DE MARKOV Proyecto Fin de Carrera Autor: Juan Carmona.
Experimentos preliminares de verificación de locutores con una base de datos realista José Antonio Rubio García , José Manuel Pardo Muñoz, Ricardo de Córdoba.
METODO DE JERARQUIZACION
Solución de problema Herramientas aplicables
C.E.I.P. Gloria Fuertes.
Fonetika Laborategia Deustuko Unibertsitatea
Maracaibo, 5 de Noviembre de 2007 Universidad del Zulia Facultad de Ingeniería Instituto de Cálculo Aplicado Universidad del Zulia Facultad de Ingeniería.
Tema 12 – Conceptos Básicos
Recuperaci ó n Basada en Contenido M. Andrea Rodríguez Tastets DIIC - Universidad de Concepción
AUTOR: Lluís Mas Manchón II Congreso Internacional Comunicación 3.0 Salamanca, 4 y 5 de octubre de 2010 MODELO FUNCIONAL DE.
La Música.
Desarrollo de una voz sintética con emociones para un robot-guía
SERIES TEMPORALES.
3. Funciones discriminantes para la f.d.p normal.
Cecilia Aguerrebere – Germán Capdehourat Proyecto Final de Reconocimiento de Patrones Reconocimiento de Caras con características locales.
Descripción de Contenidos con Wavelets Jaime Gaviria.
El resumen y la reseña bibliográfica
CONSEJERÍA DE EDUCACIÓN DIRECCIÓN GENERAL DE ORDENACIÓN Y EVALUACIÓN EDUCATIVA Evaluación de Diagnóstico en la Comunidad Autónoma de Andalucía.
Caso: Situación de las Comunidades Autónomas españolasen cuanto a indicadores de bienestar En el periódico “El País” del día 17 de enero de 2002 se publicó.
Combinación de Clasificadores
Pasos de un estudio de simulacion (repaso).
RECOMENDACIONES PARA EL ANÁLISIS DE LOS RESULTADOS
Rivas N. (2006). Metodología de Investigación Cualitativa. USB, Caracas (416) CODIFICACION ABIERTA AGENDA.
Índice: Introducción Conceptos básicos Procesos elementales
AMBIENTES INTELIGENTES Interfaces Orales Juan Diego Rosas Rodríguez Jesús Antonio Villalba López.
Introducción al análisis de expresiones
COMUNICACIÓN ORAL Y ESCRITA
COMUNICACIÓN NO VERBAL
Práctica: Expresiones emocionales Productos obtenidos del proyecto INFOCAB PB Prácticas demostrativas para las materias de: Higiene mental, Orientación.
SERIES CRONOLOGICAS O DE TIEMPO
Reconocimiento de caras usando Histogramas de Gradientes Orientados
LA COMUNICACIÓN.
Un conjunto de perfiles UML para el modelado conceptual de minería de datos sobre almacenes de datos Tesis Doctoral José Jacobo Zubcoff Vallejo 26 de Junio.
Instituto Politécnico Nacional esime Zacatenco Ing
1 Introducción al tratamiento de datos © José Luís Contreras.
Dpto. Señales, Sistemas y Radiocomunicaciones
CASO II: Tamaño muestral grande (n > 30) cuando es desconocido Se sabe que para n>30 la distribución t de Student se aproxima a la distribución N(0;1)*.
Comprensión de lectura Estructura Textual
SEIS CRITERIOS PARA ENSEÑAR LA LENGUA ORAL EN LA EDUCACIÓN OBLIGATORIA
Haga clic para cambiar el estilo de título Haga clic para modificar el estilo de texto del patrón Segundo nivel Tercer nivel Cuarto nivel Quinto nivel.
Reconocimiento de cara basado en “espectrocara”
Artículo 7 Los programas de las unidades de aprendizaje deberán contener entre otros, los criterios para la evaluación, de conformidad con lo establecido.
CR Drums CR - Drums es una caja de ritmos, en la que se han seleccionado los sonidos de percusión que suelen gustar. En una caja de ritmos, solo es posible.
SISTEMA DE CÓMPUTO PARA LA COMUNICACIÓN HOMBRE -MÁQUINA
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
Tema 2. Identificamos las unidades de la lengua
Aprendiendo a pensar Espacialmente: La naturaleza y funciones del pensamiento espacial National Academy of Sciences The Nature of Spatial Thinking.
Diseño experimental I.
Breve Memoria Investigación Agosto 2010-Julio 2011 David Rizo Valero gRFia - UA David Rizo Valero gRFia - UA.
Unsupervised visual learning of three-dimensional objects using a modular network architecture Ando, Suzuki, Fujita Neural Networks 12 (1999)
Universidad de Los Andes Facultad de Humanidades y Educación Maestría en Enseñanza/Aprendizaje de las Lenguas Extranjeras Comprensión y Producción Oral.
PROGRAMA DE INNOVACIÓN Y DESARROLLO TECNOLÓGICO PRODUCTIVO – CONVENIO : SENA-NEW STETIC Proyecto: Sistema de visión industrial para inspección.
Transcripción de la presentación:

DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote Ponente: Juan Manuel Montero Martínez

ÍNDICE Introducción Objetivos Descripción de las bases de datos Descripción del sistema Experimentos de identificación de emociones basados en información segmental Experimentos de identificación de emociones basados en información prosódica Conclusiones Líneas futuras

Introducción Objetivos Descripción de las bases de datos Descripción del sistema Experimentos de identificación de emociones basados en información segmental Experimentos de identificación de emociones basados en información prosódica Conclusiones Líneas futuras

INTRODUCCIÓN ¿Qué es una emoción? Estado emocional  variaciones en la voz (características segmentales y prosódicas) Comunicación verbal  patrón específico y universal de las emociones Función comunicativa y valorativa de las emociones  identificación para mejorar la interacción hombre-máquina

Objetivos Introducción Descripción de las bases de datos Descripción del sistema Experimentos de identificación de emociones basados en información segmental Experimentos de identificación de emociones basados en información prosódica Conclusiones Líneas futuras

OBJETIVOS Identificación basada en rasgos segmentales Identificación basada en rasgos prosódicos Análisis de la naturaleza de las emociones  similitudes y diferencias entre castellano y alemán Aplicación de técnicas de normalización Evaluación de resultados automáticos (con entrenamiento) vs resultados perceptuales (oyentes no entrenados)

Descripción de las bases de datos Introducción Objetivos Descripción de las bases de datos 3.1. SES 3.2. EMODB Descripción del sistema Experimentos de identificación de emociones basados en información segmental Experimentos de identificación de emociones basados en información prosódica Conclusiones Líneas futuras

3.1. Spanish Emotional Speech (SES) Base de datos en castellano Monolocutor (varón) Alegría, Enfado (en frío), Sorpresa, Tristeza y voz Neutra Composición del corpus: 56 párrafos (~ 39 minutos) 210 frases grabadas de forma independiente (~ 7 minutos) 196 frases extraídas del párrafo cuarto (~ 12,5 minutos) Etiquetada fonética y prosódicamente

3.2. Berlin Database of Emotional Speech (EMODB) (I) Base de datos en alemán Multilocutor: 10 locutores Alegría, Enfado (en caliente), Tristeza, Aburrimiento, Asco, Miedo y voz Neutra Etiquetada fonéticamente 535 ficheros de audio (24,35 minutos)

3.2. Berlin Database of Emotional Speech (EMODB) (II)

Descripción del sistema Introducción Objetivos Descripción de las bases de datos Descripción del sistema Experimentos de identificación de emociones basados en información segmental Experimentos de identificación de emociones basados en información prosódica Conclusiones Líneas futuras

¿PARÁMETROS NORMALIZADOS? DIAGRAMA DE BLOQUES ¿PARÁMETROS NORMALIZADOS? NORMALIZACIÓN CMN/CVN SI NO EMOCIÓN IDENTIFICADA ENTRENAMIENTO CLASIFICACIÓN arg Maxj {p(Ej/x)} MODELOS (GMM) PARAMETRIZACIÓN EMODB SES Modelo GMM: Clasificador bayesiano:

4.1. Parametrización (I) Basada en características segmentales Extraeremos 12 MFCC a partir de la señal de voz según el siguiente esquema:

4.1. Parametrización (II) Basada en características prosódicas Prosodia: analiza y representa formalmente elementos suprasegmentales de la expresión oral (acento, tono, ritmo, entonación). Características estudiadas: Relacionadas con el contorno de F0: Valor medio de F0 Máximo y mínimo de F0 Rango de F0 Pendiente ascendente y descendente de grupos acentuales Relacionadas con el ritmo: Velocidad de locución de la frase Velocidad de cada grupo acentual

4.1. Parametrización (III) GA1 GA2 GA3 Time (s) 1.936 Señal de voz Contorno de F0 Contorno de F0 interpolado No se que poner en el dibujo de arriba!!! División en grupos acentuales

4.2. Normalización CMN (normalización respecto a la media) Estimada sobre toda la voz del locutor Estimada sobre la voz neutra del locutor CVN (normalización respecto a la varianza) CMN/CVN (normalización respecto a la media y varianza)

Introducción Objetivos Descripción de las emociones Descripción del sistema Experimentos de identificación de emociones basados en información segmental 5.1. SES 5.2. EMODB 5.3. SES & EMODB Experimentos de identificación de emociones basados en información prosódica Conclusiones Líneas futuras

5.1. MFCC SES – Sin normalizar (I) Tipos de Experimentos Tasas de identificación medias

5.1. MFCC SES – Sin normalizar (II) Tasas de identificación para cada emoción Clasificación de frases Clasificación de párrafos Experimento 4: Se identifica siempre la alegría, el enfado, la tristeza y la voz neutra. La sorpresa se confunde con la alegría (50%). Experimento 5: Se identifican siempre el enfado, la sorpresa, la tristeza y la voz neutra. La alegría siempre se identifica salvo en uno de los párrafos, que se confunde con la voz neutra.

5.1. MFCC SES – Normalizando (I) Experimento 2 (sin compartición de texto y adecuada distribución de los datos de entrenamiento y clasificación) Tasas de identificación medias: Mejora relativa del error Tasa de identificación

5.1. MFCC SES – Normalizando (II) Tasas de identificación para cada emoción Emociones que mejor se identifican  tristeza, enfado y voz neutra Emociones que peor se identifican  alegría y sorpresa (se confunden entre ellas) Menor precisión del enfado (88%) frente a la tristeza y neutra (96%) Tasas de error y mejora relativa del error al emplear vectores de características normalizados:

5.2. MFCC – EMODB (I) Metodología: Tasas de identificación medias: Entrenamiento con 9 locutores y clasificación con el restante Tasas de identificación medias: Mejora relativa del error Tasa de identificación

5.2. MFCC – EMODB (II) Tasas de identificación para cada emoción (normalizando con CMN/CVN respecto a la voz del locutor):

5.3. MFCC SES & EMODB Train SES – Test EMODB Train EMODB – Test SES EXPERIMENTOS: Sin normalizar Normalización respecto a la voz del locutor CMN, CVN y CMN/CVN Normalización respecto a la voz del neutra locutor

5.3. MFCC Train SES – Test EMODB (I) Tasas de identificación medias Del orden de las que obteníamos sólo con EMODB 42% (1 gausiana) a 50% (5 gausianas) Mejor normalización  CMN/CVN respecto a la voz del locutor (9% de mejora relativa) respecto a la voz neutra del locutor (11,33% de mejora relativa)

Reconocimiento de Emociones Independiente de Idioma normalizando CMN+CVN respecto a la voz del locutor

5.3. MFCC Train SES – Test EMODB (III) (Similitud entre emociones de ambos idiomas) Emoción que mejor se identifica  tristeza (100%) Confusión de todas las emociones, salvo la tristeza, con la sorpresa Enfado (81,10%) Alegría (50,70%) Miedo (46,38%) Cierta confusión con la alegría (asco, 45%)

5.3. MFCC Train EMODB – Test SES Mejoras al normalizar no significativas Tasas de identificación para cada emoción (clasificación de los párrafos de SES) Tristeza y neutra siempre se identifican Identificación elevada de la alegría, confundiéndose con la voz neutra cuando no se identifica Confusión del enfado con la alegría y con la voz neutra Tasas de identificación para cada emoción (clasificación de las frases de SES) La voz neutra siempre se identifica, pero el resto de emociones se confunden con ella, por lo que su precisión es baja

Introducción Objetivos Descripción de las bases de datos Descripción del sistema Experimentos de identificación de emociones basados en información segmental Experimentos de identificación de emociones basados en información prosódica Conclusiones Líneas futuras

Identificación basada en información prosódica Realizados sólo con SES (frases independientes) Tipos de experimentos: Relacionados con el contorno de F0 Relacionados con el ritmo (velocidad de locución de la frase y velocidad de locución de los grupos acentuales) Experimentos con todos los grupos acentuales, sólo con los iniciales, sólo con los finales y sólo con los medios

6.1. Experimentos relacionados con el contorno de F0 (I) Valor medio F0 Máximo F0 Mínimo F0 Rango F0 Pendiente ascendente GA Pendiente descendente GA Resultados de los experimentos empleando todos los GA:

6.1. Experimentos relacionados con el contorno de F0 (II) Emoción que mejor se identifica  sorpresa (97,77%) (la información principal de la sorpresa se encuentra en los GA iniciales y medios) La información prosódica de la tristeza se encuentra en los GA medios (92,3%) La alegría sólo se identifica usando los GA medios (51,27%) El enfado sólo se identifica usando los GA iniciales (46,8%) Confusión de la alegría con el enfado al emplear los GA iniciales (44,43%) La sorpresa nunca se confunde con la tristeza ni con la voz neutra, y viceversa

6.2. Experimentos relacionados con el ritmo Velocidad de locución de la frase: Sólo se identifican la tristeza (80%) y la voz neutra (69%) Confusiones: Enfado con sorpresa (42%) y tristeza (42%) Sorpresa con tristeza (58%) Alegría con voz neutra (58%) Precisiones bajas Patrón unívoco para la tristeza y la voz neutra Velocidad de cada grupo acentual: Emoción que mejor se identifica  tristeza (87,17%) Elevada tasa de confusión del enfado y la sorpresa, con la tristeza  baja precisión de la tristeza Elevada tasa de identificación de la voz neutra empleando todos los GA (74,77%) o los GA medios (72,77%)

Conclusiones Introducción Objetivos Descripción de las bases de datos Descripción del sistema Experimentos de identificación de emociones basados en información segmental Experimentos de identificación de emociones basados en información prosódica Conclusiones Líneas futuras

7.1. CONCLUSIONES: MFCC - SES Importancia del estilo de interpretación de las emociones (párrafos/frases) Tasa de identificación media elevada ( 92%) Emociones que mejor se identifican Tristeza (93%), enfado (92%) y voz neutra (92%) Emociones que peor se identifican Alegría (80%) y sorpresa (89%) Mejor normalización CMN/CVN respecto a la voz neutra del locutor ( 32%)

7.2. CONCLUSIONES: MFCC - EMODB Tasa de identificación media sin normalizar 46% Mejor normalización CMN/CVN respecto a la voz del locutor Mejoras consistentes (18% relativo) Emoción que mejor se identifica Tristeza (95%) Emociones que peor se identifican Miedo (45%) Alegría (42%). La alegría se confunde principalmente con el enfado y el miedo.

7.3. CONCLUSIONES: MFCC – SES & EMODB Emoción que mejor se identifica Tristeza  características comunes en ambos idiomas Train SES, Test EMODB Tasas de identificación medias similares a cuando empleamos solamente EMODB (≈50%) Agrupamiento en alegría-enfado y tristeza-neutra Train EMODB, Test SES Voz neutra en alemán la más cercana a las emociones en castellano Similitud entre emociones de ambos idiomas Todas las emociones tienden a confundirse con la sorpresa y con la alegría (excepto la tristeza)

7.4. CONCLUSIONES: Prosodia - SES Características relacionadas con el contorno de F0: Emociones muy prosódicas  sorpresa (97,77%), tristeza (92,3%) y neutra (94,83%) Emociones poco prosódicas  alegría (51,27%) y enfado (46,8%) Características relacionadas con el ritmo: Se produce gran confusión Elevada tasa de identificación de la tristeza (87,17%) Elevada tasa de confusión de la sorpresa (75,57%) y el enfado (70%) con la tristeza

7.5. Comparativa con estudios anteriores - PROSÓDICA + - Alegría Sorpresa Tristeza Entrenamiento S E GME N T A L Conclusiones de la tesis de Juan Manuel Montero Conclusiones de este proyecto Alegría Neutra (común en ambos estudios) Sorpresa Alegría Neutra Otros estudios Alegría Tristeza Enfado Enfado +

Líneas futuras Introducción Objetivos Descripción de las bases de datos Descripción del sistema Experimentos de identificación de emociones basados en información segmental Experimentos de identificación de emociones basados en información prosódica Conclusiones Líneas futuras

LÍNEAS FUTURAS (I) Aplicación de los experimentos realizados sobre la futura base de datos SEV Combinación de características prosódicas y segmentales basadas en técnicas de combinación de clasificadores disponibles en el Grupo Identificación de emociones basada en información prosódica con datos de EMODB Aplicación de técnicas de normalización en los vectores de características basados en rasgos prosódicos

LÍNEAS FUTURAS (II) Sustitución del modelo GMM por el modelo HMM, introduciendo la variación temporal Consideración de nuevas características prosódicas: Contorno de F0 de los grupos acentuales Características relacionadas con la intensidad Evolución del máximo de F0 en los distintos grupos acentuales Derivada de la velocidad de locución Base de datos DES  comparación entre el castellano, el alemán y el danés

MUCHAS GRACIAS