La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote

Presentaciones similares


Presentación del tema: "Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote"— Transcripción de la presentación:

1 DISEÑO, IMPLEMENTACIÓN Y EVALUACIÓN DE TÉCNICAS DE IDENTIFICACIÓN DE EMOCIONES A TRAVÉS DE LA VOZ
Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote Ponente: Juan Manuel Montero Martínez

2 ÍNDICE Introducción Objetivos Descripción de las bases de datos
Descripción del sistema Experimentos de identificación de emociones basados en información segmental Experimentos de identificación de emociones basados en información prosódica Conclusiones Líneas futuras

3 Introducción Objetivos Descripción de las bases de datos
Descripción del sistema Experimentos de identificación de emociones basados en información segmental Experimentos de identificación de emociones basados en información prosódica Conclusiones Líneas futuras

4 INTRODUCCIÓN ¿Qué es una emoción?
Estado emocional  variaciones en la voz (características segmentales y prosódicas) Comunicación verbal  patrón específico y universal de las emociones Función comunicativa y valorativa de las emociones  identificación para mejorar la interacción hombre-máquina

5 Objetivos Introducción Descripción de las bases de datos
Descripción del sistema Experimentos de identificación de emociones basados en información segmental Experimentos de identificación de emociones basados en información prosódica Conclusiones Líneas futuras

6 OBJETIVOS Identificación basada en rasgos segmentales
Identificación basada en rasgos prosódicos Análisis de la naturaleza de las emociones  similitudes y diferencias entre castellano y alemán Aplicación de técnicas de normalización Evaluación de resultados automáticos (con entrenamiento) vs resultados perceptuales (oyentes no entrenados)

7 Descripción de las bases de datos
Introducción Objetivos Descripción de las bases de datos 3.1. SES 3.2. EMODB Descripción del sistema Experimentos de identificación de emociones basados en información segmental Experimentos de identificación de emociones basados en información prosódica Conclusiones Líneas futuras

8 3.1. Spanish Emotional Speech (SES)
Base de datos en castellano Monolocutor (varón) Alegría, Enfado (en frío), Sorpresa, Tristeza y voz Neutra Composición del corpus: 56 párrafos (~ 39 minutos) 210 frases grabadas de forma independiente (~ 7 minutos) 196 frases extraídas del párrafo cuarto (~ 12,5 minutos) Etiquetada fonética y prosódicamente

9 3.2. Berlin Database of Emotional Speech (EMODB) (I)
Base de datos en alemán Multilocutor: 10 locutores Alegría, Enfado (en caliente), Tristeza, Aburrimiento, Asco, Miedo y voz Neutra Etiquetada fonéticamente 535 ficheros de audio (24,35 minutos)

10 3.2. Berlin Database of Emotional Speech (EMODB) (II)

11 Descripción del sistema
Introducción Objetivos Descripción de las bases de datos Descripción del sistema Experimentos de identificación de emociones basados en información segmental Experimentos de identificación de emociones basados en información prosódica Conclusiones Líneas futuras

12 ¿PARÁMETROS NORMALIZADOS?
DIAGRAMA DE BLOQUES ¿PARÁMETROS NORMALIZADOS? NORMALIZACIÓN CMN/CVN SI NO EMOCIÓN IDENTIFICADA ENTRENAMIENTO CLASIFICACIÓN arg Maxj {p(Ej/x)} MODELOS (GMM) PARAMETRIZACIÓN EMODB SES Modelo GMM: Clasificador bayesiano:

13 4.1. Parametrización (I) Basada en características segmentales
Extraeremos 12 MFCC a partir de la señal de voz según el siguiente esquema:

14 4.1. Parametrización (II) Basada en características prosódicas
Prosodia: analiza y representa formalmente elementos suprasegmentales de la expresión oral (acento, tono, ritmo, entonación). Características estudiadas: Relacionadas con el contorno de F0: Valor medio de F0 Máximo y mínimo de F0 Rango de F0 Pendiente ascendente y descendente de grupos acentuales Relacionadas con el ritmo: Velocidad de locución de la frase Velocidad de cada grupo acentual

15 4.1. Parametrización (III)
GA1 GA2 GA3 Time (s) 1.936 Señal de voz Contorno de F0 Contorno de F0 interpolado No se que poner en el dibujo de arriba!!! División en grupos acentuales

16 4.2. Normalización CMN (normalización respecto a la media)
Estimada sobre toda la voz del locutor Estimada sobre la voz neutra del locutor CVN (normalización respecto a la varianza) CMN/CVN (normalización respecto a la media y varianza)

17 Introducción Objetivos Descripción de las emociones Descripción del sistema Experimentos de identificación de emociones basados en información segmental 5.1. SES 5.2. EMODB 5.3. SES & EMODB Experimentos de identificación de emociones basados en información prosódica Conclusiones Líneas futuras

18 5.1. MFCC SES – Sin normalizar (I)
Tipos de Experimentos Tasas de identificación medias

19 5.1. MFCC SES – Sin normalizar (II)
Tasas de identificación para cada emoción Clasificación de frases Clasificación de párrafos Experimento 4: Se identifica siempre la alegría, el enfado, la tristeza y la voz neutra. La sorpresa se confunde con la alegría (50%). Experimento 5: Se identifican siempre el enfado, la sorpresa, la tristeza y la voz neutra. La alegría siempre se identifica salvo en uno de los párrafos, que se confunde con la voz neutra.

20 5.1. MFCC SES – Normalizando (I)
Experimento 2 (sin compartición de texto y adecuada distribución de los datos de entrenamiento y clasificación) Tasas de identificación medias: Mejora relativa del error Tasa de identificación

21 5.1. MFCC SES – Normalizando (II)
Tasas de identificación para cada emoción Emociones que mejor se identifican  tristeza, enfado y voz neutra Emociones que peor se identifican  alegría y sorpresa (se confunden entre ellas) Menor precisión del enfado (88%) frente a la tristeza y neutra (96%) Tasas de error y mejora relativa del error al emplear vectores de características normalizados:

22 5.2. MFCC – EMODB (I) Metodología: Tasas de identificación medias:
Entrenamiento con 9 locutores y clasificación con el restante Tasas de identificación medias: Mejora relativa del error Tasa de identificación

23 5.2. MFCC – EMODB (II) Tasas de identificación para cada emoción (normalizando con CMN/CVN respecto a la voz del locutor):

24 5.3. MFCC SES & EMODB Train SES – Test EMODB Train EMODB – Test SES
EXPERIMENTOS: Sin normalizar Normalización respecto a la voz del locutor CMN, CVN y CMN/CVN Normalización respecto a la voz del neutra locutor

25 5.3. MFCC Train SES – Test EMODB (I)
Tasas de identificación medias Del orden de las que obteníamos sólo con EMODB 42% (1 gausiana) a 50% (5 gausianas) Mejor normalización  CMN/CVN respecto a la voz del locutor (9% de mejora relativa) respecto a la voz neutra del locutor (11,33% de mejora relativa)

26 Reconocimiento de Emociones Independiente de Idioma
normalizando CMN+CVN respecto a la voz del locutor

27 5.3. MFCC Train SES – Test EMODB (III) (Similitud entre emociones de ambos idiomas)
Emoción que mejor se identifica  tristeza (100%) Confusión de todas las emociones, salvo la tristeza, con la sorpresa Enfado (81,10%) Alegría (50,70%) Miedo (46,38%) Cierta confusión con la alegría (asco, 45%)

28 5.3. MFCC Train EMODB – Test SES
Mejoras al normalizar no significativas Tasas de identificación para cada emoción (clasificación de los párrafos de SES) Tristeza y neutra siempre se identifican Identificación elevada de la alegría, confundiéndose con la voz neutra cuando no se identifica Confusión del enfado con la alegría y con la voz neutra Tasas de identificación para cada emoción (clasificación de las frases de SES) La voz neutra siempre se identifica, pero el resto de emociones se confunden con ella, por lo que su precisión es baja

29 Introducción Objetivos Descripción de las bases de datos Descripción del sistema Experimentos de identificación de emociones basados en información segmental Experimentos de identificación de emociones basados en información prosódica Conclusiones Líneas futuras

30 Identificación basada en información prosódica
Realizados sólo con SES (frases independientes) Tipos de experimentos: Relacionados con el contorno de F0 Relacionados con el ritmo (velocidad de locución de la frase y velocidad de locución de los grupos acentuales) Experimentos con todos los grupos acentuales, sólo con los iniciales, sólo con los finales y sólo con los medios

31 6.1. Experimentos relacionados con el contorno de F0 (I)
Valor medio F0 Máximo F0 Mínimo F0 Rango F0 Pendiente ascendente GA Pendiente descendente GA Resultados de los experimentos empleando todos los GA:

32 6.1. Experimentos relacionados con el contorno de F0 (II)
Emoción que mejor se identifica  sorpresa (97,77%) (la información principal de la sorpresa se encuentra en los GA iniciales y medios) La información prosódica de la tristeza se encuentra en los GA medios (92,3%) La alegría sólo se identifica usando los GA medios (51,27%) El enfado sólo se identifica usando los GA iniciales (46,8%) Confusión de la alegría con el enfado al emplear los GA iniciales (44,43%) La sorpresa nunca se confunde con la tristeza ni con la voz neutra, y viceversa

33 6.2. Experimentos relacionados con el ritmo
Velocidad de locución de la frase: Sólo se identifican la tristeza (80%) y la voz neutra (69%) Confusiones: Enfado con sorpresa (42%) y tristeza (42%) Sorpresa con tristeza (58%) Alegría con voz neutra (58%) Precisiones bajas Patrón unívoco para la tristeza y la voz neutra Velocidad de cada grupo acentual: Emoción que mejor se identifica  tristeza (87,17%) Elevada tasa de confusión del enfado y la sorpresa, con la tristeza  baja precisión de la tristeza Elevada tasa de identificación de la voz neutra empleando todos los GA (74,77%) o los GA medios (72,77%)

34 Conclusiones Introducción Objetivos Descripción de las bases de datos
Descripción del sistema Experimentos de identificación de emociones basados en información segmental Experimentos de identificación de emociones basados en información prosódica Conclusiones Líneas futuras

35 7.1. CONCLUSIONES: MFCC - SES
Importancia del estilo de interpretación de las emociones (párrafos/frases) Tasa de identificación media elevada ( 92%) Emociones que mejor se identifican Tristeza (93%), enfado (92%) y voz neutra (92%) Emociones que peor se identifican Alegría (80%) y sorpresa (89%) Mejor normalización CMN/CVN respecto a la voz neutra del locutor ( 32%)

36 7.2. CONCLUSIONES: MFCC - EMODB
Tasa de identificación media sin normalizar 46% Mejor normalización CMN/CVN respecto a la voz del locutor Mejoras consistentes (18% relativo) Emoción que mejor se identifica Tristeza (95%) Emociones que peor se identifican Miedo (45%) Alegría (42%). La alegría se confunde principalmente con el enfado y el miedo.

37 7.3. CONCLUSIONES: MFCC – SES & EMODB
Emoción que mejor se identifica Tristeza  características comunes en ambos idiomas Train SES, Test EMODB Tasas de identificación medias similares a cuando empleamos solamente EMODB (≈50%) Agrupamiento en alegría-enfado y tristeza-neutra Train EMODB, Test SES Voz neutra en alemán la más cercana a las emociones en castellano Similitud entre emociones de ambos idiomas Todas las emociones tienden a confundirse con la sorpresa y con la alegría (excepto la tristeza)

38 7.4. CONCLUSIONES: Prosodia - SES
Características relacionadas con el contorno de F0: Emociones muy prosódicas  sorpresa (97,77%), tristeza (92,3%) y neutra (94,83%) Emociones poco prosódicas  alegría (51,27%) y enfado (46,8%) Características relacionadas con el ritmo: Se produce gran confusión Elevada tasa de identificación de la tristeza (87,17%) Elevada tasa de confusión de la sorpresa (75,57%) y el enfado (70%) con la tristeza

39 7.5. Comparativa con estudios anteriores
- PROSÓDICA + - Alegría Sorpresa Tristeza Entrenamiento S E GME N T A L Conclusiones de la tesis de Juan Manuel Montero Conclusiones de este proyecto Alegría Neutra (común en ambos estudios) Sorpresa Alegría Neutra Otros estudios Alegría Tristeza Enfado Enfado +

40 Líneas futuras Introducción Objetivos
Descripción de las bases de datos Descripción del sistema Experimentos de identificación de emociones basados en información segmental Experimentos de identificación de emociones basados en información prosódica Conclusiones Líneas futuras

41 LÍNEAS FUTURAS (I) Aplicación de los experimentos realizados sobre la futura base de datos SEV Combinación de características prosódicas y segmentales basadas en técnicas de combinación de clasificadores disponibles en el Grupo Identificación de emociones basada en información prosódica con datos de EMODB Aplicación de técnicas de normalización en los vectores de características basados en rasgos prosódicos

42 LÍNEAS FUTURAS (II) Sustitución del modelo GMM por el modelo HMM, introduciendo la variación temporal Consideración de nuevas características prosódicas: Contorno de F0 de los grupos acentuales Características relacionadas con la intensidad Evolución del máximo de F0 en los distintos grupos acentuales Derivada de la velocidad de locución Base de datos DES  comparación entre el castellano, el alemán y el danés

43 MUCHAS GRACIAS


Descargar ppt "Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote"

Presentaciones similares


Anuncios Google