DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:

DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor: Juan Manuel Montero Martínez

INTRODUCCIÓN Proyecto ROBINT: Proyecto ROBINT: Humanizar al robot Humanizar al robot Facilitar la comunicación con los Facilitar la comunicación con los visitantes del museo visitantes del museo Objetivo en el Módulo T2S: Objetivo en el Módulo T2S: Síntesis de habla con emociones Objetivos del proyecto: Objetivos del proyecto: Mejor implementación de ALEGRÍA y TRISTEZA Mejor implementación de ALEGRÍA y TRISTEZA Implementación de la emoción SORPRESA Implementación de la emoción SORPRESA Implementación de la emoción ENFADO Implementación de la emoción ENFADO

DEFINICIÓN DE EMOCIÓN Emoción: Emoción: Estado complejo del organismo Estado complejo del organismo Respuesta a eventos que se reciben del entorno Respuesta a eventos que se reciben del entorno Percepción de cambio Evaluación Percepción de cambio Evaluación Predispone a dar una respuesta organizada. Predispone a dar una respuesta organizada. ¿Para qué sirven las emociones? ¿Para qué sirven las emociones? Función adaptativa: Función adaptativa: Miedo, asco Miedo, asco Función social: Función social: Tristeza, enfado Tristeza, enfado

CLASIFICACIÓN DE LAS EMOCIONES (I) Modelo de Russell Modelo de Russell Cada emoción se sitúa en el interior de un círculo definido en un espacio bidimensional Cada emoción se sitúa en el interior de un círculo definido en un espacio bidimensional Dimensión Valencia: evaluación Dimensión Valencia: evaluación Negativas Negativas Enfado Enfado Positivas Positivas Alegría Alegría Dimensión Activación: nivel de excitación Dimensión Activación: nivel de excitación Pasivas Pasivas Tristeza Tristeza Activas Activas Sorpresa Sorpresa

CLASIFICACIÓN DE LAS EMOCIONES (II) VALENCIA ACTIVIDAD PositivoNegativo Pasivo Activo ALEGRÍA Euforia SORPRESA Asombro ENFADO EN CALIENTE ENFADO EN FRÍO NEUTRO TRISTEZA Depresión

BASE DE DATOS (S.E.S.) Grabaciones de un actor simulando estado neutro y: Grabaciones de un actor simulando estado neutro y: TRISTEZA: más prosódica que segmental TRISTEZA: más prosódica que segmental ALEGRÍA: tan segmental como prosódica ALEGRÍA: tan segmental como prosódica SORPRESA: prosódica SORPRESA: prosódica ENFADO: segmental ENFADO: segmental Para cada emoción Para cada emoción 3 sesiones de 15 frases Patrones más identificables 3 sesiones de 15 frases Patrones más identificables 3 sesiones de 4 párrafos 3 sesiones de 4 párrafos Contenido semántico y sintáctico neutro Contenido semántico y sintáctico neutro Etiquetada manualmente Etiquetada manualmente Ficheros.par que contienen la prosodia Ficheros.par que contienen la prosodia

ESTRUCTURA DEL CONVERSOR TEXTO Análisis de texto Análisis de texto Procesado de etiquetas Procesado de etiquetas Conversión de texto a fonemasConversión de texto a fonemas Generación de prosodia Generación de prosodia FONEMAS PROSODIA Sintetizadorde Klatt Klatt VOZ PROCESADO DE TEXTO SÍNTESIS DE VOZ

SINTETIZADOR DE KLATT

ESTUDIO DE LA FUENTE GLOTAL OBJETIVO: efectos segmentales enfado OBJETIVO: efectos segmentales enfado Señal a la salida de la fuente glotal: Señal a la salida de la fuente glotal: ¼ del periodo glotal: ¼ del periodo glotal: ¾ del periodo glotal: ¾ del periodo glotal: Filtro paso banda Filtro paso banda Suma de ruido síncrono en pitch Suma de ruido síncrono en pitch

VARIACIONES EN EL BW (I) OBJETIVO: Aumentar el BW para ALEGRÍA OBJETIVO: Aumentar el BW para ALEGRÍA Incrementar la frecuencia de muestreo: 10 kHz 16 kHz Incrementar la frecuencia de muestreo: 10 kHz 16 kHz Paradójica disminución del BW efectivo Paradójica disminución del BW efectivo Formante de 4,5 KHz pierde ganancia al pasar a 16 KHz Formante de 4,5 KHz pierde ganancia al pasar a 16 KHz Filtros adicionales en la rama serie Filtros adicionales en la rama serie Apenas percibidos Apenas percibidos Misma causa Misma causa

VARIACIONES EN EL BW (II) Diseño de filtros para el caso de f muestreo 16000 Hz Diseño de filtros para el caso de f muestreo 16000 Hz Filtros en paralelo a la rama serie Filtros en paralelo a la rama serie Filtros de 2º orden de ganancia constante Filtros de 2º orden de ganancia constante

TRISTEZA (I) VALENCIA ACTIVIDAD PositivoNegativo Pasivo Activo ALEGRÍA SORPRESA ENFADO EN FRÍO NEUTRO TRISTEZA

TRISTEZA (II) TRISTEZA (II) Modelo utilizado por el actor Modelo utilizado por el actor Tono bajo y homogéneo Tono bajo y homogéneo Monotonía: poca varianza Monotonía: poca varianza Baja intensidad de la voz Baja intensidad de la voz Disminución progresiva Disminución progresiva Ralentización de la velocidad de locución Ralentización de la velocidad de locución Aumento del número y duración de las pausas Aumento del número y duración de las pausas Introducción de suspiros Introducción de suspiros

Contraste con el estado neutro PROSODIA PROSODIA Reducción del valor medio de F0 Reducción del valor medio de F0 120 Hz 100 Hz 120 Hz 100 Hz Disminución de la velocidad de locución Disminución de la velocidad de locución 156 sil/min 135 sil/min 156 sil/min 135 sil/min Alargamiento de pausas Alargamiento de pausas SEGMENTAL SEGMENTAL Reducción del BW efectivo Reducción del BW efectivo 6500 Hz 4500 Hz 6500 Hz 4500 Hz Introducción de jitter en F0 a nivel de fonema Introducción de jitter en F0 a nivel de fonema Simula voz temblorosa Simula voz temblorosa TRISTEZA (III)

ALEGRÍA (I) VALENCIA ACTIVIDAD PositivoNegativo Pasivo Activo ALEGRÍA SORPRESA ENFADO EN FRÍO NEUTRO TRISTEZA

ALEGRÍA (II) ALEGRÍA (II) Modelo utilizado por el actor Modelo utilizado por el actor Gran variedad de patrones entonativos Gran variedad de patrones entonativos Aumento del valor del tono medio Aumento del valor del tono medio Aumento del rango de F0 Aumento del rango de F0 Aumento de la velocidad de locución Aumento de la velocidad de locución Disminución en la duración de las pausas Disminución en la duración de las pausas Voz sonriente Voz sonriente Más rica en altas frecuencias Más rica en altas frecuencias

ALEGRÍA (III) Contraste con el estado neutro PROSODIA PROSODIA Aumento del valor medio de F0 Aumento del valor medio de F0 120 Hz 190 Hz 120 Hz 190 Hz Aumento del rango de variación de F0 Aumento del rango de variación de F0 20 Hz 60 Hz 20 Hz 60 Hz Subida de F0 en el último pico Subida de F0 en el último pico Elección del patrón más identificable Elección del patrón más identificable Aumento de la velocidad de locución Aumento de la velocidad de locución 156 sil/min 165 sil/min 156 sil/min 165 sil/min SEGMENTAL SEGMENTAL Aumento del BW efectivo Aumento del BW efectivo 6500 Hz 8000 Hz 6500 Hz 8000 Hz Mayor diferenciación con la sorpresa Mayor diferenciación con la sorpresa

SORPRESA (I) VALENCIA ACTIVIDAD PositivoNegativo Pasivo Activo ALEGRÍA SORPRESA ENFADO EN FRÍO NEUTRO TRISTEZA

SORPRESA (II) SORPRESA (II) Emoción transitoria Emoción transitoria Fase inicial de evaluación Fase inicial de evaluación Gritos, retrocesos, movimientos bruscos,… Gritos, retrocesos, movimientos bruscos,… Fase de confirmación Fase de confirmación Progresiva evolución hacia otra emoción Progresiva evolución hacia otra emoción Modelo vocal utilizado por el actor Modelo vocal utilizado por el actor Aumento del valor medio de F0 Aumento del valor medio de F0 Aumento del rango de F0 Aumento del rango de F0 Tendencia ascendente a lo largo del grupo fónico Tendencia ascendente a lo largo del grupo fónico Alargamiento de las sílabas tónicas Alargamiento de las sílabas tónicas Alargamiento de la última palabra Alargamiento de la última palabra

SORPRESA (III) SORPRESA (III) Contraste con alegría PROSODIA PROSODIA Aumento en el valor medio de F0 Aumento en el valor medio de F0 190 Hz 200 Hz 190 Hz 200 Hz Aumento del rango de variación de F0 Aumento del rango de variación de F0 60 Hz 140 Hz 60 Hz 140 Hz Pendiente de F0 ascendente Pendiente de F0 ascendente Progresión hacia una emoción positiva Progresión hacia una emoción positiva Alargamiento de sílabas tónicas, palabra final y último fonema Alargamiento de sílabas tónicas, palabra final y último fonema Patrón final que comunica a los demás la sorpresa Patrón final que comunica a los demás la sorpresa

ENFADO (I) VALENCIA ACTIVIDAD PositivoNegativo Pasivo Activo ALEGRÍA SORPRESA ENFADO EN FRÍO NEUTRO TRISTEZA

ENFADO (II) Expresión no vocal Expresión no vocal Tensión muscular Tensión muscular Gestos amenazantes Gestos amenazantes Manos, mirada, cara,… Manos, mirada, cara,… Modelo vocal utilizado por el actor Modelo vocal utilizado por el actor Irregularidad glotal Irregularidad glotal Baja apertura bucal Baja apertura bucal Aumento del nivel de amplitud Aumento del nivel de amplitud Especial énfasis en la última palabra Especial énfasis en la última palabra

ENFADO (III) ENFADO (III) Contraste con estado neutro PROSODIA: Progresión hacia enfado en caliente PROSODIA: Progresión hacia enfado en caliente Aumento del rango de variación de F0 Aumento del rango de variación de F0 20 Hz 70 Hz 20 Hz 70 Hz Reducción en la duración de los fonemas finales Reducción en la duración de los fonemas finales Aumento del nivel de amplitud Aumento del nivel de amplitud Nivel de actividad medio pero con énfasis final Nivel de actividad medio pero con énfasis final Introducción de jitter en F0 a nivel de fonema Introducción de jitter en F0 a nivel de fonema Irregularidad en la voz Irregularidad en la voz SEGMENTAL SEGMENTAL Introducción de ruido en la fuente glotal Introducción de ruido en la fuente glotal Irregularidad en la fuente glotal Irregularidad en la fuente glotal

Evaluación de Resultados (I) 23 personas 23 personas 5 frases semánticamente neutras x 5 emociones 25 grabaciones 5 frases semánticamente neutras x 5 emociones 25 grabaciones Orden aleatorio Orden aleatorio Sin realimentación Sin realimentación Tasa de reconocimiento global: 74,78 % (>57,6% en VAESS) Tasa de reconocimiento global: 74,78 % (>57,6% en VAESS) Precisión global: 76,7 % (>64,7% en VAESS) Precisión global: 76,7 % (>64,7% en VAESS) EMOCIÓN IDENTIFICADA EMOCIÓN SINTETIZADA GRADO DE PRECISIÓN NEUTROTRISTEZAALEGRÍASORPRESAENFADO NEUTRO 83,5 % 10,4 %7,8 %0 %3,5 %79,3 % TRISTEZA 7,8 % 87 % 0 % 2,6 %89,3 % ALEGRÍA 1,7 %0 % 53,9 % 17,4 %7 %67,4 % SORPRESA 2,6 %0 %20,9 % 79,1 % 14,8 %67,4 % ENFADO 3,5 %1,7 %9,6 %2,6 % 70,4 % 80,2 % OTRA 0,9 % 7,8 %0,9 %1,7 %---

Evaluación de Resultados (II) TASA DE RECONOCIMIENTO EMOCIÓN SIMULADA NEUTROTRISTEZAALEGRÍASORPRESAENFADO 12 primeras pruebas 82,61 % 89,86 % 36,96 % 68,12 % 69,56 % 13 últimas pruebas 84,06 % 82,61 % 65,22 % 95,65 % 71,74 % TASA DE RECONOCIMIENTO EMOCIÓN SIMULADA NEUTROTRISTEZAALEGRÍASORPRESAENFADO Voz Natural 89,3 % 90,3 % 74,6 % ---- 89,3 % VAESS 58,6 % 82,6 % 46,6 % ---- 42,6 % Re-síntesis + prosodia autom. 72,9 % 84,3 % 65,7 % 52,9 % 95,7 % Resultados Actuales 83.5 % 87% 53,9 % 79,1 % 70,4 %

OTRAS MODIFICACIONES Introducción de grados en las emociones Introducción de grados en las emociones Nueva etiqueta Nueva etiqueta 30% tristeza 100 % tristeza 30% tristeza 100 % tristeza Silabicador de fonemas Silabicador de fonemas Estructura cliente-servidor Estructura cliente-servidor Estudios para hacer la voz más robótica Estudios para hacer la voz más robótica Nuevas fuentes glotales Nuevas fuentes glotales Modificación en el modelo de interpolación entonativa Modificación en el modelo de interpolación entonativa

Conclusiones Mejora en la implementación de las emociones TRISTEZA y ALEGRÍA Mejora en la implementación de las emociones TRISTEZA y ALEGRÍA Implementación de las emociones SORPRESA y ENFADO Implementación de las emociones SORPRESA y ENFADO Tasa de reconocimiento: 75 % Tasa de reconocimiento: 75 % Enfado: 43% VAESS 70% Enfado: 43% VAESS 70% Sorpresa: 53% en resíntesis 79% Sorpresa: 53% en resíntesis 79% Alta tasa de identificación de neutra:58,6% VAESS 83,5% Alta tasa de identificación de neutra:58,6% VAESS 83,5% Modificación del BW efectivo Modificación del BW efectivo alegría alegría Estudio de la fuente glotal Estudio de la fuente glotal enfado enfado Incorporación de grados en las emociones Incorporación de grados en las emociones

Líneas futuras de investigación Implementación de las emociones en el sintetizador por concatenación Implementación de las emociones en el sintetizador por concatenación Implementación de dos nuevas emociones: miedo y asco Implementación de dos nuevas emociones: miedo y asco Evaluación de los grados de las emociones Evaluación de los grados de las emociones

DEMOSTRACIÓN DEMOSTRACIÓN: Estado neutro Tristeza Alegría Sorpresa Enfado

¿ Preguntas?

DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:

Presentaciones similares

Presentación del tema: "DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:

Presentaciones similares

Presentación del tema: "DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback