Descargar la presentación
La descarga está en progreso. Por favor, espere
1
Desarrollo de un conversor de texto-voz multiemoción en castellano por concatenación de difonemas
AUTOR: María Dolores Segovia Torres TUTOR: Juan Manuel Montero Martínez
2
PFC- Mª Dolores Segovia
Índice Introducción Segmentación y marcado de las bases de datos Proceso de creación de las nuevas bases de datos Adaptación del nuevo modelo de prosodia Nuevo lenguaje de etiquetas Conclusiones y líneas futuras de investigación 11/14/2018 PFC- Mª Dolores Segovia
3
PFC- Mª Dolores Segovia
INTRODUCCIÓN: Sintetizador de partida: Boris: versión multi-hilo de un sintetizador: Por concatenación de difonemas. Adaptado a una base de datos de habla masculina. Estado neutro. Lenguaje sencillo de etiquetas globales: Velocidad de habla Tono medio. 11/14/2018 PFC- Mª Dolores Segovia
4
PFC- Mª Dolores Segovia
Objetivos: Primera versión de un sintetizador: Cuatro emociones: Alegría, Tristeza, Sorpresa, Enfado Nuevas etiquetas de control. Obtención de diferentes bases de datos para el nuevo escenario: Partiendo de grabaciones de habla femenina. Adaptación del modelo prosódico a las distintas emociones. 11/14/2018 PFC- Mª Dolores Segovia
5
PFC- Mª Dolores Segovia
Concepto de emoción: Emoción: Estado complejo del organismo originado en respuesta a la información recibida del entorno. Disponen a la acción. Proceso desencadenante: Percepción de algún cambio en las condiciones internas o externas. Evaluación y valoración del cambio para producir una tendencia hacia la acción o hacia el afrontamiento. Función de las emociones: Función adaptativa Función social Función motivacional 11/14/2018 PFC- Mª Dolores Segovia
6
PFC- Mª Dolores Segovia
Concepto de emoción: Estudio dimensional de las emociones: Modelo de Russell Todas las emociones pueden ser ubicadas en el interior de un círculo definido en un espacio bidimensional. Dimensión Valencia Afectiva (Evaluación) Positivas Alegría Negativas Enfado Dimensión Actividad (Nivel de excitación) Activas Sorpresa Pasivas Tristeza 11/14/2018 PFC- Mª Dolores Segovia
7
Segmentación y marcado de las bases de datos:
Marcación automática de F0 Se basa en la señal del EGG (electroglotógrafo) Proceso de marcación de F0: Obtención de la señal del EGG. Filtrado de la señal del EGG ( Hz, en función de la emoción). Cálculo de la derivada de la señal de EGG (DEGG). Detección de máximos en la señal. Marcación de F0: Entre el 70% y el 90% del valor máximo de la señal del EGG. 11/14/2018 PFC- Mª Dolores Segovia
8
Segmentación y marcado de las bases de datos:
Revisión manual de F0 (I) Conclusiones de revisión manual con Praat: Los problemas detectados dependen: Tipo de fonema Fricativos, vibrantes y oclusivos. Emoción analizada. Tristeza fonemas ensordecidos. 11/14/2018 PFC- Mª Dolores Segovia
9
Segmentación y marcado de las bases de datos:
Revisión manual de F0 (II) Conclusiones de revisión manual con Praat: Colocación incorrecta de marcas al inicio y al final de un logatomo. Pequeñas desviaciones o derivas del marcado automático. Criterios de marcación diferentes o pérdida de sincronización en fonemas sonoros consecutivos. 11/14/2018 PFC- Mª Dolores Segovia
10
Segmentación y marcado de las bases de datos:
Segmentación fonética automática Se basa en el alineamiento forzado entre el habla y los HMMs. Se han considerado 50 alófonos independientes del contexto. Problemas detectados en revisión manual: Fonemas de duración 0 segundos. Etiquetas de nombre “sp”. 11/14/2018 PFC- Mª Dolores Segovia
11
Segmentación y marcado de las bases de datos:
Revisión manual de segmentación (I) Conclusiones de revisión manual con Praat: Errores de segmentación dependen de: Emoción analizada Contexto y grupo fónico al que pertenece cada unidad. 11/14/2018 PFC- Mª Dolores Segovia
12
Segmentación y marcado de las bases de datos:
Revisión manual de segmentación (II) Conclusiones generales de revisión manual con Praat: Poca precisión en la localización de las fronteras fonéticas. Fonema final del logatomo muy largo. Fonema inicial muy largo Sonoridad inicio logatomo. 11/14/2018 PFC- Mª Dolores Segovia
13
Proceso de obtención de bases de datos:
Grabaciones de logatomos Marcas F0 y etiquetas Listas de grabaciones y transcripciones GeneraParPcm.exe ObtenTxt.pl Muestras de logatomos Marcas de logatomos Ficheros de transcripciones SacadifVC.exe Muestras y marcas de difonemas ObtenListaDif.exe Muestras y marcas de los difonemas de interés Gendb.exe minidb.dfm 11/14/2018 PFC- Mª Dolores Segovia
14
Estructura del sintetizador:
Bloque de procesado de texto Análisis de texto Nuevo lenguaje de etiquetas Generación de bloques de palabra Generación de bloques de fonema Asignación de tono y duraciones Nuevo módulo de prosodia Sintetizador por concatenación Síntesis TD-PSOLA Nuevas bases de datos y normalización Bloque de procesado de salida Generación de archivo de audio 11/14/2018 PFC- Mª Dolores Segovia
15
Estructura del sintetizador:
Asignación de tono y duraciones El tono y la duración final de los fonemas a sintetizar se obtienen de: Módulo existente basado en Redes Neuronales. Módulo heredado de sintetizador por formantes de Klatt basado en: Modelos paramétricos. Ficheros de inicialización. Para generación de F0 Modelos de picos y valles Para modificación de duraciones Modelo multiplicativo 11/14/2018 PFC- Mª Dolores Segovia
16
Obtención de valores prosódicos de los ficheros de inicialización:
Tristeza Reducción del valor medio de F0 150 Hz 110 Hz Disminución de la velocidad de locución 185 sil/min 170 sil/min Alargamiento de pausas Alegría Aumento del valor medio de F0 150 Hz 200 Hz Aumento del rango de variación de F0 Subida de F0 en el último pico Aumento de la velocidad de locución 185 sil/min 195 sil/min 11/14/2018 PFC- Mª Dolores Segovia
17
Obtención de valores prosódicos de los ficheros de inicialización:
Sorpresa Aumento en el valor medio de F0 150 Hz 200 Hz Aumento del rango de variación de F0 Pendiente de F0 ascendente Progresión hacia una emoción positiva Alargamiento de sílabas tónicas, palabra final y último fonema Enfado Reducción en la duración de los fonemas finales Aumento del nivel de amplitud Nivel de actividad medio pero con énfasis final 11/14/2018 PFC- Mª Dolores Segovia
18
Nuevo lenguaje de etiquetas anidables:
Etiquetas de ámbito global Modificación de etiqueta de variación de tono: Etiqueta de modificación de tono por factor aditivo Etiqueta de modificación de tono por factor multiplicativo Introducción de pausas en la frase sintetizada: Etiqueta [b:x] x=Décimas de segundo Introducción de emociones en el habla Etiqueta de emociones [e:x] Tristeza, Normal, Alegría, Sorpresa, Enfado Etiqueta de grados emocionales [n:x] 11/14/2018 PFC- Mª Dolores Segovia
19
Nuevo lenguaje de etiquetas anidables:
Etiquetas de ámbito local Variación del tono de habla: Factor aditivo Etiqueta [p:x] x=[0-200] “Puedo decir [p:195] palabras con mayor frecuencia [p:0] que otras palabras.” Factor multiplicativo Etiqueta [w:x] x=[55-200] “Ahora voy a [w:150] aumentar el tono de mi voz [w:0] y ahora voy a [w:20] reducirlo [w:0].” Variación de la velocidad de habla: Etiqueta [u:x] x=[50-250] “Lo voy a decir [u:80] muy despacio [u:0] para que me entiendas.” 11/14/2018 PFC- Mª Dolores Segovia
20
PFC- Mª Dolores Segovia
Ejemplos: Estado Neutro “Les presento [e:2] a [n:100] mi nueva voz neutra.” Emoción Alegría “Me siento muy [e:3] feliz [n:100] con mi voz alegre.” Emoción Tristeza “Te voy [e:1] [n:100] a echar mucho de menos.” Emoción Sorpresa “Qué [e:4] proyecto más [n:100] interesante.” Emoción Enfado “No me hables porque estoy [e:5] [n:100] muy enfadada.” 11/14/2018 PFC- Mª Dolores Segovia
21
PFC- Mª Dolores Segovia
Conclusiones: A partir de grabaciones de habla femenina, se han generado cinco bases de datos de difonemas diferentes. Se ha creado una guía de marcado usando el programa de análisis de habla Praat. Adaptación de programas del proceso de generación de base de datos de difonemas. Se ha generado una primera versión de un sintetizador multiemoción, por concatenación de difonemas utilizando: Bases de datos de difonemas generadas. Combinación del módulo de generación prosódica existente (basado en redes neuronales), con el del sintetizador por formantes (basado en ficheros de inicialización). Introducción de nuevas etiquetas para dotar al sintetizador de una mayor flexibilidad a la hora de la síntesis. 11/14/2018 PFC- Mª Dolores Segovia
22
Líneas futuras de investigación:
Generación de nuevas bases de datos con mayor número de difonemas. Mejora en la implementación de la emoción enfado: Modificación de la intensidad del habla de los difonemas utilizados para la síntesis. Mejora en la caracterización de la emoción tristeza: Incorporación del jitter en el interpolado de la entonación (extraído del sintetizador por formantes Robint). Introducción en el sistema de las emociones asco y miedo. 11/14/2018 PFC- Mª Dolores Segovia
23
PFC- Mª Dolores Segovia
¿Preguntas? 11/14/2018 PFC- Mª Dolores Segovia
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.