Dpto. Señales, Sistemas y Radiocomunicaciones Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones
Tratamiento Digital de Voz Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades
Síntesis de Voz Paramétricos Sintetizadores de Voz Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980) Modelos Articulatorios No Paramétricos: Concatenación de unidades Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990) Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)
Síntesis de Voz Sintetizadores de Voz: Paramétricos Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Síntesis por regla: a partir de la secuencia de fonemas genera los parámetros de control del sintetizador. Síntesis por formantes: produce la voz sintética a partir de los parámetros de control. Text-to-phone conversion text Phone string Synthesis- by-rule Synthesiser control parameters “letter- to-sound” rules Exceptions dictionary Speaker table Rules Linguistic analysis Prosody
Síntesis de Voz Sintetizadores de Voz: Paramétricos Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control Unvoiced Excitation Voiced Excitation A F1 F2 F3 F4 Mixers Formant Amplitude Control Resonators Voicing Speech Out +
Síntesis de Voz Sintetizadores de Voz: Paramétricos Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control El sintetizador de formantes de mayor éxito comercial fue el DECTalk, basado en MIT Klatt-talk
Síntesis de Voz Sintetizadores de Voz: No Paramétricos Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990) Dificultad y elevado tiempo de desarrollo de los sistemas de síntesis por regla. Síntesis por concatenación de unidades: Selección de unidades: tipo “dífonos” para representar la coarticulación entre dos sonidos. Algoritmo de modificación prosódica (PSOLA: Pitch Synchronous Overlap-Add)
Modificación Prosódica Síntesis de Voz Sintetizadores de Voz: concatenación de unidades Fonemas y Prosodia Generación de la base de datos Corpus de voz Informac. unidades Segmentación de unidades Lista de Unidades BD Unidades de Voz Análisis BD Unidades Parametriz. Ecualización Codificación de voz Sintetizador de Voz Modificación Prosódica BD Unidades de síntesis Decodificación De voz Concatenación Síntesis Voz
Modificación de paramètros Síntesis de Voz Sintetizadores de Voz: concatenación de unidades: Dífonos ... # L L A A T T A A # 2 x 10 4 1.5 1 0.5 -0.5 -1 -1.5 -2 200 400 600 800 1000 1200 1400 1600 1800 2000 2 x 10 4 Modificación de paramètros prosódicos 1.5 1 0.5 -0.5 -1 -1.5 -2 500 1000 1500 2000 2500
PSOLA: Pitch Synchronous Overlap and Add PSOLA (Charpentier, 1986) Most successful current approach to concatenative synthesis In PSOLA, the end regions of windowed waveform samples are overlapped pitch-synchronously and added BT’s Laureate is an example
PSOLA From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001
Speech modification using PSOLA In addition to speech synthesis from segments, there are two other common applications of PSOLA: Pitch modification Duration modification
Increasing pitch using PSOLA From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001
Decreasing pitch using PSOLA From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001
Altering Pitch = X Original diphone Extracted pitch period Hanning window Hanned pitch period ‘C_A’
Altering Pitch PSOLA – Pitch Synchronous Overlap and Add = 50% Overlap + Add Pitch Up > 50% Pitch Down < 50%
PSOLA strengths and weaknesses Produces good quality speech Weaknesses Large, annotated corpus needed for each ‘voice’ Requires accurate pitch peak detection Inflexible – new voices can only be produced by recording and labelling significant speech corpora from new speakers Automatic annotation of corpora using techniques from speech recognition
Síntesis de Voz Sintetizadores de Voz: No Paramétricos Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990) Hay otros modelos de síntesis: Modelos Armónicos Voz como combinación lineal de L sinusoides con amplitudes, fases y frecuencias variantes con el tiempo
Síntesis de Voz Sintetizadores de Voz: Paramétricos Modelos Articulatorios:
Síntesis de Voz Sintetizadores de Voz: No Paramétricos Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos + prosodia {ti} (ti: target = sonido + prosodia): S (silencio) t1 t2 t3 t4 ... ... ...... tn S(silencio) u1 u2 u3 u4 ... ... ...... un Gran BD de Unidades de Voz ui 10 – 150 min.
Síntesis de Voz Sintetizadores de Voz: No Paramétricos Se define: Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Se define: Coste de ajuste al objetivo: Coste de concatenación:: j: diferencia de f0, duración, contexto, ... wjt: peso de cada factor
Síntesis de Voz Sintetizadores de Voz: No Paramétricos Se define: Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Se define: Coste de concatenación:: j: distancias en el punto de unión: cepstral, log-energía, f0, ... wjc: peso de cada factor
Síntesis de Voz Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos + prosodia {ti} (ti: target = sonido + prosodia): S (silencio) t1 t2 t3 t4 ... ... ...... tn S(silencio) u1 u2 u3 u4 ... ... ...... un {ui} óptima => mínimo Gran BD de Unidades de Voz ui 10 – 150 min.
Síntesis de Voz Sintetizadores de Voz: No Paramétricos Problemas: Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Problemas: Qué factores y entrenamiento de los pesos: wjc, wjt Algoritmo de búsqueda de unidades
Tratamiento Digital de Voz Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades
Síntesis de Voz Sistemas y Dificultades Dificultades Naturalidad: prosodia, sistemas mixtos por corpus + dífonos Expresividad: sistemas de diálogo, comunicadores personales: síntesis de emociones Personalización/Generación rápida de nuevas voces Síntesis Audio-Visual
Síntesis de Voz Sistemas y Dificultades Sistemas Comerciales (castellano): Telefónica Investigación y Desarrollo http://oesi.cervantes.es/jsp/noticias/noticia.jsp?xml=/docs/20030424/0001.xml&xsl=/docs/plantillas/noticia.xsl Tecnología / Diálogo / etc... ATLAS: http://www.atlas-cti.com/es/download-atlastts.htm ScanSoft (RealSpeak: http://www.scansoft.com/realspeak/demo/) Loquendo (http://www.loquendo.com/es/demos/demo_tts.htm) ELAN Informatique (http://www.elanspeech.com/demos/sayso.html) Nuance (RealSpeak & Vocalicer: http://www.nuance.com/prodserv/demo_vocalizer.html)
Síntesis de Voz Sistemas y Dificultades Sistemas Investigación y Distribución Libre: Festival http://www.cstr.ed.ac.uk/projects/festival/ MBROLA http://tcts.fpms.ac.be/synthesis/mbrola/mbrola.html FreeTTS (Festival => Java) http://freetts.sourceforge.net/docs/index.php Otros Contextos: MPEG-4 & MPEG-7 Microsoft Speech API
sonidos --> visemas Síntesis de Voz Sistemas y Dificultades Otros Contextos: Síntesis Audio-Visual Identificación de Sonidos (Reconocedor de Habla) sonidos --> visemas Audio (voz pre-grabada) Conversor Texto-Voz Texto Animación visemas Animación 2D o 3D Composición de Vídeo
Síntesis de Voz Sistemas y Dificultades Otros Contextos: Síntesis Audio-Visual Haptek http://www.haptek.com FaceWorks http://interface.digital.com/ Lipsync (aplicaciones http://www.annosoft.com/index.htm) Composición de vídeo: Vir2elle: http://www.vir2elle.com/ Oddcast: http://vhost.oddcast.com/vhost_minisite/ Web bots: Alicebot (aplicaciones http://www.alicebot.org/)