Dpto. Señales, Sistemas y Radiocomunicaciones

Dpto. Señales, Sistemas y Radiocomunicaciones
Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones

Tratamiento Digital de Voz
Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades

Síntesis de Voz Paramétricos Sintetizadores de Voz
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980) Modelos Articulatorios No Paramétricos: Concatenación de unidades Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990) Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

Síntesis de Voz Sintetizadores de Voz: Paramétricos
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Síntesis por regla: a partir de la secuencia de fonemas genera los parámetros de control del sintetizador. Síntesis por formantes: produce la voz sintética a partir de los parámetros de control. Text-to-phone conversion text Phone string Synthesis- by-rule Synthesiser control parameters “letter- to-sound” rules Exceptions dictionary Speaker table Rules Linguistic analysis Prosody

Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control Unvoiced Excitation Voiced Excitation A F1 F2 F3 F4 Mixers Formant Amplitude Control Resonators Voicing Speech Out +

Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control El sintetizador de formantes de mayor éxito comercial fue el DECTalk, basado en MIT Klatt-talk

Síntesis de Voz Sintetizadores de Voz: No Paramétricos
Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990) Dificultad y elevado tiempo de desarrollo de los sistemas de síntesis por regla. Síntesis por concatenación de unidades: Selección de unidades: tipo “dífonos” para representar la coarticulación entre dos sonidos. Algoritmo de modificación prosódica (PSOLA: Pitch Synchronous Overlap-Add)

Modificación Prosódica
Síntesis de Voz Sintetizadores de Voz: concatenación de unidades Fonemas y Prosodia Generación de la base de datos Corpus de voz Informac. unidades Segmentación de unidades Lista de Unidades BD Unidades de Voz Análisis BD Unidades Parametriz. Ecualización Codificación de voz Sintetizador de Voz Modificación Prosódica BD Unidades de síntesis Decodificación De voz Concatenación Síntesis Voz

Modificación de paramètros
Síntesis de Voz Sintetizadores de Voz: concatenación de unidades: Dífonos ... # L L A A T T A A # 2 x 10 4 1.5 1 0.5 -0.5 -1 -1.5 -2 200 400 600 800 1000 1200 1400 1600 1800 2000 2 x 10 4 Modificación de paramètros prosódicos 1.5 1 0.5 -0.5 -1 -1.5 -2 500 1000 1500 2000 2500

PSOLA: Pitch Synchronous Overlap and Add
PSOLA (Charpentier, 1986) Most successful current approach to concatenative synthesis In PSOLA, the end regions of windowed waveform samples are overlapped pitch-synchronously and added BT’s Laureate is an example

PSOLA From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001

Speech modification using PSOLA
In addition to speech synthesis from segments, there are two other common applications of PSOLA: Pitch modification Duration modification

Increasing pitch using PSOLA
From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001

Decreasing pitch using PSOLA
From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001

Altering Pitch = X Original diphone Extracted pitch period Hanning
window Hanned pitch period ‘C_A’

Altering Pitch PSOLA – Pitch Synchronous Overlap and Add =
50% Overlap + Add Pitch Up > 50% Pitch Down < 50%

PSOLA strengths and weaknesses
Produces good quality speech Weaknesses Large, annotated corpus needed for each ‘voice’ Requires accurate pitch peak detection Inflexible – new voices can only be produced by recording and labelling significant speech corpora from new speakers Automatic annotation of corpora using techniques from speech recognition

Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990) Hay otros modelos de síntesis: Modelos Armónicos Voz como combinación lineal de L sinusoides con amplitudes, fases y frecuencias variantes con el tiempo

Modelos Articulatorios:

Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos + prosodia {ti} (ti: target = sonido + prosodia): S (silencio) t1 t2 t3 t tn S(silencio) u1 u2 u3 u un Gran BD de Unidades de Voz ui 10 – 150 min.

Síntesis de Voz Sintetizadores de Voz: No Paramétricos Se define:
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Se define: Coste de ajuste al objetivo: Coste de concatenación:: j: diferencia de f0, duración, contexto, ... wjt: peso de cada factor

Síntesis de Voz Sintetizadores de Voz: No Paramétricos Se define:
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Se define: Coste de concatenación:: j: distancias en el punto de unión: cepstral, log-energía, f0, ... wjc: peso de cada factor

Síntesis de Voz Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos + prosodia {ti} (ti: target = sonido + prosodia): S (silencio) t1 t2 t3 t tn S(silencio) u1 u2 u3 u un {ui} óptima => mínimo Gran BD de Unidades de Voz ui 10 – 150 min.

Síntesis de Voz Sintetizadores de Voz: No Paramétricos Problemas:
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Problemas: Qué factores y entrenamiento de los pesos: wjc, wjt Algoritmo de búsqueda de unidades

Tratamiento Digital de Voz
Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades

Síntesis de Voz Sistemas y Dificultades Dificultades
Naturalidad: prosodia, sistemas mixtos por corpus + dífonos Expresividad: sistemas de diálogo, comunicadores personales: síntesis de emociones Personalización/Generación rápida de nuevas voces Síntesis Audio-Visual

Síntesis de Voz Sistemas y Dificultades
Sistemas Comerciales (castellano): Telefónica Investigación y Desarrollo Tecnología / Diálogo / etc... ATLAS: ScanSoft (RealSpeak: Loquendo ( ELAN Informatique ( Nuance (RealSpeak & Vocalicer:

Sistemas Investigación y Distribución Libre: Festival MBROLA FreeTTS (Festival => Java) Otros Contextos: MPEG-4 & MPEG-7 Microsoft Speech API

sonidos --> visemas
Síntesis de Voz Sistemas y Dificultades Otros Contextos: Síntesis Audio-Visual Identificación de Sonidos (Reconocedor de Habla) sonidos --> visemas Audio (voz pre-grabada) Conversor Texto-Voz Texto Animación visemas Animación 2D o 3D Composición de Vídeo

Otros Contextos: Síntesis Audio-Visual Haptek FaceWorks Lipsync (aplicaciones Composición de vídeo: Vir2elle: Oddcast: Web bots: Alicebot (aplicaciones

Dpto. Señales, Sistemas y Radiocomunicaciones

Presentaciones similares

Presentación del tema: "Dpto. Señales, Sistemas y Radiocomunicaciones"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Dpto. Señales, Sistemas y Radiocomunicaciones

Presentaciones similares

Presentación del tema: "Dpto. Señales, Sistemas y Radiocomunicaciones"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback