La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Dpto. Señales, Sistemas y Radiocomunicaciones

Presentaciones similares


Presentación del tema: "Dpto. Señales, Sistemas y Radiocomunicaciones"— Transcripción de la presentación:

1 Dpto. Señales, Sistemas y Radiocomunicaciones
Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones

2 Tratamiento Digital de Voz
Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades

3 Síntesis de Voz Paramétricos Sintetizadores de Voz
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980) Modelos Articulatorios No Paramétricos: Concatenación de unidades Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990) Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

4 Síntesis de Voz Sintetizadores de Voz: Paramétricos
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Síntesis por regla: a partir de la secuencia de fonemas genera los parámetros de control del sintetizador. Síntesis por formantes: produce la voz sintética a partir de los parámetros de control. Text-to-phone conversion text Phone string Synthesis- by-rule Synthesiser control parameters “letter- to-sound” rules Exceptions dictionary Speaker table Rules Linguistic analysis Prosody

5 Síntesis de Voz Sintetizadores de Voz: Paramétricos
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control Unvoiced Excitation Voiced Excitation A F1 F2 F3 F4 Mixers Formant Amplitude Control Resonators Voicing Speech Out +

6 Síntesis de Voz Sintetizadores de Voz: Paramétricos
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control El sintetizador de formantes de mayor éxito comercial fue el DECTalk, basado en MIT Klatt-talk

7 Síntesis de Voz Sintetizadores de Voz: No Paramétricos
Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990) Dificultad y elevado tiempo de desarrollo de los sistemas de síntesis por regla. Síntesis por concatenación de unidades: Selección de unidades: tipo “dífonos” para representar la coarticulación entre dos sonidos. Algoritmo de modificación prosódica (PSOLA: Pitch Synchronous Overlap-Add)

8 Modificación Prosódica
Síntesis de Voz Sintetizadores de Voz: concatenación de unidades Fonemas y Prosodia Generación de la base de datos Corpus de voz Informac. unidades Segmentación de unidades Lista de Unidades BD Unidades de Voz Análisis BD Unidades Parametriz. Ecualización Codificación de voz Sintetizador de Voz Modificación Prosódica BD Unidades de síntesis Decodificación De voz Concatenación Síntesis Voz

9 Modificación de paramètros
Síntesis de Voz Sintetizadores de Voz: concatenación de unidades: Dífonos ... # L L A A T T A A # 2 x 10 4 1.5 1 0.5 -0.5 -1 -1.5 -2 200 400 600 800 1000 1200 1400 1600 1800 2000 2 x 10 4 Modificación de paramètros prosódicos 1.5 1 0.5 -0.5 -1 -1.5 -2 500 1000 1500 2000 2500

10 PSOLA: Pitch Synchronous Overlap and Add
PSOLA (Charpentier, 1986) Most successful current approach to concatenative synthesis In PSOLA, the end regions of windowed waveform samples are overlapped pitch-synchronously and added BT’s Laureate is an example

11 PSOLA From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001

12 Speech modification using PSOLA
In addition to speech synthesis from segments, there are two other common applications of PSOLA: Pitch modification Duration modification

13 Increasing pitch using PSOLA
From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001

14 Decreasing pitch using PSOLA
From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001

15 Altering Pitch = X Original diphone Extracted pitch period Hanning
window Hanned pitch period ‘C_A’

16 Altering Pitch PSOLA – Pitch Synchronous Overlap and Add =
50% Overlap + Add Pitch Up > 50% Pitch Down < 50%

17 PSOLA strengths and weaknesses
Produces good quality speech Weaknesses Large, annotated corpus needed for each ‘voice’ Requires accurate pitch peak detection Inflexible – new voices can only be produced by recording and labelling significant speech corpora from new speakers Automatic annotation of corpora using techniques from speech recognition

18 Síntesis de Voz Sintetizadores de Voz: No Paramétricos
Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990) Hay otros modelos de síntesis: Modelos Armónicos Voz como combinación lineal de L sinusoides con amplitudes, fases y frecuencias variantes con el tiempo

19 Síntesis de Voz Sintetizadores de Voz: Paramétricos
Modelos Articulatorios:

20 Síntesis de Voz Sintetizadores de Voz: No Paramétricos
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos + prosodia {ti} (ti: target = sonido + prosodia): S (silencio) t1 t2 t3 t tn S(silencio) u1 u2 u3 u un Gran BD de Unidades de Voz ui 10 – 150 min.

21 Síntesis de Voz Sintetizadores de Voz: No Paramétricos Se define:
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Se define: Coste de ajuste al objetivo: Coste de concatenación:: j: diferencia de f0, duración, contexto, ... wjt: peso de cada factor

22 Síntesis de Voz Sintetizadores de Voz: No Paramétricos Se define:
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Se define: Coste de concatenación:: j: distancias en el punto de unión: cepstral, log-energía, f0, ... wjc: peso de cada factor

23 Síntesis de Voz Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos + prosodia {ti} (ti: target = sonido + prosodia): S (silencio) t1 t2 t3 t tn S(silencio) u1 u2 u3 u un {ui} óptima => mínimo Gran BD de Unidades de Voz ui 10 – 150 min.

24 Síntesis de Voz Sintetizadores de Voz: No Paramétricos Problemas:
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Problemas: Qué factores y entrenamiento de los pesos: wjc, wjt Algoritmo de búsqueda de unidades

25 Tratamiento Digital de Voz
Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades

26 Síntesis de Voz Sistemas y Dificultades Dificultades
Naturalidad: prosodia, sistemas mixtos por corpus + dífonos Expresividad: sistemas de diálogo, comunicadores personales: síntesis de emociones Personalización/Generación rápida de nuevas voces Síntesis Audio-Visual

27 Síntesis de Voz Sistemas y Dificultades
Sistemas Comerciales (castellano): Telefónica Investigación y Desarrollo Tecnología / Diálogo / etc... ATLAS: ScanSoft (RealSpeak: Loquendo ( ELAN Informatique ( Nuance (RealSpeak & Vocalicer:

28 Síntesis de Voz Sistemas y Dificultades
Sistemas Investigación y Distribución Libre: Festival MBROLA FreeTTS (Festival => Java) Otros Contextos: MPEG-4 & MPEG-7 Microsoft Speech API

29 sonidos --> visemas
Síntesis de Voz Sistemas y Dificultades Otros Contextos: Síntesis Audio-Visual Identificación de Sonidos (Reconocedor de Habla) sonidos --> visemas Audio (voz pre-grabada) Conversor Texto-Voz Texto Animación visemas Animación 2D o 3D Composición de Vídeo

30 Síntesis de Voz Sistemas y Dificultades
Otros Contextos: Síntesis Audio-Visual Haptek FaceWorks Lipsync (aplicaciones Composición de vídeo: Vir2elle: Oddcast: Web bots: Alicebot (aplicaciones


Descargar ppt "Dpto. Señales, Sistemas y Radiocomunicaciones"

Presentaciones similares


Anuncios Google