Descargar la presentación
La descarga está en progreso. Por favor, espere
1
Dpto. Señales, Sistemas y Radiocomunicaciones
Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones
2
Tratamiento Digital de Voz
Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades
3
Síntesis de Voz Paramétricos Sintetizadores de Voz
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980) Modelos Articulatorios No Paramétricos: Concatenación de unidades Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990) Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)
4
Síntesis de Voz Sintetizadores de Voz: Paramétricos
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Síntesis por regla: a partir de la secuencia de fonemas genera los parámetros de control del sintetizador. Síntesis por formantes: produce la voz sintética a partir de los parámetros de control. Text-to-phone conversion text Phone string Synthesis- by-rule Synthesiser control parameters “letter- to-sound” rules Exceptions dictionary Speaker table Rules Linguistic analysis Prosody
5
Síntesis de Voz Sintetizadores de Voz: Paramétricos
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control Unvoiced Excitation Voiced Excitation A F1 F2 F3 F4 Mixers Formant Amplitude Control Resonators Voicing Speech Out +
6
Síntesis de Voz Sintetizadores de Voz: Paramétricos
Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control El sintetizador de formantes de mayor éxito comercial fue el DECTalk, basado en MIT Klatt-talk
7
Síntesis de Voz Sintetizadores de Voz: No Paramétricos
Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990) Dificultad y elevado tiempo de desarrollo de los sistemas de síntesis por regla. Síntesis por concatenación de unidades: Selección de unidades: tipo “dífonos” para representar la coarticulación entre dos sonidos. Algoritmo de modificación prosódica (PSOLA: Pitch Synchronous Overlap-Add)
8
Modificación Prosódica
Síntesis de Voz Sintetizadores de Voz: concatenación de unidades Fonemas y Prosodia Generación de la base de datos Corpus de voz Informac. unidades Segmentación de unidades Lista de Unidades BD Unidades de Voz Análisis BD Unidades Parametriz. Ecualización Codificación de voz Sintetizador de Voz Modificación Prosódica BD Unidades de síntesis Decodificación De voz Concatenación Síntesis Voz
9
Modificación de paramètros
Síntesis de Voz Sintetizadores de Voz: concatenación de unidades: Dífonos ... # L L A A T T A A # 2 x 10 4 1.5 1 0.5 -0.5 -1 -1.5 -2 200 400 600 800 1000 1200 1400 1600 1800 2000 2 x 10 4 Modificación de paramètros prosódicos 1.5 1 0.5 -0.5 -1 -1.5 -2 500 1000 1500 2000 2500
10
PSOLA: Pitch Synchronous Overlap and Add
PSOLA (Charpentier, 1986) Most successful current approach to concatenative synthesis In PSOLA, the end regions of windowed waveform samples are overlapped pitch-synchronously and added BT’s Laureate is an example
11
PSOLA From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001
12
Speech modification using PSOLA
In addition to speech synthesis from segments, there are two other common applications of PSOLA: Pitch modification Duration modification
13
Increasing pitch using PSOLA
From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001
14
Decreasing pitch using PSOLA
From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001
15
Altering Pitch = X Original diphone Extracted pitch period Hanning
window Hanned pitch period ‘C_A’
16
Altering Pitch PSOLA – Pitch Synchronous Overlap and Add =
50% Overlap + Add Pitch Up > 50% Pitch Down < 50%
17
PSOLA strengths and weaknesses
Produces good quality speech Weaknesses Large, annotated corpus needed for each ‘voice’ Requires accurate pitch peak detection Inflexible – new voices can only be produced by recording and labelling significant speech corpora from new speakers Automatic annotation of corpora using techniques from speech recognition
18
Síntesis de Voz Sintetizadores de Voz: No Paramétricos
Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990) Hay otros modelos de síntesis: Modelos Armónicos Voz como combinación lineal de L sinusoides con amplitudes, fases y frecuencias variantes con el tiempo
19
Síntesis de Voz Sintetizadores de Voz: Paramétricos
Modelos Articulatorios:
20
Síntesis de Voz Sintetizadores de Voz: No Paramétricos
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos + prosodia {ti} (ti: target = sonido + prosodia): S (silencio) t1 t2 t3 t tn S(silencio) u1 u2 u3 u un Gran BD de Unidades de Voz ui 10 – 150 min.
21
Síntesis de Voz Sintetizadores de Voz: No Paramétricos Se define:
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Se define: Coste de ajuste al objetivo: Coste de concatenación:: j: diferencia de f0, duración, contexto, ... wjt: peso de cada factor
22
Síntesis de Voz Sintetizadores de Voz: No Paramétricos Se define:
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Se define: Coste de concatenación:: j: distancias en el punto de unión: cepstral, log-energía, f0, ... wjc: peso de cada factor
23
Síntesis de Voz Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos + prosodia {ti} (ti: target = sonido + prosodia): S (silencio) t1 t2 t3 t tn S(silencio) u1 u2 u3 u un {ui} óptima => mínimo Gran BD de Unidades de Voz ui 10 – 150 min.
24
Síntesis de Voz Sintetizadores de Voz: No Paramétricos Problemas:
Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Problemas: Qué factores y entrenamiento de los pesos: wjc, wjt Algoritmo de búsqueda de unidades
25
Tratamiento Digital de Voz
Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades
26
Síntesis de Voz Sistemas y Dificultades Dificultades
Naturalidad: prosodia, sistemas mixtos por corpus + dífonos Expresividad: sistemas de diálogo, comunicadores personales: síntesis de emociones Personalización/Generación rápida de nuevas voces Síntesis Audio-Visual
27
Síntesis de Voz Sistemas y Dificultades
Sistemas Comerciales (castellano): Telefónica Investigación y Desarrollo Tecnología / Diálogo / etc... ATLAS: ScanSoft (RealSpeak: Loquendo ( ELAN Informatique ( Nuance (RealSpeak & Vocalicer:
28
Síntesis de Voz Sistemas y Dificultades
Sistemas Investigación y Distribución Libre: Festival MBROLA FreeTTS (Festival => Java) Otros Contextos: MPEG-4 & MPEG-7 Microsoft Speech API
29
sonidos --> visemas
Síntesis de Voz Sistemas y Dificultades Otros Contextos: Síntesis Audio-Visual Identificación de Sonidos (Reconocedor de Habla) sonidos --> visemas Audio (voz pre-grabada) Conversor Texto-Voz Texto Animación visemas Animación 2D o 3D Composición de Vídeo
30
Síntesis de Voz Sistemas y Dificultades
Otros Contextos: Síntesis Audio-Visual Haptek FaceWorks Lipsync (aplicaciones Composición de vídeo: Vir2elle: Oddcast: Web bots: Alicebot (aplicaciones
Presentaciones similares
© 2024 SlidePlayer.es Inc.
All rights reserved.