La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Presentaciones similares


Presentación del tema: "Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones."— Transcripción de la presentación:

1 Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones

2 Tratamiento Digital de Voz Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades

3 Síntesis de Voz Sintetizadores de Voz Paramétricos Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980) Modelos Articulatorios No Paramétricos: Concatenación de unidades Base de datos de unidades pequeña + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990) Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

4 Síntesis de Voz Sintetizadores de Voz: Paramétricos Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Síntesis por regla: a partir de la secuencia de fonemas genera los parámetros de control del sintetizador. Síntesis por formantes: produce la voz sintética a partir de los parámetros de control. Text-to-phone conversion text Phone string Synthesis- by-rule Synthesiser control parameters Synthesiser letter- to-sound rules Exceptions dictionary Speaker table Rules Linguistic analysis Prosody parameters

5 Síntesis de Voz Sintetizadores de Voz: Paramétricos Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control

6 Síntesis de Voz Sintetizadores de Voz: Paramétricos Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control El sintetizador de formantes de mayor éxito comercial fue el DECTalk, basado en MIT Klatt- talk

7 Síntesis de Voz Sintetizadores de Voz: No Paramétricos Base de datos de unidades pequeña + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990) Dificultad y elevado tiempo de desarrollo de los sistemas de síntesis por regla. Síntesis por concatenación de unidades: Selección de unidades: tipo dífonos para representar la coarticulación entre dos sonidos. Algoritmo de modificación prosódica (PSOLA: Pitch Synchronous Overlap-Add)

8 Síntesis de Voz Sintetizadores de Voz: concatenación de unidades Generación de la base de datos Lista de Unidades Voz Fonemas y Prosodia Informac. unidades Sintetizador de Voz Modificación Prosódica BD Unidades de síntesis Concatenación Síntesis Decodificación De voz Segmentación de unidades Corpus de voz BD Unidades de Voz Análisis BD Unidades Parametriz. Ecualización Codificación de voz

9 Síntesis de Voz Sintetizadores de Voz: concatenación de unidades: Dífonos... # L LAATTAA# Modificación de paramètros prosódicos x x 10 4

10 PSOLA: Pitch Synchronous Overlap and Add PSOLA (Charpentier, 1986) Most successful current approach to concatenative synthesis In PSOLA, the end regions of windowed waveform samples are overlapped pitch- synchronously and added BTs Laureate is an example

11 PSOLA From: John Holmes and Wendy Holmes, Speech synthesis and recognition, Taylor & Francis 2001

12 Speech modification using PSOLA In addition to speech synthesis from segments, there are two other common applications of PSOLA: –Pitch modification –Duration modification

13 Increasing pitch using PSOLA From: John Holmes and Wendy Holmes, Speech synthesis and recognition, Taylor & Francis 2001

14 Decreasing pitch using PSOLA From: John Holmes and Wendy Holmes, Speech synthesis and recognition, Taylor & Francis 2001

15 Altering Pitch X Hanning window = Original diphoneExtracted pitch period Hanned pitch period C_A

16 PSOLA – Pitch Synchronous Overlap and Add = Altering Pitch 50% Overlap + Add Pitch Up> 50% Pitch Down< 50%

17 PSOLA strengths and weaknesses Strengths –Produces good quality speech Weaknesses –Large, annotated corpus needed for each voice –Requires accurate pitch peak detection –Inflexible – new voices can only be produced by recording and labelling significant speech corpora from new speakers Automatic annotation of corpora using techniques from speech recognition

18 Síntesis de Voz Sintetizadores de Voz: No Paramétricos Base de datos de unidades pequeña + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990) Hay otros modelos de síntesis: Modelos Armónicos Voz como combinación lineal de L sinusoides con amplitudes, fases y frecuencias variantes con el tiempo

19 Síntesis de Voz Sintetizadores de Voz: Paramétricos Modelos Articulatorios:

20 Síntesis de Voz Sintetizadores de Voz: No Paramétricos Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {u i } que represente mejor la secuencia de sonidos + prosodia {t i } (t i : target = sonido + prosodia): S (silencio) t 1 t 2 t 3 t t n S(silencio) u 1 u 2 u 3 u u n Gran BD de Unidades de Voz u i 10 – 150 min.

21 Síntesis de Voz Sintetizadores de Voz: No Paramétricos Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Se define: Coste de ajuste al objetivo: Coste de concatenación:: j: diferencia de f0, duración, contexto,... w j t : peso de cada factor

22 Síntesis de Voz Sintetizadores de Voz: No Paramétricos Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Se define: Coste de concatenación:: j: distancias en el punto de unión: cepstral, log-energía, f0,... w j c : peso de cada factor

23 Síntesis de Voz Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {u i } que represente mejor la secuencia de sonidos + prosodia {t i } (t i : target = sonido + prosodia): S (silencio) t 1 t 2 t 3 t t n S(silencio) u 1 u 2 u 3 u u n {u i } óptima => mínimo Gran BD de Unidades de Voz u i 10 – 150 min.

24 Síntesis de Voz Sintetizadores de Voz: No Paramétricos Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Problemas: Qué factores y entrenamiento de los pesos: w j c, w j t Algoritmo de búsqueda de unidades

25 Tratamiento Digital de Voz Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades

26 Síntesis de Voz Sistemas y Dificultades Dificultades Naturalidad: prosodia, sistemas mixtos por corpus + dífonos Expresividad: sistemas de diálogo, comunicadores personales: síntesis de emociones Personalización/Generación rápida de nuevas voces Síntesis Audio-Visual

27 Síntesis de Voz Sistemas y Dificultades Sistemas Comerciales (castellano): Telefónica Investigación y Desarrollo 001.xml&xsl=/docs/plantillas/noticia.xsl Tecnología / Diálogo / etc... ATLAS: ScanSoft (RealSpeak: Loquendo (http://www.loquendo.com/es/demos/demo_tts.htm) ELAN Informatique (http://www.elanspeech.com/demos/sayso.html) Nuance (RealSpeak & Vocalicer:

28 Síntesis de Voz Sistemas y Dificultades Sistemas Investigación y Distribución Libre: Festival MBROLA FreeTTS (Festival => Java) Otros Contextos: MPEG-4 & MPEG-7 Microsoft Speech API

29 Síntesis de Voz Sistemas y Dificultades Otros Contextos: Síntesis Audio-Visual Identificación de Sonidos (Reconocedor de Habla) sonidos --> visemas Audio (voz pre-grabada) Conversor Texto-Voz Texto Animación Audio visemas Animación 2D o 3D Composición de Vídeo

30 Síntesis de Voz Sistemas y Dificultades Otros Contextos: Síntesis Audio-Visual Haptek FaceWorks Lipsync (aplicaciones Composición de vídeo: Vir2elle: Oddcast: Web bots: Alicebot (aplicaciones


Descargar ppt "Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones."

Presentaciones similares


Anuncios Google