Dpto. Señales, Sistemas y Radiocomunicaciones

Slides:



Advertisements
Presentaciones similares
Generación y Extracción Automática de Metadatos:
Advertisements

Teacher Directions Save the States of Matter PowerPoint to the student shared drive. Mark the file as read-only. Right-click on the saved file  go to.
De BDC a BCS Gustavo Velez Overview El problema y la solución Arquitectura Listas Externas (SharePoint Designer) Visual Studio 2010.
Uso de las Bases de Datos
ELEMENTOS DEFINICIÓN HIPERTEXTO DIMENSIONES ESTRUCTURA.
Pablo Neruda escritor, poeta, activista político
PROYECTO FIN DE CARRERA.  Introducción y Motivación  Fundamentos del Sistema QbH  Diseño e Implementación  Test y Resultados  Conclusiones  Trabajo.
Pretérito e imperfecto de verbos de estado
Presentada por: Ma. Fernanda Molina M. Luis Sánchez L.
PROYECTO DE GRADO CARLOS STALIN ALVARADO SANCHEZ
Dpto. Señales, Sistemas y Radiocomunicaciones
Dpto. Señales, Sistemas y Radiocomunicaciones
Dpto. Señales, Sistemas y Radiocomunicaciones
Dpto. Señales, Sistemas y Radiocomunicaciones
Dpto. Señales, Sistemas y Radiocomunicaciones
Procesamiento Digital de Voz
ESTUDIO DE LA SÍNTESIS DE VOZ Y SU APLICACIÓN AL SOFTWARE EDUCATIVO
Fundamentos de sistemas digitales, 9/E
Intervención para la modificación de patrones de habla/lenguaje
Para hacer ahora 1) What is an infinitive?
Pronunciation Practice Pronto llegará, El día de mi suerte Sé que antes de mi muerte Seguro que mi suerte cambiará.
saquen la tarea en la página 57, ejercicio 1 ejemplos 4 y 5
Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.
Perspectivas profesionales en el desarrollo de las Tecnologías del Habla: una visión desde la Lingüística Juan María Garrido Almiñana Grup de Lingüística.
© 2009 IBM Corporation End User Programming (Naturalmente) Pablo Pedemonte – SW Engineer 16 Sep 2010.
Academia de Informática Asignatura: Informática II Unidad: I. Procesador de textos Tema: Combinación de correspondencia Profesor (a): Ávila Vázquez María.
analyzer 2.5 speech procesamiento digital de la voz a través del
Web 2.0 y Medicina. Muy amigable para el usuario Rico en funciones Sin vergüenza para utilizar el color… pero mucho blanco Los logos son redondeados,
Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2d.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.
-AR Verbs.
Proceso para la creación de una publicación digital
Desarrollo de una voz sintética con emociones para un robot-guía
Apuntes de diciembre Los pronombres relativos (Relative pronouns) Relative pronouns are used to combine two sentences. Aquí está el sofá. Here’s.
What time is it? DLT: I can tell time in Spanish..
Ángel M. Ramos Domínguez Curso de Doctorado Análisis Conjunto
Español de septiembre. La Campana Hoy es martes el 23 de septiembre de ¡Matemáticas! ◦1. seis + ocho = ◦2. veinte – once = ◦3. dos x nueve.
Objective: I can recognize and accurately use gender agreement. Do Now: Match the following Spanish and English words: 1. Pelirroja a. Good-looking 2.
MORE CONVERSATION TOOLS
Los Verbos  Today we will be learning about Spanish verbs.  Start a new section in your notes labeled Los Verbos.  Begin by answering these questions:
Desarrollo de aplicaciones empresariales con Web Services
Unit 2A: Lesson 2 How to Talk About Your Schedule Gramática- Present tense of –ar verbs.
GUSTAR PRÁCTICA CON GUSTAR. DIRECCIONES:  Each slide will contain a picture or a vocabulary word and a subject. In your group, you need to come up with.
Dpto. Señales, Sistemas y Radiocomunicaciones
WWW. WIRELESS WIFI Wireless-Fidelity Es un mecanismo de conexión de dispositivos electrónicos de forma inalámbrica.
Indirect Object Pronouns
Ensayo 10 Laws of Simplicity by John Maeda. Para hacer el ensayo Paso 1 Ver lo que todo el mundo ha visto y decir lo que a nadie se le ha ocurrido.
Dpto. Señales, Sistemas y Radiocomunicaciones
I can… Listen and respond to questions in L2 Review concepts from Spanish 1 Recognize when to use SER or ESTAR Use SER/ESTAR in context Recognize when.
Conjugating Verbs! *You already know several verbs *Remember any???? *andar, hablar, estudiar, caminar, escuchar, etc…
El presente indicativo ESPAÑOL 1. A. What is the present tense? It is when the action of a verb occurs at the moment. Verbs can be divided into two categories:
Indirect Object Pronouns Original PowerPoint was by Ms. Martin of Tri-Center Community Schools.
Copy the white notes.  There are three types of verbs in the Spanish language. Verbs that end in –ar, -er, and –ir  Example: hablar, comer, escribir.
Los verbos Verbs: Conjugation and Infinitives What are infinitives? Pregunta:
-AR Verbos hablar enseñar dibujar terminar necesitar cantar bailar
PART 1: 1 st slide – record your phone conversation. PART 2: 10 slides – see topics per slide Each slide will have an illustration / clip art that goes.
Las Horas del Día hora hora o’clock §The word hora means time in asking the time of the day. In standing time the word hora is understood. There is not.
Unidad I, Lección 4 La América Central y México. 23/9 Bellringer Take down the vocabulary notes which are located on the next 3 slides. The first two.
Para hacer ahora 1) What is an infinitive? 2) What do we do when we conjugate a verb? 3) Define the following subjects in English: yo, tú, él, ella, usted,
THE VERB IR. When do you use IR? Ir means and it’s used to talk about.
Do-Now Pick up a book as you enter the room and turn to page 6. Read the phrases and write down what you believe is being said for each picture. There.
LAS PREGUNTAS (Question Formation). Asking “yes/no” questions To ask spoken questions that can be answered with a simple “yes” or “no,” simply raise the.
Question Formation Español Uno.
Notes #20 Notes #20 There are three basic ways to ask questions in Spanish. Can you guess what they are by looking at the photos and photo captions on.
Present Tense of –ar Verbs
Lo esencial de Internet
Verbs that end in –AR in the Infinitive
INFINITIVOS Capítulo 1A.
Question Formation Spanish I Page 52.
WELCOME FREE POWERPOINT TEMPLATE DESIGNED BY POWERPOINT SCHOOL about history timelineteamsservicesfollow.
The causative is a common structure in English. It is used when one thing or person causes another thing or person to do something.
Transcripción de la presentación:

Dpto. Señales, Sistemas y Radiocomunicaciones Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones

Tratamiento Digital de Voz Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades

Síntesis de Voz Paramétricos Sintetizadores de Voz Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980) Modelos Articulatorios No Paramétricos: Concatenación de unidades Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990) Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996)

Síntesis de Voz Sintetizadores de Voz: Paramétricos Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Síntesis por regla: a partir de la secuencia de fonemas genera los parámetros de control del sintetizador. Síntesis por formantes: produce la voz sintética a partir de los parámetros de control. Text-to-phone conversion text Phone string Synthesis- by-rule Synthesiser control parameters “letter- to-sound” rules Exceptions dictionary Speaker table Rules Linguistic analysis Prosody

Síntesis de Voz Sintetizadores de Voz: Paramétricos Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control Unvoiced Excitation Voiced Excitation A F1 F2 F3 F4 Mixers Formant Amplitude Control Resonators Voicing Speech Out +

Síntesis de Voz Sintetizadores de Voz: Paramétricos Sintetizadores por Formantes: Síntesis por Regla (Denis Klatt, 1980): Parámetros de Control El sintetizador de formantes de mayor éxito comercial fue el DECTalk, basado en MIT Klatt-talk

Síntesis de Voz Sintetizadores de Voz: No Paramétricos Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990) Dificultad y elevado tiempo de desarrollo de los sistemas de síntesis por regla. Síntesis por concatenación de unidades: Selección de unidades: tipo “dífonos” para representar la coarticulación entre dos sonidos. Algoritmo de modificación prosódica (PSOLA: Pitch Synchronous Overlap-Add)

Modificación Prosódica Síntesis de Voz Sintetizadores de Voz: concatenación de unidades Fonemas y Prosodia Generación de la base de datos Corpus de voz Informac. unidades Segmentación de unidades Lista de Unidades BD Unidades de Voz Análisis BD Unidades Parametriz. Ecualización Codificación de voz Sintetizador de Voz Modificación Prosódica BD Unidades de síntesis Decodificación De voz Concatenación Síntesis Voz

Modificación de paramètros Síntesis de Voz Sintetizadores de Voz: concatenación de unidades: Dífonos ... # L L A A T T A A # 2 x 10 4 1.5 1 0.5 -0.5 -1 -1.5 -2 200 400 600 800 1000 1200 1400 1600 1800 2000 2 x 10 4 Modificación de paramètros prosódicos 1.5 1 0.5 -0.5 -1 -1.5 -2 500 1000 1500 2000 2500

PSOLA: Pitch Synchronous Overlap and Add PSOLA (Charpentier, 1986) Most successful current approach to concatenative synthesis In PSOLA, the end regions of windowed waveform samples are overlapped pitch-synchronously and added BT’s Laureate is an example

PSOLA From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001

Speech modification using PSOLA In addition to speech synthesis from segments, there are two other common applications of PSOLA: Pitch modification Duration modification

Increasing pitch using PSOLA From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001

Decreasing pitch using PSOLA From: John Holmes and Wendy Holmes, “Speech synthesis and recognition”, Taylor & Francis 2001

Altering Pitch = X Original diphone Extracted pitch period Hanning window Hanned pitch period ‘C_A’

Altering Pitch PSOLA – Pitch Synchronous Overlap and Add = 50% Overlap + Add Pitch Up > 50% Pitch Down < 50%

PSOLA strengths and weaknesses Produces good quality speech Weaknesses Large, annotated corpus needed for each ‘voice’ Requires accurate pitch peak detection Inflexible – new voices can only be produced by recording and labelling significant speech corpora from new speakers Automatic annotation of corpora using techniques from speech recognition

Síntesis de Voz Sintetizadores de Voz: No Paramétricos Base de datos de unidades “pequeña” + modificación prosódica (PSOLA – CNET, Moulines & Charpentier 1990) Hay otros modelos de síntesis: Modelos Armónicos Voz como combinación lineal de L sinusoides con amplitudes, fases y frecuencias variantes con el tiempo

Síntesis de Voz Sintetizadores de Voz: Paramétricos Modelos Articulatorios:

Síntesis de Voz Sintetizadores de Voz: No Paramétricos Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos + prosodia {ti} (ti: target = sonido + prosodia): S (silencio) t1 t2 t3 t4 ... ... ...... tn S(silencio) u1 u2 u3 u4 ... ... ...... un Gran BD de Unidades de Voz ui 10 – 150 min.

Síntesis de Voz Sintetizadores de Voz: No Paramétricos Se define: Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Se define: Coste de ajuste al objetivo: Coste de concatenación:: j: diferencia de f0, duración, contexto, ... wjt: peso de cada factor

Síntesis de Voz Sintetizadores de Voz: No Paramétricos Se define: Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Se define: Coste de concatenación:: j: distancias en el punto de unión: cepstral, log-energía, f0, ... wjc: peso de cada factor

Síntesis de Voz Objetivo: Sintetizar una frase = seleccionar la secuencia de unidades {ui} que represente mejor la secuencia de sonidos + prosodia {ti} (ti: target = sonido + prosodia): S (silencio) t1 t2 t3 t4 ... ... ...... tn S(silencio) u1 u2 u3 u4 ... ... ...... un {ui} óptima => mínimo Gran BD de Unidades de Voz ui 10 – 150 min.

Síntesis de Voz Sintetizadores de Voz: No Paramétricos Problemas: Síntesis por Corpus: Selección de Unidades sobre una gran base de datos de voz (Alan W. Black, 1996) Problemas: Qué factores y entrenamiento de los pesos: wjc, wjt Algoritmo de búsqueda de unidades

Tratamiento Digital de Voz Tema 4: Síntesis de Voz Tipos de Síntesis de Voz y Aplicaciones Principios básicos de sistemas de conversión de texto a voz Sintetizadores de Voz Sistemas y Dificultades

Síntesis de Voz Sistemas y Dificultades Dificultades Naturalidad: prosodia, sistemas mixtos por corpus + dífonos Expresividad: sistemas de diálogo, comunicadores personales: síntesis de emociones Personalización/Generación rápida de nuevas voces Síntesis Audio-Visual

Síntesis de Voz Sistemas y Dificultades Sistemas Comerciales (castellano): Telefónica Investigación y Desarrollo http://oesi.cervantes.es/jsp/noticias/noticia.jsp?xml=/docs/20030424/0001.xml&xsl=/docs/plantillas/noticia.xsl Tecnología / Diálogo / etc... ATLAS: http://www.atlas-cti.com/es/download-atlastts.htm ScanSoft (RealSpeak: http://www.scansoft.com/realspeak/demo/) Loquendo (http://www.loquendo.com/es/demos/demo_tts.htm) ELAN Informatique (http://www.elanspeech.com/demos/sayso.html) Nuance (RealSpeak & Vocalicer: http://www.nuance.com/prodserv/demo_vocalizer.html)

Síntesis de Voz Sistemas y Dificultades Sistemas Investigación y Distribución Libre: Festival http://www.cstr.ed.ac.uk/projects/festival/ MBROLA http://tcts.fpms.ac.be/synthesis/mbrola/mbrola.html FreeTTS (Festival => Java) http://freetts.sourceforge.net/docs/index.php Otros Contextos: MPEG-4 & MPEG-7 Microsoft Speech API

sonidos --> visemas Síntesis de Voz Sistemas y Dificultades Otros Contextos: Síntesis Audio-Visual Identificación de Sonidos (Reconocedor de Habla) sonidos --> visemas Audio (voz pre-grabada) Conversor Texto-Voz Texto Animación visemas Animación 2D o 3D Composición de Vídeo

Síntesis de Voz Sistemas y Dificultades Otros Contextos: Síntesis Audio-Visual Haptek http://www.haptek.com FaceWorks http://interface.digital.com/ Lipsync (aplicaciones http://www.annosoft.com/index.htm) Composición de vídeo: Vir2elle: http://www.vir2elle.com/ Oddcast: http://vhost.oddcast.com/vhost_minisite/ Web bots: Alicebot (aplicaciones http://www.alicebot.org/)