Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones

Tratamiento Digital de Voz  Tema 4: Síntesis de Voz  Tipos de Síntesis de Voz y Aplicaciones  Principios básicos de sistemas de conversión de texto a voz  Sintetizadores de Voz  Sistemas y Dificultades

Síntesis de Voz  Tipos de Síntesis de Voz y Aplicaciones (A) Voz Pre-Grabada (codificación) (B) Conversión de Texto a Voz Text-to-Speech TTS (C) Conversión de Concepto a Voz Concept-to-Speech CTS Acceso a Inform. Telefónica Asistentes de Lectura Comunicadores y Ayudas para Discapacitados Locutores virtuales (visual – TTS) Otros: Enseñanza (I. Cervantes),.. http://oesi.cervantes.es/jsp/noticias/notic ia.jsp?xml=/docs/20030424/0001.xml&x sl=/docs/plantillas/noticia.xsl

1791 El barón Wolfgang von Kempelen describió una máquina que reproducía fielmente la anatomía del aparato fonador humano

1835 Sistema parlante diseñado por Sir Charles Wheatstone

Sprachsynthese (TTS, Vocoder) Philipp S. Bach 1939 Homer Dudley’s “Voder”: Primer Sintetizador “electrónico” compuesto de: Un oscilador (controlado por un pedal) y una fuente de ruído blanco Diez filtros paso banda, con salida conectada a potenciómetros Algunos botones para generar consonantes como t, p, etc... Historie der Sprachsynthese Proseminar Sprachdialogsysteme http://www.acoustics.hut.fi/~slemmett/dippa/appa.html

Síntesis de Voz  Principios básicos de sistemas de conversión de texto a voz Proceso Lingüístico-Prosódico Proceso de Señal Sonidos (pausas) Prosodia: o F0 o Duración o Energía Análisis del Texto Análisis Fonético Análisis Prosódico Modelos de Síntesis de Voz SINTETIZADOR Texto Voz

Síntesis de Voz  Principios básicos de sistemas de conversión de texto a voz  Proceso Lingüístico-Prosódico: Análisis del Texto Componentes: Detección de la Estructura del Texto Texto de Entrada Normalización del Texto Análisis Lingüístico

Síntesis de Voz  Principios básicos de sistemas de conversión de texto a voz  Proceso Lingüístico-Prosódico: Análisis del Texto Detección de la Estructura: –Segmentación de párrafos. –Separación de frases. –Tipos de frases. –Detección de estructura de SMS, e-mail, página web,... –Identificación del Idioma,... Detección de la Estructura del Texto Texto de Entrada Normalización del Texto Análisis Lingüístico

Síntesis de Voz  Principios básicos de sistemas de conversión de texto a voz  Proceso Lingüístico-Prosódico: Análisis del Texto Normalización del Texto: –Abreviaturas (Vd. Sr. ), acrónimos (CEE, BMW), etc. –Fechas, Horas, Cantidades, Números –Corrección automática de errores o expansión de formas de escritura (SMSs) –Identificación de palabras extranjeras,.. Detección de la Estructura del Texto Texto de Entrada Normalización del Texto Análisis Lingüístico

Síntesis de Voz  Principios básicos de sistemas de conversión de texto a voz  Proceso Lingüístico-Prosódico: Análisis del Texto Análisis Lingüístico: –Análisis sintáctico y semántico (posible) –Desambiguación de palabras. –Estructura de la frase. –Identificación de tipo de frase. Detección de la Estructura del Texto Texto de Entrada Normalización del Texto Análisis Lingüístico

Síntesis de Voz  Principios básicos de sistemas de conversión de texto a voz  Proceso Lingüístico-Prosódico: Análisis Fonético Componentes: Salida del Componente de Análisis de Texto Análisis Morfológico Conversión Letra-a-sonido (Grafema-a-alófono)

Síntesis de Voz  Principios básicos de sistemas de conversión de texto a voz  Proceso Lingüístico-Prosódico: Análisis Fonético Salida del Componente de Análisis de Texto Análisis Morfológico Conversión Letra-a-sonido (Grafema-a-alófono) Análisis Morfológico: –Palabras de función: pronombres, preposiciones, conjunciones (determinar sílabas, ej.: sublunar) –Palabras de contenido –Prefijos y sufijos, conjugaciones, plurales, aumentativos, etc –Descubrir homógrafas que cambian sentido Ej.: para (preposición) y para (verbo)

Síntesis de Voz  Principios básicos de sistemas de conversión de texto a voz  Proceso Lingüístico-Prosódico: Análisis Fonético Salida del Componente de Análisis de Texto Análisis Morfológico Conversión Letra-a-sonido (Grafema-a-alófono) Conversión Grafema-Alófono: –Soluciones basadas en diccionario Palabras divididas en morfemas (para disminuir diccionario) Si la palabra no está: usa reglas –Soluciones basadas en reglas: Reglas de conversión letras- fonemas + Tabla + algoritmos de excepciones

Síntesis de Voz  Principios básicos de sistemas de conversión de texto a voz  Proceso Lingüístico-Prosódico: Análisis Prosódico Componentes: Salida del Componente de Análisis Fonético Modelado de: Entonación Duración Intensidad Sonidos y pausas + F0, duración y Energía Módulo Pausador

Síntesis de Voz  Principios básicos de sistemas de conversión de texto a voz  Proceso Lingüístico-Prosódico: Análisis Prosódico Salida del Componente de Análisis Fonético Modelado de: Entonación Duración Intensidad Sonidos y pausas + F0, duración y Energía Módulo Pausador Módulo Pausador: –Decisión de dónde insertar pausas –ortográficas y no ortográficas- : Información gramatical: coeficientes de relación Número de sílabas –Asignación de la duración adecuada a las pausas

Síntesis de Voz  Principios básicos de sistemas de conversión de texto a voz  Proceso Lingüístico-Prosódico: Análisis Prosódico Salida del Componente de Análisis Fonético Modelado de: Entonación Duración Intensidad Sonidos y pausas + F0, duración y Energía Módulo Pausador Modelado Prosódico: –Modelos: Patrones pre-establecidos Basados en reglas Estocásticos, a partir de datos. –Modelado de F0 y duración: ¿independiente o conjunto? –Intensidad, generalmente sólo normalización

Síntesis de Voz MODELOS PROSÓDICOS Lineales o de Secuencia de Tonos – generar la curva de F0 de izquierda a derecha como una secuencia de valores o movimientos Escuela Británica – basada en análisis auditivo Pierrehumbert 1980 – análisis acústico (ToBI) Dutch school - ‘t Hart, Collier and Cohen 1990 – información perceptual Tilt - Taylor 1998 – base fonética Modelos Jerárquicos o de superposición: - generar el contorno de F0 modelando factores de forma aislada (fonema, sílaba, palabra, frase, sentencia) y luego combinar los modelos parciales. Fujisaki 1983, Grønnum 1992, Möbius et al. 1993, Tomás Navarro Tomás, Manual de Pronunciación Española (1945) New York: Hispanic Institute. Guadarrama 1974. http://liceu.uab.es/publicacions/Linguistica_CTH_FDS02.pdf

Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Presentaciones similares

Presentación del tema: "Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Presentaciones similares

Presentación del tema: "Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback