La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

1 MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Autor: Carlos Martín Valle Tutor: Juan Manuel.

Presentaciones similares


Presentación del tema: "1 MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Autor: Carlos Martín Valle Tutor: Juan Manuel."— Transcripción de la presentación:

1 1 MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Autor: Carlos Martín Valle Tutor: Juan Manuel Montero Martínez Grupo de Tecnología del Habla Departamento de Ingeniería Electrónica ETSIT

2 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle2 INTRODUCCIÓN Proyecto inicial para Natural Vox Base de datos en dominio restringido Objetivo: modulación de la frecuencia fundamental (f0) Base: tesis doctoral de J. A. Vallejo y J.M. Montero, PFC de J. Sánchez, software de R. San Segundo Soporte: Red Neuronal y scripts *.bat y *.per

3 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle3 LA RED NEURONAL Perceptrón multicapa Función de salida sigmoidea Algoritmo de aprendizaje mediante retropropagación Unidad: sílaba Parámetros: ZSCORE MODO_NORM INI FIN ACENT TERMINAC TERM_ANT SILABAS PAL_FUNC NUM_PAL POS_PAL FIN_PAL CONTEXTO OCULTA NUM_FRASE

4 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle4 LA BASE DE DATOS (I) Dominio restringido con voz femenina Proyecto de mejora de voz femenina para Natural Vox Unidad: fonema Inicialmente 22 frases-patrón Finalmente 19 frases-patrón Campos variables: Nombre propio enunciativa Sintaxis simple enunciativa Nombre propio o sintaxis simple interrogativa

5 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle5 LA BASE DE DATOS (II) Grabaciones Nombres propios y apellidos en oraciones enunciativas (660 frases) Frases 1, 2, 3, 4, 5, 6, 7, 17 y 19 Sintagmas nominales en oraciones enunciativas (307 frases) Frases 8, 9, 10, 11, 12 y 14 Sintagmas nominales, movimientos bancarios y apellidos y pueblos en oraciones interrogativas (600 frases) Frases 13, 15, 16 y 18 Agrupaciones 1, 2, 3, 4, 5, 10, 11, 17 y 19 8, 9, 12 y 14 13, 16 y y 7

6 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle6 LOS PROGRAMAS (I) Lenguajes: C, Perl y scripts de MS-DOS 2 grupos Para generar ficheros con parámetros de entrada de la Red Para realizar los experimentos y obtener el modelado de la f0

7 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle7 LOS PROGRAMAS (II) Estructura: Superprograma: generación de ficheros *.f0, extracción difonemas y resíntesis de frases Generación de experimentos Selección de parámetros (ficheros *.lis) Nueva codificación para la Red Neuronal (ficheros *.in) Cross validation, leave-one-out : Por cada experimento se generan 10 subexperimentos 7 para entrenamiento, 1 para evitar sobreentrenamiento y 2 para test Red Neuronal: entrenamiento, evaluación y test Obtención y elección de resultados Procesamiento y presentación de los resultados

8 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle8 LOS EXPERIMENTOS Y SUS RESULTADOS Metodología: Se parte del experimento Vallejo19 y se van modificando los valores de los parámetros Se buscan resultados con diferencias significativas en sus parámetros Se eliminan definitivamente los peores valores de los parámetros (NUM_FRASE=0, CONTEXTO=0) Si no hay diferencias significativas se buscan diferencias consistentes Diferentes tipos de estrategias Cuando se pueden eliminar valores de los parámetros Cuando no se pueden eliminar valores de los parámetros

9 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle9 ANÁLISIS DE LOS RESULTADOS FRASES 1, 2, 3, 4, 5, 10, 11, 17 Y 19 (I) Oraciones enunciativas Experimento Vallejo19 Resultados definitivos para todos los experimentos: Se elimina NUM_FRAS=0->NUM_FRAS=19 Se elimina CONTEXTO=0 Se elige ACENT=INI=FIN=1

10 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle10 ANÁLISIS DE LOS RESULTADOS FRASES 1, 2, 3, 4, 5, 10, 11, 17 Y 19 (II) Resultados finales: Tamaño intermedio de la capa oculta Contextos pequeños SÍLABAS: diferencias no consistentes Se marcan las terminaciones: TERMINAC=4 TERM_ANT es innecesario Codificación fina para PAL_FUNC FIN_PAL y POS_PAL: diferencias no consistentes NUM_PAL: no es necesario usar la codificación

11 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle11 ANÁLISIS DE LOS RESULTADOS FRASES 13, 16 Y 18 (I) Oraciones interrogativas Experimento Vallejo19 Frases cortas -> Contextos pequeños

12 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle12 ANÁLISIS DE LOS RESULTADOS FRASES 13, 16 Y 18 (II) Resultados finales: Capa oculta con pocas neuronas Contextos pequeños SÍLABAS: diferencias no consistentes TERMINAC: no hace falta usar la codificación TERM_ANT: mejora no consistente PAL_FUNC y NUM_PAL: usar codificación POS_PAL: no es necesario usar la codificación FIN_PAL: no usar codificación con ventana

13 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle13 ANÁLISIS DE LOS RESULTADOS FRASES 6 Y 7 (I) Oraciones enunciativas Causa: marcado diferente al del resto de frases Objetivo: determinar la conveniencia de esta agrupación FRASE 6 Resultados: TERMINAC es indiferente TERM_ANT es importante. CONTEXTO=3 Capa oculta de la Red Neuronal con tamaño pequeño

14 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle14 ANÁLISIS DE LOS RESULTADOS FRASES 6 Y 7 (II) FRASE 7 Resultados: TERMINAC=4 TERM_ANT es indiferente. CONTEXTO=1 Capa oculta de la Red Neuronal con tamaño pequeño No es aconsejable mezclar las frases 6 y 7 (14,552* ,265*413) / ( ) = 15,854 < 16,417 FRASES 6 Y 7

15 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle15 ANÁLISIS DE LOS RESULTADOS FRASES 8, 9, 12 Y 14 (I) Oraciones enunciativas Se descarta la frase 8 por su gran error al modelar Cambio de estrategia en los experimentos Se fijan inicialmente los valores de las siguientes variables: TERMINAC=4 TERM_ANT=5 Frases cortas y largas Se elimina CONTEXTO=1

16 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle16 ANÁLISIS DE LOS RESULTADOS FRASES 8, 9, 12 Y 14 (II) Resultados finales: Tamaño intermedio de la capa oculta CONTEXTO: 2 y 5 SÍLABAS: diferencias no consistentes Se marcan las terminaciones: TERMINAC=4 TERM_ANT=5: se usa la codificación PAL_FUNC y POS_PAL: diferencias no consistentes NUM_PAL: se usa la codificación FIN_PAL: codificación con ventana

17 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle17 ANÁLISIS DE LOS RESULTADOS FRASE 15 (I) Oraciones interrogativas Los grupos fonéticos marcados no se sitúan al final de las frases Resultados finales: Tamaño grande de la capa oculta CONTEXTO=1 SÍLABAS=0 Se marcan las terminaciones: TERMINAC=4 TERM_ANT=5: se usa la codificación PAL_FUNC, NUM_PAL, POS_PAL y FIN_PAL: 0 ligeramente mejor

18 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle18 ANÁLISIS DE LOS RESULTADOS FRASE 15 (II) FRASE 15 JUNTO CON 1, 2, 3, 4, 5, 10, 11, 17 Y 19 La inclusión de la frase 15 empeora el modelo de entonación 13,06630 > 12,09507 FRASE 15 JUNTO CON 9, 12 Y 14 La inclusión de la frase 15 empeora el modelo de entonación (13,254* ,223*2326) / ( ) = 15,364 < 15,598

19 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle19 ANÁLISIS DE LOS RESULTADOS FRASE 15 (III) FRASE 15 JUNTO CON 13, 16 y 18 La inclusión de la frase 15 empeora el modelo de entonación 13,65628 > 13,04374

20 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle20 ANÁLISIS DE LOS RESULTADOS FRASE 15 (IV) FRASE 15 JUNTO CON TODAS LAS DEMÁS La separación de las frases y su posterior agrupación mejoran el reconocimiento Sin frases 6, 7 y 8 (12,095* ,043* ,222* ,254*946) / ( ) = 13,802 < 14,518 Con frases 6, 7 y 8 (12,095* ,043* ,223* ,254* ,521* ,265* ,831*393) / ( ) = 14,324 < 14,518 Respecto al mejor número de J. Sánchez: 14,324 < 15,975

21 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle21 CONCLUSIONES Entorno automatizado Leave-one-out Parámetros obtenidos directamente del sintetizador Utilidad de los parámetros Reagrupación de las frases

22 Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido Carlos Martín Valle22 LÍNEAS FUTURAS Completar la reestructuración de los programas Usar MUME en lugar del perceptrón usado Experimentar con otros parámetros de la Red Aplicar el sistema a fonemas Evaluación con oyentes


Descargar ppt "1 MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Autor: Carlos Martín Valle Tutor: Juan Manuel."

Presentaciones similares


Anuncios Google