Grupo de Tecnología del Habla

Grupo de Tecnología del Habla
Departamento de Ingeniería Electrónica ETSIT Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido MODELADO DE LA FRECUENCIA FUNDAMENTAL MEDIANTE REDES NEURONALES PARA SÍNTESIS DE VOZ EN DOMINIO RESTRINGIDO Autor: Carlos Martín Valle Tutor: Juan Manuel Montero Martínez Carlos Martín Valle

INTRODUCCIÓN Proyecto inicial para Natural Vox
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido INTRODUCCIÓN Proyecto inicial para Natural Vox Base de datos en dominio restringido Objetivo: modulación de la frecuencia fundamental (f0) Base: tesis doctoral de J. A. Vallejo y J.M. Montero, PFC de J. Sánchez, software de R. San Segundo Soporte: Red Neuronal y scripts *.bat y *.per Este PFC surgió como continuación natural de un proyecto realizado por el GTH para la empresa Natural Vox. En él, se trabaja con una base de datos en dominio restringido. Si bien se trata de un dominio “poco restringido” ya que, en dicha base de datos, se engloban varios temas: nombres propios (de persona, pueblos y bancos, tanto españoles como extranjeros), apellidos, movimientos bancarios, etc. El objetivo no es otro que lograr como resultado final una modulación de la frecuencia fundamental propia de cada sílaba de cada una de las grabaciones que componen las frases de las bases de datos. Esta modulación se expresa como error absoluto entre la f0 real y la predicha por la Red Neuronal y se mide en hertzios. Para ello, se parte de trabajos previos. Los principales son las tesis doctorales de Vallejo y J. M. Montero, el PFC de Julio Sánchez y la Red Neuronal desarrollada en el GTH por R. San Segundo, R. De Córdoba, Juana Mª Gutierrez y J.M. Montero. El sistema que permite obtener los resultados está formado por la Red Neuronal (programa informático en C) y un conjunto de scripts que complementan la Red. Carlos Martín Valle Carlos Martín Valle

LA RED NEURONAL Perceptrón multicapa Función de salida sigmoidea
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido LA RED NEURONAL Perceptrón multicapa Función de salida sigmoidea Algoritmo de aprendizaje mediante retropropagación Unidad: sílaba Parámetros: ZSCORE MODO_NORM INI FIN ACENT TERMINAC TERM_ANT SILABAS PAL_FUNC NUM_PAL POS_PAL FIN_PAL CONTEXTO OCULTA NUM_FRASE De entre todos los tipos de Redes Neuronales que existen, nosotros hemos trabajado con un perceptrón multicapa. Un perceptrón es una estructura neuronal más una regla de aprendizaje. Y es multicapa porque consta de una capa de entrada, otra de salida y otra oculta o intermedia. La función de salida (o función de transferencia) es de tipo sigmoidea. Es muy parecida al escalón (que es la función ideal) con la ventaja de ser derivable en las inmediaciones de cualquier punto del eje X, lo cual es necesario en el algoritmo de retropropagación ya que está basado en la minimización del error con respecto al valor de los pesos, por lo que hay que derivar e igualar a 0. La unidad elemental con la que trabaja la Red es la sílaba. Y los parámetros de entrada a la misma con los que podemos experimentar son los que aparecen en la transparencia. En naranja figuran aquellos con los que se ha jugado en este proyecto y en blanco aquellos cuyo valor ha permanecido fijo en todos los experimentos. Carlos Martín Valle Carlos Martín Valle

LA BASE DE DATOS (I) Dominio restringido con voz femenina
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido LA BASE DE DATOS (I) Dominio restringido con voz femenina Proyecto de mejora de voz femenina para Natural Vox Unidad: fonema Inicialmente 22 frases-patrón Finalmente 19 frases-patrón Campos variables: Nombre propio enunciativa Sintaxis simple enunciativa Nombre propio o sintaxis simple interrogativa Como ya apuntábamos en la Introducción, se ha trabajado con una base de datos en dominio restringido, aunque era “poco restringido” debido a la diversidad temática que en ella se da, y toda ella está grabada con voz femenina. La base de datos se creó, en principio, para un proyecto de mejora de voz femenina encargado por Natural Vox. En la base de datos la unidad es el fonema. En un primer momento, estaba constituida por22 frases-patrón que, tras varias revisiones, se redujeron a 19. Cada frase-patrón está formada por un número más o menos amplio de grabaciones. Por norma general, estas frases-patrón están constituidas por un campo fijo y por un campo variable; estos campos variables pueden ser de varios tipos: nombre propio enunciativa, sintaxis simple enunciativa o bien nombre propio o sintaxis simple interrogativa. Carlos Martín Valle Carlos Martín Valle

LA BASE DE DATOS (II) Grabaciones Agrupaciones
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido LA BASE DE DATOS (II) Grabaciones Nombres propios y apellidos en oraciones enunciativas (660 frases) Frases 1, 2, 3, 4, 5, 6, 7, 17 y 19 Sintagmas nominales en oraciones enunciativas (307 frases) Frases 8, 9, 10, 11, 12 y 14 Sintagmas nominales, movimientos bancarios y apellidos y pueblos en oraciones interrogativas (600 frases) Frases 13, 15, 16 y 18 Agrupaciones 1, 2, 3, 4, 5, 10, 11, 17 y 19 8, 9, 12 y 14 13, 16 y 18 15 6 y 7 Como ya se anticipaba antes, cada frase-patrón está formada por un conjunto de grabaciones. Atendiendo a su clasificación según el tipo del campo variable, podemos establecer los siguientes grupos: Nombres propios y apellidos en oraciones enunciativas: hay un total de 660 grabaciones repartidas por las frases 1, 2, 3, 4, 5, 6, 7, 17 y 19. Sintagmas nominales en oraciones enunciativas: hay 307 grabaciones entre las frases 8, 9, 10, 11, 12 y 14. Sintagmas nominales, movimientos bancarios y apellidos y nombres de pueblos en oraciones interrogativas: existen un total de 600 grabaciones repartidas por las frases 13, 15, 16 y 18. Tras llevar a cabo muchos experimentos, se decidió que lo óptimo era agruparlas por criterios coherentes. De esta manera, el modelado de la frecuencia fundamental era mejor al ser menor el error obtenido a la salida de la Red Neuronal, de la misma manera, al tener un mayor número de ejemplos en cada experimento, las conclusiones iban a tener una mayor consistencia. Por lo tanto, las agrupaciones iniciales eran las siguientes: Frases 1, 2, 3, 4, 5, 6, 7, 17 y 19. 8, 9, 12 y 14. 13, 16 y 18. 15. 6 y 7. Como se verá más adelante, estas agrupaciones no iban a ser las definitivas. Carlos Martín Valle Carlos Martín Valle

LOS PROGRAMAS (I) Lenguajes: C, Perl y scripts de MS-DOS 2 grupos
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido LOS PROGRAMAS (I) Lenguajes: C, Perl y scripts de MS-DOS 2 grupos Para generar ficheros con parámetros de entrada de la Red Para realizar los experimentos y obtener el modelado de la f0 Como se puede ver en el dibujo, aunque el programa de la Red es el principal, existe todo un conjunto de scripts desarrollados en Perl y en el lenguaje de MS-DOS, anteriores y posteriores a la Red. El principal cometido de los anteriores es generar ficheros con los parámetros de entrada adecuados para la Red Neuronal. Los posteriores se usan para procesar los datos generados por la citada Red, seleccionar solo aquellos que nos interesen y presentarlos de forma adecuada. Carlos Martín Valle Carlos Martín Valle

LOS PROGRAMAS (II) Estructura:
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido LOS PROGRAMAS (II) Estructura: “Superprograma”: generación de ficheros *.f0, extracción difonemas y resíntesis de frases Generación de experimentos Selección de parámetros (ficheros *.lis) Nueva codificación para la Red Neuronal (ficheros *.in) Cross validation, leave-one-out : Por cada experimento se generan 10 subexperimentos 7 para entrenamiento, 1 para evitar sobreentrenamiento y 2 para test Red Neuronal: entrenamiento, evaluación y test Obtención y elección de resultados Procesamiento y presentación de los resultados Los programas siguen una perfecta estructuración según la cual uno de ellos se encarga de llamar al siguiente y así sucesivamente. La automatización del proceso es total y, una vez se introducen los valores de los parámetros con los que vamos a realizar los experimentos en los ficheros oportunos, no hay nada por lo que preocuparse hasta el final del proceso, que es la obtención de los errores absolutos de test con los que se modela la f0. El primer gran programa que nos encontramos es el Superbat.bat, el cual tiene entre sus principales funciones la generación de los ficheros *.f0, la extracción de los difonemas (Sacadif32.exe) y la resíntesis de las frases. El segundo paso consiste en la generación de los experimentos, para lo cual se deben seleccionar los valores de los parámetros con los que se va a realizar cada experimento. Una vez seleccionados estos valores, se procede a una nueva codificación de acuerdo con estos valores y la cual va a ser la que use la Red Neuronal. El siguiente punto que resaltamos en todo el proceso tiene que ver con la estrategia que se sigue a la hora de realizar los experimentos y que trata de utilizar al máximo las grabaciones que se emplean en cada experimento, de manera que se sigue un método llamado cross-validation pare generar 10 subexperimentos por cada experimento siguiendo un mecanismo de leave-one-out, donde de los 10 subexperimentos, 7 son para la fase de entrenamiento de la Red, 1 para evitar sobreentrenmamiento y 2 para la fase de test. Pasado el procesado previo a la entrada en escena de la Red, llega el momento de esta. La Red necesita una fase primera de entrenamiento, una posterior de evaluación y la última de test donde se chequean los resultados obtenidos. Pero hay un problema: que la Red genera una cantidad enorme de resultados. Es en este momento donde entran en juego los programas posteriores a la Red. Su cometido, como ya se apuntó antes, es elegir los resultados de interés para nosotros y filtrarlos, y procesarlos y presentarlos de manera adecuada. Carlos Martín Valle Carlos Martín Valle

LOS EXPERIMENTOS Y SUS RESULTADOS
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido LOS EXPERIMENTOS Y SUS RESULTADOS Metodología: Se parte del experimento “Vallejo19” y se van modificando los valores de los parámetros Se buscan resultados con diferencias significativas en sus parámetros Se eliminan definitivamente los peores valores de los parámetros (NUM_FRASE=0, CONTEXTO=0) Si no hay diferencias significativas se buscan diferencias consistentes Diferentes tipos de estrategias Cuando se pueden eliminar valores de los parámetros Cuando no se pueden eliminar valores de los parámetros Lógicamente, a la hora de llevar a cabo experimentos, tiene que haber un punto de partida. En nuestro caso, este punto era el experimento llamado “Vallejo19”, se le llamó así porque constaba de los valores de los parámetros que mejores resultados le habían dado a J.A. Vallejo en su tesis con la única diferencia de NUM_FRASE, que mientras allí valía 0, ahora vale 19. A esta conclusión se llegó experimentando y observando cómo este valor de 19 era significativamente mejor que 0. Una vez se tuvo este punto inicial, se decidió que lo mejor era ir variando los valores que podía tomar cada parámetro y eliminar aquellos que peores resultados ofrecieran, siempre y cuando estos resultados fueran significativamente peores en una primera aproximación, o consistentemente peores en una segunda. A lo largo del proyecto se siguieron 2 tipos de estrategias según las necesidades: Cuando había diferencias significativas o consistentes entre unos datos y otros, los peores valores se eliminaban sin más. Cuando no había tales diferencias, se optaba por tomar un valor representativo del parámetro para los sucesivos experimentos y al final se volvía a realizar un “súper-experimento” con esos valores temporalmente eliminados. Experimento “Vallejo19”: INI=ACENT=FIN=1 TERMINAC=4 TERM_ANT=0 SILABAS=1 PAL_FUNC=1 NUM_PAL=POS_PAL=FIN_PAL=0 CONTEXTO=5 OCULTAS=5,10,... FREC_ANT=0 NUM_FRASE=19 ZSCORE=nozs MODO_NORM=110_150 Carlos Martín Valle Carlos Martín Valle

ANÁLISIS DE LOS RESULTADOS FRASES 1, 2, 3, 4, 5, 10, 11, 17 Y 19 (I)
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido ANÁLISIS DE LOS RESULTADOS FRASES 1, 2, 3, 4, 5, 10, 11, 17 Y 19 (I) Oraciones enunciativas Experimento “Vallejo19” Resultados definitivos para todos los experimentos: Se elimina NUM_FRAS=0->NUM_FRAS=19 Se elimina CONTEXTO=0 Se elige ACENT=INI=FIN=1 El primer grupo de frases es el compuesto por la 1, 2, 3, 4, 5, 10, 11, 17 y 19. Todas ellas formadas por grabaciones, en general cortas, en un marco de entonación enunciativa y donde el campo variable consta tanto de sintagmas nominales como de nombres propios. En la tabla se puede ver la gran diferencia existente entre el mejor resultado del experimento Vallejo19 y el mejor del Vallejo, que justifica sobradamente la elección de ese NUM_FRASE 19 en lugar de 0. Con este primer grupo de frases se pudo alcanzar resultados definitivos para todos los demás, como por ejemplo la citada eliminación del 0 para NUM_FRASE, la también eliminación del 0 para las ventanas del contexto o la elección de 1 como el valor óptimo para ACENT, INI y FIN. Carlos Martín Valle Carlos Martín Valle

ANÁLISIS DE LOS RESULTADOS FRASES 1, 2, 3, 4, 5, 10, 11, 17 Y 19 (II)
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido ANÁLISIS DE LOS RESULTADOS FRASES 1, 2, 3, 4, 5, 10, 11, 17 Y 19 (II) Resultados finales: Tamaño intermedio de la capa oculta Contextos pequeños SÍLABAS: diferencias no consistentes Se marcan las terminaciones: TERMINAC=4 TERM_ANT es innecesario Codificación fina para PAL_FUNC FIN_PAL y POS_PAL: diferencias no consistentes NUM_PAL: no es necesario usar la codificación Lo más destacable de este grupo de frases es: Por tener sus grabaciones un tamaño más bien pequeño, los contextos que prefería la Red eran también pequeños. La capa oculta de la Red tendrá un tamaño intermedio. Sobre SILABAS no se puede sacar ninguna conclusión especial porque las diferencias entre los resultados tras experimentar con todos sus valores no son consistentes. Se marcan las terminaciones. TERM_ANT no añade ninguna mejora. Se elige el valor 3 de PAL_FUNC (codificación fina). Sobre POS_PAL y FIN_PAL destacamos que no hay diferencias consistentes entre sus valores. NUM_PAL: la codificación no añade ninguna mejora al sistema y por ello, no se usa. El mínimo error absoluto de test que obtenemos con este grupo de frases es de 12,09507 Htz. Carlos Martín Valle Carlos Martín Valle

ANÁLISIS DE LOS RESULTADOS FRASES 13, 16 Y 18 (I)
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido ANÁLISIS DE LOS RESULTADOS FRASES 13, 16 Y 18 (I) Oraciones interrogativas Experimento “Vallejo19” Frases cortas -> Contextos pequeños El siguiente grupo de frases con el que se experimentó fue el formado por la 13, 16 y 18. Todas ellas interrogativas y formadas por nombres propios y sintagmas nominales. Las frases son en general cortas aunque algo más largas que las del grupo anterior, por lo que ya podemos prever que los contextos van a ser también pequeños. Carlos Martín Valle Carlos Martín Valle

ANÁLISIS DE LOS RESULTADOS FRASES 13, 16 Y 18 (II)
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido ANÁLISIS DE LOS RESULTADOS FRASES 13, 16 Y 18 (II) Resultados finales: Capa oculta con pocas neuronas Contextos pequeños SÍLABAS: diferencias no consistentes TERMINAC: no hace falta usar la codificación TERM_ANT: mejora no consistente PAL_FUNC y NUM_PAL: usar codificación POS_PAL: no es necesario usar la codificación FIN_PAL: no usar codificación con ventana Los resultados finales obtenidos con este grupo de frases son los siguientes: En este caso, a la Red le basta con un tamaño pequeño de la capa oculta de la Red. Como ya anticipábamos, al ser las frases cortas, las amplitudes de las ventanas de los contextos también serán pequeñas. Con las SILABAS pasa como antes, no podemos destacar ningún valor por encima de otro. TERMINAC: a diferencia de antes, aquí no es necesario usar la codificación. Se explica pq, al ser todas frases interrogativas, la terminación es es la misma para todas, con lo que no merece la pena codificar el tipo de terminación, salvo pausas. El uso de TERM_ANT introduce una ligera mejora no consistente. Los resultados mejoran empleando PAL_FUNC y NUM_PAL. No es necesario usar POS_PAL. Con FIN_PAL se llega a la conclusión que no se debe usar la codificación con ventana, siendo ligeramente más beneficioso incluso no usar ninguna. En la tabla se puede apreciar que el menor error absoluto de test que se obtiene con este grupo de frases es de 13,04374 Htz, aprox. 1 Htz mayor que para el grupo de frases anterior. Carlos Martín Valle Carlos Martín Valle

ANÁLISIS DE LOS RESULTADOS FRASES 6 Y 7 (I)
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido ANÁLISIS DE LOS RESULTADOS FRASES 6 Y 7 (I) Oraciones enunciativas Causa: marcado diferente al del resto de frases Objetivo: determinar la conveniencia de esta agrupación FRASE 6 Resultados: TERMINAC es indiferente TERM_ANT es importante. CONTEXTO=3 Capa oculta de la Red Neuronal con tamaño pequeño El tercer grupo de frases con el que se experimentó estaba compuesto por 2: la 6 y la 7. En ambos casos se trata de oraciones enunciativas pero con una peculiaridad que las diferencia del resto y es un marcado diferente. Se tenían dudas sobre la conveniencia de esta agrupación y se realizaron experimentos para determinar si se continuaba con ella o no. Los ficheros donde se guardan las listas de ficheros *.nn (Frase6.dir y Frase7.dir) de estas frases son diferentes a los del resto. Es debido a que, asociados a cada uno de estos ficheros *.nn, figuran unos parámetros que solamente toman valores distintos de 0 para estas 2 frases. Estos parámetros hacen un total de 8. o Primer número: indica el número de sílabas que hay antes de lo que está marcado. Lógicamente, sólo tiene sentido para la frase 6, pudiendo valer para ésta 3, 5 ó 6. Si vale 6 quiere decir que “señor/señora” está marcado; si vale 5 quiere decir que se dice “señor” y cuando vale 6, que se dice “señora”. o Segundo número: señala si hay pausa delante de la palabra “señor/señora” o no. o Tercer número: si vale 1 quiere decir que se dice “señora” en vez de “señor”. o Cuarto número: indica si la grabación contiene “señor/señora” como marcados o no. o Quinto número: señala si el apellido contiene una “a” que se ha fundido con la “a” de “señora”. o Sexto número: lleva información sobre la “a” de señora. Puede valer 0, 1 ó 2. Si vale 0 significa que no ha sido marcada; si vale 1, que ha sido marcada “a” y si vale 2, que ha sido marcada “ra”. o Séptimo número: cifra el número de palabras anteriores al grupo fónico de interés. Se trata de otro parámetro que sólo tiene sentido para la frase 6, y los valores que puede tomar son 2 y 3. o Octavo número: es el número de la frase. Por ejemplo, para la frase 6, este número será un 6. Se trata de frases muy parecidas a primera vista, sin embargo, para la Red Neuronal no son tan similares. Decimos esto pq la frase 6 tiene este aspecto: “Resto de la frase + señor o señora + apellido”, mientras que la frase 7 tiene este otro: “señor o señora + apellido + resto de la frase”. Frase 6: TERMINAC es indiferente pq vale lo mismo para todas las grabaciones de esta frase. TERM_ANT: diferencia si hay pausa o no justo antes del grupo fónico marcado, de ahí su importancia. CONTEXTO=3: en las frases, lo marcado es “señor-señora” más “de” y posibilidad de apellidos compuestos. OCULTAS: analizamos frases sueltas y el número de ejemplos es pequeño (hay pocos datos), no es necesario aumentar el número de neuronas para no producir un sobre-entrenamiento. Carlos Martín Valle Carlos Martín Valle

ANÁLISIS DE LOS RESULTADOS FRASES 6 Y 7 (II)
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido ANÁLISIS DE LOS RESULTADOS FRASES 6 Y 7 (II) FRASE 7 Resultados: TERMINAC=4 TERM_ANT es indiferente. CONTEXTO=1 Capa oculta de la Red Neuronal con tamaño pequeño FRASES 6 Y 7 No es aconsejable mezclar las frases 6 y 7 (14,552* ,265*413) / ( ) = 15,854 < 16,417 Frase 7: TERMINAC: funciona mejor cuando toma el valor 4. TERM_ANT es indiferente pq, al ir lo marcado en la posición inicial de la frase, se trata de una variable que no va a aportar demasiada información. Ambos resultados se explican por el hecho de no existir (en esta frase 7) pausas anteriores a lo marcado aunque sí las puede haber intermedias. Una de las consecuencias que esto puede conllevar es, que un apellido compuesto con pausa intermedia, para la Red funcionaría como 2 simples. Por lo tanto, la terminación sí es una información relevante y no lo es la term. ant. CONTEXTO: el valor que mejor funciona es 1 ya que, en muchas grabaciones, no se dice “señor/señora”, y además, en el caso de existir un apellido compuesto se mete una pausa y se convierte en 2 simples. OCULTAS: al igual que pasaba con la frase 6, un número bajo de neuronas de la capa oculta evita un sobreentrenamiento de la Red. Frases 6 y 7: Se realizaron experimentos con las frases 6 y 7, de manera conjunta y de manera aislada, para determinar si finalmente era conveniente juntarlas, y calculando la media cruzada, se llegó a la conclusión que lo mejor era no mezclarlas. Carlos Martín Valle Carlos Martín Valle

ANÁLISIS DE LOS RESULTADOS FRASES 8, 9, 12 Y 14 (I)
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido ANÁLISIS DE LOS RESULTADOS FRASES 8, 9, 12 Y 14 (I) Oraciones enunciativas Se descarta la frase 8 por su gran error al modelar Cambio de estrategia en los experimentos Se fijan inicialmente los valores de las siguientes variables: TERMINAC=4 TERM_ANT=5 Frases cortas y largas Se elimina CONTEXTO=1 El siguiente experimento se llevó a cabo con las frases 8, 9, 12 y 14. Se trata de oraciones enunciativas de longitud variada: hay frases largas y frases cortas. En una primera prueba se comprobó que los resultados obtenidos eran demasiado malos para lo que cabía esperar, por lo que se decidió probar con las frases por separado y buscar una posible de entre las 4 que hiciera por sí sola, empeorar los resultados globales. Se comprobó que existía esa frase y que era la 8, por lo que se la apartó del grupo y se decidió que lo mejor era hacer una revisión de su marcado. Con este grupo de frases nos encontramos con el problema de no haber valores ni significativa ni consistentemente mejores que otros para un alto número de los parámetros de la Red, por lo que nos vemos obligados a recurrir a la segunda de las estrategias, sin duda más incómoda que la otra. Para ello, inicialmente fijamos los valores de TERMINAC y de TERM_ANT a 4 y a 5, respectivamente. Y, en vista de los resultados obtenidos de los experimentos con las frases aisladas y con todas ellas juntas, tb se decidió eliminar el valor 1 de la ventana del CONTEXTO. Carlos Martín Valle Carlos Martín Valle

ANÁLISIS DE LOS RESULTADOS FRASES 8, 9, 12 Y 14 (II)
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido ANÁLISIS DE LOS RESULTADOS FRASES 8, 9, 12 Y 14 (II) Resultados finales: Tamaño intermedio de la capa oculta CONTEXTO: 2 y 5 SÍLABAS: diferencias no consistentes Se marcan las terminaciones: TERMINAC=4 TERM_ANT=5: se usa la codificación PAL_FUNC y POS_PAL: diferencias no consistentes NUM_PAL: se usa la codificación FIN_PAL: codificación con ventana Las conclusiones sobre este grupo de frases tras numerosos experimentos son: Tamaño intermedio de la capa oculta de la Red (como en el primer grupo de frases). CONTEXTOS ideales de 2 y 5; esto se debe a que las frases son o cortas o muy largas y no hay tamaños intermedios. SILABAS: como es habitual, no hay diferencias consistentes entre sus posibles valores. Se comprueba con éxito que la elección inicial de tomar TERMINAC igual a 4 es correcta. La razón está en que las grabaciones poseen terminaciones diferentes, por lo que, su codificación ayudará a mejorar los resultados. De la misma manera, TERM_ANT igual a 5 tb era correcto. La explicación es la misma del punto anterior más el añadido de que estas frases poseen longitudes muy distintas, pues recordemos que este parámetro codifica las terminaciones y la posibilidad de codificar el comienzo del grupo fónico. PAL_FUNC y POS_PAL: no hay diferencias consistentes entre sus valores. NUM_PAL: se decide usar la codificación. La explicación tiene que ver con la diferencia de longitudes entre unas grabaciones y otras, que afectará tb a las longitudes de los grupos fónicos. Para FIN_PAL lo mejor es emplear una codificación fina (con ventana) ya que es conveniente para poder distinguir entre las frases que son cortas y las que son muy largas. Carlos Martín Valle Carlos Martín Valle

ANÁLISIS DE LOS RESULTADOS FRASE 15 (I)
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido ANÁLISIS DE LOS RESULTADOS FRASE 15 (I) Oraciones interrogativas Los grupos fonéticos marcados no se sitúan al final de las frases Resultados finales: Tamaño grande de la capa oculta CONTEXTO=1 SÍLABAS=0 Se marcan las terminaciones: TERMINAC=4 TERM_ANT=5: se usa la codificación PAL_FUNC, NUM_PAL, POS_PAL y FIN_PAL: 0 ligeramente mejor Las grabaciones que componen la frase 15 están dentro de un marco interrogativo, sin embargo se trata de frases especiales ya que, por ir los grupos fónicos marcados al principio de la oración, la entonación interrogativa no les afecta y su carácter no es el típico de las preguntas, por lo que no se pueden incluir dentro del grupo de las frases 13, 16 y 18. Los resultados que se obtuvieron con esta frase son los siguientes: Por primera vez nos encontramos con una capa oculta de la Red con tamaño grande. En cambio, el mejor CONTEXTO es el mínimo, 1. Por primera vez tb, se obtiene un valor concreto de la variable SILABAS, 0. Lo cual indica q no es necesario usar esta codificación. Al ser las grabaciones muy cortas, el sistema no necesita de esta codificación. Se marcan las terminaciones. Aunque son interrogativas, los grupos fónicos marcados no van al final de la frase y por ello, es necesario marcarlas. Se marca tb TERM_ANT. Se debe a la existencia en muchas de las frases de una pausa inicial. En el resto de parámetros, es ligeramente mejor no usar ninguna codificación. La brevedad de la mayoría de las frases hace q no sea necesario. Carlos Martín Valle Carlos Martín Valle

ANÁLISIS DE LOS RESULTADOS FRASE 15 (II)
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido ANÁLISIS DE LOS RESULTADOS FRASE 15 (II) FRASE 15 JUNTO CON 1, 2, 3, 4, 5, 10, 11, 17 Y 19 La inclusión de la frase 15 empeora el modelo de entonación 13,06630 > 12,09507 FRASE 15 JUNTO CON 9, 12 Y 14 La inclusión de la frase 15 empeora el modelo de entonación (13,254* ,223*2326) / ( ) = 15,364 < 15,598 En el siguiente experimento se trató de comprobar si la frase 15 se podía incluir dentro de alguno de los otros grupo de frases. Así, primero la incluimos dentro del grupo de las 1, 2, 3, 4, 5, 10, 11, 17 y 19. Y se comprobó que empeoraba el modelo de entonación. A continuación se la incluyó dentro del grupo de las 9 12 y 14. Y el resultado fue el mismo si bien no empeoraba el modelo de entonación tanto como en el otro caso. Carlos Martín Valle Carlos Martín Valle

ANÁLISIS DE LOS RESULTADOS FRASE 15 (III)
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido ANÁLISIS DE LOS RESULTADOS FRASE 15 (III) FRASE 15 JUNTO CON 13, 16 y 18 La inclusión de la frase 15 empeora el modelo de entonación 13,65628 > 13,04374 Si la juntamos con las interrogativas puras tampoco le sienta bien al sistema y, del mismo modo que antes, el modelos de entonación tb empeora. Carlos Martín Valle Carlos Martín Valle

ANÁLISIS DE LOS RESULTADOS FRASE 15 (IV)
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido ANÁLISIS DE LOS RESULTADOS FRASE 15 (IV) FRASE 15 JUNTO CON TODAS LAS DEMÁS La separación de las frases y su posterior agrupación mejoran el reconocimiento Sin frases 6, 7 y 8 (12,095* ,043* ,222* ,254*946) / ( ) = 13,802 < 14,518 Con frases 6, 7 y 8 (12,095* ,043* ,223* ,254* ,521* ,265* ,831*393) / ( ) = 14,324 < 14,518 Respecto al mejor número de J. Sánchez: 14,324 < 15,975 Por último, probamos a juntar la frase 15 con todas las demás, primero sin incluir las frases 6, 7 y 8 (las que podríamos llamar conflictivas) y después añadiendo tb estas. Esta prueba tenía como objetivo determinar si la decisión de separar las frases y agruparlas de manera coherente era acertada o no. Y finalmente, podemos afirmar q fue una decisión totalmente acertada. Con respecto al mejor número q obtenía Julio Sánchez en su PFC (15,975 Htz), con el sistema empleado en este proyecto se mejora el modelado de la f0 considerablemente . Carlos Martín Valle Carlos Martín Valle

Parámetros obtenidos directamente del sintetizador
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido CONCLUSIONES Entorno automatizado Leave-one-out Parámetros obtenidos directamente del sintetizador Utilidad de los parámetros Reagrupación de las frases Como conclusiones de este proyecto destacamos las siguientes: Consecución de un entorno totalmente automatizado: se podían realizar una gran cantidad de experimentos de una vez y sin pausas desde que se configuraban hasta que se obtenían los resultados, lo que se traducía en una mayor eficiencia al aprovechar mejor el tiempo. Leave-one-out: tiene que ver con la manera de en que se distribuyen los ficheros de las grabaciones cuando se le pasan a la Red. Como ya sabemos, se dejan 7 para entrenamiento, 1 para evitar sobre-entrenamiento y 2 para test. Además destacamos el carácter circular de este método. Los parámetros se obtienen directamente de un procesado de la base de datos por parte del sintetizador.Al sint. Se le pasan ficheros de texto y él genera esos parámetros. Así se facilitó la integración y la coherencia. Hay varios tipos de parámetros en cuanto a que unos fueron más útiles q otros. Algunos presentan valores concretos que hicieron mejorar los resultados; en cambio, otros no tiene estos valores precisos y había q arrastrar hasta el final todos los valores q podían tomar. Además se revisaron las agrupaciones de las frases y se cambiaron las de partida. Carlos Martín Valle Carlos Martín Valle

Completar la reestructuración de los programas
Modelado de la Frecuencia Fundamental mediante Redes Neuronales para Síntesis de Voz en Dominio Restringido LÍNEAS FUTURAS Completar la reestructuración de los programas Usar MUME en lugar del perceptrón usado Experimentar con otros parámetros de la Red Aplicar el sistema a fonemas Evaluación con oyentes Entre las líneas futuras a este proyecto destacamos las siguientes: Completar la reestructuración de los programas, principalmente con el objetivo de dotar al sistema de mayor robustez. Usar MUME en vez del perceptrón usado. Experimentar con otros parámetros de la Red, como pueden ser los coeficientes de aprendizaje de la Red, el momento, etc. Aplicar el sistema a fonemas en vez de a sílabas. Realizar una evaluación con oyentes. ¿Alguna pregunta o sugerencias? Carlos Martín Valle Carlos Martín Valle

Grupo de Tecnología del Habla

Presentaciones similares

Presentación del tema: "Grupo de Tecnología del Habla"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Grupo de Tecnología del Habla

Presentaciones similares

Presentación del tema: "Grupo de Tecnología del Habla"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback