EVALUACIÓN DE SISTEMAS BASADOS EN VOZ

EVALUACIÓN DE SISTEMAS BASADOS EN VOZ
David Escudero Universidad de Valladolid

Índice Evaluación de sistemas de reconocimiento de voz
Evaluación en sistemas de reconocimiento de locutor Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial

Evaluación de sistemas de reconocimiento de voz

Modelo acústico Modelo de lenguaje

Reconocimiento de palabras aisladas: La tasa de error se define como la proporción media de items reconocidos incorrectamente. Un item puede ser una palabra, un fonema… E=Ne/N; N es el número de palabras en el test y Ne los palabras incorrectamente reconocidas. Ne=Ns+Nd; Ns son sustituciones y Nd son omisiones C=1-E es la corrección La matriz de confusión con Cij definida como la probabilidad de que la palabra i sea reconocida como la palabra j y Cii la proporción de veces que la palabra i es correctamente reconocida

Reconocimiento continuo de palabras: Ne=Ns+Ni+Nd ; Ni son inserciones de palabras no existentes. La tasa de error es E=Ne/N Y la precisión del sistema A=1-E NIST ofrece software para evaluar sistemas. Dependencia del locutor Cabras (tasas de reconocimiento bajas) Obejas (altas tasas de reconocimiento)

En sistemas de dictado Precisión del reconocimiento Velocidad de dictado: número de palabras por minuto que pueden ser procesadas Estrategias de corrección de errores. En sistemas de diálogo Rechazo OOV (out of vocabulary): un buen sistema debería rechazar OOVs y pedir al usuario que diga las cosas de otra manera para que utilice palabras que pueda reconocer.

Recuperación ante errores: Tanto el sistema como el usuario pueden equivocarse. Un buen sistema debería permitir al usuario deshacer acciones. Tiempo de respuesta: Tiempo desde que termina una orden hasta que comienza la acción asociada. Conocimiento de la situación: el usuario debería ser consciente de lo que puede decir en cada momento porque el vocabulario de reconocimiento depende de la situación. Puede expresarse como el número de veces que el usuario envió un comando en un contexto en el que no estaba permitido. Para evaluarlo se emplean preguntas subjetivas del tipo: La lista de órdenes estaba clara? Hacen falta capacidades especiales para usar el sistema? La ayuda online fue útil?

Evaluación de sistemas de reconocimiento de locutor
Categorías: Verificación de locutor: es el proceso de aceptación o de rechazo de la identidad de un hablante comparando un conjunto de medidas de una serie de locuciones con respecto a las mismas medidas en una serie de locuciones del hablante a verificar. Identificación de locutor: es el proceso de determinar a quien de un conjunto de hablantes registrados corresponde una locución dada.

Evaluación basada en curvas ROC (Receiver Operating Characteristics): En verificación de locutor se pueden dar dos condiciones para una locución de entrada: s, la condición de que la locución es del locutor registrado. n, lo contrario. También hay dos decisiones S aceptar la locución como perteneciente al locutor N rechazar la locución Se dan cuatro casos P(S|s) aceptación correcta P(S|n) falsa aceptación P(N|s) falso rechazo P(N|n) rechazo correcto. Se dan las relaciones P(S|s)+P(N|s)=1; P(S|n)+P(N|n)=1 Las curvas ROC representan en una P(S|s) frente a P(S|n)

El sistema B tiene un rendimiento superior al sistema A. El sistema C se corresponde con una decisión al azar.

La figura muestra la relación entre los dos tipos de error y los criterios de decisión. Un criterio de decisión rígido hace difícil para el impostor ser falsamente reconocido. También se incrementan las posibilidades de rechazar al locutor. (punto a) Un criterio de decisión suave facilita que el locutor sea reconocido pero también es fácil para el impostor ser reconocido (punto b) El punto c es el valor óptimo conocido como la tasa de equierror EER.

Evaluación en sistemas de síntesis de voz
Tres etapas en un sistema TTS: Módulo de preproceso del texto. Módulo de generación prosódica. Módulo de generación de señal.

Módulo de proceso del texto: La función de este módulo es producir una representación leíble por la máquina de manera que genere tanto la secuencia de palabras pronunciables como la relación entre ellas. La entrada suele ser texto plano introducido por el usuario o texto generado en un sistema de diálogo. Se admite SSML tags El objetivo es reducir ambigüedades. Siglas: Dr. Doctor o Drive “Que salgan primero las señoras y señores mayores”. La interpretación semántica no es obvia y por esto es necesario anotar.

Módulo de predicción prosódica: La función de este módulo es convertir la representación abstracta del habla en una secuencia de parámetros que representan F0, energía, duración y cualidad del habla. Suele faltar información siempre porque hay muchos factores que influyen: humor, carácter, situación… Se ha dado más importancia a F0 pero el resto son todas muy importantes. Variabilidad aceptable: Grandes diferencias en los parámetros se perciben como iguales. Pequeños cambios pueden ser relevantes.

Módulo de generación de forma de onda: Toma los parámetros de los módulos anteriores y los convierte en una forma de onda que puede ser enviada al altavoz. Se apoya en la concatenación de segmentos: Parámetros de los fonemas o de los difonemas. Grabaciones Compromiso tamaño-calidad. Paradójicamente los más pequeños ofrecen más flexibilidad

Inteligibilidad Naturalidad Likeabilidad La realidad está bien, pero en algunas aplicaciones lo que importa es que sea divertido. Evaluación por módulos y evaluación conjunta

Evaluación del módulo de preproceso de texto: Es el más fácil de evaluar porque sabemos lo qué debería decir y por tanto medir el error. La dificultad está en los contextos $N: N dólares o la variable N. Desafíos actuales en la pronunciación arbitraria por ejemplo a la hora de leer extranjerismos.

Evaluación del módulo prosódico: Es el más difícil de evaluar: no sabemos cual es la salida perfecta. Hay una gran variabilidad de formas que pueden tener el mismo significado. Difícil que un locutor diga lo mismo dos veces con los mismos parámetros prosódicos. La palabra “si” se puede entonar con decenas de variaciones. Para los locutores es fácil distinguir la intención… para las máquinas es difícil generarla. Se requiere a test perceptuales: MOS Mean opinion score (se recomienda emplear 30 oyentes) ABX comparar dos versiones con el objetivo. La tendencia debería ser emplear evaluaciones diagnósticas.

Evaluación del módulo de generación de audio: Se ha pasado de evaluar la inteligibilidad a evaluar la expresividad. La calidad en términos de calidad del sonido influye también. Los usuarios tienen expectativas muy altas. Se emplean medidas de distancia de la forma de onda entre la voz sintética y la original. También evaluaciones MOS.

Evaluación del sistema completo La primera impresión se ha mostrado definitiva. Inteligibilidad: Se hace emitir una secuencia de palabras sin sentido. Evaluación basada en una tarea: tiempo de respuesta. Se somete también a pruebas de resistencia ante habla acelerada y ralentizada. Naturalidad: Mejor emplear el término credibilidad: Walt Disney no es natural pero es creíble. La selección de la voz se ha mostrado definitivo: ajustarse al contexto. Likeability: La selección de la voz en la situación de nuevo es definitivo. Este concepto es determinante para la aceptación y uso del sistema. Existe un estándar UIT-T P.85

Evaluación en sistemas de diálogo
Cada uno de estos componentes tiene sus métodos de evaluación. Aquí se trata como un conjunto. Como producto SW.

El estándar ITU_T P.851 Eficacia: precisión y perfección con la que algunos usuarios especificados pueden lograr objetivos específicos en entornos particulares. P.e. el éxito de la tarea. Eficiencia: relación entre los recursos dedicados y la precisión y perfección de los objetivos logrados. P.e. la duración del diálogo.. Capacidad de uso describe la capacidad en la que un servicio puede ser comprendido, aprendido y utilizado por usuarios especificados bajo condiciones específicas. La satisfacción del usuario es un indicador de la utilidad y la capacidad de uso que se percibe por el grupo destinado de usuarios del servicio.

Evaluación subjetiva basada en usuarios. Dos fuentes de información principales: Durante la interacción, se recopilan parámetros del sistema, y se registran las palabras del sistema y del usuario. Los ficheros de registro se envían a la evaluación de un experto. Después de la interacción, los agentes de prueba reciben un cuestionario que persigue recopilar información. Se admite el uso del mago de oz Los casos de prueba se basan en hipótesis de situaciones reales. La elección de los usuarios de prueba debe guiarse por la finalidad de la prueba.

Cuestionarios rellenados por los usuarios: Preguntas relativas a los antecedentes de los usuarios. Preguntas relativas a la interacción individual. Preguntas relativas a la impresión general del usuario en relación con el sistema. (ver el estándar) Evaluación de capacidades de uso Realizado sobre los usuarios o por expertos. Análisis e interpretación de la información recopilada. Valores medios con intervalos de confianza. Pruebas de relevancia con análisis de varianza ANOVA En caso de que una de las variables estadísticas tenga un efecto significativo estadísticamente, podrá utilizarse una prueba post-hoc para realizar comparaciones por pares entre las medias, y para determinar las fuentes de las diferencias.

Evaluación de sistemas animación facial
Los sistemas del KTH (Royal Institute of Technology Sweden)

Uno de sus proyectos presenta un interfaz de telefonía para sordos. Los sordos asumen que no todas las personas son igual de fáciles de interpretar en sus movimientos labios. Oportunidad para la síntesis facial. Acentuación de movimientos Parametros: Jaw rotation, lip protrusion, mouth spread, tongue tip elevation. Estos parámetros se acentuaron en grado desde el 25% al 200% sobre lo normal. Evaluación: Los test consisten en la emisión de frases y preguntas ABX El 24% de usuarios prefiere la hipearticulación con grados entre el 150% y el 90%

Prominencia: Importancia del movimiento de cabeza y cejas en la prominencia. Se incluyen movimientos en locuciones. La percepción de prominencia se incrementa hasta en un 24%. Prosodia e interacción: Uso de gestos para expresar el estado del diálogo. Sonrisa, Movimiento de cabeza, cejas, cierre de ojos, contorno de F0, retardo Cada gesto tiene un valor positivo y otro negativo. Se plantea el diálogo: Humano: Qiero ir a la estación de Valladolid desde Madrid Maquina: Valladolid. Y hay que decir si cree que la máquina ha entendido y acepta la presguna o no (1-5) Los resultados demuestran que los usuarios son sensibles a estítulos acústicos y también visuales.

Expresividad facial La cabeza hace de profesor de idiomas que quiere que el alumno mejore su pronunciación. El profesor corrige cuando el alumno se equivoca. Los probadores deben reconocer la expresión del avatar: neutral, happy, sad, angry. Tasas de hasta el 93%

Evaluación en sistemas de reconocimiento de locutor Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial Evaluación de sistemas multimodales

Evaluación de sistemas multimodales
Terminología Evaluación técnica: relativa exclusivamente a aspectos técnicos del sistema. Evaluación objetiva: independiente de juicios humanos. Evaluación de usabilidad. Evaluación subjetiva: Juicios de usuarios. Evaluación cuantitativa: basada en métricas. Evaluación cualitativa: basada en estimaciones o juicios sobre alguna cualidad.

Métodos de evaluación Proceso de desarrollo: Test unitario: aplicado a una parte pequeña o componente del sistema. Test de integración: Aplicado sobre varios módulos de cooperan. Function test: Realizado para comprobar que determinada funcionalidad está bien resuelta. Caja blanca y caja negra: aplicados a nivel de módulo.

Métodos de evaluación Ciclo de vida: necesitan usuarios representativos: Mock-ups y walkthroughs: son borradores de los diálogos. La diferencia entre ambos es que los mock-ups necesitan usuarios. Guideline-based Necesita un modelo del sistema y unas guías para confrontar. Puede ser una llamada a un consultor experto. Mago de Oz que son diálogos simulados por personas. Prototipo: Interfaz similar a la del sistema final. No necesita toda la funcionalidad pero los usuarios pueden interactuar. Test de campo: se utiliza en su escenario final. Think aloud Los usuarios hablan mientras desarrollan. Cuestionarios y entrevistas

Criterios de evaluación Los criterios deben abarcar aspectos técnicos y de usabilidad. Estarán en función del objetivo del sistema. Revisión handout adjunto sobre evaluación del sistema multimodal de NICE Hans Christian Andersen Prototype

Evaluación en sistemas de reconocimiento de locutor Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial Evaluación de sistemas multimodales

Referencias Evaluation of Text and Speech Systems. Springer; (May 4, 2007) Laila Dybkjær (Editor), Holmer Hemsen (Editor), Wolfgang Minker (Editor) ITU-T P.85 Método para la evaluación subjetiva de la calidad vocal de los dispositivos generadores de voz (06/94) ITU-T P.851 Evaluación de la calidad subjetiva de los servicios telefónicos basados en sistemas Conversacionales (11/2003)

EVALUACIÓN DE SISTEMAS BASADOS EN VOZ

Presentaciones similares

Presentación del tema: "EVALUACIÓN DE SISTEMAS BASADOS EN VOZ"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

EVALUACIÓN DE SISTEMAS BASADOS EN VOZ

Presentaciones similares

Presentación del tema: "EVALUACIÓN DE SISTEMAS BASADOS EN VOZ"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback