La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

EVALUACIÓN DE SISTEMAS BASADOS EN VOZ

Presentaciones similares


Presentación del tema: "EVALUACIÓN DE SISTEMAS BASADOS EN VOZ"— Transcripción de la presentación:

1 EVALUACIÓN DE SISTEMAS BASADOS EN VOZ
David Escudero Universidad de Valladolid

2 Índice Evaluación de sistemas de reconocimiento de voz
Evaluación en sistemas de reconocimiento de locutor Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial

3 Índice Evaluación de sistemas de reconocimiento de voz
Evaluación en sistemas de reconocimiento de locutor Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial

4 Evaluación de sistemas de reconocimiento de voz

5 Evaluación de sistemas de reconocimiento de voz

6 Evaluación de sistemas de reconocimiento de voz
Modelo acústico Modelo de lenguaje

7 Evaluación de sistemas de reconocimiento de voz
Reconocimiento de palabras aisladas: La tasa de error se define como la proporción media de items reconocidos incorrectamente. Un item puede ser una palabra, un fonema… E=Ne/N; N es el número de palabras en el test y Ne los palabras incorrectamente reconocidas. Ne=Ns+Nd; Ns son sustituciones y Nd son omisiones C=1-E es la corrección La matriz de confusión con Cij definida como la probabilidad de que la palabra i sea reconocida como la palabra j y Cii la proporción de veces que la palabra i es correctamente reconocida

8 Evaluación de sistemas de reconocimiento de voz
Reconocimiento continuo de palabras: Ne=Ns+Ni+Nd ; Ni son inserciones de palabras no existentes. La tasa de error es E=Ne/N Y la precisión del sistema A=1-E NIST ofrece software para evaluar sistemas. Dependencia del locutor Cabras (tasas de reconocimiento bajas) Obejas (altas tasas de reconocimiento)

9 Evaluación de sistemas de reconocimiento de voz
En sistemas de dictado Precisión del reconocimiento Velocidad de dictado: número de palabras por minuto que pueden ser procesadas Estrategias de corrección de errores. En sistemas de diálogo Rechazo OOV (out of vocabulary): un buen sistema debería rechazar OOVs y pedir al usuario que diga las cosas de otra manera para que utilice palabras que pueda reconocer.

10 Evaluación de sistemas de reconocimiento de voz
Recuperación ante errores: Tanto el sistema como el usuario pueden equivocarse. Un buen sistema debería permitir al usuario deshacer acciones. Tiempo de respuesta: Tiempo desde que termina una orden hasta que comienza la acción asociada. Conocimiento de la situación: el usuario debería ser consciente de lo que puede decir en cada momento porque el vocabulario de reconocimiento depende de la situación. Puede expresarse como el número de veces que el usuario envió un comando en un contexto en el que no estaba permitido. Para evaluarlo se emplean preguntas subjetivas del tipo: La lista de órdenes estaba clara? Hacen falta capacidades especiales para usar el sistema? La ayuda online fue útil?

11 Índice Evaluación de sistemas de reconocimiento de voz
Evaluación en sistemas de reconocimiento de locutor Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial

12 Evaluación de sistemas de reconocimiento de locutor
Categorías: Verificación de locutor: es el proceso de aceptación o de rechazo de la identidad de un hablante comparando un conjunto de medidas de una serie de locuciones con respecto a las mismas medidas en una serie de locuciones del hablante a verificar. Identificación de locutor: es el proceso de determinar a quien de un conjunto de hablantes registrados corresponde una locución dada.

13 Evaluación de sistemas de reconocimiento de locutor
Evaluación basada en curvas ROC (Receiver Operating Characteristics): En verificación de locutor se pueden dar dos condiciones para una locución de entrada: s, la condición de que la locución es del locutor registrado. n, lo contrario. También hay dos decisiones S aceptar la locución como perteneciente al locutor N rechazar la locución Se dan cuatro casos P(S|s) aceptación correcta P(S|n) falsa aceptación P(N|s) falso rechazo P(N|n) rechazo correcto. Se dan las relaciones P(S|s)+P(N|s)=1; P(S|n)+P(N|n)=1 Las curvas ROC representan en una P(S|s) frente a P(S|n)

14 Evaluación de sistemas de reconocimiento de locutor
El sistema B tiene un rendimiento superior al sistema A. El sistema C se corresponde con una decisión al azar.

15 Evaluación de sistemas de reconocimiento de locutor
La figura muestra la relación entre los dos tipos de error y los criterios de decisión. Un criterio de decisión rígido hace difícil para el impostor ser falsamente reconocido. También se incrementan las posibilidades de rechazar al locutor. (punto a) Un criterio de decisión suave facilita que el locutor sea reconocido pero también es fácil para el impostor ser reconocido (punto b) El punto c es el valor óptimo conocido como la tasa de equierror EER.

16 Índice Evaluación de sistemas de reconocimiento de voz
Evaluación en sistemas de reconocimiento de locutor Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial

17 Evaluación en sistemas de síntesis de voz
Tres etapas en un sistema TTS: Módulo de preproceso del texto. Módulo de generación prosódica. Módulo de generación de señal.

18 Evaluación en sistemas de síntesis de voz
Módulo de proceso del texto: La función de este módulo es producir una representación leíble por la máquina de manera que genere tanto la secuencia de palabras pronunciables como la relación entre ellas. La entrada suele ser texto plano introducido por el usuario o texto generado en un sistema de diálogo. Se admite SSML tags El objetivo es reducir ambigüedades. Siglas: Dr. Doctor o Drive “Que salgan primero las señoras y señores mayores”. La interpretación semántica no es obvia y por esto es necesario anotar.

19 Evaluación en sistemas de síntesis de voz
Módulo de predicción prosódica: La función de este módulo es convertir la representación abstracta del habla en una secuencia de parámetros que representan F0, energía, duración y cualidad del habla. Suele faltar información siempre porque hay muchos factores que influyen: humor, carácter, situación… Se ha dado más importancia a F0 pero el resto son todas muy importantes. Variabilidad aceptable: Grandes diferencias en los parámetros se perciben como iguales. Pequeños cambios pueden ser relevantes.

20 Evaluación en sistemas de síntesis de voz
Módulo de generación de forma de onda: Toma los parámetros de los módulos anteriores y los convierte en una forma de onda que puede ser enviada al altavoz. Se apoya en la concatenación de segmentos: Parámetros de los fonemas o de los difonemas. Grabaciones Compromiso tamaño-calidad. Paradójicamente los más pequeños ofrecen más flexibilidad

21 Evaluación en sistemas de síntesis de voz
Inteligibilidad Naturalidad Likeabilidad La realidad está bien, pero en algunas aplicaciones lo que importa es que sea divertido. Evaluación por módulos y evaluación conjunta

22 Evaluación en sistemas de síntesis de voz
Evaluación del módulo de preproceso de texto: Es el más fácil de evaluar porque sabemos lo qué debería decir y por tanto medir el error. La dificultad está en los contextos $N: N dólares o la variable N. Desafíos actuales en la pronunciación arbitraria por ejemplo a la hora de leer extranjerismos.

23 Evaluación en sistemas de síntesis de voz
Evaluación del módulo prosódico: Es el más difícil de evaluar: no sabemos cual es la salida perfecta. Hay una gran variabilidad de formas que pueden tener el mismo significado. Difícil que un locutor diga lo mismo dos veces con los mismos parámetros prosódicos. La palabra “si” se puede entonar con decenas de variaciones. Para los locutores es fácil distinguir la intención… para las máquinas es difícil generarla. Se requiere a test perceptuales: MOS Mean opinion score (se recomienda emplear 30 oyentes) ABX comparar dos versiones con el objetivo. La tendencia debería ser emplear evaluaciones diagnósticas.

24 Evaluación en sistemas de síntesis de voz
Evaluación del módulo de generación de audio: Se ha pasado de evaluar la inteligibilidad a evaluar la expresividad. La calidad en términos de calidad del sonido influye también. Los usuarios tienen expectativas muy altas. Se emplean medidas de distancia de la forma de onda entre la voz sintética y la original. También evaluaciones MOS.

25 Evaluación en sistemas de síntesis de voz
Evaluación del sistema completo La primera impresión se ha mostrado definitiva. Inteligibilidad: Se hace emitir una secuencia de palabras sin sentido. Evaluación basada en una tarea: tiempo de respuesta. Se somete también a pruebas de resistencia ante habla acelerada y ralentizada. Naturalidad: Mejor emplear el término credibilidad: Walt Disney no es natural pero es creíble. La selección de la voz se ha mostrado definitivo: ajustarse al contexto. Likeability: La selección de la voz en la situación de nuevo es definitivo. Este concepto es determinante para la aceptación y uso del sistema. Existe un estándar UIT-T P.85

26 Índice Evaluación de sistemas de reconocimiento de voz
Evaluación en sistemas de reconocimiento de locutor Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial

27 Evaluación en sistemas de diálogo
Cada uno de estos componentes tiene sus métodos de evaluación. Aquí se trata como un conjunto. Como producto SW.

28 Evaluación en sistemas de diálogo
El estándar ITU_T P.851 Eficacia: precisión y perfección con la que algunos usuarios especificados pueden lograr objetivos específicos en entornos particulares. P.e. el éxito de la tarea. Eficiencia: relación entre los recursos dedicados y la precisión y perfección de los objetivos logrados. P.e. la duración del diálogo.. Capacidad de uso describe la capacidad en la que un servicio puede ser comprendido, aprendido y utilizado por usuarios especificados bajo condiciones específicas. La satisfacción del usuario es un indicador de la utilidad y la capacidad de uso que se percibe por el grupo destinado de usuarios del servicio.

29

30 Evaluación en sistemas de diálogo
Evaluación subjetiva basada en usuarios. Dos fuentes de información principales: Durante la interacción, se recopilan parámetros del sistema, y se registran las palabras del sistema y del usuario. Los ficheros de registro se envían a la evaluación de un experto. Después de la interacción, los agentes de prueba reciben un cuestionario que persigue recopilar información. Se admite el uso del mago de oz Los casos de prueba se basan en hipótesis de situaciones reales. La elección de los usuarios de prueba debe guiarse por la finalidad de la prueba.

31 Evaluación en sistemas de diálogo
Cuestionarios rellenados por los usuarios: Preguntas relativas a los antecedentes de los usuarios. Preguntas relativas a la interacción individual. Preguntas relativas a la impresión general del usuario en relación con el sistema. (ver el estándar) Evaluación de capacidades de uso Realizado sobre los usuarios o por expertos. Análisis e interpretación de la información recopilada. Valores medios con intervalos de confianza. Pruebas de relevancia con análisis de varianza ANOVA En caso de que una de las variables estadísticas tenga un efecto significativo estadísticamente, podrá utilizarse una prueba post-hoc para realizar comparaciones por pares entre las medias, y para determinar las fuentes de las diferencias.

32 Índice Evaluación de sistemas de reconocimiento de voz
Evaluación en sistemas de reconocimiento de locutor Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial

33 Evaluación de sistemas animación facial
Los sistemas del KTH (Royal Institute of Technology Sweden)

34 Evaluación de sistemas animación facial
Uno de sus proyectos presenta un interfaz de telefonía para sordos. Los sordos asumen que no todas las personas son igual de fáciles de interpretar en sus movimientos labios. Oportunidad para la síntesis facial. Acentuación de movimientos Parametros: Jaw rotation, lip protrusion, mouth spread, tongue tip elevation. Estos parámetros se acentuaron en grado desde el 25% al 200% sobre lo normal. Evaluación: Los test consisten en la emisión de frases y preguntas ABX El 24% de usuarios prefiere la hipearticulación con grados entre el 150% y el 90%

35 Evaluación de sistemas animación facial
Prominencia: Importancia del movimiento de cabeza y cejas en la prominencia. Se incluyen movimientos en locuciones. La percepción de prominencia se incrementa hasta en un 24%. Prosodia e interacción: Uso de gestos para expresar el estado del diálogo. Sonrisa, Movimiento de cabeza, cejas, cierre de ojos, contorno de F0, retardo Cada gesto tiene un valor positivo y otro negativo. Se plantea el diálogo: Humano: Qiero ir a la estación de Valladolid desde Madrid Maquina: Valladolid. Y hay que decir si cree que la máquina ha entendido y acepta la presguna o no (1-5) Los resultados demuestran que los usuarios son sensibles a estítulos acústicos y también visuales.

36 Evaluación de sistemas animación facial
Expresividad facial La cabeza hace de profesor de idiomas que quiere que el alumno mejore su pronunciación. El profesor corrige cuando el alumno se equivoca. Los probadores deben reconocer la expresión del avatar: neutral, happy, sad, angry. Tasas de hasta el 93%

37 Índice Evaluación de sistemas de reconocimiento de voz
Evaluación en sistemas de reconocimiento de locutor Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial Evaluación de sistemas multimodales

38 Evaluación de sistemas multimodales
Terminología Evaluación técnica: relativa exclusivamente a aspectos técnicos del sistema. Evaluación objetiva: independiente de juicios humanos. Evaluación de usabilidad. Evaluación subjetiva: Juicios de usuarios. Evaluación cuantitativa: basada en métricas. Evaluación cualitativa: basada en estimaciones o juicios sobre alguna cualidad.

39 Evaluación de sistemas multimodales
Métodos de evaluación Proceso de desarrollo: Test unitario: aplicado a una parte pequeña o componente del sistema. Test de integración: Aplicado sobre varios módulos de cooperan. Function test: Realizado para comprobar que determinada funcionalidad está bien resuelta. Caja blanca y caja negra: aplicados a nivel de módulo.

40 Evaluación de sistemas multimodales
Métodos de evaluación Ciclo de vida: necesitan usuarios representativos: Mock-ups y walkthroughs: son borradores de los diálogos. La diferencia entre ambos es que los mock-ups necesitan usuarios. Guideline-based Necesita un modelo del sistema y unas guías para confrontar. Puede ser una llamada a un consultor experto. Mago de Oz que son diálogos simulados por personas. Prototipo: Interfaz similar a la del sistema final. No necesita toda la funcionalidad pero los usuarios pueden interactuar. Test de campo: se utiliza en su escenario final. Think aloud Los usuarios hablan mientras desarrollan. Cuestionarios y entrevistas

41 Evaluación de sistemas multimodales
Criterios de evaluación Los criterios deben abarcar aspectos técnicos y de usabilidad. Estarán en función del objetivo del sistema. Revisión handout adjunto sobre evaluación del sistema multimodal de NICE Hans Christian Andersen Prototype

42 Índice Evaluación de sistemas de reconocimiento de voz
Evaluación en sistemas de reconocimiento de locutor Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial Evaluación de sistemas multimodales

43 Referencias Evaluation of Text and Speech Systems. Springer; (May 4, 2007) Laila Dybkjær (Editor), Holmer Hemsen (Editor), Wolfgang Minker (Editor) ITU-T P.85 Método para la evaluación subjetiva de la calidad vocal de los dispositivos generadores de voz (06/94) ITU-T P.851 Evaluación de la calidad subjetiva de los servicios telefónicos basados en sistemas Conversacionales (11/2003)


Descargar ppt "EVALUACIÓN DE SISTEMAS BASADOS EN VOZ"

Presentaciones similares


Anuncios Google