EVALUACIÓN DE SISTEMAS BASADOS EN VOZ

Slides:



Advertisements
Presentaciones similares
INTRODUCCIÓN A LA VERIFICACION Y VALIDACION
Advertisements

DISEÑO DE EXPERIMENTOS EXPERIMENTOS DE COMPARACIÓN SIMPLE
MÉTODOS Y DISEÑOS DE INVESTIGACIÓN METODOLOGÍAS DE INVESTIGACIÓN
EVALUACIÓN PEDAGÓGICA DE LA LECTURA
METODOS, TECNICAS E INSTRUMENTOS DE RECOLECCION DE DATOS
DISEÑO DE EXPERIMENTOS
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
ESTADISTICA APLICADA A LAS COMUNICACIONES: CONCEPTOS EN LA INVESTIGACION POR MUESTREO Docente : Fernando Camones SESION 01 Lima, 26 de Octubre 2010.
¿QUÉ SE ENTIENDE POR EVALUACIÓN?
¿QUÉ SE ENTIENDE POR INDICADOR?
Expresión Oral y Escrita II
Diseño e implementación de un juego matemático de disparos en 3D y análisis de los dispositivos de interacción de 2D y 3D Vanessa Echeverría B. Iván.
Modelos de confiabilidad
Evaluación de Productos
Muestreo Obtención de evidencia confiable y pertinente, suficiente para brindar una base razonable sobre la cual emitir una opinión. Procedimientos que.
Ciclo de formulación del proyecto.
Clase 3 Universo y Muestra
Conceptos básicos de inferencia
Problema de la medición en Psicología
EDNA YULIANA TEJADA A BEATRIZ ADRIANA HERNANDEZ G
LA EVALUACIÒN.
Taller en Metodología de la Investigación
Unidad VI: PRUEBAS DE HIPOTESIS
1 Planteamiento del problema ¿Tenemos los humanos la capacidad de percibir si nos miran desde atrás? O, más exactamente: ¿Es defendible que existen otras.
DISEÑO DE LA INTERFAZ DE USUARIO
Rúbricas.
Modelo McCall PRESENTA: Liliana Hilario, Anabel peña, Jessica Carbajal, Ricardo Díaz.
Pronósticos, Series de Tiempo y Regresión
VARIABLE ALEATORIA Y DISTRIBUCION DE PROBABILIDAD
Importancia de Evaluar Sitios Web Diversas características y atributos de calidad de sitios Web tales como usabilidad, navegabilidad, seguridad, características.
5.3 APROXIMACIONES AL DISEÑO
ISF5501 Ingeniería de Software
Métricas de calidad de software
Mayra Alcalá – Diana Pasillas. La E.E se realiza durante la instrucción e indica la eficacia con que se imparte la lección. Diferencias entre: Al planear.
DEFINICIÓN DE EVALUACIÓN 19_julio19_julio_07/archivos/23_jul_07/definicion_de_evaluacion.pps#270,19,
Análisis Cuantitativo de Datos (Básico)
Grupo Continental Control de Procesos.
Titular: Agustín Salvia
Evaluación de Sistemas y de sus Interfaces
Clase 4a Significancia Estadística y Prueba Z
DOCENCIA EN LA CLÍNICA MÉDICA: nuevas herramientas para un aprendizaje significativo Curso Perfeccionamiento Escuela de Medicina Universidad Valparaíso.
INTRODUCCIÓN A LA INGENIERÍA DEL SOFTWARE
MÉTODOS DE EVALUACIÓN DEL DESEMPEÑO
AUDITORIA DE COMUNICACIÓN INTERNA
Las Relaciones Interpersonales
Ing. Noretsys Rodríguez. Definición de Conceptos  Falla: Ocurre cuando un programa no se comporta de manera adecuada. Es una propiedad estadística de.
Pruebas de hipótesis.
PRUEBAS ESTADISTICAS NO PARAMETRICAS
Herramientas avanzadas. Lo primero: abrir el modelo.
Diseño de Sistemas.
U.D. 3. Investigación Comercial
Métricas de calidad de software
TIPOS DE PRUEBAS DEL SOFTWARE
Medición: Un proceso para la creación de equipo Normas de desempeño
Análisis de los Datos Cuantitativos
Análisis y Diseño de Aplicaciones
RIESGO, RENDIMIENTO Y VALOR
Tema 3: La decisión de llevar a cabo la investigación.
DETECCION DE SEÑALES BINARIAS EN RUIDO GAUSSIANO El criterio de toma de decisión fue descrito por la ecuación Un criterio muy usado para escoger el nivel.
PASOS PARA LA INVESTIGACION
INFERENCIA ESTADÍSTICA
CONCEPTO DE EVALUACIÓN
OPTIMIZACION DEL DESEMPEÑO DE ERROR
Métodos instruccionales
Modelo de procesos de software
Objetivos de la prueba Los objetivos principales de realizar una prueba son: Detectar un error. Tener un buen caso de prueba, es decir que tenga más probabilidad.
El diseño de la interfaz de usuario requiere el estudio de las personas y el conocimiento tecnológico adecuado.
LE, EI, Profesor Ramón Castro Liceaga UNIVERSIDAD LATINA (UNILA) IV. IMPLANTACION DE ALGORITMOS.
TEMA 7 ANÁLISIS DE LOS RESULTADOS TEMA 7 ANÁLISIS DE LOS RESULTADOS.
Evaluando los promedios de grupos distintos UNIDAD 7 1.
Transcripción de la presentación:

EVALUACIÓN DE SISTEMAS BASADOS EN VOZ David Escudero Universidad de Valladolid

Índice Evaluación de sistemas de reconocimiento de voz Evaluación en sistemas de reconocimiento de locutor Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial

Índice Evaluación de sistemas de reconocimiento de voz Evaluación en sistemas de reconocimiento de locutor Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial

Evaluación de sistemas de reconocimiento de voz

Evaluación de sistemas de reconocimiento de voz

Evaluación de sistemas de reconocimiento de voz Modelo acústico Modelo de lenguaje

Evaluación de sistemas de reconocimiento de voz Reconocimiento de palabras aisladas: La tasa de error se define como la proporción media de items reconocidos incorrectamente. Un item puede ser una palabra, un fonema… E=Ne/N; N es el número de palabras en el test y Ne los palabras incorrectamente reconocidas. Ne=Ns+Nd; Ns son sustituciones y Nd son omisiones C=1-E es la corrección La matriz de confusión con Cij definida como la probabilidad de que la palabra i sea reconocida como la palabra j y Cii la proporción de veces que la palabra i es correctamente reconocida

Evaluación de sistemas de reconocimiento de voz Reconocimiento continuo de palabras: Ne=Ns+Ni+Nd ; Ni son inserciones de palabras no existentes. La tasa de error es E=Ne/N Y la precisión del sistema A=1-E NIST ofrece software para evaluar sistemas. Dependencia del locutor Cabras (tasas de reconocimiento bajas) Obejas (altas tasas de reconocimiento)

Evaluación de sistemas de reconocimiento de voz En sistemas de dictado Precisión del reconocimiento Velocidad de dictado: número de palabras por minuto que pueden ser procesadas Estrategias de corrección de errores. En sistemas de diálogo Rechazo OOV (out of vocabulary): un buen sistema debería rechazar OOVs y pedir al usuario que diga las cosas de otra manera para que utilice palabras que pueda reconocer.

Evaluación de sistemas de reconocimiento de voz Recuperación ante errores: Tanto el sistema como el usuario pueden equivocarse. Un buen sistema debería permitir al usuario deshacer acciones. Tiempo de respuesta: Tiempo desde que termina una orden hasta que comienza la acción asociada. Conocimiento de la situación: el usuario debería ser consciente de lo que puede decir en cada momento porque el vocabulario de reconocimiento depende de la situación. Puede expresarse como el número de veces que el usuario envió un comando en un contexto en el que no estaba permitido. Para evaluarlo se emplean preguntas subjetivas del tipo: La lista de órdenes estaba clara? Hacen falta capacidades especiales para usar el sistema? La ayuda online fue útil?

Índice Evaluación de sistemas de reconocimiento de voz Evaluación en sistemas de reconocimiento de locutor Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial

Evaluación de sistemas de reconocimiento de locutor Categorías: Verificación de locutor: es el proceso de aceptación o de rechazo de la identidad de un hablante comparando un conjunto de medidas de una serie de locuciones con respecto a las mismas medidas en una serie de locuciones del hablante a verificar. Identificación de locutor: es el proceso de determinar a quien de un conjunto de hablantes registrados corresponde una locución dada.

Evaluación de sistemas de reconocimiento de locutor Evaluación basada en curvas ROC (Receiver Operating Characteristics): En verificación de locutor se pueden dar dos condiciones para una locución de entrada: s, la condición de que la locución es del locutor registrado. n, lo contrario. También hay dos decisiones S aceptar la locución como perteneciente al locutor N rechazar la locución Se dan cuatro casos P(S|s) aceptación correcta P(S|n) falsa aceptación P(N|s) falso rechazo P(N|n) rechazo correcto. Se dan las relaciones P(S|s)+P(N|s)=1; P(S|n)+P(N|n)=1 Las curvas ROC representan en una P(S|s) frente a P(S|n)

Evaluación de sistemas de reconocimiento de locutor El sistema B tiene un rendimiento superior al sistema A. El sistema C se corresponde con una decisión al azar.

Evaluación de sistemas de reconocimiento de locutor La figura muestra la relación entre los dos tipos de error y los criterios de decisión. Un criterio de decisión rígido hace difícil para el impostor ser falsamente reconocido. También se incrementan las posibilidades de rechazar al locutor. (punto a) Un criterio de decisión suave facilita que el locutor sea reconocido pero también es fácil para el impostor ser reconocido (punto b) El punto c es el valor óptimo conocido como la tasa de equierror EER.

Índice Evaluación de sistemas de reconocimiento de voz Evaluación en sistemas de reconocimiento de locutor Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial

Evaluación en sistemas de síntesis de voz Tres etapas en un sistema TTS: Módulo de preproceso del texto. Módulo de generación prosódica. Módulo de generación de señal.

Evaluación en sistemas de síntesis de voz Módulo de proceso del texto: La función de este módulo es producir una representación leíble por la máquina de manera que genere tanto la secuencia de palabras pronunciables como la relación entre ellas. La entrada suele ser texto plano introducido por el usuario o texto generado en un sistema de diálogo. Se admite SSML tags El objetivo es reducir ambigüedades. Siglas: Dr. Doctor o Drive “Que salgan primero las señoras y señores mayores”. La interpretación semántica no es obvia y por esto es necesario anotar.

Evaluación en sistemas de síntesis de voz Módulo de predicción prosódica: La función de este módulo es convertir la representación abstracta del habla en una secuencia de parámetros que representan F0, energía, duración y cualidad del habla. Suele faltar información siempre porque hay muchos factores que influyen: humor, carácter, situación… Se ha dado más importancia a F0 pero el resto son todas muy importantes. Variabilidad aceptable: Grandes diferencias en los parámetros se perciben como iguales. Pequeños cambios pueden ser relevantes.

Evaluación en sistemas de síntesis de voz Módulo de generación de forma de onda: Toma los parámetros de los módulos anteriores y los convierte en una forma de onda que puede ser enviada al altavoz. Se apoya en la concatenación de segmentos: Parámetros de los fonemas o de los difonemas. Grabaciones Compromiso tamaño-calidad. Paradójicamente los más pequeños ofrecen más flexibilidad

Evaluación en sistemas de síntesis de voz Inteligibilidad Naturalidad Likeabilidad La realidad está bien, pero en algunas aplicaciones lo que importa es que sea divertido. Evaluación por módulos y evaluación conjunta

Evaluación en sistemas de síntesis de voz Evaluación del módulo de preproceso de texto: Es el más fácil de evaluar porque sabemos lo qué debería decir y por tanto medir el error. La dificultad está en los contextos $N: N dólares o la variable N. Desafíos actuales en la pronunciación arbitraria por ejemplo a la hora de leer extranjerismos.

Evaluación en sistemas de síntesis de voz Evaluación del módulo prosódico: Es el más difícil de evaluar: no sabemos cual es la salida perfecta. Hay una gran variabilidad de formas que pueden tener el mismo significado. Difícil que un locutor diga lo mismo dos veces con los mismos parámetros prosódicos. La palabra “si” se puede entonar con decenas de variaciones. Para los locutores es fácil distinguir la intención… para las máquinas es difícil generarla. Se requiere a test perceptuales: MOS Mean opinion score (se recomienda emplear 30 oyentes) ABX comparar dos versiones con el objetivo. La tendencia debería ser emplear evaluaciones diagnósticas.

Evaluación en sistemas de síntesis de voz Evaluación del módulo de generación de audio: Se ha pasado de evaluar la inteligibilidad a evaluar la expresividad. La calidad en términos de calidad del sonido influye también. Los usuarios tienen expectativas muy altas. Se emplean medidas de distancia de la forma de onda entre la voz sintética y la original. También evaluaciones MOS.

Evaluación en sistemas de síntesis de voz Evaluación del sistema completo La primera impresión se ha mostrado definitiva. Inteligibilidad: Se hace emitir una secuencia de palabras sin sentido. Evaluación basada en una tarea: tiempo de respuesta. Se somete también a pruebas de resistencia ante habla acelerada y ralentizada. Naturalidad: Mejor emplear el término credibilidad: Walt Disney no es natural pero es creíble. La selección de la voz se ha mostrado definitivo: ajustarse al contexto. Likeability: La selección de la voz en la situación de nuevo es definitivo. Este concepto es determinante para la aceptación y uso del sistema. Existe un estándar UIT-T P.85

Índice Evaluación de sistemas de reconocimiento de voz Evaluación en sistemas de reconocimiento de locutor Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial

Evaluación en sistemas de diálogo Cada uno de estos componentes tiene sus métodos de evaluación. Aquí se trata como un conjunto. Como producto SW.

Evaluación en sistemas de diálogo El estándar ITU_T P.851 Eficacia: precisión y perfección con la que algunos usuarios especificados pueden lograr objetivos específicos en entornos particulares. P.e. el éxito de la tarea. Eficiencia: relación entre los recursos dedicados y la precisión y perfección de los objetivos logrados. P.e. la duración del diálogo.. Capacidad de uso describe la capacidad en la que un servicio puede ser comprendido, aprendido y utilizado por usuarios especificados bajo condiciones específicas. La satisfacción del usuario es un indicador de la utilidad y la capacidad de uso que se percibe por el grupo destinado de usuarios del servicio.

Evaluación en sistemas de diálogo Evaluación subjetiva basada en usuarios. Dos fuentes de información principales: Durante la interacción, se recopilan parámetros del sistema, y se registran las palabras del sistema y del usuario. Los ficheros de registro se envían a la evaluación de un experto. Después de la interacción, los agentes de prueba reciben un cuestionario que persigue recopilar información. Se admite el uso del mago de oz Los casos de prueba se basan en hipótesis de situaciones reales. La elección de los usuarios de prueba debe guiarse por la finalidad de la prueba.

Evaluación en sistemas de diálogo Cuestionarios rellenados por los usuarios: Preguntas relativas a los antecedentes de los usuarios. Preguntas relativas a la interacción individual. Preguntas relativas a la impresión general del usuario en relación con el sistema. (ver el estándar) Evaluación de capacidades de uso Realizado sobre los usuarios o por expertos. Análisis e interpretación de la información recopilada. Valores medios con intervalos de confianza. Pruebas de relevancia con análisis de varianza ANOVA En caso de que una de las variables estadísticas tenga un efecto significativo estadísticamente, podrá utilizarse una prueba post-hoc para realizar comparaciones por pares entre las medias, y para determinar las fuentes de las diferencias.

Índice Evaluación de sistemas de reconocimiento de voz Evaluación en sistemas de reconocimiento de locutor Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial

Evaluación de sistemas animación facial Los sistemas del KTH (Royal Institute of Technology Sweden) http://www.speech.kth.se/multimodal/

Evaluación de sistemas animación facial Uno de sus proyectos presenta un interfaz de telefonía para sordos. Los sordos asumen que no todas las personas son igual de fáciles de interpretar en sus movimientos labios. Oportunidad para la síntesis facial. Acentuación de movimientos Parametros: Jaw rotation, lip protrusion, mouth spread, tongue tip elevation. Estos parámetros se acentuaron en grado desde el 25% al 200% sobre lo normal. Evaluación: Los test consisten en la emisión de frases y preguntas ABX El 24% de usuarios prefiere la hipearticulación con grados entre el 150% y el 90%

Evaluación de sistemas animación facial Prominencia: Importancia del movimiento de cabeza y cejas en la prominencia. Se incluyen movimientos en locuciones. La percepción de prominencia se incrementa hasta en un 24%. Prosodia e interacción: Uso de gestos para expresar el estado del diálogo. Sonrisa, Movimiento de cabeza, cejas, cierre de ojos, contorno de F0, retardo Cada gesto tiene un valor positivo y otro negativo. Se plantea el diálogo: Humano: Qiero ir a la estación de Valladolid desde Madrid Maquina: Valladolid. Y hay que decir si cree que la máquina ha entendido y acepta la presguna o no (1-5) Los resultados demuestran que los usuarios son sensibles a estítulos acústicos y también visuales.

Evaluación de sistemas animación facial Expresividad facial La cabeza hace de profesor de idiomas que quiere que el alumno mejore su pronunciación. El profesor corrige cuando el alumno se equivoca. Los probadores deben reconocer la expresión del avatar: neutral, happy, sad, angry. Tasas de hasta el 93%

Índice Evaluación de sistemas de reconocimiento de voz Evaluación en sistemas de reconocimiento de locutor Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial Evaluación de sistemas multimodales

Evaluación de sistemas multimodales Terminología Evaluación técnica: relativa exclusivamente a aspectos técnicos del sistema. Evaluación objetiva: independiente de juicios humanos. Evaluación de usabilidad. Evaluación subjetiva: Juicios de usuarios. Evaluación cuantitativa: basada en métricas. Evaluación cualitativa: basada en estimaciones o juicios sobre alguna cualidad.

Evaluación de sistemas multimodales Métodos de evaluación Proceso de desarrollo: Test unitario: aplicado a una parte pequeña o componente del sistema. Test de integración: Aplicado sobre varios módulos de cooperan. Function test: Realizado para comprobar que determinada funcionalidad está bien resuelta. Caja blanca y caja negra: aplicados a nivel de módulo.

Evaluación de sistemas multimodales Métodos de evaluación Ciclo de vida: necesitan usuarios representativos: Mock-ups y walkthroughs: son borradores de los diálogos. La diferencia entre ambos es que los mock-ups necesitan usuarios. Guideline-based Necesita un modelo del sistema y unas guías para confrontar. Puede ser una llamada a un consultor experto. Mago de Oz que son diálogos simulados por personas. Prototipo: Interfaz similar a la del sistema final. No necesita toda la funcionalidad pero los usuarios pueden interactuar. Test de campo: se utiliza en su escenario final. Think aloud Los usuarios hablan mientras desarrollan. Cuestionarios y entrevistas

Evaluación de sistemas multimodales Criterios de evaluación Los criterios deben abarcar aspectos técnicos y de usabilidad. Estarán en función del objetivo del sistema. Revisión handout adjunto sobre evaluación del sistema multimodal de NICE Hans Christian Andersen Prototype

Índice Evaluación de sistemas de reconocimiento de voz Evaluación en sistemas de reconocimiento de locutor Evaluación en sistemas de síntesis de voz Evaluación de sistemas de diálogo Evaluación de sistemas animación facial Evaluación de sistemas multimodales

Referencias Evaluation of Text and Speech Systems. Springer; (May 4, 2007) Laila Dybkjær (Editor), Holmer Hemsen (Editor), Wolfgang Minker (Editor) ITU-T P.85 Método para la evaluación subjetiva de la calidad vocal de los dispositivos generadores de voz (06/94) ITU-T P.851 Evaluación de la calidad subjetiva de los servicios telefónicos basados en sistemas Conversacionales (11/2003)