Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porHugo Medina Rey Modificado hace 10 años
1
GENERACIÓN SEMIAUTOMÁTICA DE APLICACIONES DE DIÁLOGO MULTIMODALES: PROYECTO GEMINI R. Córdoba, L.F. D’Haro, J.M. Montero, J. Ferreiros, J. Macías-Guarasa, J.D. Romeral, J.M. Pardo cordoba@die.upm.es Grupo de Tecnología del Habla. Departamento de Ingeniería Electrónica. Universidad Politécnica de Madrid
2
Proyecto Gemini Telecom I+D -2- PROYECTO GEMINI (Generic Environment for Multilingual Interactive Natural Interfaces) Proyecto europeo a dos años (2002-2004) ( IST-2001-32343 ) OBJETIVOS –Desarrollo de un sistema de generación de aplicaciones de diálogo Se parte de una descripción de la base de datos Semiautomático –El diseñador especifica totalmente el diálogo usando asistentes Se acelera el proceso –Multimodal: acceso por voz y por web –Multilingualidad: español, inglés, alemán y griego.
3
Proyecto Gemini Telecom I+D -3- INTRODUCCIÓN Nos dirigimos a dos tipos de usuarios: –Los proveedores de servicios Utilizan la herramienta de generación de diálogos Ahorran tiempo de diseño El mismo diseño sirve para la aplicación de voz y la basada en web –Los usuarios finales de las aplicaciones Ventaja de poder acceder a un servicio a través de voz y de web Acceso 24/7 Demostración: –Se han generado dos aplicaciones utilizando la plataforma: Una aplicación bancaria Una aplicación de atención al ciudadano
4
Proyecto Gemini Telecom I+D -4- ANTECEDENTES: TADE Entorno para el desarrollo de aplicaciones telefónicas Servicios vocales desarrollados. –Sistema de atención al cliente en Hewlett Packard –Servidores de notas de los alumnos: IEL y Rectorado de la UPM –Buzón de voz con grabación de mensajes y envío de e-mail –Servicio de reservas para Renfe –Servicio de páginas blancas (proyecto europeo IDAS) Lenguaje propio con primitivas de alto nivel. –Gestión de línea telefónica: colgar, descolgar, esperar llamada... –Sentencias de voz: reconocimiento, síntesis, reproducción –Acceso a bases de datos: abrir/cerrar DB, realizar consulta –Generales: gestión de archivos, manejo de cadenas, etc. –...
5
Proyecto Gemini Telecom I+D -5- LA HERRAMIENTA DE GENERACIÓN DE DIÁLOGOS (AGP) Conjunto integrado de herramientas y asistentes con los que automatizar el diseño de aplicaciones Objetivos fundamentales: –La participación del diseñador debe ser mínima –Utilización de estándares para que la herramienta sea “autónoma” Guión en el estándar VoiceXML para voz Guión en xHTML para Web –Desarrollo de bibliotecas o módulos con los que resolver situaciones cotidianas –Desarrollo de una sintaxis basada en XML que hemos llamado GDialogXML (Gemini Dialog XML) Lenguaje de modelado abstracto orientado a objetos Simplifica la interacción entre los módulos
6
Proyecto Gemini Telecom I+D -6- ARQUITECTURA DEL AGP (I) A grandes rasgos, hay TRES niveles básicos e independientes: –Nivel superior: se definen los aspectos globales de la aplicación y de los datos –Nivel intermedio: se define el diálogo de una forma independiente del idioma y de la modalidad –Nivel inferior: se completa el diálogo introduciendo los aspectos dependientes del idioma y de la modalidad A continuación, el sistema genera automáticamente los guiones de la aplicación en todas las modalidades
7
Proyecto Gemini Telecom I+D -7- ARQUITECTURA DEL AGP (II) Nivel superior (Framework Layer). 3 módulos: –Asistente de descripción de la aplicación: idiomas, modalidades, bibliotecas a utilizar, etc. –Asistente del modelo de los datos: descripción de las clases y atributos de la base de datos –Asistente de conexión con el modelo de datos: se definen las funciones de acceso a la base de datos Su objetivo es independizar la base de datos de la aplicación
8
Proyecto Gemini Telecom I+D -8- ARQUITECTURA DEL AGP (III) Asistente del modelo de los datos
9
Proyecto Gemini Telecom I+D -9- ARQUITECTURA DEL AGP (IV) Nivel intermedio (Retrievals Layer). 2 módulos: –Asistente de modelado del diálogo (RMA) Se describen: Los estados de diálogo que componen el servicio Las interacciones con el usuario Las transiciones entre los estados del diálogo, etc. –Asistente de modelado de usuario Introducir alternativas en el diálogo básico para adaptarse a la experiencia del usuario con el sistema N niveles. Para cada uno: Se ofrece más o menos información Se confirma o no todo lo introducido
10
Proyecto Gemini Telecom I+D -10- ARQUITECTURA DEL AGP (V) Nivel inferior (Dialogues Layer): –Asistente de extensión de modalidad Aspectos dependientes del idioma (mensajes que pronuncia el sistema, vocabularios y gramáticas de cada idioma, etc.) Aspectos dependientes de la modalidad (modos de confirmación, manejo de errores, cuántos resultados se presentan simultáneamente al usuario, etc.) Se completa el esquema del diálogo especificado en el RMA –Generación automática de los guiones de ejecución en VoiceXML para voz y xHTML para web –Herramienta de modelado de lenguaje –Herramienta de creación de vocabularios
11
Proyecto Gemini Telecom I+D -11- EL ASISTENTE DE MODELADO DEL DIÁLOGO (I) Desarrollado íntegramente en nuestro grupo: –Objetivo: ser intuitivo y automatizar el diseño del servicio –Se generan diálogos automáticamente a partir del modelo de datos. Por cada atributo se genera: Un diálogo en el que se pregunta al usuario dicho atributo (entrada) Un diálogo en el que se reproduce dicho atributo (salida) –Se pueden añadir cinco tipos de diálogos: Basados en un bucle Basados en una secuencia de acciones (o subdiálogos) Basados en información introducida por el usuario Basados en el valor de una variable En blanco (para permitir la llamada a un diálogo que se va a definir posteriormente)
12
Proyecto Gemini Telecom I+D -12- EL ASISTENTE DE MODELADO DEL DIÁLOGO (II)
13
Proyecto Gemini Telecom I+D -13- EL ASISTENTE DE MODELADO DEL DIÁLOGO (III)
14
Proyecto Gemini Telecom I+D -14- EL ASISTENTE DE MODELADO DEL DIÁLOGO (IV) Ejemplo de automatización: –Para datos que pertenecen al modelo de datos, el diálogo típico se puede definir arrastrando y soltando tres diálogos automáticos: Diálogo que pregunta al usuario el atributo Ej: Preguntar el Número de cuenta al usuario Función de acceso a la base de datos Ej.: Obtener objeto Cuenta dado el Número de cuenta Diálogo que reproduce un atributo Ej.: Decir el Saldo del objeto Cuenta obtenido –Los tres diálogos encadenan automáticamente los parámetros de entrada y salida
15
Proyecto Gemini Telecom I+D -15- EL ASISTENTE DE MODELADO DEL DIÁLOGO (V)
16
Proyecto Gemini Telecom I+D -16- LA TECNOLOGÍA SUBYACENTE (I) Módulo de reconocimiento: –HMM continuos entrenados con la base de datos SpeechDat (4.000 locutores y unas 46 horas de grabación de habla continua) –Modelos contextuales agrupados mediante un algoritmo de árboles de decisión (1807 estados diferentes de 6 gaussianas) –Tasa de error: 4.2% (habla continua por teléfono, vocabulario de de 3.065 palabras) –También reconocedores de habla aislada, dígitos y fechas –Adaptación a un intérprete de VoiceXML llamado OpenVXI Módulo de conversión texto-voz: –Para generar mensajes de contenido variable
17
Proyecto Gemini Telecom I+D -17- LA TECNOLOGÍA SUBYACENTE (II) Modelado de diálogo: –Se modelan las interacciones hombre-máquina –Se deben identificar los objetivos que desea el usuario –Diálogos de iniciativa mixta: el sistema hace una primera pregunta abierta y el usuario puede introducir información adicional Modelado del lenguaje: –Posibles combinaciones de palabras que se pueden producir –Objetivo: tener modelos específicos de cada etapa del diálogo Técnicas de adaptación Módulo de comprensión: –Analizador semántico que detecta y representa semánticamente lo introducido por el usuario (los conceptos)
18
Proyecto Gemini Telecom I+D -18- LA TECNOLOGÍA SUBYACENTE (III) Generación de lenguaje natural –Generación de texto a partir de conceptos Debe ser natural y variado Módulo de reconocimiento de idioma: –PPRLM, que se basa en modelar las secuencias de fonemas que más se producen para cada uno de los idiomas Módulo de reconocimiento de locutor: –Identificación del usuario mediante técnicas automáticas –Se pueden usar modelos específicos de dicho usuario
19
Proyecto Gemini Telecom I+D -19- LA APLICACIÓN BANCARIA Proporciona todo tipo de información bancaria: –Información general de productos del banco: Créditos personales, hipotecas; depósitos y sus tipos de interés; tarjetas de crédito / débito, etc. –Autenticación del usuario: El usuario debe introducir su número de cuenta y un PIN –Consultas y transacciones para las cuentas del cliente: Saldos y movimientos para las cuentas y tarjetas de crédito, realización de transferencias entre cuentas, etc. El prototipo final se está desarrollando actualmente
20
Proyecto Gemini Telecom I+D -20- CONCLUSIONES Se ha desarrollado un sistema de generación de diálogos –Muy potente –Capaz de generar diálogos válidos para múltiples idiomas y dos modalidades partiendo de una descripción de la base de datos –Interacción simplificada con el diseñador –Desarrollo de diálogos de forma rápida y amigable Utilización de estándares: –VoiceXML para voz –xHTML para Web –Sintaxis basada en XML en todo el AGP
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.