La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

GENERACIÓN SEMIAUTOMÁTICA DE APLICACIONES DE DIÁLOGO MULTIMODALES: PROYECTO GEMINI R. Córdoba, L.F. D’Haro, J.M. Montero, J. Ferreiros, J. Macías-Guarasa,

Presentaciones similares


Presentación del tema: "GENERACIÓN SEMIAUTOMÁTICA DE APLICACIONES DE DIÁLOGO MULTIMODALES: PROYECTO GEMINI R. Córdoba, L.F. D’Haro, J.M. Montero, J. Ferreiros, J. Macías-Guarasa,"— Transcripción de la presentación:

1 GENERACIÓN SEMIAUTOMÁTICA DE APLICACIONES DE DIÁLOGO MULTIMODALES: PROYECTO GEMINI R. Córdoba, L.F. D’Haro, J.M. Montero, J. Ferreiros, J. Macías-Guarasa, J.D. Romeral, J.M. Pardo cordoba@die.upm.es Grupo de Tecnología del Habla. Departamento de Ingeniería Electrónica. Universidad Politécnica de Madrid

2 Proyecto Gemini Telecom I+D -2- PROYECTO GEMINI (Generic Environment for Multilingual Interactive Natural Interfaces)  Proyecto europeo a dos años (2002-2004) ( IST-2001-32343 )  OBJETIVOS –Desarrollo de un sistema de generación de aplicaciones de diálogo  Se parte de una descripción de la base de datos  Semiautomático –El diseñador especifica totalmente el diálogo usando asistentes  Se acelera el proceso –Multimodal: acceso por voz y por web –Multilingualidad: español, inglés, alemán y griego.

3 Proyecto Gemini Telecom I+D -3- INTRODUCCIÓN  Nos dirigimos a dos tipos de usuarios: –Los proveedores de servicios  Utilizan la herramienta de generación de diálogos  Ahorran tiempo de diseño  El mismo diseño sirve para la aplicación de voz y la basada en web –Los usuarios finales de las aplicaciones  Ventaja de poder acceder a un servicio a través de voz y de web  Acceso 24/7  Demostración: –Se han generado dos aplicaciones utilizando la plataforma:  Una aplicación bancaria  Una aplicación de atención al ciudadano

4 Proyecto Gemini Telecom I+D -4- ANTECEDENTES: TADE  Entorno para el desarrollo de aplicaciones telefónicas  Servicios vocales desarrollados. –Sistema de atención al cliente en Hewlett Packard –Servidores de notas de los alumnos: IEL y Rectorado de la UPM –Buzón de voz con grabación de mensajes y envío de e-mail –Servicio de reservas para Renfe –Servicio de páginas blancas (proyecto europeo IDAS)  Lenguaje propio con primitivas de alto nivel. –Gestión de línea telefónica: colgar, descolgar, esperar llamada... –Sentencias de voz: reconocimiento, síntesis, reproducción –Acceso a bases de datos: abrir/cerrar DB, realizar consulta –Generales: gestión de archivos, manejo de cadenas, etc. –...

5 Proyecto Gemini Telecom I+D -5- LA HERRAMIENTA DE GENERACIÓN DE DIÁLOGOS (AGP)  Conjunto integrado de herramientas y asistentes con los que automatizar el diseño de aplicaciones  Objetivos fundamentales: –La participación del diseñador debe ser mínima –Utilización de estándares para que la herramienta sea “autónoma”  Guión en el estándar VoiceXML para voz  Guión en xHTML para Web –Desarrollo de bibliotecas o módulos con los que resolver situaciones cotidianas –Desarrollo de una sintaxis basada en XML que hemos llamado GDialogXML (Gemini Dialog XML)  Lenguaje de modelado abstracto orientado a objetos  Simplifica la interacción entre los módulos

6 Proyecto Gemini Telecom I+D -6- ARQUITECTURA DEL AGP (I)  A grandes rasgos, hay TRES niveles básicos e independientes: –Nivel superior: se definen los aspectos globales de la aplicación y de los datos –Nivel intermedio: se define el diálogo de una forma independiente del idioma y de la modalidad –Nivel inferior: se completa el diálogo introduciendo los aspectos dependientes del idioma y de la modalidad  A continuación, el sistema genera automáticamente los guiones de la aplicación en todas las modalidades

7 Proyecto Gemini Telecom I+D -7- ARQUITECTURA DEL AGP (II)  Nivel superior (Framework Layer). 3 módulos: –Asistente de descripción de la aplicación: idiomas, modalidades, bibliotecas a utilizar, etc. –Asistente del modelo de los datos: descripción de las clases y atributos de la base de datos –Asistente de conexión con el modelo de datos: se definen las funciones de acceso a la base de datos  Su objetivo es independizar la base de datos de la aplicación

8 Proyecto Gemini Telecom I+D -8- ARQUITECTURA DEL AGP (III) Asistente del modelo de los datos

9 Proyecto Gemini Telecom I+D -9- ARQUITECTURA DEL AGP (IV)  Nivel intermedio (Retrievals Layer). 2 módulos: –Asistente de modelado del diálogo (RMA) Se describen:  Los estados de diálogo que componen el servicio  Las interacciones con el usuario  Las transiciones entre los estados del diálogo, etc. –Asistente de modelado de usuario  Introducir alternativas en el diálogo básico para adaptarse a la experiencia del usuario con el sistema  N niveles. Para cada uno:  Se ofrece más o menos información  Se confirma o no todo lo introducido

10 Proyecto Gemini Telecom I+D -10- ARQUITECTURA DEL AGP (V)  Nivel inferior (Dialogues Layer): –Asistente de extensión de modalidad  Aspectos dependientes del idioma (mensajes que pronuncia el sistema, vocabularios y gramáticas de cada idioma, etc.)  Aspectos dependientes de la modalidad (modos de confirmación, manejo de errores, cuántos resultados se presentan simultáneamente al usuario, etc.)  Se completa el esquema del diálogo especificado en el RMA –Generación automática de los guiones de ejecución en VoiceXML para voz y xHTML para web –Herramienta de modelado de lenguaje –Herramienta de creación de vocabularios

11 Proyecto Gemini Telecom I+D -11- EL ASISTENTE DE MODELADO DEL DIÁLOGO (I)  Desarrollado íntegramente en nuestro grupo: –Objetivo: ser intuitivo y automatizar el diseño del servicio –Se generan diálogos automáticamente a partir del modelo de datos. Por cada atributo se genera:  Un diálogo en el que se pregunta al usuario dicho atributo (entrada)  Un diálogo en el que se reproduce dicho atributo (salida) –Se pueden añadir cinco tipos de diálogos:  Basados en un bucle  Basados en una secuencia de acciones (o subdiálogos)  Basados en información introducida por el usuario  Basados en el valor de una variable  En blanco (para permitir la llamada a un diálogo que se va a definir posteriormente)

12 Proyecto Gemini Telecom I+D -12- EL ASISTENTE DE MODELADO DEL DIÁLOGO (II)

13 Proyecto Gemini Telecom I+D -13- EL ASISTENTE DE MODELADO DEL DIÁLOGO (III)

14 Proyecto Gemini Telecom I+D -14- EL ASISTENTE DE MODELADO DEL DIÁLOGO (IV)  Ejemplo de automatización: –Para datos que pertenecen al modelo de datos, el diálogo típico se puede definir arrastrando y soltando tres diálogos automáticos:  Diálogo que pregunta al usuario el atributo  Ej: Preguntar el Número de cuenta al usuario  Función de acceso a la base de datos  Ej.: Obtener objeto Cuenta dado el Número de cuenta  Diálogo que reproduce un atributo  Ej.: Decir el Saldo del objeto Cuenta obtenido –Los tres diálogos encadenan automáticamente los parámetros de entrada y salida

15 Proyecto Gemini Telecom I+D -15- EL ASISTENTE DE MODELADO DEL DIÁLOGO (V)

16 Proyecto Gemini Telecom I+D -16- LA TECNOLOGÍA SUBYACENTE (I)  Módulo de reconocimiento: –HMM continuos entrenados con la base de datos SpeechDat (4.000 locutores y unas 46 horas de grabación de habla continua) –Modelos contextuales agrupados mediante un algoritmo de árboles de decisión (1807 estados diferentes de 6 gaussianas) –Tasa de error: 4.2% (habla continua por teléfono, vocabulario de de 3.065 palabras) –También reconocedores de habla aislada, dígitos y fechas –Adaptación a un intérprete de VoiceXML llamado OpenVXI  Módulo de conversión texto-voz: –Para generar mensajes de contenido variable

17 Proyecto Gemini Telecom I+D -17- LA TECNOLOGÍA SUBYACENTE (II)  Modelado de diálogo: –Se modelan las interacciones hombre-máquina –Se deben identificar los objetivos que desea el usuario –Diálogos de iniciativa mixta: el sistema hace una primera pregunta abierta y el usuario puede introducir información adicional  Modelado del lenguaje: –Posibles combinaciones de palabras que se pueden producir –Objetivo: tener modelos específicos de cada etapa del diálogo  Técnicas de adaptación  Módulo de comprensión: –Analizador semántico que detecta y representa semánticamente lo introducido por el usuario (los conceptos)

18 Proyecto Gemini Telecom I+D -18- LA TECNOLOGÍA SUBYACENTE (III)  Generación de lenguaje natural –Generación de texto a partir de conceptos  Debe ser natural y variado  Módulo de reconocimiento de idioma: –PPRLM, que se basa en modelar las secuencias de fonemas que más se producen para cada uno de los idiomas  Módulo de reconocimiento de locutor: –Identificación del usuario mediante técnicas automáticas –Se pueden usar modelos específicos de dicho usuario

19 Proyecto Gemini Telecom I+D -19- LA APLICACIÓN BANCARIA  Proporciona todo tipo de información bancaria: –Información general de productos del banco:  Créditos personales, hipotecas; depósitos y sus tipos de interés; tarjetas de crédito / débito, etc. –Autenticación del usuario:  El usuario debe introducir su número de cuenta y un PIN –Consultas y transacciones para las cuentas del cliente:  Saldos y movimientos para las cuentas y tarjetas de crédito, realización de transferencias entre cuentas, etc.  El prototipo final se está desarrollando actualmente

20 Proyecto Gemini Telecom I+D -20- CONCLUSIONES  Se ha desarrollado un sistema de generación de diálogos –Muy potente –Capaz de generar diálogos válidos para múltiples idiomas y dos modalidades partiendo de una descripción de la base de datos –Interacción simplificada con el diseñador –Desarrollo de diálogos de forma rápida y amigable  Utilización de estándares: –VoiceXML para voz –xHTML para Web –Sintaxis basada en XML en todo el AGP


Descargar ppt "GENERACIÓN SEMIAUTOMÁTICA DE APLICACIONES DE DIÁLOGO MULTIMODALES: PROYECTO GEMINI R. Córdoba, L.F. D’Haro, J.M. Montero, J. Ferreiros, J. Macías-Guarasa,"

Presentaciones similares


Anuncios Google