La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

SERVIDORES VOCALES INTERACTIVOS: DESARROLLO DE UN SERVICIO DE PÁGINAS BLANCAS POR TELÉFONO CON RECONOCIMIENTO DE VOZ PROYECTO IDAS (Interactive telephone-based.

Presentaciones similares


Presentación del tema: "SERVIDORES VOCALES INTERACTIVOS: DESARROLLO DE UN SERVICIO DE PÁGINAS BLANCAS POR TELÉFONO CON RECONOCIMIENTO DE VOZ PROYECTO IDAS (Interactive telephone-based."— Transcripción de la presentación:

1 SERVIDORES VOCALES INTERACTIVOS: DESARROLLO DE UN SERVICIO DE PÁGINAS BLANCAS POR TELÉFONO CON RECONOCIMIENTO DE VOZ PROYECTO IDAS (Interactive telephone-based Directory Assistance Service) R. San-Segundo, J. Colás, J.M. Montero, R. Córdoba, J. Ferreiros, J. Macías-Guarasa, A. Gallardo, J.M. Gutiérrez, J. Pastor, J.M. Pardo Grupo de Tecnología del Habla. Departamento de Ingeniería Electrónica. UPM.

2 PROYECTO IDAS (Interactive telephone-based Directory Assistance Service) Proyecto europeo a dos años ( ) (LE4-8315) OBJETIVO Demostrador capaz de dar un servicio de páginas blancas por teléfono, proporcionando números de teléfono y fax, tanto de particulares como de empresas. –SUBOBJETIVOS Sistema de reconocimiento de habla aislada por línea telefónica, independiente de locutor para grandes vocabularios (10000 palabras). Plataforma completa para el desarrollo de Servidores Vocales Interactivos (SVIs).

3 TADE (Telephone Application Development Environment) ANTECEDENTES (I) Entorno para el desarrollo de aplicaciones telefónicas, fundamentalmente SVIs. Lenguaje propio con primitivas de alto nivel. –Gestión de línea telefónica: colgar, descolgar, marcar, esperar llamada... –Sentencias de voz: reconocimiento, síntesis, reproducción y grabación. –Acceso a bases de datos: abrir/cerrar base de datos y realizar consulta. – envío de correo electrónico. –Generales: gestión de archivos, manejo de cadenas y operaciones aritméticas sencillas. SVIs desarrollados. –Sistema de atención al cliente en Hewlett Packard con desvío de llamada. –Servidores de calificaciones de alumnos: IEL y Rectorado de la UPM. –Buzón vocal con grabación de mensajes y envío de de aviso.

4 ANTECEDENTES (II) TIDAISL (Telefónica I+D Aislada) Proyecto realizado en colaboración con Telefónica I+D. OBJETIVO: desarrollo de un módulo de preselección para sistemas de reconocimiento de habla aislada de gran vocabulario. Partes del módulo de preselección: –Extracción de cadena fonética: obtención de la secuencia de alófonos más probable (algoritmo de un paso con SCHMM). –Acceso Léxico: comparación de la secuencia de alófonos con cada palabra del diccionario mediante un algoritmo de programación dinámica y ordenación de menor a mayor distancia. RESULTADO: reducción de un vocabulario de palabras a uno de 1000 con el 98% de certeza.

5 APLICACIÓN DE PÁGINAS BLANCAS Reconocimiento Empresa Reconocimiento 1 Apellido 2 Apellido Nombre ¿Particular/Empresa? Reconocimiento Ciudad Bienvenida ACCESO A LA BASE DATOS ¿Operador?

6 NUEVAS PRIMITIVAS DEL LENGUAJE (I) RECONOCIMIENTO_DICC_ESTATICO: reconocimiento de habla aislada de gran vocabulario. Partes: –Hipótesis: módulo de preselección de TIDAISL con una mejor parametrización RASTA-LPC y un nuevo alfabeto con 45 alófonos. –Verificación: algoritmo de Viterbi con modelos CHMM sobre una lista de candidatos preseleccionada en la etapa anterior. Técnicas de reducción de tiempo: agrupación de cálculos, Beam Search y restricciones sobre el camino óptimo. Detección de homófonos. RECONOCIMIENTO RECONOCIMIENTO_DICC_DINÁMICO: misma tarea pero sobre diccionarios dinámicos. CARGAR y DESCARGAR_DICCIONARIO: permite cargar y descargar diccionarios en memoria de forma dinámica.

7 NUEVAS PRIMITIVAS DEL LENGUAJE (II) INTERVENCIÓN DE UN OPERADOR OPERADOR_DATO: presenta en pantalla un cuadro de diálogo en el que se permite al operador escuchar lo dicho por el usuario y seleccionar la palabra correcta. ESPERAR_OPERADOR_DATO: suspende el curso normal de la aplicación hasta que el operador cierra el cuadro de diálogo. De esta forma garantizamos que la intervención del operador se lleva a cabo y disponemos de una dato correcto. La intervención del operador es transparente para el usuario. Un mismo operador puede atender a varias líneas a la vez.

8 ADAPTACIÓN A UN HARDWARE COMERCIAL Situación inicial: –VISHA: tarjeta de sonido con un DSP32C capaz de realizar parte de las tareas de reconocimiento. –IFTEL: tarjeta de interfaz de línea telefónica. Ambas tarjetas desarrolladas en el Dept. de Ingeniería Electrónica. Cambios realizados: –Sustitución de VISHA por un dispositivo WAVE (Sound Blaster 16): las tareas de análisis de la señal de voz que realizaba la VISHA, ahora las debe realizar el procesador del ordenador. –Introducción de un segundo dispositivo WAVE (Sound Blaster 16): para permitir al operador escuchar lo dicho por el usuario al mismo tiempo que se ejecuta la aplicación.

9 EXPERIMENTOS 33 personas (21 hombres y 12 mujeres) accedieron a 10 teléfonos de empresas y a 10 teléfonos particulares Las tasas de llamadas completadas sin intervención del operador: 75% para teléfonos de empresas. 35% para teléfonos particulares.

10 CONCLUSIÓN LÍNEAS FUTURAS Servicio de páginas blancas funcionando en tiempo real en un ordenador Pentium II–350Mhz con una tasa mínima de 55% de llamadas procesadas automáticamente. Aumento de la tasa de reconocimiento y del tamaño de los diccionarios Optimización de los algoritmos de reconocimiento para permitir tiempo real con diccionarios de palabras. Nueva primitiva: reconocimiento de nombres deletreados. Utilizar una sólo tarjeta comercial para la captura de muestras y la gestión de la línea telefónica. Dotar al sistema de módulos de comprensión y diálogo para dotar de mayor flexibilidad a la comunicación hombre-máquina.


Descargar ppt "SERVIDORES VOCALES INTERACTIVOS: DESARROLLO DE UN SERVICIO DE PÁGINAS BLANCAS POR TELÉFONO CON RECONOCIMIENTO DE VOZ PROYECTO IDAS (Interactive telephone-based."

Presentaciones similares


Anuncios Google