SERVIDORES VOCALES INTERACTIVOS: DESARROLLO DE UN SERVICIO DE PÁGINAS BLANCAS POR TELÉFONO CON RECONOCIMIENTO DE VOZ PROYECTO IDAS (Interactive telephone-based.

Slides:

Advertisements

Presentaciones similares

Funcionalidades Virtual Center 360º Bienvenido a una nueva era en las comunicaciones corporativas de calidad.

Advertisements

AUDITEL V 5.0 Software de tarificación

SISTEMAS OPERATIVOS.

Intranets P. Reyes / Octubre 2004.

1 Curso Básico de C.I.O. Light Sección 12 Internet Sección 12 - Internet.

Hardware y Software de servidor

Supervisión del rendimiento de SQL Server

LOS SISTEMAS OPERATIVOS

? Es un sistema de gestión de cursos De distribución libre

“Las Unidades de Traducción Técnica en Red: Una Experiencia Formativa”

Phone2Wave-Server Manual de Operación.

Tecnologías Cliente / Servidor Capitulo III Richard Jiménez V. clienteserver.wordpress.com.

INTRODUCCIÓN A JAVA.

Término que se le da al conjunto de equipos de cómputo que se encuentran conectados entre si por medio de dispositivos físicos que envían y reciben -

1 ESTRATEGIA DE IMPLEMENTACION DE MEDIDAS DE GOBIERNO DE LAS TECNOLOGIAS DE LA INFORMACION La Antigua, Guatemala 23 de Septiembre de 2008.

Gestión del Momento de la Verdad

PRESENTACION DEL FUNCIONAMIENTO DEL TELEFONO IP

Proyecto Medidas Electrónicas II

TUTORIAL PLATAFORMA DE VINCULACIÓN ITSO - NODO SURESO.

Introducción al software

Asig. Interfaces de Usuario 1 Arquitecturas de Interfaces de Usuario Tema Elementos de un Interfaz de Usuario Elementos de Entrada Dispositivos.

Oscar Navarrete J. Jorge Gutiérrez A.

Presentada por: Ma. Fernanda Molina M. Luis Sánchez L.

Compartir Informacion Compartir Hardware y Software

Sistema Dinámico de Optimización de Rutas mediante dispositivos Smartphone SmartRut.

1 GESTIÓN CALIFICACIONES DE LOS MÁSTERES OFICIALES EN METANET CURSO 2006/2007 PROYECTO META.

Javier López García OBJETIVOS DEL PROYECTO Diseñar una nueva arquitectura para SERVIVOX que le proporcione mayor modularidad y flexibilidad. Reestructurar.

Ingeniería del Software

INTRODUCCIÓN A LA PROGRAMACIÓN

Presentación informática Roberto Plaza 1º Bachillerato

Introducción al Software

Casos de Uso. Módulo Administrador

ELEMENTOS DE UNA RED ( Parte I)

MOODLE ASPECTOS BÁSICOS

Diseño de una base de datos Zavaleta Nolasco Karina

InfoPath Ventajas y Uso.

El monitor automático de sistemas y servicios Manuel Martínez Guerrero.

ADELACU NotroVox NotroVox Adelacu Ltda. Atención Telefónica Integral.

Eloísa Orozco Bueno Alvaro Padilla Vilema

 En los últimos años los nuevos logros de la tecnología han sido la aparición de computadores, líneas telefónicas, celulares, redes alámbricas e inalámbricas,

BIENVENIDOS A CONFIGURACIÓN DE REDES

ConceptoDefiniciónCaracterísticas (palabra clave) Ejemplo/Aplicación Sistema operativo Es el software que permite al usuario interactuar con la computadora.

Ing. Cristhian Quezada Asenjo

INTRODUCCIÓN. Motivación “Procesamiento distribuido significa dividir una aplicación en tareas y poner cada tarea en la plataforma donde pueda ser manejada.

El análisis fonético y sus aplicaciones Aprendizaje de lenguas: corrección de la propia lengua y enseñanza de otras lenguas Aprendizaje de lenguas: corrección.

INTRODUCCIÓN A JAVA. Índice ¿Qué es Java? La plataforma Java 2 La Máquina Virtual de Java Características principales ¿Qué ventajas tengo como desarrollador?

Universidad Central de Venezuela Facultad de Ciencias Postgrado en Ciencias de la Computación Sistemas Distribuidos Albany Márquez.

ADAPTACIÓN DEL SISTEMA TELEFÓNICO MULTILÍNEA AL ESTÁNDAR TAPI Y ACCESO A BASE DE DATOS REMOTA MEDIANTE LLAMADAS RPC.

Introducción a Pentaho BI Suite 3.5

LCMS Patricia López Nº 14 Almudena Martin Nº 15 Andrea Roldán Nº 20º.

GENERACIÓN SEMIAUTOMÁTICA DE APLICACIONES DE DIÁLOGO MULTIMODALES: PROYECTO GEMINI R. Córdoba, L.F. D’Haro, J.M. Montero, J. Ferreiros, J. Macías-Guarasa,

María José Freire Mayra Coello Juan Francisco Pérez

OPTIMIZACIÓN DE UN SERVICIO AUTOMÁTICO DE PÁGINAS BLANCAS POR TELÉFONO: PROYECTO IDAS R. Córdoba, R. San-Segundo, J. Colás, J.M. Montero, J. Ferreiros,

Protocolos del modelo TCP/IP

Sistema Operativo de Internetwork (IOS).

BLACKBOARD INTEGRANTES: Fernanda Reséndiz Michelle Ávila Michelle Martínez Kenia Martínez Denisse Salas.

Naime Cecilia del Toro Alvarez

ANDREA DAZA. Es un aparato de pequeño tamaño, con algunas capacidades de procesamiento, con conexión permanente a una red.

Graballo-Extended Atención telefónica automática y mensajería unificada.

CON DETECCIÓN DE MOVIMIENTO USANDO IMÁGENES IMPLEMENTADO EN LABVIEW JORGE LEÓN JUAN SANCHEZ ESPOL 2010.

Manual de Blackboard Collaborate

UNIVERSIDAD ESTATAL A DISTANCIA Escuela de Ciencias de la Educación Curso APLICACIONES DE LA INFORMÁTICA A LA EDUCACIÓN I Código: 993 GLOSARIO DE TÉRMINOS.

 Panorama General Fundamentos de Programación M.I. Jaime Alfonso Reyes Cortés.

QUÉ ES UN SERVIDOR WEB?. Un servidor web o servidor HTTP es un programa informático que procesa una aplicación del lado del servidor, realizando conexiones.

Hardware. Mas preciso. Soporta mas tareas complejas. Permite sustituir componentes. SERVIDOR Computador que forma parte de una red y brinda servicios.

Planificación Curso UNIDAD 1. INTRODUCCIÓN A LOS SERVICIOS EN RED UNIDAD 2. SERVICIOS DHCP UNIDAD 3. SERVICIOS DNS UNIDAD 4. SERVICIOS DE ACCESO REMOTO.

GOOGLE DOCS Y TALK Alba Berja Torres y Lucía García Martínez.

Este trabajo tiene como fin hablar de las tecnologías para móviles más importantes.

DLM Transact SQL Sesión I Introducción al SQL Server Uso de las herramientas de consultas del Transact SQL.

Transcripción de la presentación:

SERVIDORES VOCALES INTERACTIVOS: DESARROLLO DE UN SERVICIO DE PÁGINAS BLANCAS POR TELÉFONO CON RECONOCIMIENTO DE VOZ PROYECTO IDAS (Interactive telephone-based Directory Assistance Service) R. San-Segundo, J. Colás, J.M. Montero, R. Córdoba, J. Ferreiros, J. Macías-Guarasa, A. Gallardo, J.M. Gutiérrez, J. Pastor, J.M. Pardo Grupo de Tecnología del Habla. Departamento de Ingeniería Electrónica. UPM.

PROYECTO IDAS (Interactive telephone-based Directory Assistance Service) Proyecto europeo a dos años (1998-2000) (LE4-8315) OBJETIVO Demostrador capaz de dar un servicio de páginas blancas por teléfono, proporcionando números de teléfono y fax, tanto de particulares como de empresas. SUBOBJETIVOS Sistema de reconocimiento de habla aislada por línea telefónica, independiente de locutor para grandes vocabularios (10000 palabras). Plataforma completa para el desarrollo de Servidores Vocales Interactivos (SVIs). El proyecto IDAS, objeto de esta comunicación, es un proyecto a dos años (1998-2000), financiado por la Unión Europea en el que interviene la Universidad Politécnica de Madrid a través de nuestro grupo de investigación. El objetivo del proyecto es desarrollar un demostrador capaz de dar un servicio de páginas blancas por teléfono, proporcionando números de teléfono o fax, tanto de particulares como de empresas. Este objetivo general lleva consigo la obtención de dos subobjetivos parciales: Implementación de un sistema de reconocimiento de habla aislada por telefóno, independiente de locutor para grandes vocabularios (10000 palabras) Desarrollo de una plataforma con todas las herramientas necesarias para el desarrollo de aplicaciones telefónicas, fundamentalmente Servidores Vocales Interactivos. El sistema que se presenta en esta comunicación es la primera versión del demostrador, con vocabularios de reconocimiento más reducidos de hasta 1000 palabras.

(Telephone Application Development Environment) ANTECEDENTES (I) TADE (Telephone Application Development Environment) Entorno para el desarrollo de aplicaciones telefónicas, fundamentalmente SVIs. Lenguaje propio con primitivas de alto nivel. Gestión de línea telefónica: colgar, descolgar, marcar, esperar llamada... Sentencias de voz: reconocimiento, síntesis, reproducción y grabación. Acceso a bases de datos: abrir/cerrar base de datos y realizar consulta. E-mail: envío de correo electrónico. Generales: gestión de archivos, manejo de cadenas y operaciones aritméticas sencillas. Este entorno proporciona un nuevo lenguaje, con ciertas primitivas de alto nivel, para el diseño de aplicaciones telefónicas, principalmente SVIs, incluyendo igualmente utilidades para cubrir todo el ciclo de vida de una aplicación: diseño, compilación y ejecución. Los tipos de primitivas más importantes son: Gestión de línea telefónica: colgar, descolgar, marcar, esperar llamada... Sentencias de voz: reconocimiento, síntesis, reproducción y grabación. Acceso a bases de datos: abrir/cerrar base de datos y realizar consulta. E-mail: envío de correo electrónico. Generales: gestión de archivos, manejo de cadenas y operaciones aritméticas sencillas. Además el sistema ofrece análisis del progreso de llamada configurable, redirección de llamadas dentro de una misma centralita (Alcatel o Ibercom). Como ejemplos de SVIs desarrollados con este entorno cabe destacar el sistema de atención al cliente de Hewlett Packard, que identifica al usuario a través del reconocimiento de su código (por voz o DTMF) y redirige la llamada hacia alguno de los ingenieros; el servidor de notas que ofrece nuestro departamento a sus alumnos, para consultar sus calificaciones por teléfono sin más que dar su DNI. Este mismo servicio se ofrece en el Rectorado de la UPM para dar las calificaciones de todas las carreras. Otro servicio es el de buzón vocal de nuestro Departamento que ofrece la opción de grabación de mensajes, enviando un e-mail de aviso al destinatario de la llamada. SVIs desarrollados. Sistema de atención al cliente en Hewlett Packard con desvío de llamada. Servidores de calificaciones de alumnos: IEL y Rectorado de la UPM. Buzón vocal con grabación de mensajes y envío de e-mail de aviso.

(Telefónica I+D Aislada) ANTECEDENTES (II) TIDAISL (Telefónica I+D Aislada) Proyecto realizado en colaboración con Telefónica I+D. OBJETIVO: desarrollo de un módulo de preselección para sistemas de reconocimiento de habla aislada de gran vocabulario. Partes del módulo de preselección: Extracción de cadena fonética: obtención de la secuencia de alófonos más probable (algoritmo de un paso con SCHMM). Acceso Léxico: comparación de la secuencia de alófonos con cada palabra del diccionario mediante un algoritmo de programación dinámica y ordenación de menor a mayor distancia. El nuevo sistema de reconocimiento a incorporar en el Entorno TADE está basado en TIDAISL (proyecto realizado por nuestro grupo en colaboración con Telefónica I+D). El objetivo del proyecto TIDAISL fue el desarrollo de un módulo de preselección para sistemas de reconocimiento de habla aislada de gran vocabulario. Un módulo de preselección consiste en un conjunto de algoritmos de reconocimiento poco costosos que permiten reducir la lista de candidatos a reconocer y así aplicar después, técnicas de reconocimiento más potentes sin aumentar excesivamente el tiempo de proceso. El módulo de preselección consta de dos partes: - Extracción de la cadena fonética (decodificador acústico): se ha utilizado el algoritmo de un paso para determinar la secuencia de alófonos más probable. Los modelos probabilísticos utilizados para la decodificación acústica son los HMM semicontinuos (SCHMM). - Acceso léxico: se trata de un algoritmo de programación dinámica que recibe a su entrada una cadena o bien una malla de alófonos, y genera a su salida una serie de palabras candidato que el sistema clasifica como las que con más probabilidad representan a la cadena (malla) de entrada. El módulo obtenido permitía reducir un vocabulario de 10000 palabras a uno de 1000 con el 98% de certeza de que la palabra a reconocer permanecía en dicha lista. RESULTADO: reducción de un vocabulario de 10000 palabras a uno de 1000 con el 98% de certeza.

APLICACIÓN DE PÁGINAS BLANCAS Bienvenida Reconocimiento Ciudad ¿Particular/Empresa? Reconocimiento 1 Apellido 2 Apellido Nombre Reconocimiento Empresa ¿Operador? 1.- En primer lugar, se descuelga y se da un mensaje de bienvenida al usuario . A continuación se procede al reconocimiento de la ciudad de la que desea conocer el teléfono, pidiendo confirmación al usuario del primer candidato (y si fuese necesario, del segundo) resultado del reconocimiento. En el caso de que el usuario no confirme lo reconocido, se anota esta circunstancia para la intervención posterior de un operador. Una vez conocida la ciudad, se le pregunta al usuario si desea un teléfono particular o de empresa. 2.- Si la opción elegida es la de empresa, se le pide al usuario el nombre de la empresa, realizando un reconocimiento análogo al visto para el caso de la ciudad (pidiendo confirmación al usuario de los dos primeros candidatos). 3.- En el caso de teléfono particular, se procede al reconocimiento del primer apellido, segundo apellido y nombre, en turnos de diálogo independientes. 4.- Si ha habido algún reconocimiento no confirmado por parte del usuario se le ofrece al operador un cuadro de diálogo donde se le permite escuchar lo dicho por el usuario y rellenar un cuadro de texto con el dato correcto. En ningún momento hay comunicación directa con el cliente de modo que el paso a operador es transparente para el usuario. Una vez obtenidos los datos correctos, se accede a la base de datos y se proporciona el teléfono solicitado. ACCESO A LA BASE DATOS

NUEVAS PRIMITIVAS DEL LENGUAJE (I) RECONOCIMIENTO RECONOCIMIENTO_DICC_ESTATICO: reconocimiento de habla aislada de gran vocabulario. Partes: Hipótesis: módulo de preselección de TIDAISL con una mejor parametrización RASTA-LPC y un nuevo alfabeto con 45 alófonos. Verificación: algoritmo de Viterbi con modelos CHMM sobre una lista de candidatos preseleccionada en la etapa anterior. Técnicas de reducción de tiempo: agrupación de cálculos, Beam Search y restricciones sobre el camino óptimo. Detección de homófonos. RECONOCIMIENTO_DICC_ESTATICO: realiza el reconocimiento de la palabra pronunciada por el usuario de entre un diccionario determinado. Como resultado del reconocimiento se ofrece una lista ordenada de candidatos. El reconocimiento se realiza en dos etapas: Hipótesis: se ha utilizado el módulo de preselección desarrollado en el proyecto TIDAISL con una mejor parametrización (RASTA-LPC con filtros PLP de acuerdo a la escala MEL) y un nuevo alfabeto de 45 alófonos. Verificación: algoritmo de Viterbi sobre una lista de candidatos, utilizando modelos más potentes, modelos de palabra HMM-continuos (resultado de la concatenación de modelos de alófonos). La finalidad de utilizar estas dos etapas en nuestro sistema es la de acelerar el reconocimiento. Los datos utilizados: base de datos SPEECH-DAT. La detección de homófonos (palabras que se dicen igual y se escriben de forma diferente: severino y seberino) permite entablar un diálogo con el usuario para desambiguar mediante deletreo y obtener la palabra deseada. RECONOCIMIENTO_DICC_DINAMICO: esta función realiza la misma labor pero el reconocimiento no se realiza sobre todo el diccionario de palabras, sino solamente sobre una lista de candidatos propuesta. Permite adaptar los diccionarios de reconocimiento dependiendo del diálogo de la aplicación. CARGAR_DICCIONARIO Y DESCARGAR_DICCIONARIO: permite cargar y descargar diccionarios en memoria de forma dinámica. RECONOCIMIENTO_DICC_DINÁMICO: misma tarea pero sobre diccionarios dinámicos. CARGAR y DESCARGAR_DICCIONARIO: permite cargar y descargar diccionarios en memoria de forma dinámica.

NUEVAS PRIMITIVAS DEL LENGUAJE (II) INTERVENCIÓN DE UN OPERADOR OPERADOR_DATO: presenta en pantalla un cuadro de diálogo en el que se permite al operador escuchar lo dicho por el usuario y seleccionar la palabra correcta. ESPERAR_OPERADOR_DATO: suspende el curso normal de la aplicación hasta que el operador cierra el cuadro de diálogo. De esta forma garantizamos que la intervención del operador se lleva a cabo y disponemos de una dato correcto. La posibilidad de intervención de un operador ha requerido añadir dos nuevas primitivas al lenguaje: OPERADOR_DATO: esta función permite presentar en pantalla un cuadro de diálogo con las opciones necesarias para la intervención del operador. En este cuadro se permite al operador escuchar lo dicho por el usuario y se le facilita un recuadro de texto donde puede escribir la palabra correcta. ESPERAR_OPERADOR_DATO: la misión de esta función es suspender el curso normal de la aplicación hasta que el operador cierre el cuadro de diálogo. De esta forma, garantizamos que la intervención del operador se lleva a cabo y disponemos siempre de un dato correcto. La intervención del operador es totalmente transparente al usuario. El usuario únicamente percibe un pequeño retraso en la obtención de su número de teléfono que puede ser fácilmente atribuible al proceso de búsqueda en la base de datos. De esta forma un mismo operador puede atender a varias líneas telefónicas. La intervención del operador es transparente para el usuario. Un mismo operador puede atender a varias líneas a la vez.

ADAPTACIÓN A UN HARDWARE COMERCIAL Situación inicial: VISHA: tarjeta de sonido con un DSP32C capaz de realizar parte de las tareas de reconocimiento. IFTEL: tarjeta de interfaz de línea telefónica. Ambas tarjetas desarrolladas en el Dept. de Ingeniería Electrónica. Cambios realizados: Sustitución de VISHA por un dispositivo WAVE (Sound Blaster 16): las tareas de análisis de la señal de voz que realizaba la VISHA, ahora las debe realizar el procesador del ordenador. Introducción de un segundo dispositivo WAVE (Sound Blaster 16): para permitir al operador escuchar lo dicho por el usuario al mismo tiempo que se ejecuta la aplicación. Otro desarrollo importante ha sido la adaptación del entorno a un hardware comercial. Inicialmente este sistema utilizaba dos tarjetas desarrolladas en nuestro propio grupo de trabajo: VISHA e IFTEL. La tarjeta VISHA es una tarjeta de sonido con un DSP32C capaz de realizar parte de las tareas de procesado de voz, lo que permite al ordenador realizar otras tareas en paralelo. Por otro lado la tarjeta IFTEL es la encargada de la interfaz y adaptación de señales entre la línea telefónica y la tarjeta de sonido. El cambio ha consistido en sustituir la tarjeta VISHA por un dispositivo WAVE (Sound Blaster 16). Este cambio ha supuesto que las tareas de análisis de la señal de voz que anteriormente realizaba la VISHA, ahora las deba realizar el procesador del ordenador. Para permitir que el ordenador pueda procesar las muestras al mismo tiempo que las va capturando a través de la tarjeta de sonido, hacemos uso de la multitarea que nos ofrece el sistema operativo Windows’95. En esta fase de adaptación ha sido necesario instalar un segundo dispositivo de audio WAVE para permitir al operador escuchar los ficheros grabados al mismo tiempo que se ejecuta la aplicación.

EXPERIMENTOS 33 personas (21 hombres y 12 mujeres) accedieron a 10 teléfonos de empresas y a 10 teléfonos particulares Todos los diccionarios utilizados tienen un tamaño de 1000 palabras. Como se puede observar la tasa de reconocimiento para el diccionario de empresas es superior al resto. Este hecho se debe por un lado a la mayor longitud media de los nombres de empresas (14,3 letras) frente a las palabras del resto de diccionarios, que permite a nuestro reconocedor una mejor discriminación y por otro lado a una menor confusión entre sus palabras, representada como una mayor distancia alofónica media de cada palabra con la más parecida dentro del mismo diccionario (6,8). El porcentaje de consultas completadas con éxito (sin intervención del operador) para el caso de empresas es muy superior al de particulares. La razón es por un lado el número distinto de reconocimientos a realizar en los accesos a cada tipo de teléfono (2 para empresas y 4 para particulares) y por otro lado la mejor tasa de reconocimiento obtenida en el diccionario de empresas frente al de nombres o apellidos. Esta fase de pruebas tenía el objetivo de evaluar el sistema de reconocimiento; por esta razón se desactivó la generación de diccionarios dinámicos en el transcurso de la aplicación (ej: conocida la ciudad sólo se presentan las empresas con sede en esa ciudad). Por lo tanto, los resultados de tasas de llamadas completadas sin intervención de operador son los obtenidos en las condiciones de mayor perplejidad y deben ser interpretados como un límite inferior. Las tasas de llamadas completadas sin intervención del operador: 75% para teléfonos de empresas. 35% para teléfonos particulares.

CONCLUSIÓN LÍNEAS FUTURAS Servicio de páginas blancas funcionando en tiempo real en un ordenador Pentium II–350Mhz con una tasa mínima de 55% de llamadas procesadas automáticamente. LÍNEAS FUTURAS Aumento de la tasa de reconocimiento y del tamaño de los diccionarios Optimización de los algoritmos de reconocimiento para permitir tiempo real con diccionarios de 10000 palabras. Nueva primitiva: reconocimiento de nombres deletreados. Utilizar una sólo tarjeta comercial para la captura de muestras y la gestión de la línea telefónica. Dotar al sistema de módulos de comprensión y diálogo para dotar de mayor flexibilidad a la comunicación hombre-máquina. CONCLUSIÓN Podemos concluir que las tecnologías del habla son un campo de investigación de gran interés comercial y que los Servidores Vocales Interactivos son una solución interesante para el camino de automatización y abaratamiento de los servicios por línea telefónica. LÍNEAS DE INVESTIGACIÓN FUTURAS Una primera línea de investigación, que está implícita en el propio objetivo del proyecto IDAS, es el aumento del tamaño de los diccionarios utilizados. Este aumento requiere dos esfuerzos importantes: por un lado, en los algoritmos de entrenamiento para obtener unos modelos más potentes, y por otro lado, la optimización de los algoritmos de reconocimiento para permitir el funcionamiento del sistema en tiempo real. Otro reto importante dentro del marco del proyecto es el desarrollo de una nueva primitiva que nos permita realizar reconocimiento de nombres deletreados. Con el fin de utilizar una sola tarjeta para la capturas de muestras y la gestión de la línea telefónica utilizaremos alguna de las ofrecidas por la compañía Dialogic, de forma que sea compatible con el estándar WAVE para la captura de muestras y con el estándar TAPI para la gestión de la línea telefónica. Una línea de investigación que se planteará al final de este proyecto será dotar al sistema de módulos de comprensión y diálogo que den una mayor flexibilidad a la comunicación hombre-máquina.