OPTIMIZACIÓN DE UN SERVICIO AUTOMÁTICO DE PÁGINAS BLANCAS POR TELÉFONO: PROYECTO IDAS R. Córdoba, R. San-Segundo, J. Colás, J.M. Montero, J. Ferreiros,

Slides:



Advertisements
Presentaciones similares
Funcionalidades Virtual Center 360º Bienvenido a una nueva era en las comunicaciones corporativas de calidad.
Advertisements

Internet y tecnologías web
LOS MEDIOS DE COMUNICACIÓN ORAL
Supervisión del rendimiento de SQL Server
Decisiones de diseño de bajo nivel
Plataforma Celular de Comunicación y Control
SOLUCIONES PARA BÚSQUEDA DE TEXTO EN AUDIO Y TRANSCRIPCIÓN DE VOZ A TEXTO Octubre de
I T S S P LIC INFORMATICA SISTEMAS OPERATIVOS WINDOWS 2003 SERVER DOCENTE: L.I RAMIRO ROBLES VILLANUEVA ALUMNOS: ROGELIO CHAIDEZ CORDOBA ZENON ESTRADA.
Medición de la usabilidad en aplicaciones de escritorio.
SERVIDORES VOCALES INTERACTIVOS: DESARROLLO DE UN SERVICIO DE PÁGINAS BLANCAS POR TELÉFONO CON RECONOCIMIENTO DE VOZ PROYECTO IDAS (Interactive telephone-based.
Tecnologías Cliente / Servidor Capitulo III Richard Jiménez V. clienteserver.wordpress.com.
Prof. Adelaide Bianchini. Dpto. de Computación y Tecnología de la Información. Universidad Simón Bolívar. Mayo Diseño centrado en el usuario Prof.
Término que se le da al conjunto de equipos de cómputo que se encuentran conectados entre si por medio de dispositivos físicos que envían y reciben -
Expositores: Sandra Pineda Obando Patricio Aguirre Sanabria
Javier López García OBJETIVOS DEL PROYECTO Diseñar una nueva arquitectura para SERVIVOX que le proporcione mayor modularidad y flexibilidad. Reestructurar.
Experimentos preliminares de verificación de locutores con una base de datos realista José Antonio Rubio García , José Manuel Pardo Muñoz, Ricardo de Córdoba.
Programas Son una serie o secuencia de instrucciones entendibles por los ordenadores que permiten la realización de las acciones o tareas para las que.
Plataforma ECM de Servicios On-Line con Acceso Mediante Voz.
Resultados Encuesta de Satisfacción 2013
Modelos Ocultos de Markov
El monitor automático de sistemas y servicios Manuel Martínez Guerrero.
3. Funciones discriminantes para la f.d.p normal.
Registro de Obras Audiovisuales REALIZADO POR: ANDRÈS BARRETO.
Diseñado para pequeñas y medianas empresas, Microsoft Dynamics NAV es una solución de gestión empresarial integrada. Sus fortalezas clave se apoyan en.
ADELACU NotroVox NotroVox Adelacu Ltda. Atención Telefónica Integral.
MEDIDA DE LA USABILIDAD EN APLICACIONES DE ESCRITORIO
Eloísa Orozco Bueno Alvaro Padilla Vilema
INTRODUCCIÓN El protocolo http se usa en los sistemas de información distribuidos que necesitan mostrar la información y pasarla por una comunicación.
SMART SOLUTIONS SMART CUSTOMERS Plátika es un Contact Center con amplia experiencia en América, que integra su talento humano con la tecnología más.
Un sistema de gestión de bases de datos: Es un conjunto de programas que permite a los usuarios crear y mantener una base de datos. Por tanto, el SGBD.
Servidores Conceptos Generales.
LENGUAJES DE PROGRAMACIÓN
El análisis fonético y sus aplicaciones Aprendizaje de lenguas: corrección de la propia lengua y enseñanza de otras lenguas Aprendizaje de lenguas: corrección.
Integrantes: Castillo Flores, Karina Vásquez Suarez, Danilo
Universidad Central de Venezuela Facultad de Ciencias Postgrado en Ciencias de la Computación Sistemas Distribuidos Albany Márquez.
CARPLATE Reconocimiento del marco de la matrícula de un coche
ADAPTACIÓN DEL SISTEMA TELEFÓNICO MULTILÍNEA AL ESTÁNDAR TAPI Y ACCESO A BASE DE DATOS REMOTA MEDIANTE LLAMADAS RPC.
1.1.2 Plataformas virtuales de aprendizaje
SMART SOLUTIONS SMART CUSTOMERS Plátika es un Contact Center con amplia experiencia en América, que integra su talento humano con la tecnología más.
Copia No Controlada SMART SOLUTIONS Mundo Plátika SMART CUSTOMERS Copia No Controlada.
INTERNET.
Teleinformática en la educación II
 Los virus informáticos son programas que se introducen sin conocimiento del usuario en un ordenador para ejecutar en él acciones no deseadas.  Las.
GENERACIÓN SEMIAUTOMÁTICA DE APLICACIONES DE DIÁLOGO MULTIMODALES: PROYECTO GEMINI R. Córdoba, L.F. D’Haro, J.M. Montero, J. Ferreiros, J. Macías-Guarasa,
“El mundo del Software Educativo”
Mundo Plátika Grupo Link IT Plátika es un Contact Center con amplia experiencia en América (Más de sillas en Colombia, México, Puerto Rico,
Servicios de red e Internet Gustavo Antequera Rodríguez.
La administración de dominios
COMPUTACIÓN UBICUA Alumno: Zavaleta Infantes, Miguel
Internet y sus servicios
Búsqueda de Información en Internet
BLACKBOARD INTEGRANTES: Fernanda Reséndiz Michelle Ávila Michelle Martínez Kenia Martínez Denisse Salas.
Christian Alexis Salcedo Rodriguez.   En palabras del profesor especialista Jorge E. Gil Mateos, "para que una institución (pública o privada) pueda.
ANA MARIA TUESTA CHAVEZ PROFESOR: VICTOR ESPINOZA MARTES Y JUEVES DE 4PM A 6PM CURSO: POWER POINT.
Naime Cecilia del Toro Alvarez
Características distintivas Ventajas y desventajas
Convertidores y Espacios para Compartir Documentos en la Web (Web 2.0)
Graballo-Extended Atención telefónica automática y mensajería unificada.
Herramientas de Comunicación Virtual
UNIVERSIDAD ESTATAL A DISTANCIA Escuela de Ciencias de la Educación Curso APLICACIONES DE LA INFORMÁTICA A LA EDUCACIÓN I Código: 993 GLOSARIO DE TÉRMINOS.
Producción Proceso de Producción en línea Audiovisual.
APLICACIONES DE LINUX CLASIFICACION Navegador de Internet Mozilla Firefox SUSE Linux Enterprise Desktop incluye Firefox, la versión más reciente del navegador.
Proceso de resolución de un nombre de dominio. –Consultas recursivas. –Consultas iterativas. –Caché y TTL. –Recursividad y caché. Gustavo Antequera Rodríguez.
Soluciones en Gestión Documental.
Planificación Curso UNIDAD 1. INTRODUCCIÓN A LOS SERVICIOS EN RED UNIDAD 2. SERVICIOS DHCP UNIDAD 3. SERVICIOS DNS UNIDAD 4. SERVICIOS DE ACCESO REMOTO.
Aday de la Cruz Guedes Dariel González Rodríguez Alejandro Tacoronte Ojeda.
Este trabajo tiene como fin hablar de las tecnologías para móviles más importantes.
10 Etapas de administración de proyectos con el método Lewis
27 de Septiembre de 2004 Soluciones a problemas cotidianos en la red: Seguridad, virus, correo basura Soluciones integradas de seguridad. IberEscudo.
1. 2 Una Red es un conjunto de ordenadores interconectados entre sí mediante cable o por otros medios inalámbricos.
Transcripción de la presentación:

OPTIMIZACIÓN DE UN SERVICIO AUTOMÁTICO DE PÁGINAS BLANCAS POR TELÉFONO: PROYECTO IDAS R. Córdoba, R. San-Segundo, J. Colás, J.M. Montero, J. Ferreiros, J. Macías-Guarasa, A. Gallardo, J.M. Gutiérrez, J.M. Pardo Grupo de Tecnología del Habla. Departamento de Ingeniería Electrónica. UPM.

PROYECTO IDAS (Interactive telephone-based Directory Assistance Service)  Proyecto europeo a dos años ( ) (LE4-8315)  OBJETIVO –Demostrador que da un servicio de páginas blancas por teléfono, proporcionando números de teléfono y fax, tanto de particulares como de empresas.  SUBOBJETIVOS: –Sistema de reconocimiento de habla aislada por línea telefónica, independiente de locutor para grandes vocabularios (10000 palabras) y en tiempo real. –Plataforma completa para el desarrollo de Servidores Vocales Interactivos (SVIs).

INTRODUCCIÓN (I)  Interés de las compañías telefónicas: –Ahorro en tiempo de operador –La información proporcionada es reducida  Muy sencilla de ofrecer  La interacción con el usuario es reducida  Dificultades: –No es gratuito  El diálogo debe ser rápido y amigable –Canal telefónico: ruido de fondo –Alto grado de confusabilidad de los apellidos  ¿Cómo conseguir su trascripción exacta?

INTRODUCCIÓN (II)  Soluciones: –Se necesitan métodos alternativos para obtener la información  Pedir al usuario que confirme lo reconocido  Pedir el deletreo si no se confirma lo reconocido  Ambos ralentizan el diálogo  El sistema siempre resulta útil: –Se resuelven un porcentaje elevado de las consultas –Si se recurre a operador el diálogo es breve porque  Es posible que se conozcan algunos datos  El operador recibe una pantalla con información y puede escuchar lo que ha dicho el usuario –Se incrementa el número de llamadas a las que puede atender el operador

ANTECEDENTES: TADE  Entorno para el desarrollo de aplicaciones telefónicas  SVIs desarrollados. –Sistema de atención al cliente en Hewlett Packard con desvío de llamada. –Servidores de calificaciones de alumnos: IEL y Rectorado de la UPM. –Buzón vocal con grabación de mensajes y envío de de aviso.  Lenguaje propio con primitivas de alto nivel. –Gestión de línea telefónica: colgar, descolgar, marcar, esperar llamada... –Sentencias de voz: reconocimiento, síntesis, reproducción y grabación. –Acceso a bases de datos: abrir/cerrar base de datos y realizar consulta. – envío de correo electrónico. –Generales: gestión de archivos, manejo de cadenas y operaciones aritméticas sencillas.

NUEVAS FUNCIONES INCORPORADAS  Gestión de elementos multimedia –Reproducción y parada de vídeos –Carga y descarga de imágenes –Grabación y reproducción de ficheros de voz  Gestión de agentes animados  Nuevas funciones para gestión línea telefónica  Entorno para depuración  Herramientas de generación de diccionarios  Ejecución de tareas lentas en modo asíncrono

APLICACIÓN DE PÁGINAS BLANCAS (I) Reconocimiento Empresa Reconocimiento 1 er Apellido 2º Apellido Nombre ¿Particular/Empresa? Reconocimiento Ciudad Bienvenida ACCESO A LA BASE DATOS ¿Operador?

APLICACIÓN DE PÁGINAS BLANCAS (II) ¿Es correcto? Se ofrece 1er candidato Reconocimiento de cada campo SIGUIENTE RECONOCIMIENTO Se ofrece 2º candidato NO ¿Es correcto? Se deletrea y se da el resultado NO ¿Es correcto? SI SI/NO SI

SISTEMA DE RECONOCIMIENTO  Base de datos de habla utilizada: –SpeechDat habla aislada –9609 palabras entrenamiento –3840 palabras reconocimiento  Arquitectura del sistema. En 2 etapas: –Preselección: elige los N candidatos más probables  Muy rápido –Verificación: de los N anteriores elige el mejor  Modelos más detallados  Más lento

SISTEMA DE RECONOCIMIENTO. ETAPA DE VERIFICACIÓN (I)  Modelos ocultos de Markov (HMM): –3 estados por alófono –Modelos de palabra (concatenando sus alófonos) –Modelado continuo (CHMM)  Cada estado usa distribuciones gaussianas ponderadas  Elevado número de parámetros  Lento –Modelado semicontinuo (SCHMM)  Todos los estados comparten un conjunto de gaussianas  Más rápido y sencillo de entrenar –Modelos dependientes e independientes del contexto

SISTEMA DE RECONOCIMIENTO. ETAPA DE VERIFICACIÓN (II)  Modelos independientes del contexto (IC) –No se tiene en cuenta los alófonos que rodean al considerado –Número de modelos reducido (45): se entrenan sin problema –Cuestiones a resolver:  ¿Cuántas distribuciones gaussianas se deben utilizar en cada estado?  Proporcional a los datos disponibles en el entrenamiento para ese estado.  La mejora frente a utilizar el mismo número de mezclas es de un 8%.  ¿Cuál es la forma óptima de incrementar el número de gaussianas?  Determinar cuál es la gaussiana más grande  Crear un nuevo centroide ligeramente desplazado respecto al original  Reasignar los vectores del estado a cada centroide  Proceso iterativo derivado del algoritmo k-means

SISTEMA DE RECONOCIMIENTO. ETAPA DE VERIFICACIÓN (III)  Modelos dependientes del contexto (DC) –Un modelo distinto para cada contexto del alófono (22.000)  Es necesario agrupar las unidades más similares (clustering) –Cuestiones a resolver  ¿Cuál es la mejor medida de distancia entre dos estados?  Nueva distancia basada en  Entropía al unir las dos gaussianas.  Objetivo: unir las gaussianas cuyo  Entropía sea mínimo.  Mejora del 12%.  ¿Cuál es la mejor manera de hacer el clustering? 1. Considerar modelos de una sola gaussiana. Al final, se incrementa el número de gaussianas por estado igual que con IC. 2. Seguir un enfoque iterativo: »Se agrupan estados »Se incrementa el número de gaussianas por estado »Se reestiman los modelos y se repite el proceso  La mejora de 2 es del 6% (18% para datos de entrenamiento)

EVALUACIÓN DEL SISTEMA (I)  Con usuarios finales no expertos –1420 consultas –Diccionarios de 1.000, excepto de en apellidos –Tasa global de obtención del número: 58.80%. –Duración media del diálogo:  84.2 seg. para teléfono de particular  62.4 seg. para teléfono de empresa

EVALUACIÓN DEL SISTEMA (II) –Alta confusabilidad entre las palabras del vocabulario:  Muchos errores se deben a un solo fonema mal reconocido –Otros problemas:  Fallos en el detector de principio y fin de palabra  No se entiende el nombre pronunciado por el conversor texto- voz

EVALUACIÓN DEL SISTEMA (III) SATISFACCIÓN DEL USUARIO –Cada usuario pedía 10 empresas y 10 particulares –58 cuestionarios recibidos: 39 hombres y 19 mujeres –Edades entre 14 y 51; 23.2 de media  Buenos resultados  Punto débil: Mejorar el proceso de corrección

CONCLUSIONES  El servicio funciona en tiempo real en un ordenador Pentium III–450Mhz  Se reduce el tiempo de operadora  Mejoras significativas de las tasas de reconocimiento utilizando modelos continuos y semicontinuos dependientes del contexto –Se han introducido nuevas técnicas en todas las etapas  Tasas de reconocimiento de laboratorio mejores que las del sistema real –Nivel de ruido muy elevado en las llamadas  Aceptación positiva por parte de los usuarios