RECONOCIMIENTO DEL HABLA EN AMBIENTES GSM Y RUIDOSOS: PROGRESO Y ENFOQUES FUTUROS Richard M.Stern con Xiang Li, Jon Nedel, Mike Seltzer, y Rita Singh.

Slides:



Advertisements
Presentaciones similares
Como crear y usar una rúbrica
Advertisements

También conocido como Diseño Lógico Rodrigo Salvatierra Alberú.
DISEÑO DE EXPERIMENTOS
Planificación de Monoprocesadores
CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?
KRIGING CON TENDENCIA.
Convertidores A/D y D/A
TRABAJO FIN DE CARRERA Generación de Máscaras Soft para Compensación de Características en Reconocimiento Robusto del Habla I v á n L ó p e z E s p.
Pruebas Orientadas a Objeto
MATRIZ DE CHEQUEO DE PARIDAD
PROYECTO FIN DE CARRERA.  Introducción y Motivación  Fundamentos del Sistema QbH  Diseño e Implementación  Test y Resultados  Conclusiones  Trabajo.
KRIGING.
Tema 3 Revisión de diversos métodos robustos aplicados en algunos problemas fotogramétricos.
PROYECTO FIN DE MÁSTER Estimación de Ruido Acústico Mediante Filtros de Partículas para Reconocimiento Robusto de Voz I v á n L ó p e z E s p e j o.
Preguntas abiertas.
Seleccionar una muestra
Capítulo 3 Etapas de un Proyecto de simulación
INVESTIGACIÓN CUANTITATIVA Y CUALITATIVA
Características de un Data Warehouse
Determinacion de endmembers CCA1 Determinación de endmembers mediante una transformacion cónica.
UNIVERSIDAD CATÓLICA DEL MAULE FACULTAD DE CIENCIAS DE LA INGENIERÍA ESCUELA DE INGENIERÍA CIVIL INFORMÁTICA PROFESOR GUÍA: HUGO ARAYA CARRASCO. ALUMNO.
Codificación Distribuida
Maracaibo, 5 de Noviembre de 2007 Universidad del Zulia Facultad de Ingeniería Instituto de Cálculo Aplicado Universidad del Zulia Facultad de Ingeniería.
Control estadístico de Proceso
2. ASYNCRONOUS TRANSFER MODE 2.1Características generales 2.2 Modelo de referencia del protocolo 2.3 Categorías de servicio ATM.
Población y Muestra.
Diseño de la investigación
Importancia de las aplicaciones de estadística en el control de procesos Guatemala 2010.
Sistemas decimal, binario, octal y hexadecimal
GRUPO DE INVESTIGACION EN CONTROL INDUSTRIAL
Inspecciones de Software
Mt. Martín Moreyra Navarrete.
Sesión 6: Campos de Markov
Tema 10.3: Asignación de Espacio No Contiguo. Tema 10.3: 2 Silberschatz, Galvin and Gagne ©2005 Fundamentos de los Computadores (ITT, Sist. Electr.),
(Organización y Manejo de Archivos)
Asignación de Espacio No Contiguo
Combinación de Clasificadores
Cómo adquirir programas
Perceptrón Multicapa Aplicaciones. Perceptrón Multicapa MLP Latitud Longitud... Altitud Radiación solar Aproximación de funciones MLP Estado de un reactor.
Investigación Experimental
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (I)
Unidad V: Estimación de
Datos: Estadística.
Metodología para solución de problemas
Inferencia Estadística
Concepto Según la estrategia de medidas repetidas, las unidades son observadas a lo largo de una serie reducida de intervalos de tiempo u ocasiones.
Análisis y Diseño de Algoritmos
Una introducción a la computación evolutiva
Repaso de clase anterior
MÉTODOS DE EVALUACIÓN DEL DESEMPEÑO
Definición del alcance de la investigación a realizar: Exploratoria, descriptiva, correlacional o explicativa.
Introducción a la Robótica mecanismos avanzados Coordinación de Ciencias Computacionales, INAOE Dra Angélica Muñoz Dr Eduardo Morales
Explicar las causas que afectan la calidad. Una vez definidos y seleccionados correctamente los problemas en la gran mayoría de casos es preciso recopilar.
Aproximaciones y Errores
Sample-Based Quality Estimation of Query Results in Relational Database Environments Donald P. Ballou InduShobha N. Chengalur-Smith Richard Y. Wang.
Ciclo de vida de un sistema
TIPOS DE PRUEBAS DEL SOFTWARE
Dr. Genichi Taguchi.
Desarrollo de lógica algorítmica.
Investigación cualitativa e Investigación cuantitativa
DISTRIBUCIÓN DE PLANTAS.
DETECCION DE SEÑALES BINARIAS EN RUIDO GAUSSIANO El criterio de toma de decisión fue descrito por la ecuación Un criterio muy usado para escoger el nivel.
DETECCION DE PSK DIFERENCIAL El nombre de PSK diferencial (DPSK) algunas veces necesita clarificación, debido a dos aspectos separados del formato de.
INFERENCIA ESTADÍSTICA
OPTIMIZACION DEL DESEMPEÑO DE ERROR
INGENIERIA EN SISTEMAS FUNDAMENTOS DE COMPUTACION B ACHILLERATO EN I NGENIERÍA I NFORMÁTICA L IC. C ARLOS H. G UTIÉRREZ L EÓN.
Taller de investigación 1
Tema 18: Procesamiento de la información y Análisis de resultados Docente Lic. Elva Villar Garnica.
PSP1 Lección 5: Estimaciones de tiempo y tamaño. Objetivos  ¿Qué es PSP? Alcance y necesidad.
Teoría de la Generalizabilidad
Transcripción de la presentación:

RECONOCIMIENTO DEL HABLA EN AMBIENTES GSM Y RUIDOSOS: PROGRESO Y ENFOQUES FUTUROS Richard M.Stern con Xiang Li, Jon Nedel, Mike Seltzer, y Rita Singh Department of Electrical and Computer Engineering and School of Computer Science Carnegie Mellon University Pittsburgh, Pennsylvania Teléfono: (412) Fax: (412) Febrero, 2002

Carnegie Mellon Slide 2ECE and SCS Robust Speech Group Reuniones previos en este serie 29 Enero 1999, Madrid 30 Novembre 1999, Pittsburgh 10 Julio 2000, Madrid 6 Febrero 2001, Pittsburgh 16 Octubre 2001, Pittsburgh 12 Febrero 2002, Madrid

Carnegie Mellon Slide 3ECE and SCS Robust Speech Group Agenda para hoy Temas de hoy: –Entrenamiento en paralelo (Singh) –Normalización de la duración de voz espontánea (Nedel) –Técnicas de parámetros perdidos (Seltzer, Li, Raj) –Combinación de los grupos complementarios de parámetros (Singh, Li) Otras temas no discutido hoy en detalle: –Progreso “clásico” en codificación GSM (Huerta) –Reconocimiento de voz codificada (Singh) –Arreglos de micrófonos usando parámetros óptimos (Seltzer) Discusión general

Carnegie Mellon Slide 4ECE and SCS Robust Speech Group Entrenamiento en paralelo: el problema El entrenamiento consiste en la interacción de dos pasos: –Estimación de las fronteras de los estados de los segmentos usando estimaciones conocidas (fronteras “dura” por Baum Welch –Estimación de nuevos parámetros distribuidos para los estados, a partir de los datos dentro estados de los segmentos estimados En ruido, la determinación de las fronteras de los segmentos es difícil –Resultados muestran falta de datos de otros estados en cualquier estado, con la consecuente estimación pobre de los parámetros distribuidos del estado Nueva estimación de las fronteras de los segmentos con pobres modelos estimados es lo que alivia este problema

Carnegie Mellon Slide 5ECE and SCS Robust Speech Group Entrenamiento en paralelo: la solución Use datos en paralelo limpios para estimar las fronteras entre segmentos Use las estimaciones de las fronteras con datos limpios y con voz ruidosa, para calcular los modelos de voz ruidosa

Carnegie Mellon Slide 6ECE and SCS Robust Speech Group Entrenamiento en paralelo: experimentos Habla limpio fue corrompido por 5 tipos de ruido aditivo Ficheros usado para corromper los datos de de entrenimiento y prueba fueron diferentes Ejemplos: –Limpio –Bares –Metro –Música –Tráfico

Carnegie Mellon Slide 7ECE and SCS Robust Speech Group Detalles de los experimentos CD-HMMs con 8 gausianos/estado 400 tied states Topología HMM con tres estados sin saltar Entrenamiento con 4 horas de datos (3458 frases) Prueba con 2 horas de datos (1728 frases)

Carnegie Mellon Slide 8ECE and SCS Robust Speech Group Promedios de las relaciones señal a ruido Relación señal a ruido, dB: BaresMetroMúsicaTránsito Entrene miento Prueba

Carnegie Mellon Slide 9ECE and SCS Robust Speech Group Relación señal a ruido, datos bares Entrenamiento:Prueba:

Carnegie Mellon Slide 10ECE and SCS Robust Speech Group Entrenamiento en paralelo: resultados Entrenemiento Limpio Paralelo Paralelo_SNR Tasa de error con entrenamientos diferentes: Igualido

Carnegie Mellon Slide 11ECE and SCS Robust Speech Group Resumen: entrenamiento paralelo El Entrenamiento paralelo pueda bajar la tasa de error mucho … pero …. La tasa de error depende en la relación señal a ruido La tasa de error depende en alinear los dos fuentes de habla La codificación dispersa las representaciones de las señales Comentario: Necesitamos un base de datos de con habla limpio y habla codificado en el ruido para resolvar este tema

Carnegie Mellon Slide 12ECE and SCS Robust Speech Group Normalización de duración Proceso de normalización de la duración Resultados usando la segmentación de oracle Aspectos de la base de datos Técnicas propuestas de segmentación automática

Carnegie Mellon Slide 13ECE and SCS Robust Speech Group Es problemático modelar la duración de fonemas espontáneos con HMMs HMMs no modelan bien la duración de fonemas en voz natural –las probabilidades de transición tienen poco impacto en la hipótesis final –la información sobre la duración derivada de las probabilidades de transición no corresponden en forma precisa con las medidas de duración (Siegler & Stern) Cada vez que se produce un fonema en habla continua, se produce con diferente duración –dependiendo en el contexto fonético, registro de voz, velocidad de la voz y énfasis, etc.

Carnegie Mellon Slide 14ECE and SCS Robust Speech Group Normalización de la duración y HMMs Efectos de la normalización de la duración: –la duración de los fonemas se convierte a determinística –se reducen las variaciones del modelo en los fonemas –se mejora la precisión en el reconocimiento de voz espontánea

Carnegie Mellon Slide 15ECE and SCS Robust Speech Group Para fonemas cortos, se expande el fonema en tiempo y se reconstruyen las porciones “perdidas” usando métodos basados en correlación tt ff ttt fff Como se normaliza la duración Para fonemas largos, se submuestrea la secuencia de tramas

Carnegie Mellon Slide 16ECE and SCS Robust Speech Group natural durations normalized durations Ejemplo de voz antes y después de normalización de la duración

Carnegie Mellon Slide 17ECE and SCS Robust Speech Group TID baseline: 8.4% WER Normalized duration: 5.3% WER Relative Improvement: 36.9% Normalización de la duración en TID (actual) [7634 palabras de prueba]: TID baseline: 5.3% WER Normalized duration: 3.7% WER Relative Improvement: 30.2% Resultados de los experimentos usando límites de oracle en los fonemas Normalización de la duración en TID (marzo) [13086 palabras de prueba]:

Carnegie Mellon Slide 18ECE and SCS Robust Speech Group Problemas en la base de datos Ejemplos problemáticos: –[palvoc] = second voice pronounces words in the vocab –[bas] = intelligible OOV words –[vocess] = unintelligible voices –[pac] = cut off word Ejemplos: –[bas] siete euros y veinti nueve [bas] (2094M006) –[bas] quinientos veinti cinco [bas] (2263S129)

Carnegie Mellon Slide 19ECE and SCS Robust Speech Group Problemas en la base de datos (2) Los resultados de WER usando transcripciones de referencia que contienen puntos problemáticos no reflejan que la normalización de la duración sea efectiva en la base de TI+D Se han reducido los conjuntos de entrenamiento y de prueba en un 50% para extraer repeticiones cuestionables Idealmente, todas las repeticiones con puntos problemáticos deben ser transcritas nuevamente para incluir texto adecuado en todas las palabras inteligibles Pregunta: –¿ Cómo quiere Telefónica que se manejen y se prueben estas repeticiones ?

Carnegie Mellon Slide 20ECE and SCS Robust Speech Group El problema de segmentación El mejorar las fronteras de segmentación resultará en mejorar la tasa de reconocimiento

Carnegie Mellon Slide 21ECE and SCS Robust Speech Group Estimación de fronteras Técnicas propuestas: –Segmentación jerárquica –Segmentación basada en el conocimiento (Knowledge-based segmentación ) –Segmentación mejorada y basada en HMM También se trabaja en combinar estas técnicas –Segmentación de alta calidad –Medida de verosimilitud para estimar cada frontera

Carnegie Mellon Slide 22ECE and SCS Robust Speech Group Dendograma: una representación multinivel que permite al sistema capturar cambios graduales y abruptos de la señal Estimación de fronteras: Segmentación jerárquica

Carnegie Mellon Slide 23ECE and SCS Robust Speech Group Dendrograma: Ejemplo de segmentación El dendrograma proporciona segmentación correcta

Carnegie Mellon Slide 24ECE and SCS Robust Speech Group Dendrograma: Aspectos a resolver El dendrograma proporciona una segmentación adecuada Procedimiento propuesto para obtener una segmentación adecuada: –Enumerar las posibles segmentaciones –Reducir segmentaciones usando el criterio de longitud en éstas –Aplicar la normalización de la duración y decodificación a las segmentaciones restantes –Escoger la hipótesis correcta con una función objetivo Posible función objetivo: –Verosimilitud normalizada de las hipótesis resultantes (para compensar el número variable de tramas en las distintas segmentaciones)

Carnegie Mellon Slide 25ECE and SCS Robust Speech Group Estimación de fronteras: Segmentación basada en HMM enfocado en el centro del fonema La región central de un fonema es generalmente más estable que las transiciones entre fonemas Hipótesis: el método de normalización de la duración no es tan sensible a las fronteras obtenidas con el método del centro del fonema

Carnegie Mellon Slide 26ECE and SCS Robust Speech Group Estimación de fronteras: Segmentación mejorada y basada en HMM Se usan HMMs y el algoritmo de Viterbi para proponer una segmentación de fonemas hipóteticos La búsqueda consiste en salir del estado final de algunos fonemas en tiempos inapropiados Se entrenan las penalidades de salida dependientes del contexto en la gráfica de búsqueda de Viterbi para mejorar las ubicaciones de las fronteras

Carnegie Mellon Slide 27ECE and SCS Robust Speech Group +voicing-voicing -obstruent+obstruent-sonorant+sonorant Estimación de fronteras: Segmentación basada en el conocimiento Se pretende usar medidas de coherencia espectral para segmentar la voz en unidades básicas consistentes Separemos la voz en bandas de frecuencia técnicas de detección landmark y usar características que dependen en el contexto

Carnegie Mellon Slide 28ECE and SCS Robust Speech Group Resumen: normalización de duración El método de normalización de la duración es viable para la base TI+D ( tiene un potencial de 30% de mejora relativa para un sistema base con WER de 5.3%) Se requiere resolver los ejemplos problemáticos Se ha construido redes basadas en dendogramas que contienen las segmentaciones correctas Se está trabajando en encontrar una forma automática de extraer las segmentaciones adecuadas Se han propuesto otros esquemas de segmentación Hemos mejorado la tasa de identificar fronteras de fonemas, pero no bastante para mejorar la tasa de error

Carnegie Mellon Slide 29ECE and SCS Robust Speech Group Llenado de parámetros perdidos En Carnegie Mellon se modifican los parámetros de entrada en lugar de los modelos internos (esto último es lo realizado en Sheffield) ¿Por qué se modifican los parámetros de entrada? –Un conjunto de parámetros más flexible (pueden usarse parámetros cepstral en lugar de log spectral) –Un procesamiento más simple –No hay necesidad de modificar el reconocedor

Carnegie Mellon Slide 30ECE and SCS Robust Speech Group Reconocimiento usando cepstra compensado y voz contaminada por ruido blanco Mejoras substanciales en el reconocimiento se obtienen al reconstruir regiones corruptas en espectogramas con voz ruidosa Se requiere de la localización de parámetros “perdidos” SNR (dB) Accuracy (%) Cluster Based Recon. Temporal Correlations Spectral Subtraction Baseline

Carnegie Mellon Slide 31ECE and SCS Robust Speech Group Reconocimiento con máscaras Voz más ruido blanco:

Carnegie Mellon Slide 32ECE and SCS Robust Speech Group Reconocimiento con máscaras Voz más ruido de fábricas

Carnegie Mellon Slide 33ECE and SCS Robust Speech Group Reconocimiento con máscaras Voz más música:

Carnegie Mellon Slide 34ECE and SCS Robust Speech Group Reconocimiento de la base de Telefónica con ruido de tráfico Algoritmos de parámetros perdidos mejora la WER para SNRs bajas:

Carnegie Mellon Slide 35ECE and SCS Robust Speech Group Procesamiento del vector diferencia del espectro Baseline MF Classifier Spec sub MF SpecSub Oracle Reconocimiento con caracteristícas perdidas: Mas resultados con el base de datos rueda

Carnegie Mellon Slide 36ECE and SCS Robust Speech Group Combinación de caracteristícas en entornos difíciles Motivación: A medida que el ambiente es más ruidoso las personas que escuchan obtienen información adicional de la señal deseada Premisa: Cuando los ambientes ruidosos están fuera de nuestro control es mejor extraer más información de la señal que del ruido –Hay que analizar la señal desde diferentes perspectivas Múltiples perspectivas de la señal equivalen a multiples características que la representan Se combinan hipótesis de reconocimiento de las representaciones paralelas de la señal

Carnegie Mellon Slide 37ECE and SCS Robust Speech Group CARACTERÍSTICAS PARALELAS PARA AMBIENTES RUIDOSOS En el 2000, el reconocimiento se realizó en la base TI&D usando características seleccionadas ad-hoc Algunos resultados previos son: 1. MFC 2. MFC with wide filters 3. Different version of MFC 4. PLP 5. Zsynch from Harmonics 6. Zsynch from center freqs Combination of 1 and 3 Combination of 1, 3 and 4 Combination of 1 and 5 Combination of 1, 4 and 5 Combination of 1 and 6 Combination of 1, 4 and Feature WER(%)

Carnegie Mellon Slide 38ECE and SCS Robust Speech Group Confirmed Northwest South SouthwestFireandgo COMBINACIÓN DE HIPÓTESIS EN EL 2000 Las hipótesis en paralelo se generaron y combinaron –Se añadieron lazos entre las hipótesis en las transiciones con tiempos comunes de transición –La gráfica de búsqueda se formó de la siguiente manera usando LM

Carnegie Mellon Slide 39ECE and SCS Robust Speech Group SISTEMAS DE COMBINACIÓN EN PARALELO Se generalizan las combinaciones de hipótesis Combinaciones de hipótesis o combinaciones de enrejados (lattice) –Las salidas del reconocimiento se combinan de sistemas múltiples en una gráfica (para combinaciones de hipótesis) o en grandes gráficas (para combinaciones de enrejados) Se obtienen características de una forma más adecuada –Basada en la forma de combinar características

Carnegie Mellon Slide 40ECE and SCS Robust Speech Group eigvec1 eigvec2 eigvec1 eigvec2 Convencional : todas las clases son igualmente importantes Características LDA: algunas clases son más importantes que otras CARACTERÍSTICAS PARALELAS En LDA se rotan los vectores a un espacio donde las clases de vectores están separadas en forma máxima. El nuevo espacio depende de la clases ya definidas.

Carnegie Mellon Slide 41ECE and SCS Robust Speech Group eigvec1 eigvec2 eigvec1 eigvec2 Convencional : todas las clases son igualmente importantes Características LDA : algunas clases son más importantes que otras CARACTERÍSTICAS PARALELAS Las clases pueden ser, subpalabras, estados HMM,.etc –Idealmente éstas serían las clases en el nivel donde se combinan los valores –hemos escogido subpalabras como clases

Carnegie Mellon Slide 42ECE and SCS Robust Speech Group Logspectra de dimensión 40 [CH JH SH S Z] [D T] [R ER] [SIL NOISE] [AA AW AO OW AE O AX AY E EH] [SIL NOISE] CARACTERÍSTICAS PARALELAS : EJEMPLO

Carnegie Mellon Slide 43ECE and SCS Robust Speech Group Logspectra de dimensión 40 LDA proyectada a 13 dim Con las clases clave: [CH JH SH S Z] [D T] [R ER] [SIL NOISE] LDA proyecteda a 13 dim Con las clases clave: [AA AW AO OW AE O AX AY E EH] [SIL NOISE] Paso de eliminación de ruido Espacio klt de 20 dim, vec propios calculados de datos de entrenamiento limpios CARACTERÍSTICAS PARALELAS : EJEMPLO

Carnegie Mellon Slide 44ECE and SCS Robust Speech Group Combinaciones de hipótesis y de enrejados Tasas de error con datos de TI+D