UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE INGENIERIA Aplicaciones de la Transformada de Fourier : Procesamiento de señales de voz Matemáticas Avanzadas Grupo 6 Equipo Gibbs Galicia Jimenez Jonathan Gutiérrez Vera José Carlos Jose Silva Alma B. Semestre 2007 - 1 21/noviembre/2006
¿Qué es la voz? Onda de sonido (onda de presión) Producida por el aparato fonador Utilizada para comunicación (para transmisión de mensajes)
Problemas del procesamiento de voz Variabilidad Intra-locutor (estado salud / ánimo, velocidad) Inter-locutor Adquisición Continuidad: concatenación Información contenida en la señal de voz muy redundante Multi-interactividad entre niveles: Nivel fonético Características suprasegmentales Nivel semántico: contexto – suplencia mental Ruido: perturbación + efecto Lombard
Variabilidad de las señales de voz 40 ms correspondientes al fonema /a/
Modelo acústico de producción de voz Onda acústica: onda de presión en el aire con c = 350 m/s Longitud de onda l = c / f Para 100 Hz, l = 3.5 m Para 4 kHz, l = 8.75 cm Producción de sonido: Fonemas sonoros: vibración cuerdas vocales Fonemas sordos: flujo turbulento Fonemas oclusivos: obstrucción + apertura
Modelo acústico de producción de voz (II) Paredes no rígidas: Pérdidas onda acústica Forma y sección del tracto vocal varía en el tiempo: Se producen entre 5 y 20 fonemas por segundo Acoplamiento de la cavidad nasal mediante desplazamiento del velo del paladar
Simplificaciones Tracto vocal tubo rígido descrito por la “función de área” A(x,t) Como l > radio del tubo, aproximación de onda plana (El problema de contorno tridimensional se puede reducir a un problema unidimensional) Se desprecian pérdidas por viscosidad, conducción térmica en aire y paredes del tubo
Función de área
es la velocidad del sonido, aproximadamente 350 [m/s] Ecuaciones de onda es la variación de presión (respecto de la presión en el equilibrio) en el tubo, en la posición z e instante t es el flujo del aire (volumen de aire que por unidad de tiempo atraviesa la sección del tubo en la posición z e instante t ρ es la densidad del aire c es la velocidad del sonido, aproximadamente 350 [m/s] es la función de área, que describe el área en la sección transversal del tubo para la posición z e instante t
Pérdidas por elasticidad mw masa/unid.long; bw cte. amortiguación kw cte. recuperación elástica Solución para: L = 17.5 cm A = cte = 5.0 cm2
Formantes Formantes: resonancias del tracto vocal Por las dimensiones y la velocidad de propagación del sonido, aparece en promedio 1 formante por cada kHz El tracto vocal “filtra” la onda glotal: amplifica cada componente de frecuencia con una determinada ganancia
Pérdidas por radiación de onda p(L) = 0 no es cierto Impedancia acústica Z Impedancia para abertura circular de radio a en plano infinito El filtrado del tracto vocal considerando las perdidas por radiación es distinto: Caída para altas frecuencias 6 dB / década
Solución numérica para función de área correspondiente a fonema /a/
Modelo acústico de producción de voz Excitación Fonemas sonoros Fonemas sordos Fonemas oclusivos Filtrado por tracto vocal / nasal Formantes (1 por kHz) Caída 6 dB/década
Modelo digital de producción de voz
Características de la voz Excitación: Sonoro (freq. fundamental o pitch) Sordo Oclusivo Combinación Formantes: Cavidad buco-nasal Envolvente espectral Energía: presión de aire Evolución en el tiempo de los parámetros
Análisis de señales de voz Conceptos de procesado de señales Transformada de Fourier Componentes de frecuencia Espectro de potencia Filtrado Ventanas Muestreo Espectrogramas
Transformada de Fourier Transformada (FT): Cambio de representación Misma información (otra representación) Existe transformada inversa (FT-1) Transforma señal compleja en señal compleja: Re(z) Im(z) x y r f
Espectro de potencia (1)
Espectro de potencia (2)
Descomposición en componentes freq.
Linealidad de la Transformada de Fourier
Linealidad de la Transformada de Fourier
Filtrado Caracterización del filtro: Tiempo: respuesta impulsiva excitación señal filtrada filtro Caracterización del filtro: Tiempo: respuesta impulsiva Frecuencia: función de transferencia (o respuesta en frecuencia)
Filtrado en el tiempo: convolución
Filtrado en frecuencia: multiplicación
Ventanas (multiplicación en tiempo)
Ventanas (multiplicación en tiempo)
Transformada de un tren de pulsos
Transformada de señal periódica
Muestreo de señales: T. de muestreo
DFT y FFT Transformada discreta de Fourier (DFT) Transformada rápida de Fourier (FFT) Señales discretas (muestreadas) Ventana (resolución espectral) N muestras en t => N muestras en f FFT: Muy utilizada en procesamiento digital de señales
La señal de voz /sal/
La señal de voz /s/ /a/ /l/
Estacionariedad de la voz La señal de voz es “estacionaria a trozos” Durante la pronunciación de un fonema es quasi-estacionaria Velocidad cambios tracto vocal Velocidad cambios cuerdas vocales Estacionaria durante 20 – 40 ms Velocidad de pronunciación: 5-20 fonemas / seg Análisis de “trozos de voz estacionarios”: ventanas
Análisis con ventanas
Análisis con ventanas
Espectro de las vocales /i/ /a/ /o/ /a/ cerrada /u/ /e/
Espectro de las vocales /i/ /a/ /o/ /a/ cerrada /u/ /e/
Formantes 1º y 2º en vocales 500 1000 1500 2000 2500 3000 200 300 400 600 700 800 900 freq. 2o formante (Hz) freq. 1er formante (Hz) /a/ /o/ /u/ /i/ /e/
Espectro de consonantes sonoras /m/ /l/ /n/ /y/ /ñ/ /R/
Espectro de consonantes fricativas /z/ /sh/ /f/ /ss/ /j/
Fonemas no estacionarios Fonemas estacionarios: vocales: /a/ /e/ /i/ /o/ /u/ consonantes sonoras: /l/ /y/ /R/ /m/ /n/ /ñ/ consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/ Fonemas no estacionarios: Plosivas sordas: /p/ /t/ /k/ Plosivas sonoras: /b/ /d/ /g/ Otras consonantes: /ch/ /r/
Espectrograma (representación tiempo - frecuencia)
Espectrograma (representación tiempo - frecuencia) m b o i a kom p r a R p a n
Ventana en el espectrograma: 64ms / 8 ms
Información relevante de la señal de voz: Para reconocimiento de voz: Envolvente espectral (formantes) Evolución temporal de los formantes Información espectral de tiempo corto Información complementaria: Tono fundamental Estructura fina del espectro
Capacidad del oído humano Resolución en frecuencia: 1/9 tono: fo - 1.013*fo 450 Hz - 456 Hz rango de frecuencia: 20 Hz - 20.000 Hz Resolución en el tiempo: limitado por tiempo relajación de células ciliadas y terminaciones nerviosas (~400 disparos por seg.) Resolución en intensidad: Mejor de 1 dB Mecanismos de adaptación.
Glosario concatenar. (Del lat. concatenāre). 1. tr. Unir o enlazar unas cosas con otras. efecto Lombard-. El ruido de fondo, que hace que el esfuerzo realizado por las cuerdas vocales sea mayor, lo que modifica el proceso de producción de la voz. fonema. (Del gr. φώνημα, sonido de la voz). 1. m. Fon. Cada una de las unidades fonológicas mínimas que en el sistema de una lengua pueden oponerse a otras en contraste significativo tracto. (Del lat. tractus). 1. m. Espacio que media entre dos lugares. 2. m. Lapso de tiempo.