UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
FACULTAD DE INGENIERIA Aplicaciones de la Transformada de Fourier : Procesamiento de señales de voz Matemáticas Avanzadas Grupo 6 Equipo Gibbs Galicia Jimenez Jonathan Gutiérrez Vera José Carlos Jose Silva Alma B. Semestre 21/noviembre/2006

¿Qué es la voz? Onda de sonido (onda de presión)
Producida por el aparato fonador Utilizada para comunicación (para transmisión de mensajes)

Problemas del procesamiento de voz
Variabilidad Intra-locutor (estado salud / ánimo, velocidad) Inter-locutor Adquisición Continuidad: concatenación Información contenida en la señal de voz muy redundante Multi-interactividad entre niveles: Nivel fonético Características suprasegmentales Nivel semántico: contexto – suplencia mental Ruido: perturbación + efecto Lombard

Variabilidad de las señales de voz
40 ms correspondientes al fonema /a/

Modelo acústico de producción de voz
Onda acústica: onda de presión en el aire con c = 350 m/s Longitud de onda l = c / f Para 100 Hz, l = 3.5 m Para 4 kHz, l = 8.75 cm Producción de sonido: Fonemas sonoros: vibración cuerdas vocales Fonemas sordos: flujo turbulento Fonemas oclusivos: obstrucción + apertura

Modelo acústico de producción de voz (II)
Paredes no rígidas: Pérdidas onda acústica Forma y sección del tracto vocal varía en el tiempo: Se producen entre 5 y 20 fonemas por segundo Acoplamiento de la cavidad nasal mediante desplazamiento del velo del paladar

Simplificaciones Tracto vocal tubo rígido descrito por la “función de área” A(x,t) Como l > radio del tubo, aproximación de onda plana (El problema de contorno tridimensional se puede reducir a un problema unidimensional) Se desprecian pérdidas por viscosidad, conducción térmica en aire y paredes del tubo

Función de área

es la velocidad del sonido, aproximadamente 350 [m/s]
Ecuaciones de onda es la variación de presión (respecto de la presión en el equilibrio) en el tubo, en la posición z e instante t es el flujo del aire (volumen de aire que por unidad de tiempo atraviesa la sección del tubo en la posición z e instante t ρ es la densidad del aire c es la velocidad del sonido, aproximadamente 350 [m/s] es la función de área, que describe el área en la sección transversal del tubo para la posición z e instante t

Pérdidas por elasticidad
mw masa/unid.long; bw cte. amortiguación kw cte. recuperación elástica Solución para: L = 17.5 cm A = cte = 5.0 cm2

Formantes Formantes: resonancias del tracto vocal
Por las dimensiones y la velocidad de propagación del sonido, aparece en promedio 1 formante por cada kHz El tracto vocal “filtra” la onda glotal: amplifica cada componente de frecuencia con una determinada ganancia

Pérdidas por radiación de onda
p(L) = 0 no es cierto Impedancia acústica Z Impedancia para abertura circular de radio a en plano infinito El filtrado del tracto vocal considerando las perdidas por radiación es distinto: Caída para altas frecuencias 6 dB / década

Solución numérica para función de área correspondiente a fonema /a/

Modelo acústico de producción de voz
Excitación Fonemas sonoros Fonemas sordos Fonemas oclusivos Filtrado por tracto vocal / nasal Formantes (1 por kHz) Caída 6 dB/década

Modelo digital de producción de voz

Características de la voz
Excitación: Sonoro (freq. fundamental o pitch) Sordo Oclusivo Combinación Formantes: Cavidad buco-nasal Envolvente espectral Energía: presión de aire Evolución en el tiempo de los parámetros

Análisis de señales de voz
Conceptos de procesado de señales Transformada de Fourier Componentes de frecuencia Espectro de potencia Filtrado Ventanas Muestreo Espectrogramas

Transformada de Fourier
Transformada (FT): Cambio de representación Misma información (otra representación) Existe transformada inversa (FT-1) Transforma señal compleja en señal compleja: Re(z) Im(z) x y r f

Espectro de potencia (1)

Espectro de potencia (2)

Descomposición en componentes freq.

Linealidad de la Transformada de Fourier

Filtrado Caracterización del filtro: Tiempo: respuesta impulsiva
excitación señal filtrada filtro Caracterización del filtro: Tiempo: respuesta impulsiva Frecuencia: función de transferencia (o respuesta en frecuencia)

Filtrado en el tiempo: convolución

Filtrado en frecuencia: multiplicación

Ventanas (multiplicación en tiempo)

Transformada de un tren de pulsos

Transformada de señal periódica

Muestreo de señales: T. de muestreo

DFT y FFT Transformada discreta de Fourier (DFT)
Transformada rápida de Fourier (FFT) Señales discretas (muestreadas) Ventana (resolución espectral) N muestras en t => N muestras en f FFT: Muy utilizada en procesamiento digital de señales

La señal de voz /sal/

La señal de voz /s/ /a/ /l/

Estacionariedad de la voz
La señal de voz es “estacionaria a trozos” Durante la pronunciación de un fonema es quasi-estacionaria Velocidad cambios tracto vocal Velocidad cambios cuerdas vocales Estacionaria durante 20 – 40 ms Velocidad de pronunciación: 5-20 fonemas / seg Análisis de “trozos de voz estacionarios”: ventanas

Análisis con ventanas

Espectro de las vocales
/i/ /a/ /o/ /a/ cerrada /u/ /e/

Formantes 1º y 2º en vocales
500 1000 1500 2000 2500 3000 200 300 400 600 700 800 900 freq. 2o formante (Hz) freq. 1er formante (Hz) /a/ /o/ /u/ /i/ /e/

Espectro de consonantes sonoras
/m/ /l/ /n/ /y/ /ñ/ /R/

Espectro de consonantes fricativas
/z/ /sh/ /f/ /ss/ /j/

Fonemas no estacionarios
Fonemas estacionarios: vocales: /a/ /e/ /i/ /o/ /u/ consonantes sonoras: /l/ /y/ /R/ /m/ /n/ /ñ/ consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/ Fonemas no estacionarios: Plosivas sordas: /p/ /t/ /k/ Plosivas sonoras: /b/ /d/ /g/ Otras consonantes: /ch/ /r/

Espectrograma (representación tiempo - frecuencia)

Espectrograma (representación tiempo - frecuencia)
m b o i a kom p r a R p a n

Ventana en el espectrograma: 64ms / 8 ms

Información relevante de la señal de voz:
Para reconocimiento de voz: Envolvente espectral (formantes) Evolución temporal de los formantes Información espectral de tiempo corto Información complementaria: Tono fundamental Estructura fina del espectro

Capacidad del oído humano
Resolución en frecuencia: 1/9 tono: fo *fo 450 Hz Hz rango de frecuencia: 20 Hz Hz Resolución en el tiempo: limitado por tiempo relajación de células ciliadas y terminaciones nerviosas (~400 disparos por seg.) Resolución en intensidad: Mejor de 1 dB Mecanismos de adaptación.

Glosario concatenar. (Del lat. concatenāre). 1. tr. Unir o enlazar unas cosas con otras. efecto Lombard-. El ruido de fondo, que hace que el esfuerzo realizado por las cuerdas vocales sea mayor, lo que modifica el proceso de producción de la voz. fonema. (Del gr. φώνημα, sonido de la voz). 1. m. Fon. Cada una de las unidades fonológicas mínimas que en el sistema de una lengua pueden oponerse a otras en contraste significativo tracto. (Del lat. tractus). 1. m. Espacio que media entre dos lugares. 2. m. Lapso de tiempo.

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO

Presentaciones similares

Presentación del tema: "UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO

Presentaciones similares

Presentación del tema: "UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback