La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE INGENIERIA Matemáticas Avanzadas Grupo 6 Equipo Gibbs Galicia Jimenez Jonathan Gutiérrez Vera José.

Presentaciones similares


Presentación del tema: "UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE INGENIERIA Matemáticas Avanzadas Grupo 6 Equipo Gibbs Galicia Jimenez Jonathan Gutiérrez Vera José."— Transcripción de la presentación:

1 UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE INGENIERIA Matemáticas Avanzadas Grupo 6 Equipo Gibbs Galicia Jimenez Jonathan Gutiérrez Vera José Carlos Jose Silva Alma B. Semestre /noviembre/2006 Aplicaciones de la Transformada de Fourier : Procesamiento de señales de voz

2 ¿Qué es la voz? Onda de sonido (onda de presión) Producida por el aparato fonador Utilizada para comunicación (para transmisión de mensajes)

3 Problemas del procesamiento de voz Variabilidad –Intra-locutor (estado salud / ánimo, velocidad) –Inter-locutor –Adquisición Continuidad: concatenación Información contenida en la señal de voz muy redundante Multi-interactividad entre niveles: –Nivel fonético –Características suprasegmentales –Nivel semántico: contexto – suplencia mental Ruido: perturbación + efecto Lombard

4 Variabilidad de las señales de voz 40 ms correspondientes al fonema /a/

5 Modelo acústico de producción de voz Onda acústica: onda de presión en el aire con c = 350 m/s Longitud de onda = c / f –Para 100 Hz, = 3.5 m –Para 4 kHz, = 8.75 cm Producción de sonido: –Fonemas sonoros: vibración cuerdas vocales –Fonemas sordos: flujo turbulento –Fonemas oclusivos: obstrucción + apertura

6 Paredes no rígidas: –Pérdidas onda acústica Forma y sección del tracto vocal varía en el tiempo: –Se producen entre 5 y 20 fonemas por segundo Acoplamiento de la cavidad nasal mediante desplazamiento del velo del paladar Modelo acústico de producción de voz (II)

7 Simplificaciones Tracto vocal tubo rígido descrito por la función de área A(x,t) Como > radio del tubo, aproximación de onda plana –(El problema de contorno tridimensional se puede reducir a un problema unidimensional) Se desprecian pérdidas por viscosidad, conducción térmica en aire y paredes del tubo

8 Función de área

9 Ecuaciones de onda es la variación de presión (respecto de la presión en el equilibrio) en el tubo, en la posición z e instante t es el flujo del aire (volumen de aire que por unidad de tiempo atraviesa la sección del tubo en la posición z e instante t ρ es la densidad del aire c es la velocidad del sonido, aproximadamente 350 [m/s] es la función de área, que describe el área en la sección transversal del tubo para la posición z e instante t

10 Pérdidas por elasticidad m w masa/unid.long; b w cte. amortiguación k w cte. recuperación elástica Solución para: L = 17.5 cm A = cte = 5.0 cm 2

11

12 Formantes Formantes: resonancias del tracto vocal Por las dimensiones y la velocidad de propagación del sonido, aparece en promedio 1 formante por cada kHz El tracto vocal filtra la onda glotal: amplifica cada componente de frecuencia con una determinada ganancia

13 Pérdidas por radiación de onda p(L) = 0 no es cierto Impedancia acústica Z Impedancia para abertura circular de radio a en plano infinito El filtrado del tracto vocal considerando las perdidas por radiación es distinto: Caída para altas frecuencias 6 dB / década

14

15 Solución numérica para función de área correspondiente a fonema /a/

16 Modelo acústico de producción de voz Excitación –Fonemas sonoros –Fonemas sordos –Fonemas oclusivos Filtrado por tracto vocal / nasal –Formantes (1 por kHz) –Caída 6 dB/década

17 Modelo digital de producción de voz

18 Características de la voz Excitación: –Sonoro (freq. fundamental o pitch) –Sordo –Oclusivo –Combinación Formantes: –Cavidad buco-nasal –Envolvente espectral Energía: presión de aire Evolución en el tiempo de los parámetros

19 Análisis de señales de voz Conceptos de procesado de señales –Transformada de Fourier –Componentes de frecuencia –Espectro de potencia –Filtrado –Ventanas –Muestreo –Espectrogramas

20 Transformada de Fourier Transformada (FT): –Cambio de representación –Misma información (otra representación) –Existe transformada inversa (FT -1 ) –Transforma señal compleja en señal compleja: Re(z) Im(z) x y r

21 Espectro de potencia (1)

22 Espectro de potencia (2)

23 Descomposición en componentes freq.

24 Linealidad de la Transformada de Fourier

25

26 Filtrado Caracterización del filtro: –Tiempo: respuesta impulsiva –Frecuencia: función de transferencia (o respuesta en frecuencia) filtro excitaciónseñal filtrada

27 Filtrado en el tiempo: convolución

28 Filtrado en frecuencia: multiplicación

29 Ventanas (multiplicación en tiempo)

30

31 Transformada de un tren de pulsos

32 Transformada de señal periódica

33 Muestreo de señales: T. de muestreo

34 DFT y FFT Transformada discreta de Fourier (DFT) Transformada rápida de Fourier (FFT) Señales discretas (muestreadas) Ventana (resolución espectral) N muestras en t => N muestras en f FFT: Muy utilizada en procesamiento digital de señales

35 La señal de voz /sal/

36 La señal de voz /s//a//l/

37 Estacionariedad de la voz La señal de voz es estacionaria a trozos –Durante la pronunciación de un fonema es quasi- estacionaria –Velocidad cambios tracto vocal –Velocidad cambios cuerdas vocales –Estacionaria durante 20 – 40 ms –Velocidad de pronunciación: 5-20 fonemas / seg –Análisis de trozos de voz estacionarios: ventanas

38 Análisis con ventanas

39

40 Espectro de las vocales /a/ /e/ /a/ cerrada /i/ /o/ /u/

41 Espectro de las vocales /a/ /e/ /a/ cerrada /i/ /o/ /u/

42 Formantes 1º y 2º en vocales freq. 2o formante (Hz) freq. 1er formante (Hz) /a/ /o/ /u/ /i/ /e/

43 Espectro de consonantes sonoras /l/ /R/ /y/ /m/ /n/ /ñ/

44 Espectro de consonantes fricativas /s/ /ss/ /sh/ /z/ /f/ /j/

45 Fonemas no estacionarios Fonemas estacionarios: –vocales: /a/ /e/ /i/ /o/ /u/ –consonantes sonoras: /l/ /y/ /R/ /m/ /n/ /ñ/ –consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/ Fonemas no estacionarios: –Plosivas sordas: /p/ /t/ /k/ –Plosivas sonoras: /b/ /d/ /g/ –Otras consonantes: /ch/ /r/

46 Espectrograma (representación tiempo - frecuencia)

47 m b o i a kom p r a R p a n

48 Ventana en el espectrograma: 64ms / 8 ms

49 Información relevante de la señal de voz: Para reconocimiento de voz: –Envolvente espectral (formantes) –Evolución temporal de los formantes Información espectral de tiempo corto Información complementaria: –Tono fundamental –Estructura fina del espectro

50 Capacidad del oído humano Resolución en frecuencia: 1/9 tono: –fo *fo450 Hz Hz –rango de frecuencia: 20 Hz Hz Resolución en el tiempo: –limitado por tiempo relajación de células ciliadas y terminaciones nerviosas (~400 disparos por seg.) Resolución en intensidad: –Mejor de 1 dB Mecanismos de adaptación.

51 Glosario concatenar. (Del lat. concatenāre). 1. tr. Unir o enlazar unas cosas con otras. efecto Lombard-. El ruido de fondo, que hace que el esfuerzo realizado por las cuerdas vocales sea mayor, lo que modifica el proceso de producción de la voz. fonema. (Del gr. φ νημα, sonido de la voz). 1. m. Fon. Cada una de las unidades fonológicas mínimas que en el sistema de una lengua pueden oponerse a otras en contraste significativo tracto. (Del lat. tractus). 1. m. Espacio que media entre dos lugares. 2. m. Lapso de tiempo.


Descargar ppt "UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO FACULTAD DE INGENIERIA Matemáticas Avanzadas Grupo 6 Equipo Gibbs Galicia Jimenez Jonathan Gutiérrez Vera José."

Presentaciones similares


Anuncios Google