La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema3.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Presentaciones similares


Presentación del tema: "Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema3.ppt Dpto. Señales, Sistemas y Radiocomunicaciones."— Transcripción de la presentación:

1 Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema3.ppt Dpto. Señales, Sistemas y Radiocomunicaciones

2 Técnicas de Análisis de la Señal de Voz Análisis Localizado Concepto Análisis en el Tiempo: Energía Tasa de Cruces por Cero Autocorrelación Análisis en Frecuencia: Transformada Localizada de Fourier Análisis Cepstral Estima de la Frecuencia Fundamental

3 Técnicas de Análisis de la Señal de Voz Análisis Localizado Concepto s[n] : señal de voz w[n]: ventana de análisis n0 w[n] s[n] n w[M-n]w[2M-n]w[3M-n] Técnica de Análisis : T{ }

4 Técnicas de Análisis de la Señal de Voz Parámetros Básicos del Análisis Localizado (I) Tipo de Ventana: Hamming, Hanning, Rectangular, Triangular,.. Técnica de Análisis : T{ } Ventana de Hamming

5 Técnicas de Análisis de la Señal de Voz Parámetros Básicos del Análisis Localizado (II) Tamaño de la Ventana : N Desplazamiento de la Ventana: M s[n] n w[M-n]w[2M-n]w[3M-n] N M

6 Técnicas de Análisis de la Señal de Voz Análisis Localizado en el Tiempo E[m]: Energía Localizada

7 Técnicas de Análisis de la Señal de Voz

8 Análisis Localizado en el Tiempo Tcc[m]: Tasa de Cruces por Cero (relación Energía AF / BF)

9 Técnicas de Análisis de la Señal de Voz Análisis Localizado en el Tiempo E[m] : Energía Localizada Tcc[m]: Tasa de Cruces por Cero DETECTOR DE VOZ / RUIDO (VAD: Voice Activity Detector) Codificación (Ejemplo GSM: reducir interferencias, ahorro batería) Reconocimiento (mayor eficiencia, evitar falsos reconocimientos) CLASIFICACIÓN DE SONIDOS Aplicaciones

10 Técnicas de Análisis de la Señal de Voz Análisis Localizado en el Tiempo R m [k] : Autocorrelación

11 Técnicas de Análisis de la Señal de Voz Análisis Localizado en el Tiempo R m [k] : Autocorrelación

12 Técnicas de Análisis de la Señal de Voz Análisis en Frecuencia: Transformada Localizada de Fourier: Interpretación 1: T. Fourier de la señal enventanada Interpretación 2: Banco de Filtros

13 Técnicas de Análisis de la Señal de Voz Punto de Vista TF: (agrupar s[]·w[] ó tiempo fijo) Secuencia de DFTs para diferentes posiciones de la ventana w[n-m] Punto de vista Banco de Filtros: ( agrupar s[n]e -j n ó frecuencia fija) Considerar w[n] como filtro paso-bajo s[n]e -j n como modulacíon: desplazamiento del espectro de s[n] en

14

15

16

17

18

19

20

21 Técnicas de Análisis de la Señal de Voz ESPECTROGRAMAS (Sonogramas) Representación Tiempo-Frecuencia Análisis de Banda Ancha - Banda Estrecha

22 Técnicas de Análisis de la Señal de Voz Análisis Homomórfico: Cepstrum Finalidad: El análisis cepstral proporciona un camino para separar excitación y respuesta del filtro (tracto vocal) El punto de partida es: considerar un segmento sonoro como convolución entre: e[n] – señal de excitación glotal h[n] – respuesta al impulso del tracto vocal

23 Técnicas de Análisis de la Señal de Voz Análisis Homomórfico: Cepstrum Cepstrum Real: Por tanto, recordando que: Separables en el dominio n (quefrencia) por filtrado (liftering) Y las características de: - E(w) : armónico - H(w) : envolvente marcada por formantes

24 Técnicas de Análisis de la Señal de Voz Análisis Homomórfico: Cepstrum Separables en el dominio n (quefrencia) por filtrado (liftering) Periodo Fundamental

25 Mel-scaled Cepstral Coefficients (MFCC) para Reconocimiento de Voz Pre-EmphasisFrame-blockingFFT Mel-scalingDCT Vectores de Características

26

27

28 Cepstral Coefficients

29 MFCC curso: Joseph Picone Recall our filterbank, which we construct in mel- frequency domain using a triangularly-shaped weighting function applied to mel-transformed log- magnitude spectral samples:

30 MFCC curso: Joseph Picone After computing the DFT, and the log magnitude spectrum (to obtain the real cepstrum), we compute the filterbank outputs, and then use a discrete cosine transform

31 MFCC curso: Joseph Picone Note that the triangular weighting functions are applied directly to the magnitude spectrum, and then the logarithm is taken after the spectral samples are averaged. The resulting coefficients are an approximation to the the cepstrum, and in reality simply represent an orthogonal and compact representation of the log magnitude spectrum. We typically use 24 filterbank samples at an 8 kHz sampling frequency, and truncate the DCT to 12 MFCC coefficients. Adding energy gives us a total of 13 coefficients for our base feature vector. 24 filterbank samples13 coefficients24 filterbank samples13 coefficients

32 Técnicas de Análisis de la Señal de Voz Predicción Lineal Predecir s(n) a partir de s(n-1)..s(n-M) s(n) f { s(n-1), s(n-2),... s(n-M)} Proporciona un modelo de s(n) Si, la función f{ } es lineal, hablamos de Predicción Lineal

33 Predecir s(n) a partir de s(n-1)..s(n-M) s(n) f { s(n-1), s(n-2),... s(n-M)} Proporciona un modelo de s(n) Si, la función f{ } es lineal, hablamos de Predicción Lineal Predicción Lineal

34 s(n) a 1 s(n-1) + a 2 s(n-2) +.. a P s(n-P) {a 1, a 2,... a P }: Coeficientes de Predicción e(n) = s(n) - a i s(n-i) : Error de Predicción Predicción Lineal

35 e(n) = s(n) - a i s(n-i) => s(n) = e(n) + a i s(n-i) Proporciona un modelo para s(n): a i z -i e(n) s(n) Predicción Lineal

36 Interpretación del modelo: e(n) : excitación (no predecible a corto plazo) {a i } (i=1,2.. P) : tracto vocal a i z -i e(n) s(n) Predicción Lineal

37 Interpretaciones: e(n): Error de predicción Excitación del modelo {a i } (i=1,2.. P) : Coef. de Predicción Filtro del Tracto Vocal Predicción Lineal

38 Conclusiones: –Podemos encontrar un filtro que represente al tracto vocal resolviendo el problema de Predicción Lineal –Con ese filtro podemos obtener e(n): 1 - a i z -i s(n)e(n) Predicción Lineal

39 Resolución numérica: Encontrar {a i } ( i=1,2.. P ) que minimicen el Error de Predicción => (su Energía) Ep Ep = {e(n)} 2 = {s(n) - a i s(n-i) } 2 Predicción Lineal

40 Ep = {e(n)} 2 = {s(n) - a i s(n-i) } 2 Para cada a k : Ep / a k = 0 k = 1,2,... P Sistema de P ecuaciones LINEALES con P incógnitas. Predicción Lineal

41 Ep = {e(n)} 2 = {s(n) - a i s(n-i) } 2 dEp / a k = 0 2 {s(n) - a i s(n-i) }{- s(n-k)} = 0 {s(n) s(n-k)} = a i {s(n-i) s(n-k)} R s (|k|) R s (|k-i|) Predicción Lineal

42 R s (|k|) = a i R s (|k-i|) : para k=1,2,... P R s (|1|) = a 1 R s (0) + a 2 R s (1) +... a P R s (P-1) R s (|2|) = a 1 R s (1) + a 2 R s (0) +... a P R s (P-2) R s (|P|) = a 1 R s (P-1) +... a P R s (0) Predicción Lineal

43 En forma matricial... R s (|1|) R s (0) R s (1)... R s (P-1) a 1 R s (|2|) R s (1) R s (0)... R s (P-2) a R s (|P|) R s (P-1)... R s (0) a P r = R a ==> a = R -1 r (R toepliz) = Predicción Lineal

44 CEPSTRUM LPC

45 Características y Técnicas de Análisis ESTIMA DE LA FRECUENCIA FUNDAMENTAL Decisión sobre si el segmento es sonoro o no Para segmentos sonoros: Estimar el valor de F0 Pre-Procesado (Ej. Filtrado) Voz de Entrada Frecuencia Fundamental F0 Algoritmo de Estima: Tiempo: Autocorrelación Frecuencia: Picos Espectrales Post-Procesado: Errores: Decisión sonoridad Valor estimado

46 Características y Técnicas de Análisis ESTIMA DE LA FRECUENCIA FUNDAMENTAL SIFT (simple inverers filtering tracking). [Markel 1972] Filtro Paso Bajo Hz Decimación 5:1 Análisis PL P=4 Filtro InversoAutocorrelación Búsqueda de Máximo Interpolación Decisión Sonoro / sordo Estima F0 S[n] fm = 10 KHz x[n]y[n]

47 Características y Técnicas de Análisis Algoritmo SIFT 1.Frecuencia de corte 900Hz => Frec. Muestreo nominal de 10 Khz se reduce a 2 kHz (decimación, i.e., descartar 4 de cada 5) 2.La salida diezmada, x[n], se procesa con análisis LPC con p=4. Un orden 4 es suficiente para modelar la envolvente en el rango 0-1 kHz, ya que en ese rango sólo encontramos 1-2 formantes. 3.La señal x[n] se procesa por el filtro inverso para obtener y[n], con espectro aproximadamente plano. 4. Se calcula la autocorrelación localizada sobre y[n], y se obtiene el pico más alto en el rango de valores de pitch probables. 5.Para tener una mayor resolución en la estima de F0, se interpola la autocorrelación en la región del máximo encontrado. 6.Si el máximo de la autocorrelación, normalmente normalizada por R[0], no supera un umbral, se decide que la trama es sorda.

48 Características y Técnicas de Análisis Algoritmo SIFT Figura (a) trama de voz analizada. Figura (b) espectro de x[n] y envolvente LP. (Formante en 250 Hz). Figura (c) espectro de y[n]. Figura (d) señal y[n]. Figura (e) autocorrelación normalizada de y[n] Se evidencia un periodo de pitch de unos 8 mseg.


Descargar ppt "Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema3.ppt Dpto. Señales, Sistemas y Radiocomunicaciones."

Presentaciones similares


Anuncios Google