La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Dpto. Señales, Sistemas y Radiocomunicaciones

Presentaciones similares


Presentación del tema: "Dpto. Señales, Sistemas y Radiocomunicaciones"— Transcripción de la presentación:

1 Dpto. Señales, Sistemas y Radiocomunicaciones
Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema3.ppt Dpto. Señales, Sistemas y Radiocomunicaciones

2 Técnicas de Análisis de la Señal de Voz
Análisis Localizado Concepto Análisis en el Tiempo: Energía Tasa de Cruces por Cero Autocorrelación Análisis en Frecuencia: Transformada Localizada de Fourier Análisis Cepstral Estima de la Frecuencia Fundamental

3 Técnica de Análisis : T{ }
Técnicas de Análisis de la Señal de Voz Análisis Localizado Concepto s[n] : señal de voz w[n]: ventana de análisis n w[n] Técnica de Análisis : T{ } w[M-n] w[2M-n] w[3M-n] s[n] n

4 Técnica de Análisis : T{ }
Técnicas de Análisis de la Señal de Voz Parámetros Básicos del Análisis Localizado (I) Tipo de Ventana: Hamming, Hanning, Rectangular, Triangular, .. Técnica de Análisis : T{ } Ventana de Hamming

5 Técnicas de Análisis de la Señal de Voz
Parámetros Básicos del Análisis Localizado (II) Tamaño de la Ventana : N Desplazamiento de la Ventana: M s[n] n w[M-n] w[2M-n] w[3M-n] N M

6 Técnicas de Análisis de la Señal de Voz
Análisis Localizado en el Tiempo E[m]: Energía Localizada

7 Técnicas de Análisis de la Señal de Voz

8 Técnicas de Análisis de la Señal de Voz
Análisis Localizado en el Tiempo Tcc[m]: Tasa de Cruces por Cero (relación Energía AF / BF)

9 Técnicas de Análisis de la Señal de Voz
Análisis Localizado en el Tiempo E[m] : Energía Localizada Tcc[m]: Tasa de Cruces por Cero Aplicaciones DETECTOR DE VOZ / RUIDO (VAD: Voice Activity Detector) Codificación (Ejemplo GSM: reducir interferencias, ahorro batería) Reconocimiento (mayor eficiencia, evitar falsos reconocimientos) CLASIFICACIÓN DE SONIDOS

10 Técnicas de Análisis de la Señal de Voz
Análisis Localizado en el Tiempo Rm[k] : Autocorrelación

11 Técnicas de Análisis de la Señal de Voz
Análisis Localizado en el Tiempo Rm[k] : Autocorrelación

12 Análisis en Frecuencia: Transformada Localizada de Fourier:
Técnicas de Análisis de la Señal de Voz Análisis en Frecuencia: Transformada Localizada de Fourier: Interpretación 1: T. Fourier de la señal enventanada Interpretación 2: Banco de Filtros

13 Técnicas de Análisis de la Señal de Voz
Punto de Vista TF: (agrupar s[]·w[] ó tiempo fijo) Secuencia de DFTs para diferentes posiciones de la ventana w[n-m] Punto de vista Banco de Filtros: ( agrupar s[n]e-jwn ó frecuencia fija) Considerar w[n] como filtro paso-bajo s[n]e-jwn como modulacíon: desplazamiento del espectro de s[n] en w

14

15

16

17

18

19

20

21 Técnicas de Análisis de la Señal de Voz
ESPECTROGRAMAS (Sonogramas) Representación Tiempo-Frecuencia Análisis de Banda Ancha - Banda Estrecha

22 Técnicas de Análisis de la Señal de Voz
Análisis Homomórfico: Cepstrum Finalidad: El análisis cepstral proporciona un camino para separar excitación y respuesta del filtro (tracto vocal) El punto de partida es: considerar un segmento sonoro como convolución entre: e[n] – señal de excitación glotal h[n] – respuesta al impulso del tracto vocal

23 Técnicas de Análisis de la Señal de Voz
Análisis Homomórfico: Cepstrum Por tanto, recordando que: Y las características de: - E(w) : armónico - H(w) : envolvente marcada por formantes Cepstrum Real: Separables en el dominio n (quefrencia) por filtrado (liftering)

24 Separables en el dominio n (quefrencia) por filtrado (liftering)
Técnicas de Análisis de la Señal de Voz Análisis Homomórfico: Cepstrum Periodo Fundamental Separables en el dominio n (quefrencia) por filtrado (liftering)

25 Mel-scaled Cepstral Coefficients (MFCC) para Reconocimiento de Voz
Pre-Emphasis Frame-blocking FFT DCT Mel-scaling Vectores de Características

26

27

28 Cepstral Coefficients

29 MFCC curso: Joseph Picone http://www. isip. msstate
Recall our filterbank, which we construct in mel-frequency domain using a triangularly-shaped weighting function applied to mel-transformed log-magnitude spectral samples:

30 MFCC curso: Joseph Picone http://www. isip. msstate
After computing the DFT, and the log magnitude spectrum (to obtain the real cepstrum), we compute the filterbank outputs, and then use a discrete cosine transform

31 MFCC curso: Joseph Picone http://www. isip. msstate
Note that the triangular weighting functions are applied directly to the magnitude spectrum, and then the logarithm is taken after the spectral samples are averaged. The resulting coefficients are an approximation to the the cepstrum, and in reality simply represent an orthogonal and compact representation of the log magnitude spectrum. We typically use 24 filterbank samples at an 8 kHz sampling frequency, and truncate the DCT to 12 MFCC coefficients. Adding energy gives us a total of 13 coefficients for our base feature vector.

32 Técnicas de Análisis de la Señal de Voz
Predicción Lineal Predecir s(n) a partir de s(n-1) ..s(n-M) s(n) <-> f { s(n-1), s(n-2), ... s(n-M)} Proporciona un “modelo” de s(n) Si, la función f{ } es lineal, hablamos de Predicción Lineal

33 Predicción Lineal Predecir s(n) a partir de s(n-1) ..s(n-M)
s(n) <-> f { s(n-1), s(n-2), ... s(n-M)} Proporciona un “modelo” de s(n) Si, la función f{ } es lineal, hablamos de Predicción Lineal

34 Predicción Lineal s(n) <-> a1 s(n-1) + a2 s(n-2) + .. aPs(n-P)
{a1, a2, ... aP }: Coeficientes de Predicción e(n) = s(n) - S ai s(n-i) : Error de Predicción

35 ----------------------
Predicción Lineal e(n) = s(n) - S ai s(n-i) => s(n) = e(n) + S ai s(n-i) Proporciona un “modelo” para s(n): s(n) e(n) 1 1 - S aiz-i

36 ----------------------
Predicción Lineal Interpretación del modelo: e(n) : excitación (no predecible a corto plazo) {ai} (i=1,2 .. P) : tracto vocal s(n) e(n) 1 1 - S aiz-i

37 Predicción Lineal Interpretaciones: e(n): Error de predicción
Excitación del modelo {ai} (i=1,2 .. P) : Coef. de Predicción Filtro del Tracto Vocal

38 Predicción Lineal s(n) e(n) 1 - S aiz-i Conclusiones:
Podemos encontrar un filtro que represente al tracto vocal resolviendo el problema de Predicción Lineal Con ese filtro podemos obtener e(n): s(n) e(n) 1 - S aiz-i

39 Ep = S{e(n)}2 = S {s(n) - S ai s(n-i) } 2
Predicción Lineal Resolución numérica: Encontrar {ai} (i=1,2 .. P) que minimicen el Error de Predicción => (su Energía) Ep Ep = S{e(n)}2 = S {s(n) - S ai s(n-i) } 2

40 Predicción Lineal Ep = S{e(n)}2 = S {s(n) - S ai s(n-i) } 2
Para cada ak : dEp / dak = 0 k = 1,2, ... P Sistema de P ecuaciones LINEALES con P incógnitas.

41 Predicción Lineal Ep = S{e(n)}2 = S {s(n) - S ai s(n-i) } 2
dEp / dak = 0 2 S {s(n) - S ai s(n-i) }{- s(n-k)} = 0 S {s(n) s(n-k)} = S ai S {s(n-i) s(n-k)} Rs(|k-i|) Rs(|k|)

42 Predicción Lineal Rs(|k|) = S ai Rs(|k-i|) : para k=1,2, ... P
Rs(|1|) = a1Rs(0) + a2Rs(1) aP Rs(P-1) Rs(|2|) = a1Rs(1) + a2Rs(0) aP Rs(P-2) Rs(|P|) = a1Rs(P-1) aP Rs(0)

43 Predicción Lineal En forma matricial ...
Rs(|1|) Rs(0) Rs(1) ... Rs(P-1) a1 Rs(|2|) Rs(1) Rs(0) ... Rs(P-2) a2 Rs(|P|) Rs(P-1) Rs(0) aP r = R a ==> a = R-1 r (R toepliz) =

44 Predicción Lineal CEPSTRUM LPC

45 ESTIMA DE LA FRECUENCIA FUNDAMENTAL
Características y Técnicas de Análisis ESTIMA DE LA FRECUENCIA FUNDAMENTAL Decisión sobre si el segmento es sonoro o no Para segmentos sonoros: Estimar el valor de F0 Frecuencia Fundamental F0 Voz de Entrada Algoritmo de Estima: Tiempo: Autocorrelación Frecuencia: Picos Espectrales Post-Procesado: Errores: Decisión sonoridad Valor estimado Pre-Procesado (Ej. Filtrado)

46 ESTIMA DE LA FRECUENCIA FUNDAMENTAL Decisión Sonoro / sordo
Características y Técnicas de Análisis ESTIMA DE LA FRECUENCIA FUNDAMENTAL SIFT (simple inverers filtering tracking). [Markel 1972] x[n] y[n] Filtro Paso Bajo 0-900 Hz Decimación 5:1 Filtro Inverso Autocorrelación S[n] fm = 10 KHz Análisis PL P=4 Búsqueda de Máximo Decisión Sonoro / sordo Estima F0 Interpolación

47 Características y Técnicas de Análisis
Algoritmo SIFT 1. Frecuencia de corte 900Hz => Frec. Muestreo nominal de 10 Khz se reduce a 2 kHz (decimación, i.e., descartar 4 de cada 5) 2. La salida diezmada, x[n] , se procesa con análisis LPC con p=4. Un orden 4 es suficiente para modelar la envolvente en el rango 0-1 kHz, ya que en ese rango sólo encontramos 1-2 formantes. 3. La señal x[n] se procesa por el filtro inverso para obtener y[n] , con espectro aproximadamente plano. 4. Se calcula la autocorrelación localizada sobre y[n], y se obtiene el pico más alto en el rango de valores de pitch probables. 5. Para tener una mayor resolución en la estima de F0, se interpola la autocorrelación en la región del máximo encontrado. 6. Si el máximo de la autocorrelación, normalmente normalizada por R[0], no supera un umbral, se decide que la trama es sorda.

48 Se evidencia un periodo de pitch
Características y Técnicas de Análisis Algoritmo SIFT Figura (a) trama de voz analizada. Figura (b) espectro de x[n] y envolvente LP. (Formante en 250 Hz). Figura (c) espectro de y[n]. Figura (d) señal y[n]. Figura (e) autocorrelación normalizada de y[n] Se evidencia un periodo de pitch de unos 8 mseg.


Descargar ppt "Dpto. Señales, Sistemas y Radiocomunicaciones"

Presentaciones similares


Anuncios Google