La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema6b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Presentaciones similares


Presentación del tema: "Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema6b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones."— Transcripción de la presentación:

1 Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema6b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones

2 Tecnología de Reconocimiento de Locutor Input speech Speaker identity VQ codebooks Feature extraction Feature extraction Decision Accumulation VQ distortion Independencia de Texto Observaciones independientes

3 Reconocimiento de Locutor mediante CV El cuantificador vectorial representa la distribución estadística de los datos Otras técnicas de entrenamiento: Entrenamiento Discriminativo: el objetivo no es el minimizar el error de cuantificación sino el Error de CLASIFICACIÓN (técnicas de gradiente -> Redes Neuronales) Tecnología de Reconocimiento de Locutor

4 Por la técnica de clasificación... Clasificadores paramétricos (I): Son los más utilizados en Reconocimiento Tecnología de Reconocimiento de Locutor

5 Por la técnica de clasificación... Clasificadores paramétricos (II): Utilizan una representación paramétrica explícita de la probabilidad acústica: X Los parámetros de se estiman a partir de los datos de entrenamiento X={x 1,x 2,... x N } Proporciona un formalismo matemático consistente para técnicas de adaptación a diferentes condiciones y entornos. Tecnología de Reconocimiento de Locutor

6

7 Clasificadores paramétricos: GMM (Gaussian Mixture Models) Representación paramétrica explícita de la probabilidad acústica como suma de fdp gaussianas: Tecnología de Reconocimiento de Locutor

8 Clasificadores paramétricos: GMM (Gaussian Mixture Models) X Los parámetros de se estiman a partir de los datos de entrenamiento X={x 1,x 2,... x N } La combinación de gaussianas se aproxima a la distribución de los datos. Tecnología de Reconocimiento de Locutor

9

10

11 Identificación con GMMs Tecnología de Reconocimiento de Locutor Feature extraction Feature extraction Maximum selection Maximum selection Speech wave Identification result (Speaker ID)

12 Tecnología de Reconocimiento de Locutor Verificación con GMMs : Normalización Likelihood ratio log L(O) log p(O = c ) log p(O c ) c : identidad supuesta A posteriori probability log L(O) log p(O = c ) log p(O ) Ref : locutor de referencia o cohorte de locutores Modelo Universal log L(O) log p(O = c ) log p(O UBM ) UBM : Universal Background Model Likelihood ratio log L(O) log p(O = c ) log p(O c ) c : identidad supuesta A posteriori probability log L(O) log p(O = c ) log p(O ) Ref : locutor de referencia o cohorte de locutores Modelo Universal log L(O) log p(O = c ) log p(O UBM ) UBM : Universal Background Model S Ref

13 Tecnología de Reconocimiento de Locutor

14 Clasificadores paramétricos: GMM (Gaussian Mixture Models) X Los parámetros de se estiman a partir de los datos de entrenamiento X={x 1,x 2,... x N } ¡¡IMPORTANTE!!: Cantidad de datos de entrenamiento Número de Parámetros a estimar Técnicas de Entrenamiento: ML (Maximum Likelihood) MAP (Maximun a posteriori) Similares resultados si no hay información a priori, pero MAP válida para adaptación Tecnología de Reconocimiento de Locutor

15 Entrenamiento ML Tecnología de Reconocimiento de Locutor

16

17

18 Reconocimiento de Locutor => Reconocimiento de Habla Hasta ahora: El orden de la secuencia de sonidos NO IMPORTABA => Independiente de Texto PERO: En Reconocimiento de Locutor dependiente de texto En Reconocimiento de Habla La secuencia de sonidos sí importa (casa saca) Primera Aproximación: Alineamiento Temporal + Medida de Distancia (DTW Dynamic Time Warping) Tratamiento Digital de Voz

19 Reconocimiento de Locutor => Reconocimiento de Habla Primera Aproximación: Alineamiento Temporal + Medida de Distancia (DTW Dynamic Time Warping) Tratamiento Digital de Voz CASACASA ENVENTANADO V3V4V5V6 V2V2 V1V1 PATRÓN }{ ANÁLISIS

20 Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping) ENTRENAMIENTO: se obtiene y almacena un patrón de refrencia (PRef) para cada una de las palabras del vocabulario RECONOCIMIENTO: se obtiene el patrón de la palabra a reconocer (PReco). La palabra reconocida será la correspondiente al patrón de referencia más parecido (menor distancia) al patrón a reconocer. Tratamiento Digital de Voz PROBLEMA: PRef TIENE DISTINTA DURACIÓN TEMPORAL QUE PReco SOLUCIÓN: DEFORMAR EL EJE DE TIEMPOS ESTIRÁNDOLO O ENCOGIÉNDOLO (TÉCNICAS DE PROGRAMACIÓN DINÁMICA)

21 Tratamiento Digital de Voz

22 Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping Tratamiento Digital de Voz Cálculo distancia acumulada g(i,j) según el camino óptimo (Programación Dinámica) g(i,j) = d(i,j) + min { g(i-1,j), g(i-1,j-1), g(i,j-1)} 1 < i < I ( nº tramas de Preco ) 1 < j < J ( nºtramas de Pref ) g(i,j) g(i,j-1)g(i-1,j-1) g(i-1,j) La distancia entrel el PRef y el PReco d(PRef, PReco) será: d(Preco, Pref) = g(I,J) / I+J

23 Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping) Tratamiento Digital de Voz PALABRA A RECONOCER (TIEMPO) PATRÓN DE REFERENCIA (TIEMPO)

24 Tecnología Dominante: HMM (Hidden Markov Models) Clasificador Paramétrico: p(O/ con secuencia de sonidos, palabras, frases,... Primera Aproximación: Estados + GMMs por Estado Reconocimiento de Habla


Descargar ppt "Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema6b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones."

Presentaciones similares


Anuncios Google