La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 1 Procesamiento de señales de voz.

Presentaciones similares


Presentación del tema: "ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 1 Procesamiento de señales de voz."— Transcripción de la presentación:

1 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 1 Procesamiento de señales de voz

2 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 2 La comunicación oral

3 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 3 ¿Qué es la voz? Onda de sonido (onda de presión) Producida por el aparato fonador Utilizada para comunicación (para transmisión de mensajes)

4 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 4 Cuestiones varias: ¿Qué relación hay entre los fonemas y la señal de voz? ¿Y entre otras características y la señal de voz? ¿Cómo podemos analizar las características de la voz? ¿Cómo se manifiesta una patología de la voz en la señal? ¿Cómo podemos ajustar un sistema de ayuda a la audición para optimizar la comprensión de la voz? ¿Cómo podemos interpretar un error en la producción de un fonema? ¿Cómo podemos interpretar un error en detección o identificación de fonemas?

5 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 5 Procesamiento de voz Análisis de voz Codificación y comprensión de voz Síntesis de voz Reconocimiento automático de voz Reconocimiento y verificación de locutores Detección de patologías Diseño de ayudas para la audición

6 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 6 ¿Qué es la voz? Producción de la voz Percepción de la voz Procesamiento de señales Dificultades al intentar relacionar la señal con las características

7 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 7 Problemas del procesamiento de voz Variabilidad –Intra-locutor (estado salud / ánimo, velocidad) –Inter-locutor –Adquisición Continuidad: concatenación y coarticulación Información contenida en la señal de voz muy redundante Multi-interactividad entre niveles: –Nivel fonético –Características suprasegmentales –Nivel semántico: contexto – suplencia mental Ruido: perturbación + efecto Lombard

8 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 8 Variabilidad de las señales de voz 40 ms correspondientes al fonema /a/

9 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 9 Modelos de producción de voz Órganos de producción de voz –Cavidades infraglóticas –Cavidad laríngea (cuerdas vocales) –Cavidades supraglóticas Provisión de aire Generación de la “onda glotal” Filtrado de la onda glotal (diversificación fonética)

10 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 10 Modelo acústico de producción de voz Onda acústica: onda de presión en el aire con c = 350 m/s Longitud de onda  = c / f –Para 100 Hz, = 3.5 m –Para 4 kHz, = 8.75 cm Producción de sonido: –Fonemas sonoros: vibración cuerdas vocales –Fonemas sordos: flujo turbulento –Fonemas oclusivos: obstrucción + apertura

11 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 11 Paredes no rígidas: –Pérdidas onda acústica Forma y sección del tracto vocal varía en el tiempo: –Se producen entre 5 y 20 fonemas por segundo Acoplamiento de la cavidad nasal mediante desplazamiento del velo del paladar Modelo acústico de producción de voz (II)

12 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 12 Simplificaciones Tracto vocal tubo rígido descrito por la “función de área” A(x,t) Como  > radio del tubo, aproximación de onda plana –(El problema de contorno tridimensional se puede reducir a un problema unidimensional) Se desprecian pérdidas por viscosidad, conducción térmica en aire y paredes del tubo

13 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 13 Función de área

14 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 14 Ecuaciones de onda

15 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 15 Condiciones de contorno Glotis: vibración cuerdas vocales Labios: p(L)=0 Onda proporcional a u(L) Solución de las ecuaciones de onda A se puede suponer constante en el tiempo (condición de quasi-estacionariedad) Para A(x) sencilla, soluciones analíticas Para A(x) compleja, métodos numéricos Medidas de A(x): Rx, TAC, RMN, articulógraf.

16 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 16 Pérdidas por elasticidad m w masa/unid.long; b w cte. amortiguación k w cte. recuperación elástica Solución para: L = 17.5 cm A = cte = 5.0 cm 2

17 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 17 u(L,f) / u G (f)

18 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 18 Formantes Formantes: resonancias del tracto vocal Por las dimensiones y la velocidad de propagación del sonido, aparece en promedio 1 formante por cada kHz El tracto vocal “filtra” la onda glotal: amplifica cada componente de frecuencia con una determinada ganancia

19 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 19 Pérdidas por radiación de onda p(L) = 0 no es cierto Impedancia acústica Z Impedancia para abertura circular de radio a en plano infinito El filtrado del tracto vocal considerando las perdidas por radiación es distinto: Caída para altas frecuencias 6 dB / década

20 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 20 u(L,f) / u G (f)

21 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 21 Solución numérica para función de área correspondiente a fonema /a/

22 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 22 Acoplamiento del tracto nasal

23 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 23 Modelo acústico de producción de voz Excitación –Fonemas sonoros –Fonemas sordos –Fonemas oclusivos Filtrado por tracto vocal / nasal –Formantes (1 por kHz) –Caída 6 dB/década

24 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 24 Modelo digital de producción de voz

25 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 25 Características de la voz Excitación: –Sonoro (freq. fundamental o pitch) –Sordo –Oclusivo –Combinación Formantes: –Cavidad buco-nasal –Envolvente espectral Energía: presión de aire Evolución en el tiempo de los parámetros

26 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 26 Características de la voz Excitación: –Sonoro (freq. fundamental o pitch) –Sordo –Oclusivo –Combinación Formantes: –Cavidad buco-nasal –Envolvente espectral Energía: presión de aire Evolución en el tiempo de los parámetros

27 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 27 Clasificación de los fonemas (desde el punto de vista de la producción) Actividad de cuerdas vocales –Vocales –Consonantes sonoras –Consonantes sordas Modo de articulación –Vocales –Consonantes Lugar de articulación –Vocales –Consonantes

28 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 28 Clasificación de vocales Modo de articulación (formante 1) –Cerradas (i,u) –Medias (e,o) –Abiertas (a) Lugar de articulación (formante 2) –Anteriores (i,e) –Centrales (a) –Posteriores (o,u)

29 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 29 Formantes 1º y 2º en vocales 500 1000 1500 2000 2500 3000 2003004005006007008009001000 freq. 2o formante (Hz) freq. 1er formante (Hz) /a/ /o/ /u/ /i/ /e/

30 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 30 Modo de articulación (cons.) Oclusivas (b,d,g,p,t,k) Fricativas (s,f,z,x,y) Africadas (ch) Nasales (m,n,ñ) Líquidas: –Laterales (l, ll) –Vibrantes (r, R)

31 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 31 Lugar de articulación (cons.) Bilabiales (b,p,m) Labiodentales (f) Linguodentales (t,d) Linguointerdentales (z) Linguoalveolares (s,n,l,r,R) Linguopalatales (y,ch,ñ,ll) Linguovelares (k,g,x)

32 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 32 Fonemas del español

33 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 33 Análisis de señales de voz Conceptos de procesado de señales –Transformada de Fourier –Componentes de frecuencia –Espectro de potencia –Filtrado –Ventanas –Muestreo –Espectrogramas

34 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 34 Transformada de Fourier Transformada (FT): –Cambio de representación –Misma información (otra representación) –Existe transformada inversa (FT -1 ) –Transforma señal compleja en señal compleja: Re(z) Im(z) x y r 

35 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 35 Espectro de potencia (1)

36 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 36 Espectro de potencia (2)

37 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 37 Descomposición en componentes freq.

38 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 38 Linealidad de la Transformada de Fourier

39 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 39 Linealidad de la Transformada de Fourier

40 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 40 Filtrado Caracterización del filtro: –Tiempo: respuesta impulsiva –Frecuencia: función de transferencia (o respuesta en frecuencia) filtro excitaciónseñal filtrada

41 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 41 Filtrado en el tiempo: convolución

42 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 42 Filtrado en frecuencia: multiplicación

43 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 43 Ventanas (multiplicación en tiempo)

44 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 44 Ventanas (multiplicación en tiempo)

45 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 45 Transformada de un tren de pulsos

46 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 46 Transformada de señal periódica

47 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 47 Muestreo de señales: T. de muestreo

48 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 48 Transformada Fourier: Resumen

49 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 49 DFT y FFT Transformada discreta de Fourier (DFT) Transformada rápida de Fourier (FFT) Señales discretas (muestreadas) Ventana (resolución espectral) N muestras en t => N muestras en f FFT: Muy utilizada en procesamiento digital de señales

50 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 50 La señal de voz /sal/

51 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 51 La señal de voz /s//a//l/

52 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 52 Estacionariedad de la voz La señal de voz es “estacionaria a trozos” –Durante la pronunciación de un fonema es quasi- estacionaria –Velocidad cambios tracto vocal –Velocidad cambios cuerdas vocales –Estacionaria durante 20 – 40 ms –Velocidad de pronunciación: 5-20 fonemas / seg –Análisis de “trozos de voz estacionarios”: ventanas

53 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 53 Análisis con ventanas

54 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 54 Análisis con ventanas

55 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 55 Espectro de las vocales /a/ /e/ /a/ cerrada /i/ /o/ /u/

56 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 56 Espectro de las vocales /a/ /e/ /a/ cerrada /i/ /o/ /u/

57 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 57 Formantes 1º y 2º en vocales 500 1000 1500 2000 2500 3000 2003004005006007008009001000 freq. 2o formante (Hz) freq. 1er formante (Hz) /a/ /o/ /u/ /i/ /e/

58 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 58 Espectro de consonantes sonoras /l/ /R/ /y/ /m/ /n/ /ñ/

59 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 59 Espectro de consonantes fricativas /s/ /ss/ /sh/ /z/ /f/ /j/

60 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 60 Fonemas no estacionarios Fonemas estacionarios: –vocales: /a/ /e/ /i/ /o/ /u/ –consonantes sonoras: /l/ /y/ /R/ /m/ /n/ /ñ/ –consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/ Fonemas no estacionarios: –Plosivas sordas: /p/ /t/ /k/ –Plosivas sonoras: /b/ /d/ /g/ –Otras consonantes: /ch/ /r/

61 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 61 Espectrograma (representación tiempo - frecuencia)

62 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 62 Espectrograma (representación tiempo - frecuencia) m b o i a kom p r a R p a n

63 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 63 Ventana en el espectrograma: 64ms / 8 ms

64 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 64 Información relevante de la señal de voz: Para reconocimiento de voz: –Envolvente espectral (formantes) –Evolución temporal de los formantes Información espectral de tiempo corto Información complementaria: –Tono fundamental –Estructura fina del espectro

65 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 65 Cómo funciona el oído Extrae información de la señal de audio. Envía la información al cerebro en forma de estímulos nerviosos. El implante coclear trata de imitar el mecanismo de conversión del sonido en potenciales de acción.

66 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 66 Características del oído humano Configuración de la cóclea: 6.000 células ciliadas internas 40.000 terminaciones nerviosas Repolarización: 2 ms (400 - 500 disparos/seg) Conexión sináptica: sin interacción entre canales Capacidad de un oído entrenado: –Resolución espectral: 1/9 tono –Resolución temporal: 400 - 500 Hz –Resolución de intensidad: 1 dB

67 ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 67 Capacidad del oído humano Resolución en frecuencia: 1/9 tono: –fo - 1.013*fo450 Hz - 456 Hz –rango de frecuencia: 20 Hz - 20.000 Hz Resolución en el tiempo: –limitado por tiempo relajación de células ciliadas y terminaciones nerviosas (~400 disparos por seg.) Resolución en intensidad: –Mejor de 1 dB Mecanismos de adaptación.


Descargar ppt "ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 1 Procesamiento de señales de voz."

Presentaciones similares


Anuncios Google