La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Presentaciones similares


Presentación del tema: "Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones."— Transcripción de la presentación:

1 Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones

2 Sistema Auditivo Periférico  Oído INTERNO: Sobre las células ciliares se ubica la membrana tectorial, dentro de la cual se alojan las prolongaciones o cilios de las células ciliares externas. El sonido propagado a través del oído externo y medio llega hasta la cóclea, donde las oscilaciones en los fluidos hacen vibrar a la membrana basilar y a todas las estructuras que ésta soporta.

3 Sistema Auditivo Periférico  Oído INTERNO:  La membrana basilar es una estructura cuyo espesor y rigidez no es constante: cerca de la ventana oval, la membrana es gruesa y rígida, pero a medida que se acerca hacia el vértice de la cóclea se vuelve más delgada y flexible.  La rigidez decae casi exponencialmente con la distancia a la ventana oval; esta variación de la rigidez en función de la posición afecta la velocidad de propagación de las ondas sonoras a lo largo de ella, y es responsable en gran medida de un fenómeno muy importante: la selectividad en frecuencia del oído interno.

4 Sistema Auditivo Periférico  Oído INTERNO:  Supóngase que se excita el sistema auditivo con una señal sinusoidal de una frecuencia dada: La membrana basilar vibrará sinusoidalmente, pero la amplitud de la vibración irá en aumento a medida que se aleja de la ventana oval (debido a la variación en la velocidad de propagación), hasta llegar a un punto en el cual la deformación de la membrana basilar sea máxima; en ese punto de "resonancia", la amplitud de la vibración y, por tanto, la transmisión de la energía de la onda al fluido de la escala timpánica es máxima en dicho punto y la excitación del nervio acústico en ese punto es máximo.

5 Sistema Auditivo Periférico  Oído INTERNO:  ANÁLISIS ESPECTRAL: La membrana basilar dispersa las distintas componentes de frecuencia de una señal en posiciones bien definidas respecto a la ventana oval.

6 Sistema Auditivo Periférico  Oído INTERNO:  ANÁLISIS ESPECTRAL:

7 Sistema Auditivo Periférico  Oído INTERNO:  ANÁLISIS ESPECTRAL:

8 Sistema Auditivo Periférico  Oído INTERNO: 20 Hz 80 Hz150 Hz 200 Hz 250 Hz 350 Hz 600 Hz 800 Hz 1000 Hz 1400 Hz 2000 Hz 2500 Hz 3200 Hz 4 kHz 5 kHz 6 kHz 8 kHz 10 kHz 12 kHz 15 kHz 20 kHz

9 Sistema Auditivo Periférico  Oído INTERNO:  Análisis en 25 bandas de frecuencia entre 20 Hz y 20 KHz, conocidas como bandas críticas.  Los anchos de bandas críticas son asimétricos y dependen de la frecuencia. Por debajo de los 500 Hz, el ancho de banda crítico es aproximadamente constante (alrededor de los 100 Hz), mientras que por encima de los 500 Hz crece en proporción a la frecuencia (Q constante): el ancho de banda crítica centrada en una frecuencia superior a 500 Hz es de alrededor del 20% de la frecuencia central.

10 Sistema Auditivo Periférico  Oído INTERNO:  Análisis en 25 bandas de frecuencia entre 20 Hz y 20 KHz, conocidas como bandas críticas.  Los anchos de bandas críticas son asimétricos y dependen de la frecuencia. Por debajo de los 500 Hz, el ancho de banda crítico es aproximadamente constante (alrededor de los 100 Hz), mientras que por encima de los 500 Hz crece en proporción a la frecuencia (Q constante): el ancho de banda crítica centrada en una frecuencia superior a 500 Hz es de alrededor del 20% de la frecuencia central.

11 Sistema Auditivo Periférico  Limitaciones del Estudio Fisiológico: Hasta ahora se ha visto que las distintas partes del sistema auditivo son susceptibles de ser modeladas matemáticamente, en términos de su comportamiento como sistemas físicos. Se podría por tanto pensar que el modelo perceptual ideal es aquel que simula, en términos de los procesos físicos y fisiológicos, todas las etapas del sistema auditivo, incluyendo la etapa de procesamiento neural en el cerebro. Sin embargo, la comprensión que se tiene acerca de lo que ocurre en las estructuras cerebrales es muy limitada, especialmente en lo relativo a los centros "superiores" del cerebro. Por lo tanto, es necesario recurrir a la descripción psicoacústica de los fenómenos perceptuales y de las sensaciones. ( http://www3.labc.usb.ve/EC4514/AUDIO/Sistema%20Auditivo/Mecanis mo_de_transduccion.html)

12 Sistema Auditivo Periférico  Dificultad del Estudio Fisiológico: Respuesta al Impulso (5 mseg.) Tiempo (mseg.) Frecuencia Característica Amplitud vibración de la Membrana Basilar  Cada Posición Responde a su Frecuencia Característica  Altas Frecuencias se Atenúan más rápidamente que Bajas Frecuencias

13 N de banda crítica Frec. central (Hz)Frec. superior (Hz)Ancho Banda crítica (Hz) 150100 2150200100 3250300100 4350400100 5450510110 6570630120 7700770140 8840920150 910001080160 1011701270190 1113701480210 1216001720240 1318502000280 1421502320320 1525002700380 1629003150450 1734003700550 1840004400700 1948005300900 20580064001100 21700077001300 22850095001800 2310500120002500 2413500155003500 Cuadro 1. Distribución de las bandas críticas en función de la frecuencia El oído es incapaz de registrar energía en algunas bandas cuando existe más energía en otra banda cercana. La vibración de la membrana en sintonía con una sola frecuencia no puede ser localizada en una zona infinitamente pequeña, por lo que las zonas cercanas se ven obligadas a vibrar a la misma frecuencia con una amplitud que decrece con la distancia. Otras frecuencias son excluidas a menos que la amplitud sea lo bastante alta como para dominar la vibración local de la membrana.

14 Sistema Auditivo Periférico  PERCEPCIÓN DE SONIDOS: experimentos psicoacústicos  Se justificarán (siempre que sea posible) en términos de la estructura y fisiología del aparato auditivo.  No todos los fenómenos perceptuales auditivos están relacionados directamente con un fenómeno físico sino que reflejan un conjunto muy complejo de relaciones que, para poder ser descritos, requieren de calificativos subjetivos de difícil repetibilidad entre observadores.

15 Sistema Auditivo Periférico  PERCEPCIÓN DE SONIDOS: experimentos psicoacústicos

16 Sistema Auditivo Periférico  PERCEPCIÓN DE SONIDOS: experimentos psicoacústicos  El ser humano es capaz de detectar únicamente aquellos sonidos que se encuentren dentro de un determinado rango de amplitudes y frecuencias: UMBRAL DE SONORIDAD.  Rango de frecuencias desde los 20 Hz hasta los 20 kHz.  La sensibilidad del sistema auditivo depende de la frecuencia; dos sonidos de igual presión sonora pueden provocar distintas sensaciones de intensidad o "sonoridad", dependiendo de su contenido espectral.  Discriminación Temporal: Percepción de dos impulsos seguidos.  Análisis en Frecuencia: Bandas Críticas.  ENMASCARAMIENTO DE SONIDOS: TIEMPO y FRECUENCIA

17 Sistema Auditivo Periférico  PERCEPCIÓN DE SONIDOS: experimentos psicoacústicos  Análisis en Frecuencia: Bandas Críticas.  Así pues, se define una banda crítica (BC) como un intervalo de frecuencia que representa la máxima resolución frecuencial del sistema auditivo en diversos experimentos psicoacústicos. Adicionalmente, puede decirse que una BC constituye el intervalo de frecuencia en el cual el oído interno efectúa una integración espacial (es decir, espectral) de la intensidad de la señal sonora : La BC es el intervalo en el cual se "suma" la energía de las distintas componentes espectrales de la señal El " bark ": un intervalo de frecuencia de 1 bark es, por definición, un intervalo de una BC de ancho en cualquier punto del rango de frecuencias audibles Bark = 13atan(0.76f / 1000) + 3.5atan((f / 7500) 2 )

18 Sistema Auditivo Periférico  PERCEPCIÓN DE SONIDOS: experimentos psicoacústicos  Análisis en Frecuencia: Bandas Críticas.  Inicialmente, se determina el Umbral de Audición con un solo tono de 920 Hz, y el valor obtenido (3 dB SPL) corresponde al nivel de presión sonora del tono de prueba apenas audible. Posteriormente se añade un nuevo tono de 940 Hz; para que el complejo de tonos esté en el umbral de detección, el nivel de cada tono debe reducirse a la mitad, de modo que la intensidad total del complejo de tonos sigue siendo de 3 dB SPL. Si se va aumentando el número de tonos del complejo (separados entre sí por un intervalo de 20 Hz), es preciso ir reduciendo proporcionalmente el nivel de cada tono individual para que la señal total siga siendo apenas perceptible, hasta que el ancho de banda ocupado por el complejo alcanza un valor crítico de aprox. 160 Hz (es decir, abarca una banda crítica). A partir de ese valor, aun cuando aumente el número de tonos, para que el complejo sea apenas audible es necesario mantener el nivel individual de cada tono.

19 Sistema Auditivo Periférico  PERCEPCIÓN DE SONIDOS: experimentos psicoacústicos  ENMASCARAMIENTO DE SONIDOS: TIEMPO y FRECUENCIA. El enmascaramiento sonoro puede definirse como el proceso en el cual el umbral de audibilidad correspondiente a un sonido se eleva, debido a la presencia de otro sonido.  Un sujeto escucha una señal sonora A (p. ej., un tono puro) que sea perfectamente audible, es decir, cuyo nivel de presión por encima del umbral de audibilidad.  Luego, se añade una señal sonora B (p. ej., una banda de ruido centrada en la frecuencia del tono) de bajo nivel SPL, y se va aumentando progresivamente el nivel de B, manteniendo constante el nivel de A. El sujeto notará que, a medida que aumenta el nivel de la señal B, la intensidad aparente o subjetiva de A disminuye hasta que, eventualmente, A se hace inaudible. En este caso se dice que la señal A está totalmente enmascarada4 por la señal B.

20 Sistema Auditivo Periférico  PERCEPCIÓN DE SONIDOS: experimentos psicoacústicos  ENMASCARAMIENTO DE SONIDOS: TIEMPO y FRECUENCIA. Enmascaramiento en Frecuencia:  Dos señales simultáneas en tiempo  Asimetría: Nivel de Presión Sonora: tono – ruido banda estrecha  Asimetría: frecuencia superior ó inferior

21 Sistema Auditivo Periférico  PERCEPCIÓN DE SONIDOS: experimentos psicoacústicos  ENMASCARAMIENTO DE SONIDOS: TIEMPO y FRECUENCIA. Enmascaramiento en Tiempo:  Un sonido de elevada amplitud enmascara igualmente los sonidos más débiles inmediatamente anteriores o posteriores  También se manifiesta un comportamiento asimétrico.

22 Sistema Auditivo Periférico  Aplicación en Tratamiento de Voz  Ayudas a la Audición  Reconocimiento de Habla  Codificación de Voz  Enmascaramiento  Medidas de Calidad  Ayudas Tecnológicas: Procesado de la Señal de Voz para compensar problemas en el Sistema Auditivo

23 Sistema Auditivo Periférico  Reconocimiento de Habla  Extracción de Características basadas en consideraciones perceptuales:  Escala Mel: MFCC, Mel-LPC  Bark = 13atan(0.76f / 1000) + 3.5atan((f / 7500) 2 )  Mel = 1127.01048log(1 + f / 700). The mel scale, proposed by Stevens, Volkman and Newman in 1937 is a scale of pitches judged by listeners to be equal in distance one from another. The reference point between this scale and normal frequency measurement is defined by equating a 1000 Hz tone, 40 dB above the listener's threshold, with a pitch of 1000 mels. Below about 500 Hz the mel and hertz scales coincide; above that, larger and larger intervals are judged by listeners to produce equal pitch increments. As a result, four octaves on the hertz scale above 500 Hz are judged to comprise about two octaves on the mel scale. (http://en.wikipedia.org/wiki/Mel_scale)

24 Sistema Auditivo Periférico  Codificación de Voz  Codificación de Audio: Ausencia de “Modelo de Producción” ; Análisis en frecuencia y enmascaramiento.  Codificación de Voz:  PONDERACIÓN PERCEPTUAL DEL RUIDO DE CUANTIFICACIÓN: Enmascarmiento del ruido de cuantificación en la zona de formantes.  POST-FILTRADO ADAPTATIVO: Reducción del Ruido en laz zonas más audibles: entre formantes y entre armónicos de la frecuencia fundamental.  PESQ PERCEPTUAL EVALUATION OF SPEECH QUALITY: ITU-T P.862 (02/2001)

25 Sistema Auditivo Periférico  Codificación de Voz PESQ PERCEPTUAL EVALUATION OF SPEECH QUALITY: ITU-T P.862 (02/2001)  An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs.  Real systems may include filtering and variable delay, as well as distortions due to channel errors and low bit-rate codecs. The PSQM method as described in ITU-T P.861 (February 1998), was only recommended for use in assessing speech codecs, and was not able to take proper account of filtering, variable delay, and short localized distortions. PESQ addresses these effects with transfer function equalization, time alignment, and a new algorithm for averaging distortions over time.  It is recommended that PESQ be used for speech quality assessment of 3.1 kHz (narrow-band) handset telephony and narrow-band speech codecs.

26 Sistema Auditivo Periférico  Codificación de Voz: PESQ

27 Perceptual Evaluation of Speech Quality by Lars Birger Nielsen Brüel & Kjær ACOUTEL February 2003

28 Agenda Perceptual evaluation of Speech Quality Traditional evaluation of Speech Quality A new approach to evaluation of Speech Quality Perceptual Evaluation of Speech Quality within ITU-T

29 Agenda Perceptual evaluation of Speech Quality Traditional evaluation of Speech Quality A new approach to evaluation of Speech Quality Perceptual Evaluation of Speech Quality within ITU-T

30 Communications Industry –Telephone Manufacture (Handset, Answering Machines) –Network operators (Router, Switches, End-to-end) –Audio Equipment Manufacture (Hearing aids, Headset, PC, PDA, in-car applications) –Manufacturer of chips (Codec) Transportation Industry –Manufactures of announcement systems for trains, buses, ferries and aeroplanes Construction Industry –Announcement systems in Stadiums, Stations and Airports Perceptual Evaluation of Speech Quality, where?

31 Perceptual Evaluation of Speech Quality: Perceptual – how is the speech perceived by a human Important features when evaluating overall speech quality: intelligibility naturalness suitability Procedures for evaluating speech quality: objective methods - measurements subjective methods - listening test Perceptual Evaluation of Speech Quality, what?

32 Intelligibility articulation index (AI) speech transmission index (STI) rapid speech transmission index (RASTI) Naturalness and Suitability Listening test Overall speech quality Perceptual model Mean opinion score (MOS) Listening test Perceptual Evaluation of Speech Quality, how?

33 Agenda Perceptual evaluation of Speech Quality Traditional evaluation of Speech Quality A new approach to evaluation of Speech Quality Perceptual Evaluation of Speech Quality within ITU-T


Descargar ppt "Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones."

Presentaciones similares


Anuncios Google