Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.

Slides:



Advertisements
Presentaciones similares
El sonido Francisco Piñero Martínez.
Advertisements

La Física en la Fonoaudiología
SONIDO.
Impedancia características de la línea de transmisión
El Sonido Luis Fernando Rodríguez Gallardo Fernando Matienzo Valle
TEMA 6: EL SONIDO. Unit 6: Sound.
Qué es el Sonido? Vibración Energía.
Oscar Cendales Andrés Ramírez
Dpto. Señales, Sistemas y Radiocomunicaciones
Dpto. Señales, Sistemas y Radiocomunicaciones
Dpto. Señales, Sistemas y Radiocomunicaciones
Sonido Principios Básicos.
Bloque II: Física Carlos Thomas Grado en Logopedia: Fisiología II
Vibraciones y sonido NM1 Física El sonido.
El Sonido y sus Cualidades
EL SONIDO.
Vibración Una vibración es una oscilación respecto a una posición en equilibrio. Por ejemplo, cuando haces sonar una campana, esta vibra. Estas vibraciones.
Características del sonido
Potencia, Energía y Calidad Suministro Eléctrico MEG-CUR-CPERev. 01 Armónicos, Interarmónicos y Armónicos fluctuantes.
El sonido A J Barbero. Dept. Física Aplicada. Curso 2004/2005
ENTRAR.
Principios de Acústica, Medida y Control del Ruido Mediante el Análisis y Calculo de Espectros Sonoros Utilizando el Método Especifico.
Las ondas: Sonido y Luz.
Qué es el Sonido? Señales Simples Parametros fundamentales Señales complejas (Fourier) Señal y Sonido Propagación del Sonido Suma de señales Senoidales.
Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2d.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.
Ondas y ley de Snell.
ESCRIBIR PARA LOS MEDIOS
¿Cómo se propaga el sonido?
ONDAS Y SONIDO.
SONIDO.
Acústica y fonación Yurany López Andrés Movilla María Guerrero Lucia Mendoza Alexandra Hegea Universidad Metropolitana Medicina ID Barranquilla 2012.
ULTRASONIDOS: EXPOSICION LABORAL
Sistemas Mecánicos II Unidad 2. Es la variación o cambio de configuración de un sistema en relación al tiempo, en torno a una posición de equilibrio estable,
Elaboración de gráficas
El espectro audible está formado por las audiofrecuencias que corresponden entre los 20 y los Hz que puede oír un ser humano. Se encuentran fuera.
1 MEDIO UNIDAD 1: MATERIA Y SUS TRANSFORMACIONES: EL SONIDO
COLEGIO DE BACHILLERES PLANTEL 13 XOCHIMILCO TEPEPAN ALUMNAS: TRINIDAD GARCIA MICHELLE VILLARREAL IBARRA ALEJANDRA GRUPO:311 “ONDAS SONORAS”
AUDIO INTRODUCCION Multimedia EPS Kostadin Koroutchev.
Ondas y Rayos Ley de Snell Principio de Hüygens - Difracción
La Física del Sonido.
Clase 4:.
Unidad 2 Bases Teóricas para la Comunicación Comunicación
Presentado por: jeisson sierra David poveda
MÚSICA Y SONIDOS: EL MEDIO AMBIENTE SONORO
ONDAS Y SONIDO Andrés jara Cáceres
Ruido Laboral Hipoacusia, Normativa y Otras Hierbas Enero 2010
MOVIMIENTOS ONDULATORIOS
El sonido se refleja: el eco y la reverberación
INTRODUCCIÓN VIBRACIÓN: Oscilación ( movimiento repetitivo de vaivén)
Módulo 4: Acústica Presentación PowerPoint de
Dpto. Señales, Sistemas y Radiocomunicaciones
AUDICION.
EL SONIDO.
Sonido agudo : son vibraciones de muy alta frecuencia (delgados)
El SONIDO Profesor : Francisco Soto.
1º Medio Ondas y Sonidos.
MODULACIÓN.
Repaso Psicoacústica Amplitud Frecuencia Sonidos simples
MODULACION Concepto: Modular una señal consiste en modificar alguna de las características de esa señal, llamada portadora, de acuerdo con las características.
¿Cómo se genera y propaga el sonido?
INTENCIDAD DEL SONIDO Presentado por: Natalia barragán. Shirley chaparro. Andrea jaimes. Presentado a: Silvia maría bautista contreras.
¿QUÉ ES UNA ONDA? Un movimiento ondulatorio es una forma de transmisión de energía, sin transporte neto de materia, mediante la propagación de algún tipo.
Generalidades sobre el sonido
Código 69/2010 Hipoacusia Enero 2010.
MORENO VILCHIS OMAR LIMON BOLAÑOS BRANDON COLEGIO DE BACHILLERES PLANTEL 13.
AUDICIÓN.
SONIDO I jmmc.  El sonido es un fenómeno físico producido por la vibración de algún cuerpo material, estas oscilaciones solo en algunos casos pueden.
PPTCTC003TC32-A16V1 Clase Ondas II: el sonido.
PPTCES003CB32-A16V1 Clase Ondas II: el sonido. Resumen de la clase anterior ONDAS Se clasifican según Naturaleza Mecánicas Electromagnéticas Dirección.
Transcripción de la presentación:

Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones

Sistema Auditivo Periférico  Oído INTERNO: Sobre las células ciliares se ubica la membrana tectorial, dentro de la cual se alojan las prolongaciones o cilios de las células ciliares externas. El sonido propagado a través del oído externo y medio llega hasta la cóclea, donde las oscilaciones en los fluidos hacen vibrar a la membrana basilar y a todas las estructuras que ésta soporta.

Sistema Auditivo Periférico  Oído INTERNO:  La membrana basilar es una estructura cuyo espesor y rigidez no es constante: cerca de la ventana oval, la membrana es gruesa y rígida, pero a medida que se acerca hacia el vértice de la cóclea se vuelve más delgada y flexible.  La rigidez decae casi exponencialmente con la distancia a la ventana oval; esta variación de la rigidez en función de la posición afecta la velocidad de propagación de las ondas sonoras a lo largo de ella, y es responsable en gran medida de un fenómeno muy importante: la selectividad en frecuencia del oído interno.

Sistema Auditivo Periférico  Oído INTERNO:  Supóngase que se excita el sistema auditivo con una señal sinusoidal de una frecuencia dada: La membrana basilar vibrará sinusoidalmente, pero la amplitud de la vibración irá en aumento a medida que se aleja de la ventana oval (debido a la variación en la velocidad de propagación), hasta llegar a un punto en el cual la deformación de la membrana basilar sea máxima; en ese punto de "resonancia", la amplitud de la vibración y, por tanto, la transmisión de la energía de la onda al fluido de la escala timpánica es máxima en dicho punto y la excitación del nervio acústico en ese punto es máximo.

Sistema Auditivo Periférico  Oído INTERNO:  ANÁLISIS ESPECTRAL: La membrana basilar dispersa las distintas componentes de frecuencia de una señal en posiciones bien definidas respecto a la ventana oval.

Sistema Auditivo Periférico  Oído INTERNO:  ANÁLISIS ESPECTRAL:

Sistema Auditivo Periférico  Oído INTERNO:  ANÁLISIS ESPECTRAL:

Sistema Auditivo Periférico  Oído INTERNO: 20 Hz 80 Hz150 Hz 200 Hz 250 Hz 350 Hz 600 Hz 800 Hz 1000 Hz 1400 Hz 2000 Hz 2500 Hz 3200 Hz 4 kHz 5 kHz 6 kHz 8 kHz 10 kHz 12 kHz 15 kHz 20 kHz

Sistema Auditivo Periférico  Oído INTERNO:  Análisis en 25 bandas de frecuencia entre 20 Hz y 20 KHz, conocidas como bandas críticas.  Los anchos de bandas críticas son asimétricos y dependen de la frecuencia. Por debajo de los 500 Hz, el ancho de banda crítico es aproximadamente constante (alrededor de los 100 Hz), mientras que por encima de los 500 Hz crece en proporción a la frecuencia (Q constante): el ancho de banda crítica centrada en una frecuencia superior a 500 Hz es de alrededor del 20% de la frecuencia central.

Sistema Auditivo Periférico  Oído INTERNO:  Análisis en 25 bandas de frecuencia entre 20 Hz y 20 KHz, conocidas como bandas críticas.  Los anchos de bandas críticas son asimétricos y dependen de la frecuencia. Por debajo de los 500 Hz, el ancho de banda crítico es aproximadamente constante (alrededor de los 100 Hz), mientras que por encima de los 500 Hz crece en proporción a la frecuencia (Q constante): el ancho de banda crítica centrada en una frecuencia superior a 500 Hz es de alrededor del 20% de la frecuencia central.

Sistema Auditivo Periférico  Limitaciones del Estudio Fisiológico: Hasta ahora se ha visto que las distintas partes del sistema auditivo son susceptibles de ser modeladas matemáticamente, en términos de su comportamiento como sistemas físicos. Se podría por tanto pensar que el modelo perceptual ideal es aquel que simula, en términos de los procesos físicos y fisiológicos, todas las etapas del sistema auditivo, incluyendo la etapa de procesamiento neural en el cerebro. Sin embargo, la comprensión que se tiene acerca de lo que ocurre en las estructuras cerebrales es muy limitada, especialmente en lo relativo a los centros "superiores" del cerebro. Por lo tanto, es necesario recurrir a la descripción psicoacústica de los fenómenos perceptuales y de las sensaciones. ( mo_de_transduccion.html)

Sistema Auditivo Periférico  Dificultad del Estudio Fisiológico: Respuesta al Impulso (5 mseg.) Tiempo (mseg.) Frecuencia Característica Amplitud vibración de la Membrana Basilar  Cada Posición Responde a su Frecuencia Característica  Altas Frecuencias se Atenúan más rápidamente que Bajas Frecuencias

N de banda crítica Frec. central (Hz)Frec. superior (Hz)Ancho Banda crítica (Hz) Cuadro 1. Distribución de las bandas críticas en función de la frecuencia El oído es incapaz de registrar energía en algunas bandas cuando existe más energía en otra banda cercana. La vibración de la membrana en sintonía con una sola frecuencia no puede ser localizada en una zona infinitamente pequeña, por lo que las zonas cercanas se ven obligadas a vibrar a la misma frecuencia con una amplitud que decrece con la distancia. Otras frecuencias son excluidas a menos que la amplitud sea lo bastante alta como para dominar la vibración local de la membrana.

Sistema Auditivo Periférico  PERCEPCIÓN DE SONIDOS: experimentos psicoacústicos  Se justificarán (siempre que sea posible) en términos de la estructura y fisiología del aparato auditivo.  No todos los fenómenos perceptuales auditivos están relacionados directamente con un fenómeno físico sino que reflejan un conjunto muy complejo de relaciones que, para poder ser descritos, requieren de calificativos subjetivos de difícil repetibilidad entre observadores.

Sistema Auditivo Periférico  PERCEPCIÓN DE SONIDOS: experimentos psicoacústicos

Sistema Auditivo Periférico  PERCEPCIÓN DE SONIDOS: experimentos psicoacústicos  El ser humano es capaz de detectar únicamente aquellos sonidos que se encuentren dentro de un determinado rango de amplitudes y frecuencias: UMBRAL DE SONORIDAD.  Rango de frecuencias desde los 20 Hz hasta los 20 kHz.  La sensibilidad del sistema auditivo depende de la frecuencia; dos sonidos de igual presión sonora pueden provocar distintas sensaciones de intensidad o "sonoridad", dependiendo de su contenido espectral.  Discriminación Temporal: Percepción de dos impulsos seguidos.  Análisis en Frecuencia: Bandas Críticas.  ENMASCARAMIENTO DE SONIDOS: TIEMPO y FRECUENCIA

Sistema Auditivo Periférico  PERCEPCIÓN DE SONIDOS: experimentos psicoacústicos  Análisis en Frecuencia: Bandas Críticas.  Así pues, se define una banda crítica (BC) como un intervalo de frecuencia que representa la máxima resolución frecuencial del sistema auditivo en diversos experimentos psicoacústicos. Adicionalmente, puede decirse que una BC constituye el intervalo de frecuencia en el cual el oído interno efectúa una integración espacial (es decir, espectral) de la intensidad de la señal sonora : La BC es el intervalo en el cual se "suma" la energía de las distintas componentes espectrales de la señal El " bark ": un intervalo de frecuencia de 1 bark es, por definición, un intervalo de una BC de ancho en cualquier punto del rango de frecuencias audibles Bark = 13atan(0.76f / 1000) + 3.5atan((f / 7500) 2 )

Sistema Auditivo Periférico  PERCEPCIÓN DE SONIDOS: experimentos psicoacústicos  Análisis en Frecuencia: Bandas Críticas.  Inicialmente, se determina el Umbral de Audición con un solo tono de 920 Hz, y el valor obtenido (3 dB SPL) corresponde al nivel de presión sonora del tono de prueba apenas audible. Posteriormente se añade un nuevo tono de 940 Hz; para que el complejo de tonos esté en el umbral de detección, el nivel de cada tono debe reducirse a la mitad, de modo que la intensidad total del complejo de tonos sigue siendo de 3 dB SPL. Si se va aumentando el número de tonos del complejo (separados entre sí por un intervalo de 20 Hz), es preciso ir reduciendo proporcionalmente el nivel de cada tono individual para que la señal total siga siendo apenas perceptible, hasta que el ancho de banda ocupado por el complejo alcanza un valor crítico de aprox. 160 Hz (es decir, abarca una banda crítica). A partir de ese valor, aun cuando aumente el número de tonos, para que el complejo sea apenas audible es necesario mantener el nivel individual de cada tono.

Sistema Auditivo Periférico  PERCEPCIÓN DE SONIDOS: experimentos psicoacústicos  ENMASCARAMIENTO DE SONIDOS: TIEMPO y FRECUENCIA. El enmascaramiento sonoro puede definirse como el proceso en el cual el umbral de audibilidad correspondiente a un sonido se eleva, debido a la presencia de otro sonido.  Un sujeto escucha una señal sonora A (p. ej., un tono puro) que sea perfectamente audible, es decir, cuyo nivel de presión por encima del umbral de audibilidad.  Luego, se añade una señal sonora B (p. ej., una banda de ruido centrada en la frecuencia del tono) de bajo nivel SPL, y se va aumentando progresivamente el nivel de B, manteniendo constante el nivel de A. El sujeto notará que, a medida que aumenta el nivel de la señal B, la intensidad aparente o subjetiva de A disminuye hasta que, eventualmente, A se hace inaudible. En este caso se dice que la señal A está totalmente enmascarada4 por la señal B.

Sistema Auditivo Periférico  PERCEPCIÓN DE SONIDOS: experimentos psicoacústicos  ENMASCARAMIENTO DE SONIDOS: TIEMPO y FRECUENCIA. Enmascaramiento en Frecuencia:  Dos señales simultáneas en tiempo  Asimetría: Nivel de Presión Sonora: tono – ruido banda estrecha  Asimetría: frecuencia superior ó inferior

Sistema Auditivo Periférico  PERCEPCIÓN DE SONIDOS: experimentos psicoacústicos  ENMASCARAMIENTO DE SONIDOS: TIEMPO y FRECUENCIA. Enmascaramiento en Tiempo:  Un sonido de elevada amplitud enmascara igualmente los sonidos más débiles inmediatamente anteriores o posteriores  También se manifiesta un comportamiento asimétrico.

Sistema Auditivo Periférico  Aplicación en Tratamiento de Voz  Ayudas a la Audición  Reconocimiento de Habla  Codificación de Voz  Enmascaramiento  Medidas de Calidad  Ayudas Tecnológicas: Procesado de la Señal de Voz para compensar problemas en el Sistema Auditivo

Sistema Auditivo Periférico  Reconocimiento de Habla  Extracción de Características basadas en consideraciones perceptuales:  Escala Mel: MFCC, Mel-LPC  Bark = 13atan(0.76f / 1000) + 3.5atan((f / 7500) 2 )  Mel = log(1 + f / 700). The mel scale, proposed by Stevens, Volkman and Newman in 1937 is a scale of pitches judged by listeners to be equal in distance one from another. The reference point between this scale and normal frequency measurement is defined by equating a 1000 Hz tone, 40 dB above the listener's threshold, with a pitch of 1000 mels. Below about 500 Hz the mel and hertz scales coincide; above that, larger and larger intervals are judged by listeners to produce equal pitch increments. As a result, four octaves on the hertz scale above 500 Hz are judged to comprise about two octaves on the mel scale. (

Sistema Auditivo Periférico  Codificación de Voz  Codificación de Audio: Ausencia de “Modelo de Producción” ; Análisis en frecuencia y enmascaramiento.  Codificación de Voz:  PONDERACIÓN PERCEPTUAL DEL RUIDO DE CUANTIFICACIÓN: Enmascarmiento del ruido de cuantificación en la zona de formantes.  POST-FILTRADO ADAPTATIVO: Reducción del Ruido en laz zonas más audibles: entre formantes y entre armónicos de la frecuencia fundamental.  PESQ PERCEPTUAL EVALUATION OF SPEECH QUALITY: ITU-T P.862 (02/2001)

Sistema Auditivo Periférico  Codificación de Voz PESQ PERCEPTUAL EVALUATION OF SPEECH QUALITY: ITU-T P.862 (02/2001)  An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs.  Real systems may include filtering and variable delay, as well as distortions due to channel errors and low bit-rate codecs. The PSQM method as described in ITU-T P.861 (February 1998), was only recommended for use in assessing speech codecs, and was not able to take proper account of filtering, variable delay, and short localized distortions. PESQ addresses these effects with transfer function equalization, time alignment, and a new algorithm for averaging distortions over time.  It is recommended that PESQ be used for speech quality assessment of 3.1 kHz (narrow-band) handset telephony and narrow-band speech codecs.

Sistema Auditivo Periférico  Codificación de Voz: PESQ

Perceptual Evaluation of Speech Quality by Lars Birger Nielsen Brüel & Kjær ACOUTEL February 2003

Agenda Perceptual evaluation of Speech Quality Traditional evaluation of Speech Quality A new approach to evaluation of Speech Quality Perceptual Evaluation of Speech Quality within ITU-T

Agenda Perceptual evaluation of Speech Quality Traditional evaluation of Speech Quality A new approach to evaluation of Speech Quality Perceptual Evaluation of Speech Quality within ITU-T

Communications Industry –Telephone Manufacture (Handset, Answering Machines) –Network operators (Router, Switches, End-to-end) –Audio Equipment Manufacture (Hearing aids, Headset, PC, PDA, in-car applications) –Manufacturer of chips (Codec) Transportation Industry –Manufactures of announcement systems for trains, buses, ferries and aeroplanes Construction Industry –Announcement systems in Stadiums, Stations and Airports Perceptual Evaluation of Speech Quality, where?

Perceptual Evaluation of Speech Quality: Perceptual – how is the speech perceived by a human Important features when evaluating overall speech quality: intelligibility naturalness suitability Procedures for evaluating speech quality: objective methods - measurements subjective methods - listening test Perceptual Evaluation of Speech Quality, what?

Intelligibility articulation index (AI) speech transmission index (STI) rapid speech transmission index (RASTI) Naturalness and Suitability Listening test Overall speech quality Perceptual model Mean opinion score (MOS) Listening test Perceptual Evaluation of Speech Quality, how?

Agenda Perceptual evaluation of Speech Quality Traditional evaluation of Speech Quality A new approach to evaluation of Speech Quality Perceptual Evaluation of Speech Quality within ITU-T