ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 1 Procesamiento de señales de voz.

Slides:



Advertisements
Presentaciones similares
La Física en la Fonoaudiología
Advertisements

FONÉTICA Y FONOLOGÍA TEMA 3 1.º BACHILLERATO.
ANATOMÍA Y FISIOLOGÍA DEL TRACTO VOCAL
INTENSIDAD DEL SONIDO Y LA ESCALA LOGARITMICA
Clasificación de los fonemas
La expresión oral en español
La Fonética.
La señal de voz Asunción Moreno.
CAP. 6 - DISTORSIÓN Ing. Verónica M.Miró 2011.
Introducción a la Fonética y Fonología Españolas
Qué es el Sonido? Vibración Energía.
Fonemas, letras y sílabas.
Dpto. Señales, Sistemas y Radiocomunicaciones
Dpto. Señales, Sistemas y Radiocomunicaciones
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
Sonido Principios Básicos.
Bloque II: Física Carlos Thomas Grado en Logopedia: Fisiología II
Introducción a la Fonética y Fonología Españolas
Procesamiento y compresión de señales de audio
Señales analógicas y digitales
Fonética articulatoria I
/Fonétika i fonoloxía/ 2: Los sonidos de la lengua
Fonética y fonología.
Repaso de Sistemas Lineales
El sonido A J Barbero. Dept. Física Aplicada. Curso 2004/2005
Fonética acústica (VI)
Lingüística: ciencia que estudia el lenguaje
El análisis espectrográfico Los rasgos acústicos 2
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 1 Sistemas de petaca y retroauricular.
Margarita Palacios Sierra
Qué es el Sonido? Señales Simples Parametros fundamentales Señales complejas (Fourier) Señal y Sonido Propagación del Sonido Suma de señales Senoidales.
Fisiología de la audición
SONIDO. CUALIDADES DEL SONIDO..
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 1 Procesamiento y compresión de señales de audio Curso de Doctorado del programa: Tecnologías Multimedia.
ESCRIBIR PARA LOS MEDIOS
Envolvente Compleja y Modulación
EL IMPLANTE COCLEAR: FUNCIONAMIENTO, POSIBILIDADES Y LIMITACIONES
Ondas sonoras fonética y fonología.
J. León Acosta Faculdade de Letras Universidade de Lisboa
SPAN 100 Cuarta Clase - Fonética y fonología
Acústica y fonación Yurany López Andrés Movilla María Guerrero Lucia Mendoza Alexandra Hegea Universidad Metropolitana Medicina ID Barranquilla 2012.
2.1. Didáctica de la Fonología Fonología y Fonética -Definiciones - Unidades básicas - Diferencias entre Fonología y Fonética - Nuestro objetivo:
Span 114A Fonética y fonología españolas
Fonética acústica I Introducción
Niveles de la lingüística
Procesamiento y Compresión de Señales de Audio
TEMA 2 CARACTERIZACIÓN FRECUENCIAL DE SEÑALES Y SISTEMAS
Mgr. MARIA ELENA ZARATE COILA
¡Bienvenidos a SPAN 100! (continuación) Prof. Viola Miglio
Unidad 2 Bases Teóricas para la Comunicación Comunicación
José Oliver Alberto Bonastre José Luis Poza
ONDAS Y SONIDO Andrés jara Cáceres
Dpto. Señales, Sistemas y Radiocomunicaciones
Proceso de muestreo. Análisis de señales muestreadas Teorema de Shanon.
Cadena de huesecillos tímpano ventana oval ventana cóclea nervio auditivo redonda cóclea cóclea desenrollada estribo v. oval vibración v. redonda Cel.ciliadas.
¿Hablamos? Didáctica y Metodología en las clases de ELE Inmaculada Mas Álvarez Santiago de Compostela.
Fonética articulatoria y auditiva
APARATO FONADOR.
Dpto. Señales, Sistemas y Radiocomunicaciones
AUDICION.
FISIOLOGIA DE LA AUDICION
Tema 4: “Los niveles de análisis lingüístico”
El SONIDO Profesor : Francisco Soto.
La voz Es el resultado de la vibración de las moléculas de aire provocada por el movimiento de las cuerdas vocales cuando la corriente de aire procedente.
La fonética – la descripción de los fonos (sonidos) desde la perspectiva de su articulación -aparato fonador -rasgos fonéticos: las características esenciales.
Fundamentos fonéticos para la investigación lingüística
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 1 Procesamiento y compresión de señales de audio Curso de Doctorado del programa: Tecnologías Multimedia.
Señales y radio Bibliografía a consultar OPENHEIM TOMASI Disponibles en aula virtual Prof. Liber Aparisi.
El lugar de articulación de las consonantes 19 oct 2015 – día 22 Fonética y fonología españolas SPAN 4260 Harry Howard Tulane University.
PROBLEMAS DE ONDAS 22 –
Transcripción de la presentación:

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 1 Procesamiento de señales de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 2 La comunicación oral

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 3 ¿Qué es la voz? Onda de sonido (onda de presión) Producida por el aparato fonador Utilizada para comunicación (para transmisión de mensajes)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 4 Cuestiones varias: ¿Qué relación hay entre los fonemas y la señal de voz? ¿Y entre otras características y la señal de voz? ¿Cómo podemos analizar las características de la voz? ¿Cómo se manifiesta una patología de la voz en la señal? ¿Cómo podemos ajustar un sistema de ayuda a la audición para optimizar la comprensión de la voz? ¿Cómo podemos interpretar un error en la producción de un fonema? ¿Cómo podemos interpretar un error en detección o identificación de fonemas?

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 5 Procesamiento de voz Análisis de voz Codificación y comprensión de voz Síntesis de voz Reconocimiento automático de voz Reconocimiento y verificación de locutores Detección de patologías Diseño de ayudas para la audición

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 6 ¿Qué es la voz? Producción de la voz Percepción de la voz Procesamiento de señales Dificultades al intentar relacionar la señal con las características

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 7 Problemas del procesamiento de voz Variabilidad –Intra-locutor (estado salud / ánimo, velocidad) –Inter-locutor –Adquisición Continuidad: concatenación y coarticulación Información contenida en la señal de voz muy redundante Multi-interactividad entre niveles: –Nivel fonético –Características suprasegmentales –Nivel semántico: contexto – suplencia mental Ruido: perturbación + efecto Lombard

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 8 Variabilidad de las señales de voz 40 ms correspondientes al fonema /a/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 9 Modelos de producción de voz Órganos de producción de voz –Cavidades infraglóticas –Cavidad laríngea (cuerdas vocales) –Cavidades supraglóticas Provisión de aire Generación de la “onda glotal” Filtrado de la onda glotal (diversificación fonética)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 10 Modelo acústico de producción de voz Onda acústica: onda de presión en el aire con c = 350 m/s Longitud de onda  = c / f –Para 100 Hz, = 3.5 m –Para 4 kHz, = 8.75 cm Producción de sonido: –Fonemas sonoros: vibración cuerdas vocales –Fonemas sordos: flujo turbulento –Fonemas oclusivos: obstrucción + apertura

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 11 Paredes no rígidas: –Pérdidas onda acústica Forma y sección del tracto vocal varía en el tiempo: –Se producen entre 5 y 20 fonemas por segundo Acoplamiento de la cavidad nasal mediante desplazamiento del velo del paladar Modelo acústico de producción de voz (II)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 12 Simplificaciones Tracto vocal tubo rígido descrito por la “función de área” A(x,t) Como  > radio del tubo, aproximación de onda plana –(El problema de contorno tridimensional se puede reducir a un problema unidimensional) Se desprecian pérdidas por viscosidad, conducción térmica en aire y paredes del tubo

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 13 Función de área

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 14 Ecuaciones de onda

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 15 Condiciones de contorno Glotis: vibración cuerdas vocales Labios: p(L)=0 Onda proporcional a u(L) Solución de las ecuaciones de onda A se puede suponer constante en el tiempo (condición de quasi-estacionariedad) Para A(x) sencilla, soluciones analíticas Para A(x) compleja, métodos numéricos Medidas de A(x): Rx, TAC, RMN, articulógraf.

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 16 Pérdidas por elasticidad m w masa/unid.long; b w cte. amortiguación k w cte. recuperación elástica Solución para: L = 17.5 cm A = cte = 5.0 cm 2

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 17 u(L,f) / u G (f)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 18 Formantes Formantes: resonancias del tracto vocal Por las dimensiones y la velocidad de propagación del sonido, aparece en promedio 1 formante por cada kHz El tracto vocal “filtra” la onda glotal: amplifica cada componente de frecuencia con una determinada ganancia

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 19 Pérdidas por radiación de onda p(L) = 0 no es cierto Impedancia acústica Z Impedancia para abertura circular de radio a en plano infinito El filtrado del tracto vocal considerando las perdidas por radiación es distinto: Caída para altas frecuencias 6 dB / década

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 20 u(L,f) / u G (f)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 21 Solución numérica para función de área correspondiente a fonema /a/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 22 Acoplamiento del tracto nasal

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 23 Modelo acústico de producción de voz Excitación –Fonemas sonoros –Fonemas sordos –Fonemas oclusivos Filtrado por tracto vocal / nasal –Formantes (1 por kHz) –Caída 6 dB/década

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 24 Modelo digital de producción de voz

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 25 Características de la voz Excitación: –Sonoro (freq. fundamental o pitch) –Sordo –Oclusivo –Combinación Formantes: –Cavidad buco-nasal –Envolvente espectral Energía: presión de aire Evolución en el tiempo de los parámetros

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 26 Características de la voz Excitación: –Sonoro (freq. fundamental o pitch) –Sordo –Oclusivo –Combinación Formantes: –Cavidad buco-nasal –Envolvente espectral Energía: presión de aire Evolución en el tiempo de los parámetros

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 27 Clasificación de los fonemas (desde el punto de vista de la producción) Actividad de cuerdas vocales –Vocales –Consonantes sonoras –Consonantes sordas Modo de articulación –Vocales –Consonantes Lugar de articulación –Vocales –Consonantes

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 28 Clasificación de vocales Modo de articulación (formante 1) –Cerradas (i,u) –Medias (e,o) –Abiertas (a) Lugar de articulación (formante 2) –Anteriores (i,e) –Centrales (a) –Posteriores (o,u)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 29 Formantes 1º y 2º en vocales freq. 2o formante (Hz) freq. 1er formante (Hz) /a/ /o/ /u/ /i/ /e/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 30 Modo de articulación (cons.) Oclusivas (b,d,g,p,t,k) Fricativas (s,f,z,x,y) Africadas (ch) Nasales (m,n,ñ) Líquidas: –Laterales (l, ll) –Vibrantes (r, R)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 31 Lugar de articulación (cons.) Bilabiales (b,p,m) Labiodentales (f) Linguodentales (t,d) Linguointerdentales (z) Linguoalveolares (s,n,l,r,R) Linguopalatales (y,ch,ñ,ll) Linguovelares (k,g,x)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 32 Fonemas del español

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 33 Análisis de señales de voz Conceptos de procesado de señales –Transformada de Fourier –Componentes de frecuencia –Espectro de potencia –Filtrado –Ventanas –Muestreo –Espectrogramas

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 34 Transformada de Fourier Transformada (FT): –Cambio de representación –Misma información (otra representación) –Existe transformada inversa (FT -1 ) –Transforma señal compleja en señal compleja: Re(z) Im(z) x y r 

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 35 Espectro de potencia (1)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 36 Espectro de potencia (2)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 37 Descomposición en componentes freq.

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 38 Linealidad de la Transformada de Fourier

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 39 Linealidad de la Transformada de Fourier

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 40 Filtrado Caracterización del filtro: –Tiempo: respuesta impulsiva –Frecuencia: función de transferencia (o respuesta en frecuencia) filtro excitaciónseñal filtrada

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 41 Filtrado en el tiempo: convolución

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 42 Filtrado en frecuencia: multiplicación

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 43 Ventanas (multiplicación en tiempo)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 44 Ventanas (multiplicación en tiempo)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 45 Transformada de un tren de pulsos

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 46 Transformada de señal periódica

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 47 Muestreo de señales: T. de muestreo

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 48 Transformada Fourier: Resumen

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 49 DFT y FFT Transformada discreta de Fourier (DFT) Transformada rápida de Fourier (FFT) Señales discretas (muestreadas) Ventana (resolución espectral) N muestras en t => N muestras en f FFT: Muy utilizada en procesamiento digital de señales

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 50 La señal de voz /sal/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 51 La señal de voz /s//a//l/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 52 Estacionariedad de la voz La señal de voz es “estacionaria a trozos” –Durante la pronunciación de un fonema es quasi- estacionaria –Velocidad cambios tracto vocal –Velocidad cambios cuerdas vocales –Estacionaria durante 20 – 40 ms –Velocidad de pronunciación: 5-20 fonemas / seg –Análisis de “trozos de voz estacionarios”: ventanas

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 53 Análisis con ventanas

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 54 Análisis con ventanas

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 55 Espectro de las vocales /a/ /e/ /a/ cerrada /i/ /o/ /u/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 56 Espectro de las vocales /a/ /e/ /a/ cerrada /i/ /o/ /u/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 57 Formantes 1º y 2º en vocales freq. 2o formante (Hz) freq. 1er formante (Hz) /a/ /o/ /u/ /i/ /e/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 58 Espectro de consonantes sonoras /l/ /R/ /y/ /m/ /n/ /ñ/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 59 Espectro de consonantes fricativas /s/ /ss/ /sh/ /z/ /f/ /j/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 60 Fonemas no estacionarios Fonemas estacionarios: –vocales: /a/ /e/ /i/ /o/ /u/ –consonantes sonoras: /l/ /y/ /R/ /m/ /n/ /ñ/ –consonantes fricativas: /s/ /sh/ /ss/ /z/ /f/ /j/ Fonemas no estacionarios: –Plosivas sordas: /p/ /t/ /k/ –Plosivas sonoras: /b/ /d/ /g/ –Otras consonantes: /ch/ /r/

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 61 Espectrograma (representación tiempo - frecuencia)

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 62 Espectrograma (representación tiempo - frecuencia) m b o i a kom p r a R p a n

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 63 Ventana en el espectrograma: 64ms / 8 ms

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 64 Información relevante de la señal de voz: Para reconocimiento de voz: –Envolvente espectral (formantes) –Evolución temporal de los formantes Información espectral de tiempo corto Información complementaria: –Tono fundamental –Estructura fina del espectro

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 65 Cómo funciona el oído Extrae información de la señal de audio. Envía la información al cerebro en forma de estímulos nerviosos. El implante coclear trata de imitar el mecanismo de conversión del sonido en potenciales de acción.

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 66 Características del oído humano Configuración de la cóclea: células ciliadas internas terminaciones nerviosas Repolarización: 2 ms ( disparos/seg) Conexión sináptica: sin interacción entre canales Capacidad de un oído entrenado: –Resolución espectral: 1/9 tono –Resolución temporal: Hz –Resolución de intensidad: 1 dB

ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 67 Capacidad del oído humano Resolución en frecuencia: 1/9 tono: –fo *fo450 Hz Hz –rango de frecuencia: 20 Hz Hz Resolución en el tiempo: –limitado por tiempo relajación de células ciliadas y terminaciones nerviosas (~400 disparos por seg.) Resolución en intensidad: –Mejor de 1 dB Mecanismos de adaptación.