La señal de voz Asunción Moreno
Indice El aparato fonador La señal vocal Parámetros fundamentales Modelo de producción de la voz Fonética acústica El oído Percepción del sonido
El aparato fonador
La glotis
Señal de voz (fm= 8Khz/12 bits) x104 El gol -pe de ti - món f - ue sobr-e co-g-e - do - r
Señal sonora: /e/ Señal sorda: /s/ 100 200 300 400 -1000 -800 -600 100 200 300 400 -1000 -800 -600 -400 -200 600 800 100 200 300 400 -200 -150 -100 -50 50 150 Señal sonora: /e/ Señal sorda: /s/
Representación temporal y frecuencial
Espectrograma
Variabilidad Tres realizaciones de la palabra “el” pronunciadas por tres locutores distintos 500 1000 1500 -1500 -1000 -500 500 1000 1500 -500 500 1000 -1000 -500
Factores de variabilidad Culturales Volumen de la voz Conjunto de sonidos Duración Entonación Formas de formar frases Velocidad del habla Vocabulario Gramática Española Diccionario Español Fisiológicas Tracto vocal Cuerdas vocales y frecuencia de vibración Forma del pulso glotal Cansancio Congestión nasal Ambientales Ruido de fondo Factores mecánicos: vibraciones Estado emocional Acústica de la sala Ambiente: calor
Variabilidad intra locutor Articulada Susurrada Alta voz Normal Enfado Suave Rápida Palabra cero pronunciada en diversos estilos
Análisis estadístico
No estacionariedad Transición del fonema /f/ al fonema /u/
Histograma
Aproximación del histograma
Representación conjunta de dos muestras consecutivas
Tramas sorda y sonora con su autocorrelación 100 200 300 400 -1000 -800 -600 -400 -200 600 800 100 200 300 400 -200 -150 -100 -50 50 150
Tramas sorda y sonora: densidad espectral de potencia 100 200 300 400 -1000 -800 -600 -400 -200 600 800 -150 -100 -50 50 150
Parámetros fundamentales Tono (frecuencia fundamental) Formantes Ancho de banda
Tono (frecuencia fundamental) Gama de variación entre 50 Hz y 400 Hz Tono medio: mujeres: 220 Hz varones: 130 Hz 1 octava de variación en el habla normal.
Tono o frecuencia fundamental Hz
Formantes de un sonido sonoro 2 4 kHz
Formantes de las vocales Triángulo de las vocales 200 800 2000 F1 F2 u a i F3: 2.24 kHz (u) 3.01 kHz (i)
Formantes de un sonido sordo 2 4 kHz
Evolución de los formantes Hz
Parametrización de la voz Hz
Ancho de banda naturalidad canal telefónico inteligibilidad 50 Hz 3.4 kHz 7 kHz naturalidad
Modelo de producción de la voz ruido tren periódico de pulsos H(z) sonidos sonoros voz sonidos sordos excitación tracto vocal
Fonética acústica Oclusión No Parcial Total Fricativas Aproximantes Vibrantes Laterales Nasales Oclusivas Si Vocales Sonoridad Oclusivas Fricativas No Africadas
Fonética acústica Puntos de articulación Alófono Fonema Variabilidad
Puntos de articulación labios: [p], [b], [m] dientes: [t], [d] alveolos: [n], [s] paladar: [J], [L] velo: [k], [g], [x]
Alófono Cada uno de los sonidos propios de una lengua
Fonema Conjunto de alófonos con el mismo valor fonológico en una lengua /s/, /z/ casa, mismo /n/, /N/ cana, tango
Variabilidad contexto locutor coarticulación prosodia factores individuales ... y sociolingüísticos
El oído
Oído interno
Percepción del sonido Bandas críticas Respuesta a la composición frecuencial (no a la forma de onda) Enmascaramiento en frecuencia Bandas críticas Escalas de Bark y mel
Enmascaramiento Simultáneo