Dpto. Señales, Sistemas y Radiocomunicaciones

Slides:



Advertisements
Presentaciones similares
Francisco Carlos Calderón
Advertisements

PROCESAMIENTO DE IMAGENES
La señal de voz Asunción Moreno.
Procesamiento Digital de Señales (DSP)
Centro de Innovación y Desarrollo
CAP. 6 - DISTORSIÓN Ing. Verónica M.Miró 2011.
GuitarX Afinador Iván López Espejo.
REPRESENTACION DE SEÑALES Y SISTEMAS
Proyecto Medidas Electrónicas II
Proyecto Audio Fingerprint DSP 2009 Tutor: Juan Cardelino Integrantes: Daniel Aicardi Edgardo Vaz Melina Rabinovich.
ELECTRODINÁMICA. PRÁCTICA VIRTUAL SOBRE GUÍAS DE ONDA. Curso
TEMA 4 LA TRANSFORMADA DISCRETA DE FOURIER
Dpto. Señales, Sistemas y Radiocomunicaciones
Dpto. Señales, Sistemas y Radiocomunicaciones
Dpto. Señales, Sistemas y Radiocomunicaciones
La transformada de Fourier.
INFERENCIA ESTADISTICA
M.I. Ricardo Garibay Jiménez
UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
Procesamiento Digital de Señales
IAR134 Procesamiento de Señales
TEMA 4 LA TRANSFORMADA DISCRETA DE FOURIER
Señales y sistemas de tiempo discreto
MAESTRIA EN INGENIERIA DE CONTROL INDUSTRIAL - Curso de Identificación de Sistemas Ing.MSc. Ana Isabel Gutiérrez 3. PREPROCESAMIENTO DE SEÑALES La calidad.
Determinacion de endmembers CCA1 Determinación de endmembers mediante una transformacion cónica.
Repaso de Sistemas Lineales
Software didáctico interactivo para evaluar la voz cantada
Potencia, Energía y Calidad Suministro Eléctrico MEG-CUR-CPERev. 01 Armónicos, Interarmónicos y Armónicos fluctuantes.
ATV 2002 – Dpto. Electrónica y Tecn. Computadores - UGR 1 Procesamiento de señales de voz.
TD-33. EXTRACCIÓN DE SUPERFICIE BORDE DE UN CONJUNTO DE DATOS VOLUMÉTRICO Andrés Fernández Peralta Luis Franco Espín Ignacio Gordillo Díaz.
2. DISEÑO DE SEÑALES Y FILTROS
Implementacion Dr. Rogerio.
Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2d.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.
La segmentación de imágenes se ocupa de descomponer una imagen en sus partes constituyentes, es decir, los objetos de interés y el fondo, basándose en.
Identificación de Sistemas
Procesamiento digital Parte 3 - Filtros
Universidad Técnica Particular de Loja
GRUPO DE INVESTIGACION EN CONTROL INDUSTRIAL
Digital Image Processing Chapter 4
PROCESAMIENTO EN EL DOMINIO DEL ESPACIO. Se entiende por procesamiento en el dominio del espacio, la realización de operaciones directamente sobre el valor.
Analizadores de Fourier
CONTROL REMOTO POR VOZ DEL ROBOT MÓVIL PIONEER P3-DX
Una aplicación de la Descomposicion Empirica de Modos (EMD) en el estudio de los murmuros causados por estenosis en fistulas Arterio Venosas.
Ancho de Banda de Señales
Reconocimiento y resolución de ecuaciones impresas Luis Fernández Pérez Marco Antonio Formoso Trigo.
=. STFT (Short time Fourier transform) Or windowed Fourier transform.
Introducción a Wavelets (ondeletas)
F(t) F(w) LA TRANSFORMADA DE FOURIER. Transformada de Fourier A la función F(  ) se le llama transformada de Fourier de f(t) y se denota por F, es.
Procesadores digitales de señal (PDS)
Proceso de muestreo.
Introducción general a la compresión de datos multimedia
Modulación en Amplitud (AM)
TRANSFORMADA DISCRETA DE FOURIER - DFT
 Transformada Discreta de Fourier Na k corresponde a muestras de la TF de un período. La relación se cumple, independientemente del M elegido. Sea una.
TEMA 2 CARACTERIZACIÓN FRECUENCIAL DE SEÑALES Y SISTEMAS
Filtrado lineal Digital image processing, Gonzalez & Woods, chpt 4
Multiple Camera Tracking of Interacting and Occluded Human Motion SHILOH L. DOCKSTADER, STUDENT MEMBER, IEEE, AND A. MURAT TEKALP, SENIOR MEMBER, IEEE.
1 1 de febrero del Nivel Físico  Introducción  Señal  Espectro  Ancho de banda de una señal  Respuesta a la Frecuencia de un sistema.
José Oliver Alberto Bonastre José Luis Poza
Dpto. Señales, Sistemas y Radiocomunicaciones
Agenda Introducción Señales de Voz Sistema Monoacústico Sistema Estéreo Sistema Híbrido Mono/Estéreo Detectores de doble Conversación.
FUNDAMENTOS SOBRE P ROCESAMIENTO D IGILTAL DE I MÁGENES (DIP) Copyright 2004 para Diego Luis Aristizábal Ramírez OrquideaJAI Universidad Nacional de Colombia.
PROCESAMIENTO DIGITAL DE SEÑALES
Dpto. Señales, Sistemas y Radiocomunicaciones
PROCESAMIENTO DIGITAL DE SEÑALES
Proyecto Audio Fingerprint DSP 2009 Tutor: Juan Cardelino Integrantes: Daniel Aicardi Edgardo Vaz Melina Rabinovich.
PROCESADORES DIGITALES DE SEÑALES
Procesamiento Digital de Señales
DETECCION DE SEÑALES BINARIAS EN RUIDO GAUSSIANO El criterio de toma de decisión fue descrito por la ecuación Un criterio muy usado para escoger el nivel.
PROCESADORES DIGITALES DE SEÑALES Transformada Z - VI Sistemas Electrónicos, EPSG Tema IV Transformada Z:
Transcripción de la presentación:

Dpto. Señales, Sistemas y Radiocomunicaciones Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema3.ppt Dpto. Señales, Sistemas y Radiocomunicaciones

Técnicas de Análisis de la Señal de Voz Análisis Localizado Concepto Análisis en el Tiempo: Energía Tasa de Cruces por Cero Autocorrelación Análisis en Frecuencia: Transformada Localizada de Fourier Análisis Cepstral Estima de la Frecuencia Fundamental

Técnica de Análisis : T{ } Técnicas de Análisis de la Señal de Voz Análisis Localizado Concepto s[n] : señal de voz w[n]: ventana de análisis n w[n] Técnica de Análisis : T{ } w[M-n] w[2M-n] w[3M-n] s[n] n

Técnica de Análisis : T{ } Técnicas de Análisis de la Señal de Voz Parámetros Básicos del Análisis Localizado (I) Tipo de Ventana: Hamming, Hanning, Rectangular, Triangular, .. Técnica de Análisis : T{ } Ventana de Hamming

Técnicas de Análisis de la Señal de Voz Parámetros Básicos del Análisis Localizado (II) Tamaño de la Ventana : N Desplazamiento de la Ventana: M s[n] n w[M-n] w[2M-n] w[3M-n] N M

Técnicas de Análisis de la Señal de Voz Análisis Localizado en el Tiempo E[m]: Energía Localizada

Técnicas de Análisis de la Señal de Voz

Técnicas de Análisis de la Señal de Voz Análisis Localizado en el Tiempo Tcc[m]: Tasa de Cruces por Cero (relación Energía AF / BF)

Técnicas de Análisis de la Señal de Voz Análisis Localizado en el Tiempo E[m] : Energía Localizada Tcc[m]: Tasa de Cruces por Cero Aplicaciones DETECTOR DE VOZ / RUIDO (VAD: Voice Activity Detector) Codificación (Ejemplo GSM: reducir interferencias, ahorro batería) Reconocimiento (mayor eficiencia, evitar falsos reconocimientos) CLASIFICACIÓN DE SONIDOS

Técnicas de Análisis de la Señal de Voz Análisis Localizado en el Tiempo Rm[k] : Autocorrelación

Técnicas de Análisis de la Señal de Voz Análisis Localizado en el Tiempo Rm[k] : Autocorrelación

Análisis en Frecuencia: Transformada Localizada de Fourier: Técnicas de Análisis de la Señal de Voz Análisis en Frecuencia: Transformada Localizada de Fourier: Interpretación 1: T. Fourier de la señal enventanada Interpretación 2: Banco de Filtros

Técnicas de Análisis de la Señal de Voz Punto de Vista TF: (agrupar s[]·w[] ó tiempo fijo) Secuencia de DFTs para diferentes posiciones de la ventana w[n-m] Punto de vista Banco de Filtros: ( agrupar s[n]e-jwn ó frecuencia fija) Considerar w[n] como filtro paso-bajo s[n]e-jwn como modulacíon: desplazamiento del espectro de s[n] en w

Técnicas de Análisis de la Señal de Voz ESPECTROGRAMAS (Sonogramas) Representación Tiempo-Frecuencia Análisis de Banda Ancha - Banda Estrecha

Técnicas de Análisis de la Señal de Voz Análisis Homomórfico: Cepstrum Finalidad: El análisis cepstral proporciona un camino para separar excitación y respuesta del filtro (tracto vocal) El punto de partida es: considerar un segmento sonoro como convolución entre: e[n] – señal de excitación glotal h[n] – respuesta al impulso del tracto vocal

Técnicas de Análisis de la Señal de Voz Análisis Homomórfico: Cepstrum Por tanto, recordando que: Y las características de: - E(w) : armónico - H(w) : envolvente marcada por formantes Cepstrum Real: Separables en el dominio n (quefrencia) por filtrado (liftering)

Separables en el dominio n (quefrencia) por filtrado (liftering) Técnicas de Análisis de la Señal de Voz Análisis Homomórfico: Cepstrum Periodo Fundamental Separables en el dominio n (quefrencia) por filtrado (liftering)

Mel-scaled Cepstral Coefficients (MFCC) para Reconocimiento de Voz Pre-Emphasis Frame-blocking FFT DCT Mel-scaling Vectores de Características

Cepstral Coefficients

MFCC curso: Joseph Picone http://www. isip. msstate Recall our filterbank, which we construct in mel-frequency domain using a triangularly-shaped weighting function applied to mel-transformed log-magnitude spectral samples:

MFCC curso: Joseph Picone http://www. isip. msstate After computing the DFT, and the log magnitude spectrum (to obtain the real cepstrum), we compute the filterbank outputs, and then use a discrete cosine transform

MFCC curso: Joseph Picone http://www. isip. msstate Note that the triangular weighting functions are applied directly to the magnitude spectrum, and then the logarithm is taken after the spectral samples are averaged. The resulting coefficients are an approximation to the the cepstrum, and in reality simply represent an orthogonal and compact representation of the log magnitude spectrum. We typically use 24 filterbank samples at an 8 kHz sampling frequency, and truncate the DCT to 12 MFCC coefficients. Adding energy gives us a total of 13 coefficients for our base feature vector.

Técnicas de Análisis de la Señal de Voz Predicción Lineal Predecir s(n) a partir de s(n-1) ..s(n-M) s(n) <-> f { s(n-1), s(n-2), ... s(n-M)} Proporciona un “modelo” de s(n) Si, la función f{ } es lineal, hablamos de Predicción Lineal

Predicción Lineal Predecir s(n) a partir de s(n-1) ..s(n-M) s(n) <-> f { s(n-1), s(n-2), ... s(n-M)} Proporciona un “modelo” de s(n) Si, la función f{ } es lineal, hablamos de Predicción Lineal

Predicción Lineal s(n) <-> a1 s(n-1) + a2 s(n-2) + .. aPs(n-P) {a1, a2, ... aP }: Coeficientes de Predicción e(n) = s(n) - S ai s(n-i) : Error de Predicción

---------------------- Predicción Lineal e(n) = s(n) - S ai s(n-i) => s(n) = e(n) + S ai s(n-i) Proporciona un “modelo” para s(n): s(n) e(n) 1 ---------------------- 1 - S aiz-i

---------------------- Predicción Lineal Interpretación del modelo: e(n) : excitación (no predecible a corto plazo) {ai} (i=1,2 .. P) : tracto vocal s(n) e(n) 1 ---------------------- 1 - S aiz-i

Predicción Lineal Interpretaciones: e(n): Error de predicción Excitación del modelo {ai} (i=1,2 .. P) : Coef. de Predicción Filtro del Tracto Vocal

Predicción Lineal s(n) e(n) 1 - S aiz-i Conclusiones: Podemos encontrar un filtro que represente al tracto vocal resolviendo el problema de Predicción Lineal Con ese filtro podemos obtener e(n): s(n) e(n) 1 - S aiz-i

Ep = S{e(n)}2 = S {s(n) - S ai s(n-i) } 2 Predicción Lineal Resolución numérica: Encontrar {ai} (i=1,2 .. P) que minimicen el Error de Predicción => (su Energía) Ep Ep = S{e(n)}2 = S {s(n) - S ai s(n-i) } 2

Predicción Lineal Ep = S{e(n)}2 = S {s(n) - S ai s(n-i) } 2 Para cada ak : dEp / dak = 0 k = 1,2, ... P Sistema de P ecuaciones LINEALES con P incógnitas.

Predicción Lineal Ep = S{e(n)}2 = S {s(n) - S ai s(n-i) } 2 dEp / dak = 0 2 S {s(n) - S ai s(n-i) }{- s(n-k)} = 0 S {s(n) s(n-k)} = S ai S {s(n-i) s(n-k)} Rs(|k-i|) Rs(|k|)

Predicción Lineal Rs(|k|) = S ai Rs(|k-i|) : para k=1,2, ... P Rs(|1|) = a1Rs(0) + a2Rs(1) + ... aP Rs(P-1) Rs(|2|) = a1Rs(1) + a2Rs(0) + ... aP Rs(P-2) ... ... ... Rs(|P|) = a1Rs(P-1) + ... aP Rs(0)

Predicción Lineal En forma matricial ... Rs(|1|) Rs(0) Rs(1) ... Rs(P-1) a1 Rs(|2|) Rs(1) Rs(0) ... Rs(P-2) a2 ... .... ... ... ... Rs(|P|) Rs(P-1) ... Rs(0) aP r = R a ==> a = R-1 r (R toepliz) =

Predicción Lineal CEPSTRUM LPC 

ESTIMA DE LA FRECUENCIA FUNDAMENTAL Características y Técnicas de Análisis ESTIMA DE LA FRECUENCIA FUNDAMENTAL Decisión sobre si el segmento es sonoro o no Para segmentos sonoros: Estimar el valor de F0 Frecuencia Fundamental F0 Voz de Entrada Algoritmo de Estima: Tiempo: Autocorrelación Frecuencia: Picos Espectrales Post-Procesado: Errores: Decisión sonoridad Valor estimado Pre-Procesado (Ej. Filtrado)

ESTIMA DE LA FRECUENCIA FUNDAMENTAL Decisión Sonoro / sordo Características y Técnicas de Análisis ESTIMA DE LA FRECUENCIA FUNDAMENTAL SIFT (simple inverers filtering tracking). [Markel 1972] x[n] y[n] Filtro Paso Bajo 0-900 Hz Decimación 5:1 Filtro Inverso Autocorrelación S[n] fm = 10 KHz Análisis PL P=4 Búsqueda de Máximo Decisión Sonoro / sordo Estima F0 Interpolación

Características y Técnicas de Análisis Algoritmo SIFT 1. Frecuencia de corte 900Hz => Frec. Muestreo nominal de 10 Khz se reduce a 2 kHz (decimación, i.e., descartar 4 de cada 5) 2. La salida diezmada, x[n] , se procesa con análisis LPC con p=4. Un orden 4 es suficiente para modelar la envolvente en el rango 0-1 kHz, ya que en ese rango sólo encontramos 1-2 formantes. 3. La señal x[n] se procesa por el filtro inverso para obtener y[n] , con espectro aproximadamente plano. 4. Se calcula la autocorrelación localizada sobre y[n], y se obtiene el pico más alto en el rango de valores de pitch probables. 5. Para tener una mayor resolución en la estima de F0, se interpola la autocorrelación en la región del máximo encontrado. 6. Si el máximo de la autocorrelación, normalmente normalizada por R[0], no supera un umbral, se decide que la trama es sorda.

Se evidencia un periodo de pitch Características y Técnicas de Análisis Algoritmo SIFT Figura (a) trama de voz analizada. Figura (b) espectro de x[n] y envolvente LP. (Formante en 250 Hz). Figura (c) espectro de y[n]. Figura (d) señal y[n]. Figura (e) autocorrelación normalizada de y[n] Se evidencia un periodo de pitch de unos 8 mseg.