Dpto. Señales, Sistemas y Radiocomunicaciones

Slides:



Advertisements
Presentaciones similares
ANOVA DE UN FACTOR.
Advertisements

Data Mining Minería de Datos Universidad Tecnológica Metropolitana
Tema 10. VALORACIÓN DE RESULTADOS.
Mariano Alcántara Eduardo
Tema 3 Evaluación de la calidad óptica del sistema visual con un elemento compensador.
Estudios de Cohorte Dra. Pilar Jiménez M..
Regresión mínimo cuadrada (I)
TRABAJO FIN DE CARRERA Generación de Máscaras Soft para Compensación de Características en Reconocimiento Robusto del Habla I v á n L ó p e z E s p.
PROYECTO FIN DE CARRERA.  Introducción y Motivación  Fundamentos del Sistema QbH  Diseño e Implementación  Test y Resultados  Conclusiones  Trabajo.
K-NN: K vecinos más cercanos
CURSO 2009/2010 ¿Qué es y para qué sirve el Ajuste de Observaciones?¿Por que es necesario buscar métodos alternativos? Ana Mª Domingo Preciado Profesora.
Dpto. Señales, Sistemas y Radiocomunicaciones
Dpto. Señales, Sistemas y Radiocomunicaciones
Dpto. Señales, Sistemas y Radiocomunicaciones
INFERENCIA ESTADISTICA
MODELO DE REGRESIÓN MÚLTIPLE
Tema 6: Compresión de imagen
PROYECTO FIN DE MÁSTER Estimación de Ruido Acústico Mediante Filtros de Partículas para Reconocimiento Robusto de Voz I v á n L ó p e z E s p e j o.
Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 Suscribase a o escríbanos a
Experimentos preliminares de verificación de locutores con una base de datos realista José Antonio Rubio García , José Manuel Pardo Muñoz, Ricardo de Córdoba.
Modelo básico de regresión Lineal
ANÁLISIS DISCRIMINANTE
APRENDIZAJE WIDROW- HOFF
REDES NEURONALES ARTIFICIALES
Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema4a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.
Análisis de nodos y mallas
Tema 2: Métodos de ajuste
Análisis de Correlación y de Regresión lineal simple
RECONOCIMIETO DE PATRONES
FUNCIONES DE DENSIDAD DE PROBABILIDAD
Análisis Discriminante
Sesión 2: Métodos Probabilísticos Básicos
MODELOS GENERALIZADOS
Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2d.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.
Bayesian Inference of Phylogeny
Modelos Ocultos de Markov
Pronósticos, Series de Tiempo y Regresión
3. Funciones discriminantes para la f.d.p normal.
EL IMPLANTE COCLEAR: FUNCIONAMIENTO, POSIBILIDADES Y LIMITACIONES
Descripción de Contenidos con Wavelets Jaime Gaviria.
Aprendizaje (Machine Learning)  Pregunta interesante: Podemos hacer que las computadoras aprendan?  Aprender: mejorar automáticamente con la experiencia.
Combinación de Clasificadores
Perceptrón Multicapa Aplicaciones. Perceptrón Multicapa MLP Latitud Longitud... Altitud Radiación solar Aproximación de funciones MLP Estado de un reactor.
Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote
IPC 2008 Estimaciones por Bootstrap
ANALISIS DE FRECUENCIA EN HIDROLOGIA (2)
Técnicas Supervisadas Aproximación no paramétrica Reconocimiento de Patrones 2003 Notas basadas en el curso Reconocimiento de Formas de F.Cortijo, Univ.
APLICACIONES.
Reconocimiento de Formas en Data Mining Prof: Héctor Allende Capítulo 2 Aproximación Paramétrica.
Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.
Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez
Normalidad, Variabilidad y estimación del Modelo de Regresión
Ditribución del valor extremo Distribucion del maximo de N scores de matching de secuencias random independientes Si la probabilidad de este.
Análisis y diseño de experimentos
Ex ungue leonis Atribuido a Johann Bernoulli al leer dos soluciones anónimas, y reconociendo en ellas la redacción y genialidad de Isaac Newton Cadenas.
Presentado por:   JUAN FRANCISCO ALVAREZ ALVARADO
Analisis de datos en imagenes hiperespectrales: intro 1 Analisis de datos hiperespectrales: otra revisión Hyperespectral image data analysis, D. Landgrebe,
Aprendizaje No Supervisado y Redes de Kohonen
ALINEAMIENTO MULTIPLE: METODOS ALTERNATIVOS
Que es CLUE? Conversion of Land Use and its Effects Metodología para modelar patrones de LUCC en el futuro cercano Metodología híbrida que combina: –Análisis.
OPTIMIZACIÓN DE UN SERVICIO AUTOMÁTICO DE PÁGINAS BLANCAS POR TELÉFONO: PROYECTO IDAS R. Córdoba, R. San-Segundo, J. Colás, J.M. Montero, J. Ferreiros,
Maestría en Transporte Regresamos... (el problema de la regresión lineal) Clase 5.
Regresión Lineal Simple
Inteligencia Artificial- Aplicaciones 1. Contenido  Conceptos  Introducción  Esquema general  Ejemplos de Aplicaciones 2.
SISTEMA DE CÓMPUTO PARA LA COMUNICACIÓN HOMBRE -MÁQUINA
Departamento de Informática Universidad Técnica Federico Santa María EconometríaEconometría Capitulo II.
REDES NEURONALES ARTIFICIALES (SOM - Kohonen)
Facultad de Informática y Estadística Universidad de Sevilla Departamento de Lenguajes y Sistemas Informáticos. Ayuda en la toma de decisiones G ESTIÓN.
Unsupervised visual learning of three-dimensional objects using a modular network architecture Ando, Suzuki, Fujita Neural Networks 12 (1999)
Regresión logística Tema 6c. En la regresión lineal la variable dependiente es continua En regresión logística se utiliza cuando la variable dependiente.
Transcripción de la presentación:

Dpto. Señales, Sistemas y Radiocomunicaciones Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema6b.ppt Dpto. Señales, Sistemas y Radiocomunicaciones

Independencia de Texto Observaciones independientes Tecnología de Reconocimiento de Locutor Input speech Speaker identity VQ codebooks Feature extraction Decision Accumulation VQ distortion Independencia de Texto Observaciones independientes

Tecnología de Reconocimiento de Locutor Reconocimiento de Locutor mediante CV El cuantificador vectorial “representa” la distribución estadística de los datos Otras técnicas de entrenamiento: Entrenamiento Discriminativo: el objetivo no es el minimizar el error de cuantificación sino el Error de CLASIFICACIÓN (técnicas de gradiente -> Redes Neuronales)

Por la técnica de clasificación... Tecnología de Reconocimiento de Locutor Por la técnica de clasificación... Clasificadores paramétricos (I): Son los más utilizados en Reconocimiento

Por la técnica de clasificación... Tecnología de Reconocimiento de Locutor Por la técnica de clasificación... Clasificadores paramétricos (II): Utilizan una representación paramétrica explícita de la probabilidad acústica: Los parámetros de se estiman a partir de los datos de entrenamiento X={x1,x2, ... xN} Proporciona un formalismo matemático consistente para técnicas de adaptación a diferentes condiciones y entornos.

Tecnología de Reconocimiento de Locutor

Tecnología de Reconocimiento de Locutor Clasificadores paramétricos: GMM (Gaussian Mixture Models) Representación paramétrica explícita de la probabilidad acústica como suma de fdp gaussianas:

Tecnología de Reconocimiento de Locutor Clasificadores paramétricos: GMM (Gaussian Mixture Models) Los parámetros de se estiman a partir de los datos de entrenamiento X={x1,x2, ... xN} La combinación de gaussianas se aproxima a la distribución de los datos.

Tecnología de Reconocimiento de Locutor

Tecnología de Reconocimiento de Locutor

Tecnología de Reconocimiento de Locutor Identificación con GMMs Speech wave Feature extraction Maximum selection • • • Identification result (Speaker ID)

Tecnología de Reconocimiento de Locutor Verificación con GMMs : Normalización Likelihood ratio log L(O) = log p(O|l= l c) - log p(O| l  l c) l c : identidad supuesta A posteriori probability log L(O) = log p(O | l = l c) - log  p(O | l) Ref : locutor de referencia o cohorte de locutores Modelo Universal log L(O) = log p(O | l = l c) - log  p(O | l UBM) UBM : Universal Background Model SRef

Tecnología de Reconocimiento de Locutor

Tecnología de Reconocimiento de Locutor Clasificadores paramétricos: GMM (Gaussian Mixture Models) Los parámetros de se estiman a partir de los datos de entrenamiento X={x1,x2, ... xN} ¡¡IMPORTANTE!!: Cantidad de datos de entrenamiento  Número de Parámetros a estimar Técnicas de Entrenamiento: ML (Maximum Likelihood) MAP (Maximun a posteriori) Similares resultados si no hay información a priori, pero MAP válida para adaptación

Tecnología de Reconocimiento de Locutor Entrenamiento ML

Tecnología de Reconocimiento de Locutor

Tecnología de Reconocimiento de Locutor

Tratamiento Digital de Voz Reconocimiento de Locutor => Reconocimiento de Habla Hasta ahora: El orden de la secuencia de sonidos NO IMPORTABA => Independiente de Texto PERO: En Reconocimiento de Locutor dependiente de texto En Reconocimiento de Habla La secuencia de sonidos sí importa (“casa” “saca”) Primera Aproximación: Alineamiento Temporal + Medida de Distancia (DTW Dynamic Time Warping)

} { Tratamiento Digital de Voz Reconocimiento de Locutor => Reconocimiento de Habla Primera Aproximación: Alineamiento Temporal + Medida de Distancia (DTW Dynamic Time Warping) C A S A ENVENTANADO V3 V4 V5 V6 V2 V1 PATRÓN } { ANÁLISIS

PROBLEMA: PRef TIENE DISTINTA DURACIÓN TEMPORAL QUE PReco Tratamiento Digital de Voz Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping) ENTRENAMIENTO: se obtiene y almacena un patrón de refrencia (PRef) para cada una de las palabras del vocabulario RECONOCIMIENTO: se obtiene el patrón de la palabra a reconocer (PReco). La palabra reconocida será la correspondiente al patrón de referencia más parecido (menor distancia) al patrón a reconocer. PROBLEMA: PRef TIENE DISTINTA DURACIÓN TEMPORAL QUE PReco SOLUCIÓN: DEFORMAR EL EJE DE TIEMPOS ESTIRÁNDOLO O ENCOGIÉNDOLO (TÉCNICAS DE PROGRAMACIÓN DINÁMICA)

Tratamiento Digital de Voz 1 5 6 7 8 4 3 2 PALABRA A RECONOCER (TIEMPO) PATRÓN DE REFERENCIA

d(Preco, Pref) = g(I,J) / I+J Tratamiento Digital de Voz Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping Cálculo distancia acumulada g(i,j) según el “camino óptimo” (Programación Dinámica) g(i,j) = d(i,j) + min { g(i-1,j), g(i-1,j-1), g(i,j-1)} 1 < i < I ( nº tramas de Preco ) 1 < j < J ( nºtramas de Pref ) g(i,j) g(i,j-1) g(i-1,j-1) g(i-1,j) La distancia entrel el PRef y el PReco d(PRef, PReco) será: d(Preco, Pref) = g(I,J) / I+J

Tratamiento Digital de Voz Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping) 1 5 6 7 8 4 3 2 PALABRA A RECONOCER (TIEMPO) PATRÓN DE REFERENCIA

Reconocimiento de Habla Tecnología Dominante: HMM (Hidden Markov Models) Clasificador Paramétrico: p(O/l) con l secuencia de sonidos, palabras, frases,... Primera Aproximación: Estados + GMMs por Estado