Identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic.

Slides:

Advertisements

Presentaciones similares

CONTENIDOS Teoría del muestreo ¿Cómo seleccionar una muestra?

Advertisements

Modelos de Variable Dependiente Binaria -Logit y Probit-

PRUEBA DE HIPOTESIS Denominada también prueba de significación, tiene como objetivo principal evaluar suposiciones o afirmaciones acerca de los valores.

La señal de voz Asunción Moreno.

Procesamiento Digital de Señales (DSP)

Convertidores A/D y D/A

Bivariadas y Multivariadas

PROYECTO FIN DE CARRERA.  Introducción y Motivación  Fundamentos del Sistema QbH  Diseño e Implementación  Test y Resultados  Conclusiones  Trabajo.

Selección del modelo adecuado

Dpto. Señales, Sistemas y Radiocomunicaciones

Modelado y simulación en Ingeniería Química. Manuel Rodríguez

INFERENCIA ESTADISTICA

MODELO DE REGRESIÓN MÚLTIPLE

Tema 6: Compresión de imagen

PROYECTO FIN DE MÁSTER Estimación de Ruido Acústico Mediante Filtros de Partículas para Reconocimiento Robusto de Voz I v á n L ó p e z E s p e j o.

Especialista en Business Intelligence Analysis Services SSAS (Sesión 14) Microsoft SQL Server 2008 R2 Suscribase a o escríbanos a

ESTRATEGIAS Y DISEÑOS AVANZADOS DE INVESTIGACIÓN SOCIAL

Modelo básico de regresión Lineal

Regresión y correlación

CAMBIO ESTRUCTURAL INDICE DE LA PRESENTACIÓN.

ANÁLISIS DISCRIMINANTE

Reguladores Autoajustables (STR) Introducción ANTE EL CASO DE UN PROCESO NO LINEAL O CUYOS PARÁMETROS CAMBIEN CON EL TIEMPO, SE PLANTEA UNA ESTRUCTURA.

Estadística Descriptiva: 4. Correlación y Regresión Lineal

MEDIDAS DE DISPERSIÓN:

Maracaibo, 5 de Noviembre de 2007 Universidad del Zulia Facultad de Ingeniería Instituto de Cálculo Aplicado Universidad del Zulia Facultad de Ingeniería.

RECONOCIMIETO DE PATRONES

FUNCIONES DE DENSIDAD DE PROBABILIDAD

Estadística 2010 Maestría en Finanzas Universidad del CEMA Profesor: Alberto Landro Asistente: Julián R. Siri.

Control estadístico de Proceso

Sesión 2: Métodos Probabilísticos Básicos

PROYECCIONES DE LA DEMANDA

PROBLEMAS ECONOMETRICOS

Importancia de las aplicaciones de estadística en el control de procesos Guatemala 2010.

Pronósticos, Series de Tiempo y Regresión

Pronósticos, Series de Tiempo y Regresión

GRUPO DE INVESTIGACION EN CONTROL INDUSTRIAL

3. Funciones discriminantes para la f.d.p normal.

Sesión 6: Campos de Markov

Vectores Aleatorios 1 Distribución conjunta de un vector aleatorio

TOPICOS DE ECONOMETRIA APLICADA Variables dependientes limitadas

Combinación de Clasificadores

EXPERIMENTACIÓN NUMÉRICA

Error sistemas biometricos1 Estadísticas de error en biometría Error rate equations for the general biometric system, J.L. Wayman, IEEE Robotics & Automation.

Reconocimiento de Formas en Data Mining Prof: Héctor Allende Capítulo 2 Aproximación Paramétrica.

Departamento de Informática Universidad Técnica Federico Santa María

Titular: Agustín Salvia

Introducción a la Inferencia Estadística

Regresión No- lineal y Múltiple

Analisis de datos en imagenes hiperespectrales: intro 1 Analisis de datos hiperespectrales: otra revisión Hyperespectral image data analysis, D. Landgrebe,

6. ANÁLISIS DISCRIMINANTE

Modelos matemáticos del proceso de muestreo y retención

Instituto Politécnico Nacional esime Zacatenco Ing

Maracaibo, 26 de Mayo de 2006 Universidad del Zulia Facultad de Ingeniería División de Postgrado Maestría en Computación Aplicada Universidad del Zulia.

Método de mínimos cuadrados

Ejercicios Dado un conjunto de datos, aplicar el Criterio de Fourier para desechar los posibles valores atípicos.

Regresión lineal simple Nazira Calleja

MODELOS DE PRONOSTICOS Primer semestre 2010 Modelo de Regresión con dos variables.

DETECCION DE SEÑALES BINARIAS EN RUIDO GAUSSIANO El criterio de toma de decisión fue descrito por la ecuación Un criterio muy usado para escoger el nivel.

INFERENCIA ESTADÍSTICA

OPTIMIZACION DEL DESEMPEÑO DE ERROR

Departamento de Informática Universidad Técnica Federico Santa María EconometríaEconometría Capitulo II.

REGRESIÓN LINEAL SIMPLE

Detecccion de caras1 Deteccion de caras-2 A fast and accurate face detector based on neural networks, R. Feraud, O.J. Bernier, J.E. Viallet, M. Collobert,

Estadística Inferencial

M.E. ADA PAULINA MORA GONZALEZ. Esta parte describe las técnicas para ajustar curvas en base a datos para estimaciones intermedias. Una manera de hacerlo.

Unsupervised visual learning of three-dimensional objects using a modular network architecture Ando, Suzuki, Fujita Neural Networks 12 (1999)

Evaluando los promedios de grupos distintos UNIDAD 7 1.

Transcripción de la presentación:

identificacion hablante1 Reconocimiento de hablante Speaker recognition: a tutorial, J, P, Campbell, Proc IEEE 85(9) pp.1437 Recent advances in automatic speaker authentication, Q. Li, B.H. Juang, C.H. Lee, Q. Zhou, F.K. Soong, IEEE Robotics & Automation Magazine, (march 1999) 6(1)pp.24-34

identificacion hablante2 Definición Reconocimiento del hablante (Speaker recognition) –Es el uso de una máquina para reconocer a una persona a partir de una frase hablada. Verificación, Automated Speaker Verification (ASV): –autentificación de la identidad declarada por una persona en base al análisis de la voz. –La decisión es binaria: aceptación o rechazo. Identificación, Automated Speaker Identification (ASI): –No existe declaración a priori de la identidad y el sistema decide cual es la persona o su grupo, o si la persona es desconocida.

identificacion hablante3 Dependiente de texto: el usuario debe declamar una frase que se le indica.

identificacion hablante4 Esquema de sistema de verificación El usuario presenta una tarjeta inteligente encriptada que contiene su información de identidad. Intenta ser autentificado pronunciando una frase indicada en el microfono. Existe un balance entre precisión y duración de la sesión. Entra también ruido y versiones retrasadas de su voz por las superficies reflectantes acústicas.

identificacion hablante5 Fuentes de error en sistemas de verificación del hablante Mala pronunciación de las frases Estados emocionales Posición del micro Acústica de la habitación Diferentes microfonos Enfermedades Envejecimiento Motivación para ASV: es el sistema más económico, y potencialmente omnipresente a través del teléfono, es un sistema biométrico (inherente a la persona), se puede hacer robusto al ruido y variaciones de canal, usuario y falsificaciones.

identificacion hablante6 Fases generales 1 Adquisición digital de la voz 2 Extracción de características 3 Emparejamiento de patrones 4 Realización de la decisión de aceptación rechazo 5 Registro (enrollment) Adquisición: Señal analógica suavizada (antialiasing) digitalizada con un A/D bits a muestras por seg.

identificacion hablante7

8

9 Base de datos de entrenamiento y test de sistemas de reconocimiento del hablante, controlada científicamente, alta calidad. Las entradas están digitalizadas de forma estándar. Realizada en 1990 por ITT. Es la referencia para sistemas en entornos de tipo oficina.

identificacion hablante10 Producción de la voz en el tracto vocal: Faringe laríngea, faringe oral, cavidad oral, faringe nasal, cavidad nasal. Excitación: fonación, susurro, fricación, compressión, vibración Modulación: el tracto vocal modula la onda sonora alterandola por sus resonancias. Características dependientes del hablante: las que se refieren a la estructura física particular del tracto vocal más las aprendidas

identificacion hablante11 Extracción de características Predicción lineal (LP) –Impone un modelo lineal de la señal. –Los coeficientes de este modelo lineal se utilizan como características para el reconocimiento.

identificacion hablante12 Modelo lineal de la señal que relaciona el input actual u n con los inputs recientes. Predicción de la señal Error de predicción o residual Criterio del minimo error cuadrático Que se minimiza buscando

identificacion hablante13 La condición de minimo resulta en las ecuaciones Correlación de lag  Ecuación de Yule que da los coeficientes del modelo de regresión (predicción) lineal en función de las correlaciones de la señal.

identificacion hablante14 Método recurrente de Durbin para resolver las ecuaciones de Yule Representación de la señal en térmimos de la predicción lineal y el error de predicción.

identificacion hablante15 Si una señal de voz se ajusta al modelo lineal dado, los resifuales forman un tren de pulsos que se repiten a la tasa de la vibración de las cuerdas vocales. Los máximos de los errores de predicción ocurren a la tasa de vibración de las cuerdas vocales La detección de los máximos de error de predicción se puede utilizar como método de detección de “pitch”.

identificacion hablante16 Características Se pueden calcular a partir de los coeficientes de la predicción lineal –Coeficientes de reflexión: coinciden con los k i intermedios del método de Durbin –Ratios log-area –Frecuencias LSP –LP cepstrum

identificacion hablante17 Ratios Log-area: se basan en el modelado del tracto vocal como una serie de tubos cilindricos. Dadas unas condiciones de contorno, los coeficientes de reflexión corresponden a relaciones entre las areas de los cilindros consecutivos No existe biunicidad de areas y señal producida, por lo que no existe garantía de emparejamiento.

identificacion hablante18 Condiciones de contorno: Glotis cerrada y un area grande tras los labios. Coeficientes de reflexión en términos de las areas de los cilindros Los LAR logaritmos de los ratios entre areas consecutivas se expresan en términos de los coeficientes de reflexión:

identificacion hablante19 LSP: linear spectra prediction. Se basa en la transformación del sistema lineal dado por la predicción lineal. Las raíces se descomponen en polinomios auxiliares Los LSP son los ceros de P(z) y Q(z). Satisfacen una propiedad de entrelazado:

identificacion hablante20 Coeficientes cepstrales Cálculo de los coeficiontes Mel Cepstrum –Extraer una ventana de la señal –Hace la FFT –Calcula la magnitud –Calcula el log –Transforma las frecuencias de acuerdo a la escala mel, ajustada a la percepción humana. –Obtiene la FFT inversa.

identificacion hablante21

identificacion hablante22 Selección de características PCA principal component analysis: reducción dimensional que mantiene la varianza de los datos, –no parece apropiado para speaker recognition dado que es un problema de discriminación y no de representación Factor analysis: reducción que mantiene la correlación entre los datos.

identificacion hablante23 La transformación lineal de un vector aleatorio con distribución gausiana sigue siendo gausiana La proyección lineal puede permitir la discriminación lineal de las clases o minimizar el error de la discriminación lineal.

identificacion hablante24 Casos en los que el discriminante de Fisher no es de utilidad para determinar las características más apropiadas para la discriminación

identificacion hablante25 Distancia de Kullback-Leibler, divergencia directa o discriminación entre clases La divergencia simétrica define la información total para discriminar entre las clases En el caso de distribuciones normales queda:

identificacion hablante26 Distancia de Bhattacharyya entre dos clases con distribución normal, relaciona las matrices de covarianza y las medias

identificacion hablante27 Pattern matching Template models: el resultado es una distancia a los patrones almacenados. Stochastic models: devuelve la verosimilitud de la pertenencia a una clase Para aproximar la verosimilitud en el caso de los templates se puede utilizar un modelo exponencial

identificacion hablante28 Dynamic Time Warping: aplicación de la programación dinámica al emparejamiento de patrones, para tratar de emparejar los patrones a pesar de las variaciones temporales

identificacion hablante29 Nearest neighbor: se almacenan todas las instancias, para un test se evalúan los DTW con cada patrón y se promedian las distancias correspondientes al mismo individuo.

identificacion hablante30 Modelos estocásticos Se plantea el problema de emparejamiento de patrones como la evaluación de la verosimilitud de una observación dado un modelo

identificacion hablante31 HMM Hidden Markov Models Las observaciones son funciones probabilísticas del estado del sistema, el cual no es observable (hidden).

identificacion hablante32 Clasificación y teoría de la decisión Dado un valor de emparejamiento entre el input y un modelo de la voz del hablante, la decisión de verificación consiste en decidir si aceptar o rechazar, continuar intentando o dar por finalizado el tiempo (time-out).

identificacion hablante33 Test de hipótesis para determinar la verificación de un usuario. H 0 impostor, H 1 auténtico

identificacion hablante34 El ratio de verosimilitud basado en la teoría de la decisión bayesiana con costos idénticos resulta ser: La probabilidad condicional de la hipótesis p A (z|H 1 ) para el hablante A se estima usando sus scores y su modelo. La probabilidad condicional de la hipótesis nula p A (z|H 0 ) se estima utilizando los scores de otros hablantes sobre el modelo del hablante A. La decisión bayesiana busca la minimización del error dado por el solapamiento de las pdf’s

identificacion hablante35 Decisión bayesiana de mínimo error El umbral T se escoge de diversas maneras 1 de acuerdo a una estimación de los ratios de las probabilidades a priori 2 para que satisfaga un criterio fijo de falsa aceptación (FA) o falso rechazo (FR) 3 buscando un ratio FA/FR deseado

identificacion hablante36 Curva ROC relaciona los tipos de error con el umbral de decisión. Se escoge el umbral de decisión que da la misma tasa de error FA y FR (equal error rate) (el óptimo ideal es el origen)

identificacion hablante37 extracción de características selección de características: solo fonadas Estructura de un sistema de identificación del hablante