Dpto. Señales, Sistemas y Radiocomunicaciones

Slides:



Advertisements
Presentaciones similares
The Subjunctive in Adjective Clauses
Advertisements

MÉTODOS Y DISEÑOS DE INVESTIGACIÓN METODOLOGÍAS DE INVESTIGACIÓN
Formas regulares / irregulares
1 What is to be in Spanish? 2 There are 2 forms of to be in Spanish: ser & also estar.
1 Present tense conjugations of regular –AR verbs Los Verbos Regulares.
SERVIDORES VOCALES INTERACTIVOS: DESARROLLO DE UN SERVICIO DE PÁGINAS BLANCAS POR TELÉFONO CON RECONOCIMIENTO DE VOZ PROYECTO IDAS (Interactive telephone-based.
Control en cascada.
1 Ser y Estar to be or not to be…?to be or not to be…?
Dpto. Señales, Sistemas y Radiocomunicaciones
Dpto. Señales, Sistemas y Radiocomunicaciones
Dpto. Señales, Sistemas y Radiocomunicaciones
UNIVERSIDAD ESTATAL DE MILAGRO Curso de Nivelación y Admisión 2012
COMMON AFFIRMATIVE AND NEGATIVE WORDS
METODOLOGÍA DE INVESTIGACIÓN Titular: Agustín Salvia
Distribuciones muestrales Procedimientos de muestreo
1 Ser y Estar “to be” or not “to be”…? 2 Ser y Estar en español… Both verbs mean “to be” Used in very different cases Irregular conjugations.
Hoy es lunes. La fecha es el 24 de febrero LA PREGUNTA: Traduzcan. (Use the verb estar) We are He is They are LA TAREA y OTROS ANUNCIOS: Examen del capítulo,
Estrategias de administración de recursos de radio en un sistema 3G INTEGRANTES: David Balseca Del Campo Francisco Andrade Briones.
Quijote Expreciones hecho por: Jose Fuentes y Manuel Gomez.
Los verbos regulares – ar What is an infinitive? An infinitive in both Spanish and English is the base form of the verb. In English, the infinitive.
ADJECTIVOS DE PERSONALIDAD. Palabras de Personalidad  Artístico/Artística - Artistic.
La Formación en el puesto de trabajo en el Barcelona Service Center Citigroup GREF IX JORNADAS DE ESTUDIO Miguel Angel Martin Barcelona, Junio 2004.
Academia de Informática Asignatura: Informática II Unidad: I. Procesador de textos Tema: Combinación de correspondencia Profesor (a): Ávila Vázquez María.
Curso Práctico de Bioestadística Con Herramientas De Excel Fabrizio Marcillo Morla MBA (593-9)
VOCABULARIO #2.4 ¡Aprenda! Forming Questions Señora Sequin.
Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema2d.ppt Dpto. Señales, Sistemas y Radiocomunicaciones.
Modelos Ocultos de Markov
Parts of the Computer Las partes de la computadora
Mi tema es la amistad By: Paulina Agenor.
Estimación de Supervivencia Recuentos sucesivos Recuentos sucesivos Pobl. cerradas Tablas de Vida H & V Tablas de Vida H & V Identificación de individuos.
The Verb SER. SER ■ The verb SER means “to be” ■ In Spanish, a verb has different forms to tell you who the subject is. ■ Changing a verb form so that.
The Normal Distribution To calculate the probability of a Normal distribution between a and b:
Los complementos directos Direct Object Pronouns.
Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez
Hoy es el 6 de junio. Es viernes. La pregunta: Lee el fondo cultural en la p.196: When and where did the Paralympic Games start? Who competes? La tarea.
Hoy es martes. La fecha es el 11 de febrero LA PREGUNTA: Escribe una lista de 5 cosas que ves un nuestra sala de clases. LA TAREA y OTROS ANUNCIOS:  Libro.
Sistemas de Diálogo Hablado Workshop-Brainstorming 30 abril 2013 Seminario de Lógica y Lenguaje. Universidad de Sevilla.
Análisis Cuantitativo de Datos (Básico)
Possessive Adjectives
Español de octubre.
University of Delaware Introduction to Writing PBL Problems Introducción a la elaboración de problemas. Institute for Transforming Undergraduate Education.
GENERACIÓN SEMIAUTOMÁTICA DE APLICACIONES DE DIÁLOGO MULTIMODALES: PROYECTO GEMINI R. Córdoba, L.F. D’Haro, J.M. Montero, J. Ferreiros, J. Macías-Guarasa,
Nina Jackson, Presenter.  IMSCI is research based writing instruction.  IMSCI uses the gradual release of responsibility model to teach writing.  Scaffolds.
Pruebas de hipótesis.
Las Preguntas (the questions) Tengo una pregunta… Sí, Juan habla mucho con el profesor en clase. No, Juan no habla mucho en clase. s vo s vo Forming.
Thank you for taking my classes
SER and ESTAR. Both Ser and Estar mean to be in English.
Tecnología y Estructura de Costos. Technologies u A technology is a process by which inputs are converted to an output. u E.g. labor, a computer, a projector,
Me llamo __________ Clase 8IM La fecha es el 11de abril del 2013 Propósito # 45: ¿Conoces un país extranjero? Actividad Inicial: In the following sentences,
TOPICS: SABER/CONOCER AND YO-GO VERBS Essential questions: How do I say whom and what I know? How do I use some other irregular verbs?
Descripciones: ¿Cómo eres? Objective: To learn how to describe appearance in Spanish.
1 Applied biostatistics Francisco Javier Barón López Dpto. Medicina Preventiva Universidad de Málaga – España
MÉTODO CIENTÍFICO SCIENTIFIC METHOD. Observación Observation Scientists use observation skills to identify which problems they would like to solve Simply.
The Verb SER SER The verb SER means “to be” In Spanish, a verb has different forms to tell you who the subject is. Changing a verb form so that it matches.
¡Buenos días! Trabajo del timbre: 1.Repasen el vocabulario nuevo con Review the vocabulary with a partner. Quiz each other w/ the adjectives.
Overclipping It’s very important as a trader that you understand your clip size and what positions this allows you to have. In addition it will help you.
OBSTACLES OF THE COMMUNICATION PROCESS SEPTEMBER 2011.
Me llamo ________ Clase 6NH (602) La fecha es el 22 de octubre del 2012 Propósito # 13: ¿Qué compras en la papelería? Actividad Inicial: TEXTO; Leer En.
Trabajo del timbre: 1. Pongan la tarea en el pupitre. Put your HW out on your desk. 2. Practiquen el vocabulario con tu compa ñero. Practice the vocabulary.
Page 387 Realidades 1 The Personal “a” Direct Objects You know that the direct object is the person or thing that receives the action of a verb.
Las palabras interrogativas ¿?. Tag questions Igual que en inglés, es una afirmación seguida por (followed by) una pregunta para confirmar. Vives en una.
Hoy es martes. La fecha es el 22 de octubre
To be, or not to be? Let’s start out with one of the most important verbs in Spanish: ser, which means “to be.”
Español 201 Otoño Indirect Object Pronouns Mi familia me escribe un mensaje electrónico.
Spanish 9/28 Ms. Wrigley. What’s your number? El número de telefono – The phone number ¿Cuál es tu número de telefono? – What is your phone number? Mi.
Grammar Part 1 Spanish 1. Subject and Verbs in Sentences In English sentences have a subject and a verb. The subject is the person(s) or thing that is.
Pronunciation Practice on diphthongs and hiatos
Campanada guidelines in your composition notebook ¿Cómo es tu familia? (10 points) Ex. Hoy es Miercoles el 27 de enero First line will start with the date.
Essential ?s: how do you compare things and how do you express extremes?
GUSTAR DISCUSSING LIKES AND DISLIKES IN SPANISH. WE USE THE VERB GUSTAR TO DESCRIBE WHAT WE LIKE AND DON’T LIKE. ¿Qué te gusta? Me gusta la pizza. ¿Te.
Transcripción de la presentación:

Dpto. Señales, Sistemas y Radiocomunicaciones Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/ Tema6a.ppt Dpto. Señales, Sistemas y Radiocomunicaciones

Tratamiento Digital de Voz Tema 6: Reconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor Tecnología de Reconocimiento de Locutor Tecnología de Reconocimiento de Habla

(Acentos, variedades dialectales, etc.) Reconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor Reconocimiento de Habla: ¿qué se dice? La variedad de locutores (¿quién lo dice?): “ruido” (Acentos, variedades dialectales, etc.) Reconocimiento de Locutor: ¿quién lo dice? La variedad de mensajes hablados (¿qué se dice?): “ruido” variación intra-locutor variación inter-locutores

Reconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor Reconocimiento de Habla: Características Dependiente / Independiente de Locutor Tamaño del Vocabulario “Tipos de Reconocimiento”: Habla aislada, palabras en contexto (word spotting), habla natural, lenguaje natural, habla espontánea, ... Otros: Entorno de Ruido: móviles, cabinas, automóvil, ... Sistema de comunicación: GSM, manos-libres, VoIP, ... Prestaciones

Reconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor Reconocimiento de Habla: Dependiente/Independiente del Locutor Dependiente de Locutor: por ejemplo, sistemas de dictado. Independiente de Locutor: aplicaciones telefónicas. Cada vez mayor importancia de las “Técnicas de Adaptación al Locutor” Reducción de la cantidad de voz para la adaptación. Adaptación supervisada / no-supervisada. Adaptación también al entorno de ruido. Adaptación a “habla espontánea”.

Reconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor Reconocimiento de Habla: Tamaño del Vocabulario El vocabulario DEBE estar pre-fijado (en muchas ocasiones es muy importante la gestión dinámica de vocabularios : entradas variables) El diseño del vocabulario puede “olvidar” palabras: palabras fuera del vocabulario (OOV out-of-vocabulary). Cómo detectar e incorporar esas palabras es de gran importancia. Las prestaciones del Reconocedor son dependientes del tamaño del vocabulario: Pequeño (< 100), medio (<1000), grande (>1000 -- 1M) PERO es muy importante (muchas veces más que el número de palabras): El grado de similitud acústica entre palabras (ej.: teléfonos) La GRAMÁTICA de reconocimiento. La gramática restringe la secuencia de palabras a reconocer.

(terminología imprecisa) Reconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor Reconocimiento de Habla: ”Tipo” de Reconocimiento (terminología imprecisa) Habla aislada: lista de palabras (directorio de nombres) Palabras en contexto (word spotting): “con Juan Pérez por favor” Habla natural: “dictado natural,” u “órdenes naturales” (“quiero que me digas qué películas ponen hoy”) Lenguaje natural: suele asociarse a la identificación de entidades semánticas: <solicitud de información>quiero que me digas qué <tipo de información>películas</tipo de información> ponen<tiempo>hoy</tiempo> </solicitud de información> Habla espontánea: “disfluencias” : “..eh quiero que me des, que me diga.. digas qué... pone... las películas de hoy”

Reconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor Reconocimiento de Habla: Características Más otros.... Entorno de Ruido: móviles, cabinas, automóvil, ... Sistema de comunicación: GSM, manos-libres, VoIP, ... DIFICULTAD de medir “realmente” las prestaciones de un sistema de reconocimiento (en laboratorio en aplicaciones) Errores de Reconocimiento: Tasa de Error (Sustituciones / Inserciones / Elisiones (borrados)) Rechazo: Falsa Aceptación / Falso Rechazo => INFLUYE en la Tasa de Error. Ruidos Palabras OOV (fuera del vocabulario) Medidas de Confianza: “seguridad” del resultado de reconocimiento (ejemplo: Adaptación no-supervisada)

Reconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor Reconocimiento de Locutor: Características Dependiente / Independiente de Texto Población cerrada / abierta “Modos de Funcionamiento”: VERIFICACIÓN IDENTIFICACIÓN (Detección; Autenticación) Otros: Entorno de Ruido..., Sistema de comunicaciones, ... VARIABILIDAD ENTRE SESIONES Prestaciones

Reconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor Rec. de Locutor: Dependiente/Independiente de Texto Dependiente Texto: Texto fijo: locución pre-establecida (clave de acceso) Texto variable (vocabulario fijo): se pide que el locutor pronuncie una clave generada aleatoriamente (text prompted); objetivos: evitar grabaciones y “clave en voz alta” Independiente de Texto: el locutor puede emplear cualquier locución, sin restricciones (duración, riqueza fonética ? Imaginación ? => tipo de aplicación: Acústica Forense) Importancia de la estrategia de diálogo (factores humanos): preguntas sucesivas (nombre, apellidos, fecha de nacimiento, ...) Reconocimiento de Locutor Sistemas de Verificación de Información Verbal (complementarios? Fases diferentes ?)

Reconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor Reconocimiento de Locutor: Población cerrada/abierta Población cerrada: reconocimiento entre un conjunto cerrado de usuarios; “el impostor está en casa”. Población abierta: reconocimiento “abierto” a impostores externos a los “locutores reconocibles”

Reconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor Reconocimiento de Locutor: Modos de funcionamiento VERIFICACIÓN: decidir si una persona es quien dice ser utilizando su “huella vocal” (ej.: tecleo mi password y el sistema me pide que hable para comprobar que soy yo: se contrasta la voz dubitada contra una sola “huella vocal” –la del password-) IDENTIFICACIÓN: decidir si la voz de una persona pertenece a algun locutor de una población de locutores identificados. (se compara la voz dubitada con todas las huellas vocales de la población “indubitada”) (DETECCIÓN: localización de un locutor en una grabación de audio – AUTENTICACIÓN: mediante verificación/identificación)

Reconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor Reconocimiento de Locutor: Prestaciones Otros: Entorno de Ruido... Sistema de comunicación... VARIABILIDAD ENTRE SESIONES Errores de Reconocimiento: tasas de: Falsa Aceptación FA: un impostor vulnera el sistema Falso Rechazo FR: un usuario no es reconocido “Aciertos” de Reconocimiento: Rechazo correcta: un impostor es rechazado Aceptación correcta: un usuario es reconocido El coste de cada tipo de error depende de la aplicación (por ejemplo: mayor, menor seguridad) TAMBIÉN en aplicaciones reales: FTE Fail-to-enroll; imposibilidad de entrenarse en el sistema

Four conditional probabilities in speaker verification 0012-09 Four conditional probabilities in speaker verification Input utterance Decision condition condition s n (customer) (impostor) S (accept) N (reject) P(S | s) P(S | n) P(N | s) P(N | n)

Decision criterion (Threshold) 0012-10 Error rate Decision criterion (Threshold) 1 FR= P (N | s) FA= P (S | n) a c b Equal Error Rate EER Relationship between error rate and decision criterion (threshold) in speaker verification

0012-11 1 P (S | n) P (S | s) A B D a b Receiver operating characteristic (ROC) curves; performance examples of three speaker verification systems: A, B, and D

Reconocimiento de Voz Curvas ROC Curvas DEC Reconocimiento de Locutor: Prestaciones (http://www.nist.gov/speech) Curvas ROC Curvas DEC

Reconocimiento de Voz Reconocimiento de Locutor: Prestaciones (http://www.nist.gov/speech) We have found it useful in speech applications to use a variant of this which we call the DET (Detection Error Tradeoff) Curve, described below. In the DET curve we plot error rates on both axes, giving uniform treatment to both types of error, and use a scale for both axes which spreads out the plot and better distinguishes different well performing systems and usually produces plots that are close to linear.

0103-23 20 10 5 2 1 0.5 0.2 0.1 2    5   10  20  50  100 Male Female Identification Verification Recognition error rate (%) Size of population Recognition error rates as a function of population size in speaker identification and verification

Reconocimiento de Voz Reconocimiento de Locutor: Prestaciones (La Granja) SHEEP, GOATS, LAMBS and WOLVES A Statistical Analysis of Speaker Performance in the NIST 1998 Speaker Recognition Evaluation George Doddington 1,2,3,5, Walter Liggett1, Alvin Martin1, Mark Przybocki1, Douglas Reynolds 3,4, 1 National Institute of Standards and Technology, 2 The Johns Hopkins University 3 U.S. Department of Defense, 4 MIT Lincoln Laboratory, 5 SRI International

Reconocimiento de Voz Reconocimiento de Locutor: Prestaciones (La Granja) Sheep (ovejas) – Sheep comprise our default speaker type. In our model, sheep dominate the population and systems perform nominally well for them. Goats (cabras) – Goats, in our model, are those speakers who are particularly difficult to recognize. Goats tend to adversely affect the performance of systems by accounting for a disproportionate share of the missed detections. The goat population can be an especially important problem for entry control systems, where it is important that all users be reliably accepted.

Reconocimiento de Voz Lambs (corderos) – Lambs, in our model, are those speakers who are particularly easy to imitate. That is, a randomly chosen speaker is exceptionally likely to be accepted as a lamb. Lambs tend to adversely affect the performance of systems by accounting for a disproportionate share of the false alarms. This represents a potential system weakness, if lambs can be identified, either through trial and error or through correlation with other directly observable characteristics. Wolves (lobos) – Wolves, in our model, are those speakers who are particularly successful at imitating other speakers. That is, their speech is exceptionally likely to be accepted as that of another speaker. Wolves tend to adversely affect the performance of systems by accounting for a disproportionate share of the false alarms. This represents a potential system weakness, if wolves can be identified and recruited to defeat systems.

Tratamiento Digital de Voz Tecnología de Reconocimiento de Locutor Estructura de un Sistema de Reconocimiento de Locutor Resultado Reconocimiento Señal de Voz Entrenamiento Extracción De Características Modelos/Patrones de referencia para cada Locutor Comparación (Distancia) Speech Recognition Technology in the Ubiquitous/Wearable Computing Environment Sadaoki Furui http://www.furui.cs.titech.ac.jp/

Tratamiento Digital de Voz Tecnología de Reconocimiento de Locutor Otros aspectos importantes: Modelos/Patrones de referencia para cada Locutor Cancelador De Ecos Detector de Actividad Extracción De Características Comparación (Distancia) Señal de Voz “Compensación” De Ruido Resultado Reconocimiento

Tecnología de Reconocimiento de Locutor Identificación • • • Similarity Reference template or model (Speaker #N) (Speaker #2) (Speaker #1) Feature extraction Maximum selection Speech wave Identification result (Speaker ID)

Tecnología de Reconocimiento de Locutor Verificación Speech wave Identification result (Accept / Reject) Speaker ID (#M) Similarity Reference template or model (Speaker #M) Feature extraction Decision Threshold

Tecnología de Reconocimiento de Locutor Decisión Distance Intra-speaker distance Inter-speaker distance m DB s DB Distribution

Tecnología de Reconocimiento de Locutor Objetivo: obtener un modelo del locutor Para discriminación, no para codificación ni síntesis Marco de Trabajo: Reconocimiento de Patrones El clasificador óptimo es el clasificador de Bayes

Tecnología de Reconocimiento de Locutor “Todo” lo necesario es conocer la función de probabilidad O Rechazo Clase 1 Clase 2 Clase 3

Tecnología de Reconocimiento de Locutor “Todo” lo necesario es conocer la función de probabilidad Max Rechazo . O .

NO UN CLASIFICADOR ÚNICO Tecnología de Reconocimiento de Locutor PERO: la función de probabilidad “nunca” se conoce: forma paramétrica desconocida y cantidad de datos de estima (entrenamiento) limitados O . Max Rechazo NO UN CLASIFICADOR ÚNICO Funciones de Discriminación

Tecnología de Reconocimiento de Locutor De una forma simplificada podemos considerar: Por la técnica de clasificación: Clasificadores no-paramétricos Clasificadores paramétricos (Discriminativos) Atendiendo al tipo de información empleada: Clasificadores a partir de información a largo plazo Clasificadores a partir de información a corto plazo

(b) short-term information based method Input speech Speaker identity 0012-13 (b) short-term information based method Input speech Speaker identity Paterns Feature extraction Decision Accumulation Parametric or Non-Parametric (a) Long-term-statistics-based method Reference templates or models Distance or similarity Long-term statistics Average, variance, correlation, MAR

Por la técnica de clasificación... Tecnología de Reconocimiento de Locutor Por la técnica de clasificación... Clasificadores no-paramétricos: No hacen ninguna hipótesis sobre el modelo de distribución de la voz del locutor Se basan completamente en los datos de entrenamiento Un ejemplo típico serían los sistemas de Reconocimiento Independientes del Locutor basados en Cuantificación Vectorial

Vector quantization (VQ)-based text-independent speaker recognition 0103-19 Spectral envelopes Speaker-specific codebook Vector quantization (VQ)-based text-independent speaker recognition

Tecnología de Reconocimiento de Locutor Cuantificador Vectorial Representa el conjunto de vectores de ENTRENAMIENTO X={x1,x2, ... xN} por un número pequeño de representantes (centroides) Y={y1, y2, ... yM} (M<N) Fase 1. Determinación de los representantes Medida de distancia d(xi, yj) Entrenamiento: Codebook Y Fase 2. Asignación del centroide más próximo Cuantificación de una observación o

Tecnología de Reconocimiento de Locutor Entrenamiento CV algoritmo LBG Primer centroide D? N? Duplicación Asignación de vectores Cálculo de centroides SI NO

Asunción Moreno Universidad Politécnica de Cataluña Cuantificación Asunción Moreno Universidad Politécnica de Cataluña

Entrenamiento y x

Entrenamiento y x

Entrenamiento y x

Entrenamiento y x

Entrenamiento y x

Entrenamiento y x

Entrenamiento y x

Entrenamiento y x

Entrenamiento y x

Entrenamiento y x

Entrenamiento y x

Entrenamiento y x

Cuantificación y x

VQ Performance on Unseen Data Ramachandran & Mamone (eds) ‘Modern Methods of Speech Processing’ Kluer Academic, 1995