La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Análisis y síntesis de voz mediante ordenador. Objetivos zAprender como se forma la voz y sus características principales. zAdquirir una idea básica del.

Presentaciones similares


Presentación del tema: "Análisis y síntesis de voz mediante ordenador. Objetivos zAprender como se forma la voz y sus características principales. zAdquirir una idea básica del."— Transcripción de la presentación:

1 Análisis y síntesis de voz mediante ordenador

2 Objetivos zAprender como se forma la voz y sus características principales. zAdquirir una idea básica del procesamiento mediante computador. zTener una idea básica sobre en que se basa el reconocimiento del habla y que técnicas son utilizadas para llevarlo a cabo. zConocer el estado actual de tecnologías de interacción como la síntesis o el reconocimiento de voz. zVer las aplicaciones actuales de esta tecnología y sus futuros usos.

3 Contenidos zHistoria de estas tecnologías zEl concepto de voz zProcesamiento digital zReconocimiento de voz yIntroducción yModelado del tracto vocal yPreprocesado de la señal de voz yAnálisis de predicción lineal (LPC) yAlineamiento temporal (DTW) yCuantificación vectorial z…

4 Contenidos zSíntesis de la voz yIntroducción ySistemas de respuesta oral Vs convertidores texto-voz yConversión texto-voz yGeneración de la base de unidades zAplicaciones yAplicaciones

5 Contenidos zHistoria de estas tecnologías zEl concepto de voz zProcesamiento digital zReconocimiento de voz yIntroducción yModelado del tracto vocal yPreprocesado de la señal de voz yAnálisis de predicción lineal (LPC) yAlineamiento temporal (DTW) yCuantificación vectorial z…

6 Historia del reconocimiento zLos inicios: años 50 Bell Labs.... Reconocimiento de dígitos aislados monolocutor RCA Labs.... Reconocimiento de 10 sílabas monolocutor University College in England.... Reconocedor fonético MIT Lincoln Lab.... Reconocedor de vocales independiente del hablante z Los fundamentos: años 60 Comienzo en Japón (NEC labs) Las primeras soluciones: años 70, el mundo probabilístico Reconocimiento de palabras aisladas LPC, programación dinámica IBM: inicio proyecto reconocimiento de grandes vocabularios Gran inversión en los USA: proyectos DARPA

7 Historia del reconocimiento zReconocimiento del Habla Continua: años 80, expansión Algoritmos para el habla continua y grandes vocabularios Explosión de los métodos estadísticos: Modelos Ocultos de Markov Introducción de las Redes Neuronales en el reconocimiento de voz zEmpieza el negocio: años 90, primeras aplicaciones Ordenadores y procesadores baratos y rápidos Sistemas de dictado Integración entre reconocimiento de voz y procesado del lenguaje natural zActualidad, integración en el S.O. Integración teléfono y Voice Web browsers VoiceXML estandard Sistema V2C (interacción voz-radio, voz-teléfono, voz-navegador)

8 Historia de la síntesis zSíntesis del Habla: Comienzos tempranos El Papa Silvestre II (1003), Alberto Magno ( ) y Roger Bacon ( ) crearon ejemplos tempranos de 'cabezas parlantes'. zFijación de las bases: siglo XIX, modelado de la voz En 1779, el científico danés Christian Gottlieb Kratzenstein, que trabajaba en esa época en la Academia Rusa de las Ciencias, construyó modelos del tracto vocal que podían producir las cinco vocales largas (a, e, i, o, u). zY por fin: siglo XX, síntesis mediante computador En los años 30, los laboratorios Bell Labs desarrollaron el VOCODER, un analizador y un sintetizador del habla operado por teclado. El primer sistema de síntesis computerizado años 50, y el primer sistema completo texto a voz años 60. Años 90 grandes avances en la síntesis debido principalmente al rápido desarrollo de los ordenadores.

9 Contenidos zHistoria de estas tecnologías zEl concepto de voz zProcesamiento digital zReconocimiento de voz yIntroducción yModelado del tracto vocal yPreprocesado de la señal de voz yAnálisis de predicción lineal (LPC) yAlineamiento temporal (DTW) yCuantificación vectorial z…

10 El concepto de voz zSistema fonador humano yOnda de presión acústica originada voluntariamente a partir de los movimientos de la estructura anatómica del sistema fonador. yLos distintos sonidos se producen al pasar el aire emitido por los pulmones, a través de todo el sistema de producción, en una determinada posición de cada parámetro articulatorio. yEste sistema puede modelarse como un filtro, cuya función de transferencia depende del sonido articulado. La entrada al filtro se puede modelar mediante una señal de excitación, que se corresponde con el paso del aire generado por los pulmones a través de la tráquea y las cuerdas vocales, y también será dependiente del sonido generado.

11 El concepto de voz zClasificación de sonidos ySonidos sonoros En ellos las cuerdas vocales vibran y el aire pasa a través del tracto vocal sin impedimentos importantes. ySonidos sordos En ellos las cuerdas vocales no vibran y existen restricciones importantes al paso del aire que proviene de los pulmones, por lo que son de amplitud menor y normalmente de naturaleza más ruidosa que los sonoros.

12 El concepto de voz zAnálisis frecuencial (I) yLa señal de voz es limitada en banda, a unos 8 kHz. Sin embargo, la mayor parte de la información se encuentra en los primeros 4 kHz, que es aproximadamente el ancho de banda utilizado en las comunicaciones por vía telefónica. Sonido sonoro Sonido sordo

13 El concepto de voz zAnálisis frecuencial (II) yDe las figuras de antes se pueden sacar varias conclusiones: xLa periodicidad del fonema /u/. (Hay que recordar que la presencia de armónicos en el espectro indica cierta periodicidad de la señal). xEl margen habitual del valor del pitch para locutores masculinos adultos del valor del pitch es de 50 a 250 Hz, mientras que para locutoras se encuentra entre 120 y 500 Hz. xExistencia de resonancias o zonas enfatizadas (formantes), en el espectro de los sonidos sonoros, por ejemplo las vocales, esto permite identificar a la vocal a partir de sus formantes. Nota: para formar el triángulo vocálico solo se requiere dos formantes.

14 El concepto de voz zAnálisis frecuencial (II) xTriángulo vocálico castellano Vocal\Formante (Hz)F1F2 /i/ /e/ /a/ /o/ /u/243770

15 Contenidos zHistoria de estas tecnologías zEl concepto de voz zProcesamiento digital zReconocimiento de voz yIntroducción yModelado del tracto vocal yPreprocesado de la señal de voz yAnálisis de predicción lineal (LPC) yAlineamiento temporal (DTW) yCuantificación vectorial z…

16 Procesamiento digital zFase 1ª - Digitalización de voz yEl procesamiento digital de señal mediante un DSP, ordenador, etc., requiere previamente la conversión de la señal acústica a eléctrica mediante un micrófono, y la conversión de la señal analógica resultante a señal digital. Por otra parte, para restaurar o generar señal audible a partir de un sistema digital, será necesaria la conversión digital a analógica, su amplificación, y su radiación mediante un altavoz. yEtapas de digitalización: xRecogida de información mediante un transductor. xFiltrado antialiasing. xMuestreo (Teorema de Nyquist).

17 Procesamiento digital zFase 2ª - Codificación de voz yLas técnicas de codificación de voz pretenden reducir el volumen de información necesario para almacenar o transmitir una señal de voz, de forma que la pérdida de calidad de la señal decodificada respecto a la señal sin comprimir sea lo menor posible. Por supuesto, deberá mantenerse la inteligibilidad del mensaje, y existirá un compromiso calidad versus tabla de compresión, complejidad computacional, etc. yTipos de codificación: xCodificación de forma de onda: intentan reproducir fielmente la forma de la onda de la señal a codificar xCodificación paramétrica(*): se basan en un modelo de producción del habla, e intentan reproducir en el proceso de decodificación una señal que al escucharla se parezca a la original, aunque existan distorsiones en la forma de onda generada. (*)Nota: en el reconocimiento de voz, la codificación paramétrica es ampliamente utilizada.

18 Contenidos zHistoria de estas tecnologías zEl concepto de voz zProcesamiento digital zReconocimiento de voz yIntroducción yModelado del tracto vocal yPreprocesado de la señal de voz yAnálisis de predicción lineal (LPC) yAlineamiento temporal (DTW) yCuantificación vectorial z…

19 Reconocimiento de voz zIntroducción yEl reconocimiento de la voz constituye una parte importante del tratamiento del habla. yLas técnicas de reconocimiento más desarrolladas son aquellas comúnmente usadas para el idioma inglés, las cuales incluyen el Análisis de Predicción Lineal (LPC) y el Alineamiento Temporal (DTW) yTipos de enfoque en el reconocimiento: xReconocer palabras aislados: las palabras se pronuncian entre pausas pequeñas de tal forma que el procesamiento se realiza teniendo como unidades lingüísticas las palabras de un vocabulario específico. xReconocer palabras conectadas: las palabras se pronuncian sin pausas (habla normal) de tal forma que el reconocimiento se lleva a cabo basándose en la coincidencia de palabras aisladas de referencia. xReconocer fonemas y difonos (reconocimiento continuo de voz): basada en la separación de la señal de voz en estas unidades lingüísticas, para su posterior análisis.

20 Reconocimiento de voz zIntroducción yVentajas/Desventajas de los diferentes tipos de reconocedores xLa complejidad de los reconocedores mediante fonemas es bastante mayor en comparación con los de palabras aisladas. xLos reconocedores de palabras aisladas no permiten vocabularios medianamente extensos (<50 palabras), debido principalmente al alto coste de memoria, que esta técnica requiere. Mientras que los reconocedores de fonemas permiten una mayor extensión del vocabulario a reconocer. Palabras del vocabulario castellano: palabras Fonemas existentes en el castellano: 37 fonemas xUna limitación del reconocedor de palabras aisladas es tener que dictar, de forma aislada, cada palabra del texto a reconocer.

21 Contenidos zHistoria de estas tecnologías zEl concepto de voz zProcesamiento digital zReconocimiento de voz yIntroducción yModelado del tracto vocal yPreprocesado de la señal de voz yAnálisis de predicción lineal (LPC) yAlineamiento temporal (DTW) yCuantificación vectorial z…

22 Reconocimiento de voz zModelado del tracto vocal (I) yComo ya se vio, existen dos tipos de señales, que pueden describir el proceso del habla: xSonidos sonoros Alta energía Hz Cierta periodicidad Matemáticamente modelables como un tren de impulsos xSonidos sordos Baja energía Componente frecuencial uniforme Cierta aleatoriedad Matemáticamente modelables como un ruido blanco

23 Reconocimiento de voz zModelado del tracto vocal (II) yTeniendo presente la clasificación anterior y que el tracto vocal modelado se manifiesta como un filtro variable en el tiempo, en el que únicamente existen dos posibles señales de entrada (sonoras o sordas), se puede hacer el siguiente sistema:

24 Contenidos zHistoria de estas tecnologías zEl concepto de voz zProcesamiento digital zReconocimiento de voz yIntroducción yModelado del tracto vocal yPreprocesado de la señal de voz yAnálisis de predicción lineal (LPC) yAlineamiento temporal (DTW) yCuantificación vectorial z…

25 Reconocimiento de voz zPreprocesado de la señal de voz yEn esta fase se modifica a la señal de voz para facilitar su posterior análisis. yEtapas: y1ª - Preénfasis y2ª - Segmentación y enventanado

26 Reconocimiento de voz zPreprocesado de la señal de voz y1ª- Preénfasis xLa etapa de preénfasis se realiza con el propósito de suavizar el espectro y reducir las inestabilidades del cálculo asociadas con las operaciones aritméticas de precisión finita. Básicamente esta etapa consiste en un filtro digital de primer orden, cuya ecuación y repuesta en frecuencia corresponde a:

27 Reconocimiento de voz zPreprocesado de la señal de voz y2ª- Segmentación y enventanado xLa siguiente etapa del preprocesado, consiste en la segmentación de la señal de voz en tramas de 20 ó 30 mseg, con un desplazamiento típico de 10 mseg.

28 Reconocimiento de voz zPreprocesado de la señal de voz y2ª- Segmentación y enventanado xPor último a cada trama generada se le aplica una ventana de Hamming, que elimina los problemas causados por los cambios rápidos de la señal en los extremos de cada trama de voz.

29 Contenidos zHistoria de estas tecnologías zEl concepto de voz zProcesamiento digital zReconocimiento de voz yIntroducción yModelado del tracto vocal yPreprocesado de la señal de voz yAnálisis de predicción lineal (LPC) yAlineamiento temporal (DTW) yCuantificación vectorial z…

30 Reconocimiento de voz zAnálisis de predicción lineal (LPC) yUna de las técnicas más usadas en el procesamiento de señales de voz viene a ser el análisis de predicción lineal. Esta técnica permite parametrizar una señal con un número pequeño de patrones, además de no requerir demasiado tiempo de procesamiento, con lo que hace de este análisis una herramienta bastante potente. yEcuación del filtro FIR (I) xDonde: x[n] corresponde a la señal de entrada del filtro, que podrá ser un tren de impulsos o ruido. G ganancia del filtro y[n] salida del filtro.

31 Reconocimiento de voz zAnálisis de predicción lineal (LPC) yEcuación del filtro FIR (II) xObservaciones de importancia: El modelo matemático expuesto establece que el tracto vocal puede modelarse mediante un filtro digital siendo los parámetros los que determinan la función de transferencia. El problema consiste en, dado un segmento de palabra, extraerle sus parámetros que en este caso vienen a ser los coeficientes del filtro. También hay que tener en cuenta que un tren de impulsos a la entrada, producirá señales sonoras mientras que un ruido aleatorio producirá señales no sonoras a la salida del filtro. El filtro viene a representar el modelo del tracto vocal. yFunción de transferencia del filtro FIR

32 Reconocimiento de voz zAnálisis de predicción lineal (LPC) yFunción de transferencia del filtro FIR xDonde: x[n] corresponde a la señal de entrada del filtro, que podrá ser un tren de impulsos o ruido. G ganancia del filtro y[n] salida del filtro.

33 Reconocimiento de voz zAnálisis de predicción lineal (LPC) yAutocorrelación xLa función de autocorrelación proporciona una medida de la correlación de la señal con una copia desfasada en el tiempo de si mismo. De aquí se extraen los p coeficientes de autocorrelación. xEstos coeficientes son utilizados para calcular los coeficientes ak del filtro FIR descrito antes. Para calcularlos se utiliza el algoritmo de Levinson-Durbin, que permite resolver estas ecuaciones de forma eficiente.

34 Contenidos zHistoria de estas tecnologías zEl concepto de voz zProcesamiento digital zReconocimiento de voz yIntroducción yModelado del tracto vocal yPreprocesado de la señal de voz yAnálisis de predicción lineal (LPC) yAlineamiento temporal (DTW) yCuantificación vectorial z…

35 Reconocimiento de voz zAlineamiento temporal (DTW) yLa siguiente etapa del análisis viene a ser la que se encarga se realizar la comparación de patrones acústicos. Esta técnica tiene en cuenta la variación en la escala de tiempo de dos palabras a comparar. x Que problema se intenta resolver con el DTW? El problema que se presenta cuando se pronuncia una palabra es que esta no siempre se realiza a la misma velocidad, lo que produce importantes distorsiones. xComo resolverlo? La forma de resolver este problema se realiza mediante algoritmos de programación dinámica.

36 Contenidos zHistoria de estas tecnologías zEl concepto de voz zProcesamiento digital zReconocimiento de voz yIntroducción yModelado del tracto vocal yPreprocesado de la señal de voz yAnálisis de predicción lineal (LPC) yAlineamiento temporal (DTW) yCuantificación vectorial z…

37 Reconocimiento de voz zCuantificación vectorial yLas técnicas de parametrización de la señal vocal se realizan tomando una secuencia de ventanas de tiempo, cada una de las cuales es representada por un número p de parámetros. La idea principal de la cuantificación vectorial es particionar el espacio vectorial en sectores, cada uno de los cuales será representado por un solo vector que puede ser el centroide. El conjunto de centroides viene a ser el libro índice (codebook) que conforman los niveles de cuantificación y a cada una se le asignará una etiqueta o una dirección. El funcionamiento básico de esta técnica se basa en la comparación de un vector de entrada, con los vectores del codebook, intentando minimizar la distancia entre ambos vectores. La decisión se toma según un umbral de distorsión. Si resulta mayor se vuelve a comparar hasta que la de distancia total sea inferior al umbral.

38 Reconocimiento de voz yEsquema de un reconocedor de cuantificación vectorial

39 Contenidos zSíntesis de la voz yIntroducción ySistemas de respuesta oral Vs convertidores texto-voz yConversión texto-voz yGeneración de la base de unidades zAplicaciones yAplicaciones

40 Síntesis de la voz zIntroducción yLa forma más habitual de comunicación entre las personas y las máquinas suele ser a través de una pantalla o visualizador, en la que el usuario lee una determinada información. Sin embargo, resulta más agradable poder recibir ciertas informaciones de la misma manera que nos comunicamos entre personas: mediante una comunicación oral en nuestro propio idioma. yCaracterísticas a tener en cuenta de un sintetizador: xInteligibilidad: Está relacionada con la facilidad para comprender la señal oral. Normalmente se acostumbra a relacionar la inteligibilidad con el procesado segmental. xCalidad: Es un indicador de la naturalidad de los sonidos. Se acostumbra a relacionar con el procesado prosódico o suprasegmental (conjunto factores que afectan la pronunciación de una manera global, como la entonación, el ritmo y la intensidad del habla).

41 Contenidos zSíntesis de la voz yIntroducción ySistemas de respuesta oral Vs convertidores texto-voz yConversión texto-voz yGeneración de la base de unidades zAplicaciones yAplicaciones

42 Síntesis de la voz Sistemas de respuesta oral versus convertidores texto-voz yTipos: xSistemas de respuesta oral Basados en la reproducción de segmentos de voz grabados previamente. Por ejemplo, en el caso de información de telefónica. xConvertidores texto-voz Sistemas capaces de convertir cualquier cadena de texto de entrada a una señal de voz. yVentajas/Desventajas xLos sistemas de respuesta oral solo permiten sintetizar un número muy limitado de frases, mientras que los sintetizadores permiten un cualquier frase de entrada. xLos convertidores texto-voz son más complejos, pero ofrecen una mayor flexibilidad. x Los sistemas de respuesta oral requieren un menor gasto de memoria.

43 Contenidos zSíntesis de la voz yIntroducción ySistemas de respuesta oral Vs convertidores texto-voz yConversión texto-voz yGeneración de la base de unidades zAplicaciones yAplicaciones

44 Síntesis de la voz Conversión texto-voz yConsideraciones a tener en cuenta: xLa redundancia del lenguaje, facilita la comprensión global del mensaje. xSe busca que la voz sintetizada tenga una buena entonación y ritmo, para que sea agradable escucharla. xCada idioma presenta diferentes módulos lingüísticos y bases de unidades.

45 Síntesis de la voz zConversión texto-voz. Esquema del sintetizador

46 Síntesis de la voz zConversión texto-voz. 1ª - Etapa: Análisis del texto yFunción: xRealiza la conversión de los símbolos fonéticos que integran el texto escrito, usando reglas gramaticales propias del lenguaje.

47 Síntesis de la voz zConversión texto-voz. 2ª - Etapa: Generación de prosodia yFunción: xGenera la señal acústica a partir de los parámetros extraídos en los bloques anteriores.

48 Síntesis de la voz zConversión texto-voz. 3ª - Etapa: Síntesis de la voz yFunción: xSe divide en dos bloques: Control suprasegmental: Trata la entonación de la frase en su conjunto. Control segmental: controla la micromelodía, o fenómenos locales de coarticulación, acentuación,...

49 Contenidos zSíntesis de la voz yIntroducción ySistemas de respuesta oral Vs convertidores texto-voz yConversión texto-voz yGeneración de la base de unidades zAplicaciones yAplicaciones

50 Síntesis de la voz zGeneración de las bases de unidades. Unidades UnidadCantidadDescripción Palabras Unidades fundamentales de las frases. Sílabas20000 Consta de un núcleo (vocal o diptongo) más algunas consonantes vecinas. Semisílabas4500 Se obtiene dividiendo la sílaba por la mitad, con el corte en el centro de la vocal. Difonemas1500 Se obtiene dividiendo la señal en fragmentos de tamaño un fonema. El corte se hace en el centro de cada fonema. Alófonos250 Se forman agrupando fonemas. Fonemas37 Es la unidad fundamental en fonética.

51 Síntesis de la voz zGeneración de las bases de unidades. Unidades. Ejemplo

52 Síntesis de la voz zGeneración de las bases de unidades yExisten dos maneras de obtenerlas: xCircuitos integrados (SP0256-AL2), que incorporan una serie de alófonos en una memoria ROM. xMediante registros propios consiste en la grabación de un conjunto de unidades para utilizarlas posteriormente. (Demasiado tiempo y bastante trabajo).

53 Contenidos zSíntesis de la voz yIntroducción ySistemas de respuesta oral Vs convertidores texto-voz yConversión texto-voz yGeneración de la base de unidades zAplicaciones yAplicaciones

54 Aplicaciones zAplicaciones del reconocimiento de la voz: yDictado automático yControl por comandos ySistemas portátiles ySistemas diseñados para discapacitados

55 Aplicaciones zAplicaciones de la síntesis: yRevisar grandes volúmenes de texto yConfirmación de órdenes y selecciones yOperar bajo condiciones en las que una visualización no es práctica yOír el correo electrónico por teléfono


Descargar ppt "Análisis y síntesis de voz mediante ordenador. Objetivos zAprender como se forma la voz y sus características principales. zAdquirir una idea básica del."

Presentaciones similares


Anuncios Google