La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Procesamiento Digital de Señales Proyecto final: Generador de Tonos de multi frecuencia a partir de señales de voz David Jaimes Estrada 21 de Septiembre.

Presentaciones similares


Presentación del tema: "Procesamiento Digital de Señales Proyecto final: Generador de Tonos de multi frecuencia a partir de señales de voz David Jaimes Estrada 21 de Septiembre."— Transcripción de la presentación:

1 Procesamiento Digital de Señales Proyecto final: Generador de Tonos de multi frecuencia a partir de señales de voz David Jaimes Estrada 21 de Septiembre de 2007

2 Objetivo General: El proyecto esta dirigido a la implementación de un dispositivo conla capacidad de generar todos de multifrecuencia a la salida de un DSP a partir de señales de entradas de voz humana pro- nunciando digitos decimales traducirlos en tonos de multifre- cuencia bajo el estándar del sistema telefónico Objetivos Específicos: Elaborar algoritmos capaces de interpretar a la voz en un rango restringido de símbolos (digitos decimales). Generar tonos de multifrecuencia madiante la aplicación de un DSP.

3 1. Planteamiento del problema Mi proyecto final tiene com prop ó sito, el desarrollar un dispositivo con la capacidad de interpretar digitos decimales pronuncaidos por la voz humana, para convertirlos en tonos de multifrecuencia, bajo el est á ndar del sistema de se ñ alizaci ó n utilizado en sl sistema telef ó nico. La descripci ó n a bloques ser í a como sigue: Convertidor Analógico- Digital Procesador Digital de Señales (DSP) Convertidor Digital- Analógico

4 Justificación: El uso intensivo de la red telefónica para el acceso a servicio diversos, como las transacciones bancarias, activación de de prepago etc. Hacen necesario el uso del teclado para transmi- tir digitos decimales a través de la red telefónica, lo cual es un proceso engorroso y es suceptible de fallas y reintentos para lograr una transacción exitosa. El dispositivo ayudaria a simplificar el proceso de transacciones por via telefónica.

5 Resumen de la investigaci ó n documental La naturaleza del proyecto no lleva al planteamiento de un problema de reconocimiento de reconicimiento de voz, para lo cual se deberan hacer uso de la metodolog í a disponible para el manejo de tales problemas. En primer lugar se hace necesaria la caracterizaci ó n de la voz humana, los siguientes p á rrafos tratan de este tema: Caracterizaci ó n de los Sistemas de Reconocimiento de Voz. 1. La forma en que el usuario le habla a la m á quina. Existen b á sicamente tres formas: Los sistemas de reconocimiento autom á tico de voz se caracterizan teniendo en cuenta diferentes aspectos: a) Palabra Aislada: el usuario habla palabras individuales (o frases) tomadas de un vocabulario determinado. b) Palabras Conectadas: el usuario habla en forma fluida una sucesi ó n de palabras pertenecientes a un vocabulario restringido (e.g. d í gitos telef ó nicos). a) Habla continua: el usuario habla fluidamente usando palabras de un vocabulario grande (usualmente ilimitado). 2. Tama ñ o del vocabulario de reconocimiento a) Peque ñ o: capaz de reconocer hasta 100 palabras. b) Mediano: entre 100 y 1000 palabras. c) Grande: m á s de 1000 palabras. 3. El conocimiento de los patrones de voz del usuario a) Sistemas dependientes del locutor: adaptados a locutores particulares. b) Sistemas independientes de locutor: trabajan con un poblaci ó n de locutores grande, la mayor í a de los cuales son desconocidos para el sistema. c) Sistemas adaptables: se adaptan al locutor particular mientras el sistema est á en uso.

6 4. Grado de conocimiento ac ú stico-ling üí stico usado por el sistema. a) S ó lo conocimiento ac ú stico. No usan conocimiento ling üí stico. b) Integraci ó n de conocimiento ac ú stico y ling üí stico. El conocimiento ling üí stico est á usualmente representado por restricciones sint á cticas y sem á nticas sobre la salida del sistema de reconocimiento 5. Grado de di á logo entre el usuario y la m á quina. a) Unidireccional (o pasivo). El usuario habla y la m á quina realiza una acci ó n como respuesta. Sistema de di á logo activado por la m á quina. El sistema es el iniciador del di á logo, requiriendo informaci ó n del usuario via una entrada verbal. b) Sistema de di á logo natural. La m á quina conversa con el locutor, le solicita entradas, act ú a en funci ó n de las entradas y trata de clarificar ambig ü edades. Fuentes de Variabilidad de las Se ñ ales de Voz a) Variabilidad en un locutor en mantener una pronunciaci ó n consistente y en el uso de palabras y frases. b)) Variabilidad entre locutores debido a diferencias fisiol ó gicos (e.g. diferente longitud del tracto vocal), acentos regionales, idiomas extranjeros, etc. c) Variabilidad entre transductores cuando se habla frente a diferentes micr ó fonos o aparatos telef ó nicos. d) Variabilidad introducida por el sistema de transmisi ó n (redes de comunicaci ó n tel é fonos celulares, etc.). e) Variabilidad en el ambiente, que incluyen conversaciones extra ñ as y eventos ac ú sticos de fondo, como ruidos, etc. El reconocimiento autom á tico de voz es una tarea inherentemente dif í cil debido a la variabilidad de las se ñ ales de voz. Algunas fuentes de variabilidad incluyen:

7 Enfoques de Reconocimiento Autom á tico de Voz 1. Enfoque Ac ú stico--Fon é tico Consiste en detectar sonidos elementales y asignarles determinados r ó tulos. La base de este enfoque es la hip ó tesis de que en el lenguaje hablado existe un n ú mero finito de unidades fon é ticas distintas (fonemas) y que estas unidades pueden caracterizarse por un conjunto de propiedades ac ú sticas que se manifiestan en la se ñ al hablada en funci ó n del tiempo. Si bien las propiedades ac ú sticas de los fonemas son altamente variables con el locutor y con los fonemas vecinos (co-articulaci ó n de sonidos), se asume que las reglas que gobiernan la variabilidad son simples y pueden ser aprendidas f á cilmente por el sistema de reconocimiento. El reconocimiento consiste b á sicamente de dos pasos: a) Primer paso: segmentaci ó n y rotulado. La se ñ al es dividida en regiones ac ú sticas a las que son asignados uno o m á s fonemas, resultando en una caracterizaci ó n de la se ñ al de voz mediante un reticulado de fonemas. b) Segundo paso: se trata de determinar una palabra (o conjunto de palabras) v á lida a partir de la secuencia de fonemas rotulados en el primer paso. Se introducen en esta etapa restricciones ling üí sticas (vocabulario, sintaxis, y reglas sem á nticas) La primera etapa en el procesamiento (que es com ú n a todos los enfoques) es la etapa de an á lisis de voz, que provee una representaci ó n (espectral) de las caracter í sticas inestacionarias de la se ñ al de voz. Los m é todos m á s comunes en esta etapa son an á lisis con banco de filtros y an á lisis LPC (Linear Predictive Coding).

8 En la siguiente etapa es la extracci ó n de caracter í stica en donde se convierten las medidas espectrales en un conjunto de par á metros que describen la propiedades ac ú sticas de las unidades fon é ticas. Estos par á metros pueden ser: nasalidad (presencia o ausencia de resonancia nasal), fricaci ó n (presencia o ausencia de excitaci ó n aleatoria en la voz), ubicaci ó n de los formantes (frecuencias de las 3 primeras resonancias), clasificaci ó n entre sonidos tonales y no tonales, etc. La tercer etapa del procesamiento es la etapa de segmentaci ó n y rotulado en donde el sistema trata de encontrar regiones estables donde las caracter í sticas cambian poco, que son rotuladas teniendo en cuenta cuan bien la caracter í stica en la regi ó n se ajusta a unidades fon é ticas individuales. Esta es usualmente la etapa m á s dif í cil de llevar a cabo en forma confiable. El resultado de la etapa de segmentaci ó n y rotulado es un reticulado de fonemas a partir del cual se determina la palabra (o secuencia de palabras) que mejor se ajusta, teniendo en cuenta restricciones ling üí sticas (de vocabulario, de sintaxis, y sem á nticas). 2. Enfoque de Reconocimiento de patrones Consiste b á sicamente en dos pasos: a) Primer Paso: entrenamiento de patrones b) Segundo Paso: comparaci ó n de patrones La caracter í stica principal de este enfoque es que usa un marco matem á tico bien definido y que establece representaciones consistentes de los patrones de voz que pueden usarse para comparaciones confiables a partir de un conjunto de muestras rotuladas, usando algoritmos de entrenamiento. La representaci ó n de los patrones de voz puede ser una plantilla (template), o un modelo estad í stico (HMM: Hidden Markov Model), que puede aplicarse a un sonido (m á s peque ñ o que una palabra), una palabra, o una frase. En la etapa de comparaci ó n de patrones se realiza una comparaci ó n directa entre la se ñ al de voz desconocida (a reconocer) y todos los posibles patrones aprendidos en la etapa de entrenamiento, de manera de determinar el mejor ajuste de acuerdo a alg ú n criterio.

9 3. Enfoque de Inteligencia Artificial En este enfoque se intenta automatizar el procedimiento de reconocimiento de acuerdo a la forma en que una persona aplica su inteligencia en la visualizaci ó n, an á lisis y caracterizaci ó n de la voz basada en un conjunto de caracter í sticas ac ú sticas. Algunas t é cnicas que se emplean son: sistemas expertos (redes neuronales) que integran conocimientos pr á cticos fon é ticos, sint á cticos, sem á nticos para la segmentaci ó n y el rotulado, y usan herramientas tales como rede neuronales artificiales para aprender las relaciones entre eventos fon é ticos.

10 El sistema debe de se capaz de generar tonos de multifrecuencia por lo que se incluye la siguiente informaci ó n relativo a los sistema de telefon í a donde se aplica este sistema: Sisteam de Marcaci ó n por tonos En telefon í a, el sistema de marcaci ó n por tonos, tambi é n llamado sistema multifrecuencial o DTMF (Dual-Tone Multi-Frequency), consiste en lo siguiente: Cuando el usuario pulsa en el teclado de su tel é fono la tecla correspondiente al d í gito que quiere marcar, se env í an dos tonos, de distinta frecuencia, que la central descodifica a trav é s de filtros especiales, detectando instant á neamente que d í gito se marc ó. La Marcaci ó n por tonos fue posible gracias al desarrollo de circuitos integrados que generan estos tonos desde el equipo terminal, consumiendo poca corriente de la red y sustituyendo el sistema mec á nico de interrupci ó n-conexi ó n (el anticuado disco de marcar). Este sistema supera al de marcaci ó n por pulsos por cuanto disminuye la posibilidad de errores de marcaci ó n, al no depender de un dispositivo mec á nico. Por otra parte es mucho m á s r á pido ya que no hay que esperar tanto tiempo para que la central detecte las interrupciones, seg ú n el n ú mero marcado. No obstante, las modernas centrales telef ó nicas de conmutaci ó n digital, controladas por ordenador, siguen admitiendo la conexi ó n de terminales telef ó nicos con ambos tipos de marcaci ó n Hz1336 Hz1477 Hz1633 Hz 697 Hz123A 770 Hz456B 852 Hz789C 941 Hz*0#D

11 Alcance: El sistema contaria con un micr ó fono, Un DSP programado para interpretar a la voz y generar los tonos de multifrecuencia hacia el altavoz. Etapas: Definici ó n de componentes de hardware a utillizar. Desarrollo de los algoritmos Simulaci ó n de algoritmos implementaci ó n del dispositivo Pruebas funsionales


Descargar ppt "Procesamiento Digital de Señales Proyecto final: Generador de Tonos de multi frecuencia a partir de señales de voz David Jaimes Estrada 21 de Septiembre."

Presentaciones similares


Anuncios Google