Procesamiento Digital de Señales

Procesamiento Digital de Señales
Proyecto final: Generador de Tonos de multi frecuencia a partir de señales de voz David Jaimes Estrada 21 de Septiembre de 2007

Objetivo General: El proyecto esta dirigido a la implementación de un dispositivo conla capacidad de generar todos de multifrecuencia a la salida de un DSP a partir de señales de entradas de voz humana pro- nunciando digitos decimales traducirlos en tonos de multifrecuencia bajo el estándar del sistema telefónico Objetivos Específicos: Elaborar algoritmos capaces de interpretar a la voz en un rango restringido de símbolos (digitos decimales). Generar tonos de multifrecuencia madiante la aplicación de un DSP.

1. Planteamiento del problema
Mi proyecto final tiene com propósito, el desarrollar un dispositivo con la capacidad de interpretar digitos decimales pronuncaidos por la voz humana, para convertirlos en tonos de multifrecuencia, bajo el estándar del sistema de señalización utilizado en sl sistema telefónico. La descripción a bloques sería como sigue: Convertidor Analógico- Digital Procesador Digital de Señales (DSP) Convertidor Digital- Analógico

Justificación: El uso intensivo de la red telefónica para el acceso a servicio diversos, como las transacciones bancarias, activación de de prepago etc. Hacen necesario el uso del teclado para transmi- tir digitos decimales a través de la red telefónica, lo cual es un proceso engorroso y es suceptible de fallas y reintentos para lograr una transacción exitosa. El dispositivo ayudaria a simplificar el proceso de transacciones por via telefónica.

Resumen de la investigación documental
La naturaleza del proyecto no lleva al planteamiento de un problema de reconocimiento de reconicimiento de voz, para lo cual se deberan hacer uso de la metodología disponible para el manejo de tales problemas. En primer lugar se hace necesaria la caracterización de la voz humana, los siguientes párrafos tratan de este tema: Caracterización de los Sistemas de Reconocimiento de Voz. 1. La forma en que el usuario le habla a la máquina. Existen básicamente tres formas: Los sistemas de reconocimiento automático de voz se caracterizan teniendo en cuenta diferentes aspectos: a) Palabra Aislada: el usuario habla palabras individuales (o frases) tomadas de un vocabulario determinado. b) Palabras Conectadas: el usuario habla en forma fluida una sucesión de palabras pertenecientes a un vocabulario restringido (e.g. dígitos telefónicos). a) Habla continua: el usuario habla fluidamente usando palabras de un vocabulario grande (usualmente ilimitado). 2. Tamaño del vocabulario de reconocimiento a) Pequeño: capaz de reconocer hasta 100 palabras. b) Mediano: entre 100 y 1000 palabras. c) Grande: más de 1000 palabras. 3. El conocimiento de los patrones de voz del usuario a) Sistemas dependientes del locutor: adaptados a locutores particulares. b) Sistemas independientes de locutor: trabajan con un población de locutores grande, la mayoría de los cuales son desconocidos para el sistema. c) Sistemas adaptables: se adaptan al locutor particular mientras el sistema está en uso.

4. Grado de conocimiento acústico-lingüístico usado por el sistema.
a) Sólo conocimiento acústico. No usan conocimiento lingüístico. b) Integración de conocimiento acústico y lingüístico. El conocimiento lingüístico está usualmente representado por restricciones sintácticas y semánticas sobre la salida del sistema de reconocimiento 5. Grado de diálogo entre el usuario y la máquina. a) Unidireccional (o pasivo). El usuario habla y la máquina realiza una acción como respuesta. Sistema de diálogo activado por la máquina. El sistema es el iniciador del diálogo, requiriendo información del usuario via una entrada verbal. b) Sistema de diálogo natural. La máquina “conversa” con el locutor, le solicita entradas, actúa en función de las entradas y trata de clarificar ambigüedades. Fuentes de Variabilidad de las Señales de Voz a) Variabilidad en un locutor en mantener una pronunciación consistente y en el uso de palabras y frases. b)) Variabilidad entre locutores debido a diferencias fisiológicos (e.g. diferente longitud del tracto vocal), acentos regionales, idiomas extranjeros, etc. c) Variabilidad entre transductores cuando se habla frente a diferentes micrófonos o aparatos telefónicos. d) Variabilidad introducida por el sistema de transmisión (redes de comunicación teléfonos celulares, etc.). e) Variabilidad en el ambiente, que incluyen conversaciones extrañas y eventos acústicos de fondo, como ruidos, etc. El reconocimiento automático de voz es una tarea inherentemente difícil debido a la variabilidad de las señales de voz. Algunas fuentes de variabilidad incluyen:

Enfoques de Reconocimiento Automático de Voz
1. Enfoque Acústico--Fonético Consiste en detectar sonidos elementales y asignarles determinados rótulos. La base de este enfoque es la hipótesis de que en el lenguaje hablado existe un número finito de unidades fonéticas distintas (fonemas) y que estas unidades pueden caracterizarse por un conjunto de propiedades acústicas que se manifiestan en la señal hablada en función del tiempo. Si bien las propiedades acústicas de los fonemas son altamente variables con el locutor y con los fonemas vecinos (co-articulación de sonidos), se asume que las reglas que gobiernan la variabilidad son simples y pueden ser aprendidas fácilmente por el sistema de reconocimiento. El reconocimiento consiste básicamente de dos pasos: a) Primer paso: segmentación y rotulado. La señal es dividida en regiones acústicas a las que son asignados uno o más fonemas, resultando en una caracterización de la señal de voz mediante un reticulado de fonemas. b) Segundo paso: se trata de determinar una palabra (o conjunto de palabras) válida a partir de la secuencia de fonemas rotulados en el primer paso. Se introducen en esta etapa restricciones lingüísticas (vocabulario, sintaxis, y reglas semánticas) La primera etapa en el procesamiento (que es común a todos los enfoques) es la etapa de análisis de voz, que provee una representación (espectral) de las características inestacionarias de la señal de voz. Los métodos más comunes en esta etapa son análisis con banco de filtros y análisis LPC (Linear Predictive Coding).

En la siguiente etapa es la extracción de característica en
En la siguiente etapa es la extracción de característica en donde se convierten las medidas espectrales en un conjunto de parámetros que describen la propiedades acústicas de las unidades fonéticas. Estos parámetros pueden ser: nasalidad (presencia o ausencia de resonancia nasal), fricación (presencia o ausencia de excitación aleatoria en la voz), ubicación de los formantes (frecuencias de las 3 primeras resonancias), clasificación entre sonidos tonales y no tonales, etc. La tercer etapa del procesamiento es la etapa de segmentación y rotulado en donde el sistema trata de encontrar regiones estables donde las características cambian poco, que son rotuladas teniendo en cuenta cuan bien la característica en la región se ajusta a unidades fonéticas individuales. Esta es usualmente la etapa más difícil de llevar a cabo en forma confiable. El resultado de la etapa de segmentación y rotulado es un reticulado de fonemas a partir del cual se determina la palabra (o secuencia de palabras) que mejor se ajusta, teniendo en cuenta restricciones lingüísticas (de vocabulario, de sintaxis, y semánticas). 2. Enfoque de Reconocimiento de patrones Consiste básicamente en dos pasos: a) Primer Paso: entrenamiento de patrones b) Segundo Paso: comparación de patrones La característica principal de este enfoque es que usa un marco matemático bien definido y que establece representaciones consistentes de los patrones de voz que pueden usarse para comparaciones confiables a partir de un conjunto de muestras rotuladas, usando algoritmos de entrenamiento. La representación de los patrones de voz puede ser una plantilla (template), o un modelo estadístico (HMM: Hidden Markov Model), que puede aplicarse a un sonido (más pequeño que una palabra), una palabra, o una frase. En la etapa de comparación de patrones se realiza una comparación directa entre la señal de voz desconocida (a reconocer) y todos los posibles patrones aprendidos en la etapa de entrenamiento, de manera de determinar el mejor ajuste de acuerdo a algún criterio.

3. Enfoque de Inteligencia Artificial
En este enfoque se intenta automatizar el procedimiento de reconocimiento de acuerdo a la forma en que una persona aplica su inteligencia en la visualización, análisis y caracterización de la voz basada en un conjunto de características acústicas. Algunas técnicas que se emplean son: sistemas expertos (redes neuronales) que integran conocimientos prácticos fonéticos, sintácticos, semánticos para la segmentación y el rotulado, y usan herramientas tales como rede neuronales artificiales para aprender las relaciones entre eventos fonéticos.

El sistema debe de se capaz de generar tonos de multifrecuencia por lo que se incluye la siguiente información relativo a los sistema de telefonía donde se aplica este sistema: Sisteam de Marcación por tonos En telefonía, el sistema de marcación por tonos, también llamado sistema multifrecuencial o DTMF (Dual-Tone Multi-Frequency), consiste en lo siguiente: Cuando el usuario pulsa en el teclado de su teléfono la tecla correspondiente al dígito que quiere marcar, se envían dos tonos, de distinta frecuencia, que la central descodifica a través de filtros especiales, detectando instantáneamente que dígito se marcó. La Marcación por tonos fue posible gracias al desarrollo de circuitos integrados que generan estos tonos desde el equipo terminal, consumiendo poca corriente de la red y sustituyendo el sistema mecánico de interrupción-conexión (el anticuado disco de marcar). Este sistema supera al de marcación por pulsos por cuanto disminuye la posibilidad de errores de marcación, al no depender de un dispositivo mecánico. Por otra parte es mucho más rápido ya que no hay que esperar tanto tiempo para que la central detecte las interrupciones, según el número marcado. No obstante, las modernas centrales telefónicas de conmutación digital, controladas por ordenador, siguen admitiendo la conexión de terminales telefónicos con ambos tipos de marcación. 1209 Hz 1336 Hz 1477 Hz 1633 Hz 697 Hz 1 2 3 A 770 Hz 4 5 6 B 852 Hz 7 8 9 C 941 Hz * # D

Alcance: El sistema contaria con un micrófono, Un DSP programado para interpretar a la voz y generar los tonos de multifrecuencia hacia el altavoz. Etapas: Definición de componentes de hardware a utillizar. Desarrollo de los algoritmos Simulación de algoritmos implementación del dispositivo Pruebas funsionales

Procesamiento Digital de Señales

Presentaciones similares

Presentación del tema: "Procesamiento Digital de Señales"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Procesamiento Digital de Señales

Presentaciones similares

Presentación del tema: "Procesamiento Digital de Señales"— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback