La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Universidad de Santiago de Chile Facultad de Ingeniería

Presentaciones similares


Presentación del tema: "Universidad de Santiago de Chile Facultad de Ingeniería"— Transcripción de la presentación:

1 Universidad de Santiago de Chile Facultad de Ingeniería
Sistemas de Compresión y Reconocimiento de Voz (experiencia investigativa en la USACH) Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones

2 Colombia chile

3

4 UNIVERSIDAD DE SANTIAGO DE CHILE

5 UNIVERSIDAD DE SANTIAGO DE CHILE

6 DEPARTAMENTO DE INGENIERÍA ELÉCTRICA UNIVERSIDAD DE SANTIAGO DE CHILE

7 Objetivos Objetivo general
Dar a conocer una de las líneas de investigación del Área de Telecomunicaciones del Departamento de Ingeniería Eléctrica de la USACH. Dar a conocer el por qué el equipo ha considerado la importancia del procesamiento Digital de la Voz y la necesidad de compresión y el reconocimiento de la voz. Entregar en forma breve las principales técnicas para el procesamiento Digital de la voz. Mostrar algunas aplicaciones desarrolladas en compresión y en el reconocimiento de voz.

8 Objetivos I- Principales Líneas de Investigación del área de Telecomunicaciones Procesamiento digital de señales, en especial el procesamiento digital de Voz. Voz sobre redes de Paquetes Calidad de Servicio sobre Redes IP Wireless sensor network, channel coding, network coding. Robot móviles, manipuladores y androides Control de sistemas complejos mediante técnicas de redes neuronales. Identificación de sistemas tipo caja-gris. Análisis de estabilidad de modelos no lineales iterativos

9 Objetivos Importancia del procesamiento Digital de la Voz en lo relacionado con: La Compresión para el transporte sobre redes de paquetes El Reconocimiento de voz orientado a la ayuda de personas con dificultades de audición.

10 Objetivos Técnicas para el procesamiento Digital de la Voz
De manera resumida se entregan los conceptos y técnicas asociadas para el procesamiento, análisis y compresión de la voz.

11 Objetivos Las Aplicaciones se muestran al final de esta ponencia y están orientadas en mostrar: Un modelo de compresión de voz usando formatos de compresión de imágenes . Y dos desarrollos orientados al reconocimiento de voz para la generación de un sistema computarizado de ayuda a personas con dificultades auditivas.

12 Introducción El Universo es todo, sin excepciones. Materia, energía, espacio y tiempo, todo lo que existe forma parte del Universo. Los Astrónomos indican que es muy grande y puede contener millones de galaxias, pero no es infinito, esta autocontenido. Si lo fuera, habría infinita materiae infinitas estrellas, y no es así. En cuanto a la materia, el universo es, sobre todo, espacio vacío.

13 Materia, Energía e Información
La información pertenece al Universo pero no es Masa ni Energía ni tampoco ocupa un lugar en el espacio

14 Materia, Energía e Información

15 Nuestro interés Nuestro interés son las señales, las que debemos formalizar en su conceptualización

16 Estudios a través del tiempo
Alexander Graham Bell, creó el lenguaje de señas e inventó autómatas rústicos sintetizadores de voz y el teléfono. En los años 20, AT&T Bell Laboratorios, construye la primera máquina capaz de reconocer voz (basada en <plantillas>) de los 10 dígitos del Inglés. Luis Autómata: sistema mecánico diseñado a partir de la reproducción de craneo, laringe y labios, que a través de circulación de aire lograba pronunciar algunas palabras. 16

17 Estudios a través del tiempo
La técnica de plantillas ha sido ampliamente utilizada. El almacenamiento de patrones característicos de las muestras tomadas como plantillas ha sido la forma de trabajo hasta la década de los 90. Durante los años 70 y 80 se desarrolla muy fuertemente el estudio de Análisis y Síntesis de Voz, principalmente gracias a Rabiner, Makhoul y otros. A mediados de los años 90 comienzan a aparecer los primeros estudios formales que involucran a las Wavalet para procesamiento y compresión, además de las redes neuronales artificiales para el reconocimiento de la voz. Luis Templates: dependiente del locutor, muchos ajustes, limitado por las tecnologías del momento. En los 90s aparecen también los estudios sobre el reconocimiento de voz en habla hispana. Auge de las técnicas no tradicionales debido al aumento en la capacidad de proceso de los computadores. 17

18 ¿Qué es compresión? Es improbable pensar en este tiempo la conveniencia de realizar transmisión de información multimedial en formato sin compresión. Principalmente porque día a día son más las aplicaciones en este contexto que requieren de un amplio rango de calidad y performance de acuerdo a los requerimientos de usuarios heterogéneos. La alternativa, es que sea posible la compresión masiva de los datos antes de efectuar su transmisión. Afortunadamente, un gran número de investigaciones durante las últimas décadas han desrollado muchas técnicas y algoritmos de compresión que hacen factible la transmisión de multimedia.

19 ¿Qué es reconocimiento de voz?
Al hablar de reconocimiento de voz, podemos imaginarnos varios campos de aplicación. Desde la domótica hasta la inteligencia artificial. Reconocimiento de palabras aisladas Reconocimiento de voz continua Dependiente o independiente del locutor Con gramática amplia 0 restringida Todo depende de la aplicación que queramos. Por ejemplo, si queremos poder apagar o encender las luces de nuestra casa, bastará un sistema que reconozca un número limitado de palabras, está claro entonces que grabando unos cuantos ejemplos que servirán de patrones, se podrá resolver el problema .

20 ¿Qué es reconocimiento de voz?
Imaginemos que en vez de algunas pocas palabras queremos tratar un vocabulario completo y no sólo eso, “queremos poder hablar con naturalidad y que el sistema identifique las palabras, las frases y el significado”. “Es decir, queremos que un robot nos entienda, para ello el nivel de complejidad se eleva a un nivel casi impensable.”

21 ¿Qué es reconocimiento de voz?
Sistemas que reconozcan en forma eficiente la palabra pronunciada sin que exista entrenamiento previo del locutor son aún un desafío. Es por ello que las Redes Neuronales Artificiales adquieren cada vez más protagonismo en el estudio de la voz humana, basándose en que éstas simulan al mejor sistema: es decir el ser humano, para interpretar, reconocer y discriminar la voz. Asimismo, la transformada de Wavelet se posiciona en el ámbito del procesamiento digital de señales e imágenes como una poderosa herramienta de análisis. Numerosos estudios centran la atención en estos métodos como la solución al reconocimiento de voces independientes del locutor.

22 Parámetros Característicos de Señales de Voz

23 Parámetros Característicos de Señales de Voz
de Señales Voz Período Fundamental (PITCH) FORMANTES

24 Período Fundamental (Pitch)
Parámetros Característicos de Señales de Voz Período Fundamental (Pitch) Es el tiempo transcurrido entre dos aperturas sucesivas de las cuerdas vocales. La velocidad de vibración de la cuerdas, se denomina Frecuencia Fundamental de la fonación y es el inverso del Pitch.

25 Parámetros Característicos de Señales de Voz
Formantes Los Formantes son resonancias naturales del tracto vocal que toman diferentes valores de frecuencia a medida que éste cambia su estructura. Formantes representativos

26 Parámetros Característicos de Señales de Voz
Valores frecuenciales de los dos primeros formantes de las vocales españolas. Vocal/Formante (Hz) F1 F2 /a/ 689 1458 /e/ 527 2025 /i/ 284 2430 /o/ 608 1215 /u/ 243 770

27 Clasificación de sonidos
Parámetros Característicos de Señales de Voz Clasificación de sonidos Sonidos sonoros (Voiced) Sonidos sordos (Unvoiced) a, e, i, o, u, b, d, g, l, ll, m, n, ñ, r, rr, v, w, y ch, f, h, j, k, p, s, t, z

28 Análisis localizado, características de estacionariedad
Parámetros Característicos de Señales de Voz Análisis localizado, características de estacionariedad La voz no es estacionaria. La voz es cuasi-estacionaria en intervalos cortos de tiempo.

29 Técnicas para el análisis de Voz

30 Técnicas para el análisis de Voz
Energía y Magnitud Promedio en corto tiempo La amplitud de segmentos sordos generalmente es más pequeña que la amplitud de segmentos sonoros. La energía en corto tiempo de la señal de voz proporciona una representación conveniente, que refleja estas variaciones de amplitud. En general, nosotros podemos definir la energía en corto tiempo como: La mayor importancia de la energía en corto tiempo, es que distingue los segmentos de voz sonora de los segmentos de voz sorda.

31 Técnicas para el análisis de Voz
Métodos para determinación del periodo fundamental (pitch)

32 Técnicas para el análisis de Voz
Método de Autocorrelación Cuando es dificultoso encontrar la componente fundamental de una señal , es conveniente buscar la periodicidad examinando su función de autocorrelación.

33 Características de la Autocorrelación
Técnicas para el análisis de Voz Características de la Autocorrelación En una señal periódica, la autocorrelación mostrará un periodo igual al período de la señal. Presenta un máximo absoluto en el origen. Robusto frente al ruido.

34 Técnicas para el análisis de Voz

35 Métodos para determinación de Formantes
Técnicas para el análisis de Voz Métodos para determinación de Formantes Método de Raíces. Método Peak-Picking

36 Método de Raíces Técnicas para el análisis de Voz
Cálculo de la Frecuencia Central del Formante (i)

37 Técnicas para el análisis de Voz
Método Peak-Picking Algoritmo de búsqueda de picos en la envolvente espectral de H(z). Su gran debilidad son las mezclas de los Formantes.

38 Determinación de formantes

39 Técnicas para el análisis de Voz
Predicción Lineal

40 Técnicas para el análisis de Voz
Predicción Lineal Principales supuestos: Naturaleza Cuasiestacionaria de la voz en segmentos cortos de tiempo. Correlación no nula entre muestras consecutivas de voz.

41 Técnicas para el análisis de Voz
Predicción Lineal Modelo autorregresivo (AR) o todo-polos de la señal de voz: Un Sn

42 Técnicas para el análisis de Voz
Predicción Lineal Dada una señal de voz “Sn” (considerada estacionaria) un predictor de orden p se define como: Filtro Inverso

43 Técnicas para el análisis de Voz
Predicción Lineal Se desea minimizar el error total al cuadrado, luego se tiene: (7)

44 Técnicas para el análisis de Voz
Predicción Lineal Cálculo de minimización del error: (8)

45 Coeficientes de Autocorrelación:
Técnicas para el análisis de Voz Predicción Lineal Coeficientes de Autocorrelación:

46 Técnicas para el análisis de Voz
Predicción Lineal Aplicando estas definiciones se tiene:

47 Técnicas para el análisis de Voz
Predicción Lineal Para resolver este sistema se pueden usar variados algoritmos, entre los algoritmos propuestos están: Algoritmo Recursivo de Levison-Durbin Algoritmo del Gradiente.

48 COEFICIENTES CEPSTRALES EN LA ESCALA DE FRECUENCIAS MEL (MFCC)
Técnicas para el análisis de Voz COEFICIENTES CEPSTRALES EN LA ESCALA DE FRECUENCIAS MEL (MFCC) Los coeficientes Cepstrales en la Escala de Frecuencias de Mel, adaptan las frecuencias de fonemas a la manera que el oído humano percibe los sonidos. La literatura indica que son Coeficientes más robustos que los coeficientes LPC y Cepstrums. Calcula una serie de parámetros de transición denotados por . Aplicar a los parámetros de transición la Transformada Discreta del Coseno (DCT).

49 Transformada de Wavalet TW

50 Transformada de Wavalet
En otras palabras, la transformada de Fourier permite analizar una señal globalmente, Mientras que la TW permite analizarla de forma global y local, lo que le da la propiedad de entregar el comportamiento de la señal en cada instante de tiempo

51 Transformada de Wavalet
El análisis de Fourier divide la señal en ondas sinusoidales de diferentes frecuencias de duración infinita. Del mismo modo, el análisis mediante wavelets consiste en dividir una señal en un determinado número de ondas o combinaciones lineales de señales de duración finita resultantes de la traslación y escalado de una función wavelet madre (Walter, 1999).

52 Transformadas de Wavalet TWC
Análisis Multiresolución El análisis multiresolución wavelet, permite descomponer la señal original en distintos niveles de resolución. En los detalles se encuentran aquellas componentes finas que contienen información a distintas frecuencias.

53 Técnicas para el análisis de Voz
Por Qué: Transformada de Wavalet + S= a1= + a2= + Juan: a= aproximación; d=detalle; S= suma de a1+d1 ; a1= suma de a2+d2 Explicar: permite descomponer una señal en señales más simples, que tienen información en el dominio de frecuencia (que se refleja en la fundamental de cada descomposición) y tiempo (observar la forma de onda respecto al eje x). + + S= + a3 d3 d2 d1 La señal puede ser reconstruida en su totalidad con la aproximación de mayor nivel y todos los detalles. Si se hacen cero algunos detalles se logrará algún grado de compresión. Si se minimizan aquellos detalles que representan ruido, entonces se filtrará el ruido. 53

54 Redes Neuronales Artificiales

55 Redes Neuronales Artificiales
¿Por qué Redes Neuronales? Porque simulan a las redes neuronales biológicas. Elemento principal: Neurona Conexiones entre neuronas: Sinapsis El advenimiento de la tecnología de Redes Neuronales Artificiales para el procesamiento digital de señales, llega a romper muchas de las limitaciones existentes en las técnicas tradicionales, principalmente en lo relacionado con el reconocimiento de la voz. Luis Explicar: Se utilizan redes neuronales porque, al modelar el comportamiento del sistema nervioso, se busca imitar la capacidad del cerebro humano de reconocer patrones. 55

56 Redes Neuronales Artificiales
Las redes neuronales están basadas en el funcionamiento de la neurona biológica residente en el sistema nervioso central, sus orígenes se remontan a los primeros años de la informática. Una red neuronal artificial es un modelo computacional que puede ser considerada como un sistema de procesamiento de información con características como aprendizaje, a través de ejemplos, adaptabilidad, robustez, capacidad de generalización y tolerancia a fallos.

57 Redes Neuronales Artificiales
Una Red Neuronal Artificial permite que una vez procesadas digitalmente las señales sonoras de voz, no se tenga que establecer reglas o realizar análisis estadísticos complejos para la determinación del fonema en proceso de reconocimiento.

58 Compresión de Voz

59 Compresión de Voz En los últimos años se ha dado un aumento espectacular tanto de la capacidad de almacenamiento de los computadores/ordenadores como de la velocidad de procesamiento de éstos. A esto lo acompaña una baja de los precios de memoria RAM y discos duros, así como también un aumento de velocidad de estos dispositivos. Esto nos hace preguntarnos ¿para qué la compresión?

60 Compresión de Voz Sin embargo, el uso que tienen las redes de computadores/ordenadores hace que cada vez más usuarios pidan más prestaciones a la red sobre la que están conectados. Cuando hablamos de prestaciones nos referimos principalmente a la velocidad de transferencia de información. Este es el principal problema al que se enfrentan todas las redes.

61 Compresión de Voz Todos los sistemas de compresión requieren dos algoritmos, uno para la compresión de los datos en el origen y otro para la descompresión en el destino. En la literatura estos algoritmos se conocen como algoritmos de codificación y decodificación respectivamente. Para muchas aplicaciones un documento multimedia sólo se codificará una vez al almacenarse en el servidor, pero se puede decodificar miles de veces al ser vista por los clientes. Esta asimetría permite que el algoritmo de codificación sea lento y requiera hardware costoso, siempre y cuando el algoritmo de decodificación sea rápido y no requiera un hardware de alto costo.

62 Compresión de Voz Por otra parte, para los multimedia de tiempo real, como las videoconferencias y la voz sobre IP, la codificación lenta es inaceptable. Por ejemplo, al comprimir, transmitir y descomprimir un archivo de datos el usuario espera recibir en forma correcta hasta el último bit de la información original.

63 Compresión de Voz Por otra parte en multimedia por lo general, es aceptable que la señal después de codificar y decodificar sea ligeramente diferente de la original. Los sistemas de codificación con pérdidas son importantes porque aceptar una pequeña pérdida de información puede ofrecer ventajas enormes en la relación de compresión posible, como por ejemplo, el algoritmo de compresión de imágenes JPEG y el de compresión de voz LPC.

64 Compresión de Voz Proceso de compresión-transmisión-descompresión
Este proceso se justifica porque en general es más rápido que el proceso de transmisión sin compresión . Analicemos este hecho mediante una útil ecuación.

65 Compresión de Voz  : Es la relación entre tiempo que se tardaría para transmitir comprimiendo y sin comprimir (en tanto por uno). r : Radio medio de compresión del algoritmo utilizado, que se puede escribir como bits comprimidos / bits totales.

66 Compresión de Voz c es la velocidad de compresión en bit/s (se supone igual a la velocidad de descompresión y depende del algoritmo) D es el número de bits que componen el mensaje a transmitir, b es la velocidad de transferencia de la línea en bit/s La ecuación evidencia que para se justifica la transmisión con compresión.

67 Compresión de Voz Pero no sólo para la transmisión se usa la compresión. También para el almacenamiento masivo de datos La necesidad de almacenamiento también crece por encima de las posibilidades del crecimiento de los discos duros o memoria. Nos basta pensar, por ejemplo, en el proyecto del Genoma Humano ó en los grandes servidores de vídeo en demanda con cientos o miles de películas, ocupando cada una varios Gigabytes

68 Principales Estándares de Compresión de Voz

69 Compresión de Voz Estándares de Compresión de Voz
Los estándares recomendados por H.323 para la compresión de la voz, son los siguientes:  G.711: Modulación por impulsos Codificados PCM a 64kbit/s. G.723: Códec de voz de doble velocidad para la transmisión en comunicaciones multimedios a 5,3 y 6,3 kbit/s. G.726: Modulación por impulsos codificados diferencial adaptivo ADPCM, a 16, 24, 32, 40 kbit/s. G.728 (Codificación de señales vocales a 16 kbit/s utilizando predicción lineal). G.729: Codificador de la voz mediante predicción lineal a 8 kbit/s

70 Compresión de Voz

71 Compresión de Voz Estándares de Compresión de Voz G.722 G.728 G.711
Fuente: Magenta <www.magenta.cl> G.722 G.728 G.711 G.723

72 Compresión de Voz Evaluación de los codificadores
MOS (Mean Opinion Score) ITU P.800 Puntuación Esfuerzo necesario para comprender el significado de las frases 5 Audición perfecta; ningún esfuerzo 4 Cierta atención es necesaria; ningún esfuerzo apreciable 3 Esfuerzo moderado 2 Esfuerzo considerable 1 Significado incomprensible, aun con el mayor esfuerzo

73 Sistemas de reconocimiento de Voz

74 Sistemas de reconocimiento de Voz
Un sistema de reconocimiento de voz podrá operar identificando: Palabras aisladas Fonemas (mayor complejidad) Éste último podrá utilizarse para reconocer palabras, frases, etc. Es altamente deseable un reconocimiento continuo de la voz

75 Reconocimiento de voz empleando comparación de patrones
Muestra de voz Establecimiento de características espectrales Comparador de patrones Regla de decisión Base de datos de patrones

76 Reconocimiento de voz empleando comparación de patrones
Se establece una distancia matemática entre vectores, de tal manera que se pueda calcular que tan cercano se está de cada patrón. De todos modos, existe la necesidad de aplicar este sistema única y exclusivamente a ciertos casos donde el número de palabras necesarias sea pequeño.

77 Reconocimiento de Voz Reconocimiento de voz usando Redes Neuronales
En la actualidad el empleo de las Redes Neuronales Artificiales (RNA) en el reconocimiento de voz ofrece una muy buena alternativa, debido a que las RNA intentan simular el comportamiento de las redes neuronales biológicas, con lo cual es posible evitar las grandes bases de datos exigidas mediante métodos por comparación de patrones, como el mostrado anteriormente y tiempo de procesamiento de señales bajo las técnicas clásicas.

78 Reconocimiento de Voz usando Redes Neuronales
La cantidad de patrones para el entrenamiento puede ser considerablemente alto, como dato se menciona que para patrones de voz de 10 ms compuestos de 80 muestras, para identificar las 5 vocales, se debería disponer de 4350 ejemplos en total, es decir 870 por cada vocal, lo que demanda gran tiempo y recursos. Por lo que en este ámbito es muy importante reducir la cantidad de muestras para el entrenamiento (70%), pruebas (20%) y validación” (10%), esta reducción será mostrada más adelante a través de un modelo desarrollado por el equipo de la Usach .

79 Desarrollos Prácticos
A continuación se muestran dos ejemplos de desarrollo, tanto como para la compresión de voz como para la identificación de la voz En primer lugar, se muestra un trabajo sobre compresión de voz, lo que llevó a una publicación ISI- Posteriormente la identificación de sílabas mediante un proceso de segmentación y análisis focalizado usando comparación de patrones Y finalmente la identificación a través de un modelo Wavalet-LPC-RNA .

80 Compresión de Voz Modelo de compresión de Voz mediante la utilización de la Transformada Rápida de Fourier y la aplicación de formatos de Compresión de imágenes Kaschel, H., San Juan, E. & Carrasco, R. (2006) “Analysis and voice synthesis by means of image compression” The Mediterranean Journal of Computers  and  Networks,Volume 2, N°3 Kaschel, H., Watkins, F. & San Juan, E. (2005) “Compresión de voz mediante técnicas digitales para el procesamiento de señales y aplicación de formatos de Compresión de Imágenes” Revista de la facultad de Ingeniería, Vol. 13, N° 3,  septiembre-diciembre

81 Modelo de compresión de voz
El presente trabajo muestra la formulación y simulación de un modelo de compresión de voz, realizando un proceso de análisis y síntesis mediante el uso de técnicas digitales para procesamiento de señales y de la aplicación de formatos de compresión de imágenes. El modelo formulado transforma tramas de voz en imágenes comprimidas, las cuales son transmitidas a través del canal, para luego realizar en el receptor un proceso de recuperación de la voz. Presentación General

82 Modelo de compresión de voz
Hipótesis de Investigación La compresión de la voz bajo este esquema logra una reducción significativa de la cantidad de bytes y de la consiguiente disminución de la velocidad en bit/s necesaria para la transmisión de la información. Disminución de Bytes Menor Ancho de banda en bit/s necesarios para la transmisión de la voz

83 Modelo de compresión de voz
en el transmisor (análisis) Filtro pasabanda 1 Filtro pasabanda 2 Adaptación a formato de Imagen de Compresión de la Imagen Transmisión de la imagen comprimida de la parte Real de la FFT Canal DFT Mediante la FFT Ingreso de la voz Adaptación a formato de Imagen de Compresión de la Imagen Transmisión de la imagen comprimida de la parte Imaginaria de la FFT Filtro pasabanda M Voz filtrada por el banco de filtros

84 Modelo de compresión de voz Síntesis en el Receptor
Recepción de la imagen comprimida de la parte Real de la FFT Descompresión de la imagen parte real de la FFT Recuperación parte Real de la FFT Reconstrucción de la FFT Aplicación de la IFFT Recuperación de la voz Canal Recepción de la imagen comprimida de la parte Imaginaria de la FFT Descompresión de la imagen parte Imaginaria de la FFT Recuperación parte Imaginaria de la FFT

85 Modelo de compresión de voz Interfaz gráfica diseñada

86 Modelo de compresión de voz Aplicación de la simulación
Señal original antes de ser procesada

87 Modelo de compresión de voz
Aplicación de la simulación Espectros de frecuencias parte real e imaginaria en el proceso de análisis

88 Modelo de compresión de voz
Aplicación de la simulación Imágenes Parte real e imaginaria de la FFT en el transmisor antes de comprimir

89 Proceso de transmisión
Modelo de compresión de voz Aplicación de la simulación Proceso de transmisión Canal Tramas de voz Tramas de imágenes comprimidas Tramas de imágenes comprimidas

90 Modelo de compresión de voz
Aplicación de la simulación Imágenes Parte real e imaginaria de la FFT en el receptor después de descomprimir

91 Modelo de compresión de voz
Aplicación de la simulación Recuperación de la parte real y parte imaginaria de la FFT en el receptor

92 Modelo de compresión de voz
Aplicación de la simulación Señal recuperada en el receptor

93 Modelo de compresión de voz
Conclusiones

94 Modelo de compresión de voz Buenos resultados en relación con el MOS
Conclusiones Buenos resultados en relación con el MOS

95 Modelo de compresión de voz Buenos resultados en cuanto a velocidad
Conclusiones Buenos resultados en cuanto a velocidad

96 Modelo para reconocimiento de voz por comparación de patrones
Modelo para reconocimiento de la voz a nivel de sílabas a través de patrones visuales

97 Objetivo de la investigación
Modelo para reconocimiento de voz por comparación de patrones Objetivo de la investigación Busca entregar al usuario en rehabilitación índices que le ayuden a aprender y a mejorar su pronunciación, basándose en la correlación de los parámetros propios de cada hablante con respecto a parámetros patrones almacenados en el sistema.

98 Modelo para reconocimiento de voz por comparación de patrones
La Retroalimentación que permite el aprendizaje de las palabras, no se produce a través de la audición. Pero se puede usar otro sentido: la vista 98

99 Modelo para reconocimiento de voz por comparación de patrones
Parámetros característicos considerados en este trabajo Periodo fundamental (Pitch) Formantes Coeficientes LPC Coeficientes Cepstrales en la Escala de Frecuencias Mel (Mel Frequency Cepstral Coefficient – MFCC)

100 Modelo para reconocimiento de voz por comparación de patrones
Coeficiente de correlación usado como criterio de evaluación

101 Modelo para reconocimiento de voz por comparación de patrones
Metodología a nivel de sílabas a nivel de fonemas Consideraciones previas Cantidad de sílabas Consonantes con igual sonido Base de datos Metodología planteada Segmentación consonante/vocal de una sílaba Comparación de vocales Comparación de Consonantes

102 Segmentación consonante/vocal de una sílaba
Modelo para reconocimiento de voz por comparación de patrones Segmentación consonante/vocal de una sílaba

103 Modelo para reconocimiento de voz por comparación de patrones
Obtención de Parámetros Coeficientes LPC MFCC Formantes Coeficientes LPC MFCC

104 Modelo para reconocimiento de voz por comparación de patrones
Implementación computacional: Interfaz gráfica

105 Modelo para reconocimiento de voz por comparación de patrones
Características Multimediales Se reproducen videos de una persona pronunciando la sílaba en entrenamiento.

106 Modelo para el reconocimiento de patrones voz mediante el empleo de wavelets, predicción lineal y redes backpropagation Saludo, título; San Juan, Jamett, Kaschel, Watkins, Sanchez, Leiva “Uso de wavelets, predicción lineal y redes backpropagation para el reconocimiento de patrones de voz “, Universidad de Santiago de Chile, (próximo a someterse a evaluación) 106

107 Objetivo de la investigación
Modelo para el reconocimiento de patrones de voz mediante el empleo de wavelets, predicción lineal y redes backpropagation Objetivo de la investigación Desarrollo de un software de análisis de sílabas y de fonemas orientado al apoyo del aprendizaje del lenguaje hablado para personas con problemas auditivos. Mediante integración de los siguientes métodos aplicados para el reconocimiento de voz restringidos a sílabas y fonemas: -Transformada de Wavelet-Coeficientes LPC -Redes Neuronales Solución al problema uso de conocimientos de ingeniería aplicados al beneficio social. 107

108 Red Neuronal + Wavelet +LPC
Vocal “a”: Wavelet daubechies 6 de 3 niveles S= + + + a3 d3 d2 d1 LPC LPC: La voz puede modelarse como una combinación de p muestras anteriores más una señal de error. 4350 ejemplos 870 ejemplos x vocal Ne=Neuronas entrada Nco=Neuronas Capa Oculta Ns=Neuronas Capa Salida Detalle d3: 2700 ejemplos 540’ ejemplos por vocal 12 de 13 coeficientes LPC 950 Ejemplos 190 ej. x vocal 6 de 7 coeficientes LPC 650 Ejemplos 140 ej. x vocal. Luis Mencionar que red es para vocales. Ejemplo=señal completa Muestras= cantidad de valores que componen el ejemplo Ne= cant de valores del ejemplo Nco= cant de ejemplos distintos (mín) 108

109 Modelo para el reconocimiento de patrones de voz mediante el empleo de wavelets, predicción lineal y redes backpropagation Modelo desarrollado Juan: Se implementó en matlab 109

110 Aciertos en total por cada sílaba en 36 muestras (ideal 100%)
Modelo para el reconocimiento de patrones de voz mediante el empleo de wavelets, predicción lineal y redes backpropagation Resultados de pruebas Red de sílabas ya/lla/te/pi/bu/vu “RED1” Aciertos en total por cada sílaba en 36 muestras (ideal 100%) Promedio resultados 36 muestras x sílaba (ideal 1). ya te pi bu 23 9 3 2 0,57 0,37 0,13 0,08 64% 25% 8% 6% 8 27 1 0,24 0,63 0,03 22% 75% 3% 0% 25 6 0,17 0,05 0,58 0,33 69% 17% 7 28 0,14 0,04 0,29 0,61 19% 78% total 36 -- Promedio 72% de asertivo 0,60 (60% de similitud) juan Se nota claramente la tendencia, aunque los valores no son altos. Cantidad de ejemplos para las pruebas (20% ) 110

111 Software de ayuda a discapacitados auditivos.
Juan/luis Minimizar, mostrar programa, después volver a conclusiones. 111

112 MUCHAS GRACIAS


Descargar ppt "Universidad de Santiago de Chile Facultad de Ingeniería"

Presentaciones similares


Anuncios Google