La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión.

Presentaciones similares


Presentación del tema: "Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión."— Transcripción de la presentación:

1 Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión y Reconocimiento de Voz (experiencia investigativa en la USACH)

2 Colombia chile

3

4 UNIVERSIDAD DE SANTIAGO DE CHILE

5

6 DEPARTAMENTO DE INGENIERÍA ELÉCTRICA UNIVERSIDAD DE SANTIAGO DE CHILE

7 Objetivo general I.Dar a conocer una de las líneas de investigación del Área de Telecomunicaciones del Departamento de Ingeniería Eléctrica de la USACH. II.Dar a conocer el por qué el equipo ha considerado la importancia del procesamiento Digital de la Voz y la necesidad de compresión y el reconocimiento de la voz. III.Entregar en forma breve las principales técnicas para el procesamiento Digital de la voz. IV.Mostrar algunas aplicaciones desarrolladas en compresión y en el reconocimiento de voz. Objetivos

8 I- Principales Líneas de Investigación del área de Telecomunicaciones 1.Procesamiento digital de señales, en especial el procesamiento digital de Voz. 2.Voz sobre redes de Paquetes 3.Calidad de Servicio sobre Redes IP 4.Wireless sensor network, channel coding, network coding. 5.Robot móviles, manipuladores y androides 6.Control de sistemas complejos mediante técnicas de redes neuronales. 7.Identificación de sistemas tipo caja-gris. 8.Análisis de estabilidad de modelos no lineales iterativos Objetivos

9 II.Importancia del procesamiento Digital de la Voz en lo relacionado con: La Compresión para el transporte sobre redes de paquetes El Reconocimiento de voz orientado a la ayuda de personas con dificultades de audición. Objetivos

10 III.Técnicas para el procesamiento Digital de la Voz De manera resumida se entregan los conceptos y técnicas asociadas para el procesamiento, análisis y compresión de la voz. Objetivos

11 IV.Las Aplicaciones se muestran al final de esta ponencia y están orientadas en mostrar: Un modelo de compresión de voz usando formatos de compresión de imágenes. Y dos desarrollos orientados al reconocimiento de voz para la generación de un sistema computarizado de ayuda a personas con dificultades auditivas. Objetivos

12 Introducción El Universo es todo, sin excepciones. Materia, energía, espacio y tiempo, todo lo que existe forma parte del Universo. Los Astrónomos indican que es muy grande y puede contener millones de galaxias, pero no es infinito, esta autocontenido. Si lo fuera, habría infinita materiae infinitas estrellas, y no es así. En cuanto a la materia, el universo es, sobre todo, espacio vacío.

13 Materia, Energía e Información Materia-Energía + Información La información pertenece al Universo pero no es Masa ni Energía ni tampoco ocupa un lugar en el espacio

14 Materia, Energía e Información

15 Nuestro interés Nuestro interés son las señales, las que debemos formalizar en su conceptualización

16 Alexander Graham Bell, creó el lenguaje de señas e inventó autómatas rústicos sintetizadores de voz y el teléfono. En los años 20, AT&T Bell Laboratorios, construye la primera máquina capaz de reconocer voz (basada en ) de los 10 dígitos del Inglés. Estudios a trav é s del tiempo

17 La técnica de plantillas ha sido ampliamente utilizada. El almacenamiento de patrones característicos de las muestras tomadas como plantillas ha sido la forma de trabajo hasta la década de los 90. Durante los años 70 y 80 se desarrolla muy fuertemente el estudio de Análisis y Síntesis de Voz, principalmente gracias a Rabiner, Makhoul y otros. A mediados de los años 90 comienzan a aparecer los primeros estudios formales que involucran a las Wavalet para procesamiento y compresión, además de las redes neuronales artificiales para el reconocimiento de la voz. Estudios a través del tiempo

18 ¿Qué es compresión? Principalmente porque día a día son más las aplicaciones en este contexto que requieren de un amplio rango de calidad y performance de acuerdo a los requerimientos de usuarios heterogéneos. La alternativa, es que sea posible la compresión masiva de los datos antes de efectuar su transmisión. Afortunadamente, un gran número de investigaciones durante las últimas décadas han desrollado muchas técnicas y algoritmos de compresión que hacen factible la transmisión de multimedia. multimedial Es improbable pensar en este tiempo la conveniencia de realizar transmisión de información multimedial en formato sin compresión.

19 ¿Qué es reconocimiento de voz? Al hablar de reconocimiento de voz, podemos imaginarnos varios campos de aplicación. Desde la domótica hasta la inteligencia artificial. Reconocimiento de palabras aisladas Reconocimiento de voz continua Dependiente o independiente del locutor Con gramática amplia 0 restringida Todo depende de la aplicación que queramos. Por ejemplo, si queremos poder apagar o encender las luces de nuestra casa, bastará un sistema que reconozca un número limitado de palabras, está claro entonces que grabando unos cuantos ejemplos que servirán de patrones, se podrá resolver el problema.

20 Imaginemos que en vez de algunas pocas palabras queremos tratar un vocabulario completo y no sólo eso,queremos poder hablar con naturalidad y que el sistema identifique las palabras, las frases y el significado. Es decir, queremos que un robot nos entienda, para ello el nivel de complejidad se eleva a un nivel casi impensable. ¿Qué es reconocimiento de voz?

21 Sistemas que reconozcan en forma eficiente la palabra pronunciada sin que exista entrenamiento previo del locutor son aún un desafío. Es por ello que las Redes Neuronales Artificiales adquieren cada vez más protagonismo en el estudio de la voz humana, basándose en que éstas simulan al mejor sistema: es decir el ser humano, para interpretar, reconocer y discriminar la voz. Asimismo, la transformada de Wavelet se posiciona en el ámbito del procesamiento digital de señales e imágenes como una poderosa herramienta de análisis. Numerosos estudios centran la atención en estos métodos como la solución al reconocimiento de voces independientes del locutor. ¿Qué es reconocimiento de voz?

22 Parámetros Característicos de Señales de Voz

23 Parámetros Característicos de Señales Voz Período Fundamental (PITCH) FORMANTES

24 Período Fundamental (Pitch) Es el tiempo transcurrido entre dos aperturas sucesivas de las cuerdas vocales. La velocidad de vibración de la cuerdas, se denomina Frecuencia Fundamental de la fonación y es el inverso del Pitch. Parámetros Característicos de Señales de Voz

25 Formantes Formantes Los Formantes son resonancias naturales del tracto vocal que toman diferentes valores de frecuencia a medida que éste cambia su estructura. Formantes representativos Parámetros Característicos de Señales de Voz

26 Vocal/Formante (Hz) F1F1 F2F2 /a/ /e/ /i/ /o/ /u/ Valores frecuenciales de los dos primeros formantes de las vocales españolas. Parámetros Característicos de Señales de Voz

27 Clasificación de sonidos Sonidos sonoros (Voiced) Sonidos sordos (Unvoiced) a, e, i, o, u, b, d, g, l, ll, m, n, ñ, r, rr, v, w, y ch, f, h, j, k, p, s, t, z Parámetros Característicos de Señales de Voz

28 Análisis localizado, características de estacionariedad La voz no es estacionaria.La voz no es estacionaria. La voz es cuasi-estacionaria en intervalos cortos de tiempo.La voz es cuasi-estacionaria en intervalos cortos de tiempo. Parámetros Característicos de Señales de Voz

29 Técnicas para el análisis de Voz

30 Energía y Magnitud Promedio en corto tiempo La amplitud de segmentos sordos generalmente es más pequeña que la amplitud de segmentos sonoros. La energía en corto tiempo de la señal de voz proporciona una representación conveniente, que refleja estas variaciones de amplitud. En general, nosotros podemos definir la energía en corto tiempo como: distingue los segmentos de voz sonora de los segmentos de voz sorda. La mayor importancia de la energía en corto tiempo, es que distingue los segmentos de voz sonora de los segmentos de voz sorda. Técnicas para el análisis de Voz

31 Métodos para determinación del periodo fundamental (pitch) Técnicas para el análisis de Voz

32 Método de Autocorrelación Cuando es dificultoso encontrar la componente fundamental de una señal, es conveniente buscar la periodicidad examinando su función de autocorrelación. Técnicas para el análisis de Voz

33 Características de la Autocorrelación En una señal periódica, la autocorrelación mostrará un periodo igual al período de la señal. Presenta un máximo absoluto en el origen. Robusto frente al ruido. Técnicas para el análisis de Voz

34

35 Métodos para determinación de Formantes 1.Método de Raíces. 2.Método Peak-Picking Técnicas para el análisis de Voz

36 Método de Raíces Cálculo de la Frecuencia Central del Formante (i) Técnicas para el análisis de Voz

37 Método Peak-Picking Algoritmo de búsqueda de picos en la envolvente espectral de H(z). Su gran debilidad son las mezclas de los Formantes. Técnicas para el análisis de Voz

38 Determinación de formantes

39 Predicción Lineal Técnicas para el análisis de Voz

40 Principales supuestos: Naturaleza Cuasiestacionaria de la voz en segmentos cortos de tiempo. Correlación no nula entre muestras consecutivas de voz. Predicción Lineal Técnicas para el análisis de Voz

41 Predicción Lineal Modelo autorregresivo (AR) o todo-polos de la señal de voz: UnUn SnSn Técnicas para el análisis de Voz

42 Dada una señal de voz Sn (considerada estacionaria) un predictor de orden p se define como: Filtro Inverso Predicción Lineal Técnicas para el análisis de Voz

43 Se desea minimizar el error total al cuadrado, luego se tiene: (7) Predicción Lineal Técnicas para el análisis de Voz

44 Cálculo de minimización del error: (8) Predicción Lineal Técnicas para el análisis de Voz

45 Coeficientes de Autocorrelación: Predicción Lineal Técnicas para el análisis de Voz

46 Aplicando estas definiciones se tiene: Predicción Lineal Técnicas para el análisis de Voz

47 Para resolver este sistema se pueden usar variados algoritmos, entre los algoritmos propuestos están: Algoritmo Recursivo de Levison-Durbin Algoritmo del Gradiente. Predicción Lineal Técnicas para el análisis de Voz

48 Los coeficientes Cepstrales en la Escala de Frecuencias de Mel, adaptan las frecuencias de fonemas a la manera que el oído humano percibe los sonidos. La literatura indica que son Coeficientes más robustos que los coeficientes LPC y Cepstrums. Calcula una serie de parámetros de transición denotados por. Aplicar a los parámetros de transición la Transformada Discreta del Coseno (DCT). Técnicas para el análisis de Voz COEFICIENTES CEPSTRALES EN LA ESCALA DE FRECUENCIAS MEL (MFCC)

49 Transformada de Wavalet TW

50 Transformada de Wavalet En otras palabras, la transformada de Fourier permite analizar una señal globalmente, Mientras que la TW permite analizarla de forma global y local, lo que le da la propiedad de entregar el comportamiento de la señal en cada instante de tiempo

51 El análisis de Fourier divide la señal en ondas sinusoidales de diferentes frecuencias de duración infinita. Del mismo modo, el análisis mediante wavelets consiste en dividir una señal en un determinado número de ondas o combinaciones lineales de señales de duración finita resultantes de la traslación y escalado de una función wavelet madre (Walter, 1999). Transformada de Wavalet

52 Análisis Multiresolución El análisis multiresolución wavelet, permite descomponer la señal original en distintos niveles de resolución. En los detalles se encuentran aquellas componentes finas que contienen información a distintas frecuencias. Transformadas de Wavalet TWC

53 S= + a1=a1=+ a2=a2= a3a3 d3d3 d2d2 d1d La señal puede ser reconstruida en su totalidad con la aproximación de mayor nivel y todos los detalles. Si se hacen cero algunos detalles se logrará algún grado de compresión. Si se minimizan aquellos detalles que representan ruido, entonces se filtrará el ruido. Por Qué: Transformada de Wavalet Técnicas para el análisis de Voz

54 Redes Neuronales Artificiales

55 ¿Por qué Redes Neuronales? Porque simulan a las redes neuronales biológicas. Elemento principal: Neurona Conexiones entre neuronas: Sinapsis El advenimiento de la tecnología de Redes Neuronales Artificiales para el procesamiento digital de señales, llega a romper muchas de las limitaciones existentes en las técnicas tradicionales, principalmente en lo relacionado con el reconocimiento de la voz. Redes Neuronales Artificiales

56 Las redes neuronales están basadas en el funcionamiento de la neurona biológica residente en el sistema nervioso central, sus orígenes se remontan a los primeros años de la informática. Redes Neuronales Artificiales Una red neuronal artificial es un modelo computacional que puede ser considerada como un sistema de procesamiento de información con características como aprendizaje, a través de ejemplos, adaptabilidad, robustez, capacidad de generalización y tolerancia a fallos.

57 Una Red Neuronal Artificial permite que una vez procesadas digitalmente las señales sonoras de voz, no se tenga que establecer reglas o realizar análisis estadísticos complejos para la determinación del fonema en proceso de reconocimiento. Redes Neuronales Artificiales

58 Compresión de Voz

59 En los últimos años se ha dado un aumento espectacular tanto de la capacidad de almacenamiento de los computadores/ordenadores como de la velocidad de procesamiento de éstos. A esto lo acompaña una baja de los precios de memoria RAM y discos duros, así como también un aumento de velocidad de estos dispositivos. Esto nos hace preguntarnos ¿para qué la compresión?

60 Sin embargo, el uso que tienen las redes de computadores/ordenadores hace que cada vez más usuarios pidan más prestaciones a la red sobre la que están conectados. Cuando hablamos de prestaciones nos referimos principalmente a la velocidad de transferencia de información. Este es el principal problema al que se enfrentan todas las redes. Compresión de Voz

61 Todos los sistemas de compresión requieren dos algoritmos, uno para la compresión de los datos en el origen y otro para la descompresión en el destino. En la literatura estos algoritmos se conocen como algoritmos de codificación y decodificación respectivamente. Para muchas aplicaciones un documento multimedia sólo se codificará una vez al almacenarse en el servidor, pero se puede decodificar miles de veces al ser vista por los clientes. Esta asimetría permite que el algoritmo de codificación sea lento y requiera hardware costoso, siempre y cuando el algoritmo de decodificación sea rápido y no requiera un hardware de alto costo. Compresión de Voz

62 Por otra parte, para los multimedia de tiempo real, como las videoconferencias y la voz sobre IP, la codificación lenta es inaceptable. Por ejemplo, al comprimir, transmitir y descomprimir un archivo de datos el usuario espera recibir en forma correcta hasta el último bit de la información original. Compresión de Voz

63 Por otra parte en multimedia por lo general, es aceptable que la señal después de codificar y decodificar sea ligeramente diferente de la original. Los sistemas de codificación con pérdidas son importantes porque aceptar una pequeña pérdida de información puede ofrecer ventajas enormes en la relación de compresión posible, como por ejemplo, el algoritmo de compresión de imágenes JPEG y el de compresión de voz LPC. Compresión de Voz

64 Analicemos este hecho mediante una ú til ecuaci ó n. Proceso de compresi ó n-transmisi ó n-descompresi ó n Este proceso se justifica porque en general es m á s r á pido que el proceso de transmisi ó n sin compresi ó n. Compresión de Voz

65 : Es la relaci ó n entre tiempo que se tardar í a para transmitir comprimiendo y sin comprimir (en tanto por uno). r : Radio medio de compresi ó n del algoritmo utilizado, que se puede escribir como bits comprimidos / bits totales. Compresión de Voz

66 c es la velocidad de compresi ó n en bit/s (se supone igual a la velocidad de descompresi ó n y depende del algoritmo) D es el n ú mero de bits que componen el mensaje a transmitir, b es la velocidad de transferencia de la l í nea en bit/s La ecuaci ó n evidencia que para se justifica la transmisi ó n con compresi ó n.

67 Pero no sólo para la transmisión se usa la compresión. También para el almacenamiento masivo de datos La necesidad de almacenamiento también crece por encima de las posibilidades del crecimiento de los discos duros o memoria. Nos basta pensar, por ejemplo, en el proyecto del Genoma Humano ó en los grandes servidores de vídeo en demanda con cientos o miles de películas, ocupando cada una varios Gigabytes Compresión de Voz

68 Principales Estándares de Compresión de Voz Compresión de Voz

69 Los estándares recomendados por H.323 para la compresión de la voz, son los siguientes: G.711: Modulación por impulsos Codificados PCM a 64kbit/s. G.723: Códec de voz de doble velocidad para la transmisión en comunicaciones multimedios a 5,3 y 6,3 kbit/s. G.726: Modulación por impulsos codificados diferencial adaptivo ADPCM, a 16, 24, 32, 40 kbit/s. G.728 (Codificación de señales vocales a 16 kbit/s utilizando predicción lineal). G.729: Codificador de la voz mediante predicción lineal a 8 kbit/s Estándares de Compresión de Voz Compresión de Voz

70

71 G.722 G.728 G.711 G.723 Fuente: Magenta Estándares de Compresión de Voz Compresión de Voz

72 Puntuación Esfuerzo necesario para comprender el significado de las frases 5Audición perfecta; ningún esfuerzo 4Cierta atención es necesaria; ningún esfuerzo apreciable 3Esfuerzo moderado 2Esfuerzo considerable 1Significado incomprensible, aun con el mayor esfuerzo Evaluación de los codificadores MOS (Mean Opinion Score) ITU P.800 Compresión de Voz

73 Sistemas de reconocimiento de Voz

74 Un sistema de reconocimiento de voz podrá operar identificando: Palabras aisladas Fonemas (mayor complejidad) Éste último podrá utilizarse para reconocer palabras, frases, etc. Es altamente deseable un reconocimiento continuo de la voz Sistemas de reconocimiento de Voz

75 Reconocimiento de Voz Reconocimiento de voz empleando comparación de patrones Establecimiento de características espectrales Comparador de patrones Regla de decisión Base de datos de patrones Muestra de voz

76 Se establece una distancia matemática entre vectores, de tal manera que se pueda calcular que tan cercano se está de cada patrón. De todos modos, existe la necesidad de aplicar este sistema única y exclusivamente a ciertos casos donde el número de palabras necesarias sea pequeño. Reconocimiento de Voz Reconocimiento de voz empleando comparación de patrones

77 En la actualidad el empleo de las Redes Neuronales Artificiales (RNA) en el reconocimiento de voz ofrece una muy buena alternativa, debido a que las RNA intentan simular el comportamiento de las redes neuronales biológicas, con lo cual es posible evitar las grandes bases de datos exigidas mediante métodos por comparación de patrones, como el mostrado anteriormente y tiempo de procesamiento de señales bajo las técnicas clásicas. Reconocimiento de voz usando Redes Neuronales Reconocimiento de Voz

78 La cantidad de patrones para el entrenamiento puede ser considerablemente alto, como dato se menciona que para patrones de voz de 10 ms compuestos de 80 muestras, para identificar las 5 vocales, se debería disponer de 4350 ejemplos en total, es decir 870 por cada vocal, lo que demanda gran tiempo y recursos. Por lo que en este ámbito es muy importante reducir la cantidad de muestras para el entrenamiento (70%), pruebas (20%) y validación (10%), esta reducción será mostrada más adelante a través de un modelo desarrollado por el equipo de la Usach. Reconocimiento de Voz Reconocimiento de Voz usando Redes Neuronales

79 A continuación se muestran dos ejemplos de desarrollo, tanto como para la compresión de voz como para la identificación de la voz En primer lugar, se muestra un trabajo sobre compresión de voz, lo que llevó a una publicación ISI- Posteriormente la identificación de sílabas mediante un proceso de segmentación y análisis focalizado usando comparación de patrones Y finalmente la identificación a través de un modelo Wavalet-LPC-RNA. Desarrollos Prácticos

80 Modelo de compresión de Voz mediante la utilización de la Transformada Rápida de Fourier y la aplicación de formatos de Compresión de imágenes Compresión de Voz Kaschel, H., San Juan, E. & Carrasco, R. (2006) Analysis and voice synthesis by means of image compression The Mediterranean Journal of Computers and Networks,Volume 2, N°3 Kaschel, H., Watkins, F. & San Juan, E. (2005) Compresión de voz mediante técnicas digitales para el procesamiento de señales y aplicación de formatos de Compresión de Imágenes Revista de la facultad de Ingeniería, Vol. 13, N° 3, septiembre-diciembre

81 El presente trabajo muestra la formulaci ó n y simulaci ó n de un modelo de compresi ó n de voz, realizando un proceso de an á lisis y s í ntesis mediante el uso de t é cnicas digitales para procesamiento de se ñ ales y de la aplicaci ó n de formatos de compresi ó n de im á genes. El modelo formulado transforma tramas de voz en im á genes comprimidas, las cuales son transmitidas a trav é s del canal, para luego realizar en el receptor un proceso de recuperaci ó n de la voz. Modelo de compresión de voz Presentación General

82 La compresión de la voz bajo este esquema logra una reducción significativa de la cantidad de bytes y de la consiguiente disminución de la velocidad en bit/s necesaria para la transmisión de la información. Hipótesis de Investigación Hipótesis de Investigación Disminución de Bytes Menor Ancho de banda en bit/s necesarios para la transmisión de la voz Modelo de compresión de voz

83 Modelo de Compresión de Voz en el transmisor (análisis) Ingreso de la voz Filtro pasabanda 1 Adaptación a formato de Imagen de Compresión de la Imagen Compresión de la Imagen Filtro pasabanda 2 Filtro pasabanda M Voz filtrada por el banco de filtros Adaptación a formato de Imagen de Transmisión de la imagen comprimida de la parte Real de la FFT Transmisión de la imagen comprimida de la parte Imaginaria de la FFT Canal DFT Mediante la FFT Modelo de compresión de voz

84 en el Receptor Síntesis en el Receptor Descompresión de la imagen parte real de la FFT Recuperación parte Real de la FFT Recuperación parte Imaginaria de la FFT Aplicación de la IFFT Recuperación de la voz Canal Reconstrucción de la FFT Recepción de la imagen comprimida de la parte Real de la FFT Recepción de la imagen comprimida de la parte Imaginaria de la FFT Descompresión de la imagen parte Imaginaria de la FFT Modelo de compresión de voz

85 Interfaz gráfica diseñada Modelo de compresión de voz

86 Señal original antes de ser procesada Aplicaci ó n de la simulaci ó n Modelo de compresión de voz

87 Espectros de frecuencias parte real e imaginaria en el proceso de análisis Aplicaci ó n de la simulaci ó n Modelo de compresión de voz

88 Imágenes Parte real e imaginaria de la FFT en el transmisor antes de comprimir Aplicaci ó n de la simulaci ó n Modelo de compresión de voz

89 Proceso de transmisión Aplicación de la simulación Canal Tramas de voz Tramas de imágenes comprimidas Modelo de compresión de voz

90 Imágenes Parte real e imaginaria de la FFT en el receptor después de descomprimir Aplicaci ó n de la simulaci ó n Modelo de compresión de voz

91 Recuperación de la parte real y parte imaginaria de la FFT en el receptor Aplicaci ó n de la simulaci ó n Modelo de compresión de voz

92 Señal recuperada en el receptor Aplicación de la simulación Modelo de compresión de voz

93 Conclusiones Modelo de compresión de voz

94 Conclusiones Buenos resultados en relación con el MOS Modelo de compresión de voz

95 Conclusiones Buenos resultados en cuanto a velocidad Modelo de compresión de voz

96 Modelo para reconocimiento de la voz a nivel de sílabas a través de patrones visuales Modelo para reconocimiento de voz por comparación de patrones

97 Objetivo de la investigación Busca entregar al usuario en rehabilitación índices que le ayuden a aprender y a mejorar su pronunciación, basándose en la correlación de los parámetros propios de cada hablante con respecto a parámetros patrones almacenados en el sistema. Modelo para reconocimiento de voz por comparación de patrones

98 La Retroalimentación que permite el aprendizaje de las palabras, no se produce a través de la audición. Pero se puede usar otro sentido: la vista Modelo para reconocimiento de voz por comparación de patrones

99 Periodo fundamental (Pitch) Formantes Coeficientes LPC Coeficientes Cepstrales en la Escala de Frecuencias Mel (Mel Frequency Cepstral Coefficient – MFCC) Parámetros característicos considerados en este trabajo Modelo para reconocimiento de voz por comparación de patrones

100 Coeficiente de correlación usado como criterio de evaluación Modelo para reconocimiento de voz por comparación de patrones

101 Consideraciones previas –Cantidad de sílabas –Consonantes con igual sonido –Base de datos Metodología planteada –Segmentación consonante/vocal de una sílaba –Comparación de vocales –Comparación de Consonantes Metodología a nivel de sílabas a nivel de fonemas Modelo para reconocimiento de voz por comparación de patrones

102 Segmentación consonante/vocal de una sílaba Modelo para reconocimiento de voz por comparación de patrones

103 Formantes Coeficientes LPC MFCC Coeficientes LPC MFCC Obtención de Parámetros Modelo para reconocimiento de voz por comparación de patrones

104 Implementación computacional: Interfaz gráfica Modelo para reconocimiento de voz por comparación de patrones

105 Se reproducen videos de una persona pronunciando la sílaba en entrenamiento. Características Multimediales Modelo para reconocimiento de voz por comparación de patrones

106 Modelo para el reconocimiento de patrones voz mediante el empleo de wavelets, predicción lineal y redes backpropagation San Juan, Jamett, Kaschel, Watkins, Sanchez, Leiva Uso de wavelets, predicción lineal y redes backpropagation para el reconocimiento de patrones de voz, Universidad de Santiago de Chile, (próximo a someterse a evaluación)

107 Desarrollo de un software de análisis de sílabas y de fonemas orientado al apoyo del aprendizaje del lenguaje hablado para personas con problemas auditivos. Mediante integración de los siguientes métodos aplicados para el reconocimiento de voz restringidos a sílabas y fonemas: -Transformada de Wavelet-Coeficientes LPC -Redes Neuronales Objetivo de la investigación Modelo para el reconocimiento de patrones de voz mediante el empleo de wavelets, predicción lineal y redes backpropagation

108 4350 ejemplos 870 ejemplos x vocal Ne=Neuronas entrada Nco=Neuronas Capa Oculta Ns=Neuronas Capa Salida 12 de 13 coeficientes LPC 950 Ejemplos 190 ej. x vocal Wavelet daubechies 6 de 3 niveles ++ + a3a3 d2d2 d1d1 S= LPC: La voz puede modelarse como una combinación de p muestras anteriores más una señal de error. Detalle d3: 2700 ejemplos 540 ejemplos por vocal 6 de 7 coeficientes LPC 650 Ejemplos 140 ej. x vocal. Red Neuronal + Wavelet +LPC Vocal a: d3d3 LPC

109 Modelo desarrollado Modelo para el reconocimiento de patrones de voz mediante el empleo de wavelets, predicción lineal y redes backpropagation

110 Red de sílabas ya/lla/te/pi/bu/vu RED1 Aciertos en total por cada sílaba en 36 muestras (ideal 100%) Promedio resultados 36 muestras x sílaba (ideal 1). yatepibuyatepibu ya ,570,370,130,08 64%25%8%6% te ,240,630,080,03 22%75%3%0% pi ,170,050,580,33 6%0%69%17% bu ,140,040,290,61 8%0%19%78% total36 -- Promedi o 72% de asertivo 0,60 (60% de similitud) Cantidad de ejemplos para las pruebas (20% ) Resultados de pruebas Modelo para el reconocimiento de patrones de voz mediante el empleo de wavelets, predicción lineal y redes backpropagation

111 Software de ayuda a discapacitados auditivos.

112 MUCHAS GRACIAS


Descargar ppt "Universidad de Santiago de Chile Facultad de Ingeniería Dr. Enrique Alberto San Juan Urrutia Ingeniero Civil en Telecomunicaciones Sistemas de Compresión."

Presentaciones similares


Anuncios Google