Desarrollo de un servidor de síntesis de habla dependiente del nivel de ruido ambiente Beatriz Barakat Melián.

Slides:



Advertisements
Presentaciones similares
Webinar Gestión del aula 1 a 1 con E-learning class.
Advertisements

Introducción Principios del Software E/S Principios del Hardware E/S
La señal de voz Asunción Moreno.
Audio y vídeo digital.
TRABAJO FIN DE CARRERA Generación de Máscaras Soft para Compensación de Características en Reconocimiento Robusto del Habla I v á n L ó p e z E s p.
Ing. Verónica M. Miró Comunicaciones Eléctricas 2007
Barra De Herramientas Andres Mutis..
Curso de Actualización Configuración Básica de Switch
OBJETIVO GENERAL Hacer una comparación del porcentaje de compresión del formato MP3 con el porcentaje de compresión de audio en diferentes formatos.
Presentada por: Ma. Fernanda Molina M. Luis Sánchez L.
PROYECTO FIN DE MÁSTER Estimación de Ruido Acústico Mediante Filtros de Partículas para Reconocimiento Robusto de Voz I v á n L ó p e z E s p e j o.
Intervención para la modificación de patrones de habla/lenguaje
Barra de herramientas Cristian Fernando Restrepo Orjuela.
Flash no fue desarrollado por Adobe, si no por FutureWave Software, su nombre original fue FutureSplash Animator, En diciembre de 1996 Macromedia adquiere.
 Multimedia: combinación de texto, sonido, imagen, animación o vídeo dentro de un mismo documento, con objeto de transmitir la información de un modo.
Grupo de investigación Applied Signal Processing Departamento de Teoría de la Señal y Comunicaciones Escuela Politécnica Superior Universidad de Alcalá.
Desarrollo de una voz sintética con emociones para un robot-guía
Amplificador Digital La nueva tendencia del audio digital Federico Cattivelli Matías Nogueira JEFI 04 Universidad ORT Uruguay 27 de Noviembre de 2004.
CONTROL REMOTO POR VOZ DEL ROBOT MÓVIL PIONEER P3-DX
PROBLEMÁTICA  El ruido en el procesamiento de señales es cualquier señal indeseada, que se introduce en los datos a través de cualquier sistema eléctrico.
“PARTITURA 3D: Un modelo de sonificación de imágenes”
Introducción a los Sistemas Operativos
SPA S ISTEMA DE P LANIFICACIÓN A CADÉMICA Erika Lara – Daniel Plúa FACULTAD DE INGENIERÍA EN ELECTRICIDAD Y COMPUTACIÓN Y COMPUTACIÓN TESIS DE GRADO 2006.
Administración de Servicios de Red 1 Escuela de Informática y Telecomunicaciones Suplementos: Shell scripts rpm RHA 030 Sistemas Operativos de Red.
Propagación del Sonido
CONTEXTO DEL TEXTO:(SITUACIÓN COMUNICATIVA
AUDIO DIGITAL.
EL SONIDO DIGITAL.
E DICIÓN DE S ONIDO F EB La edición de audio es el proceso mediante el cual se elabora un documento sonoro a partir de otro u otros documentos.
Control de desconexión de videostreaming móvil en arquitectura android mediante técnicas de realidad aumentada y motores de reglas con herramientas open.
Flash MX Trabajo con Sonidos. Frecuencias de Muestreo Todos los archivos de sonido para PC se graban digitalmente. Una grabacion digital recoge muestras.
Tecnología de Audio TRABAJO DE GRADO APLICADO Bogotá
Tarjetas de Sonido.
Administración de Sitios Web Introducción al Lenguaje PHP
SONIDO Carolina Rubio. S ONIDO D IGITAL D IGITALIZACIÓN DEL SONIDO Muestreo: muestras periódicas de la señal analógica Retención : se mantiene hasta.
INFORMATICA EDUCATIVA WENDY YAMILETH GONZALEZ PEREZ WENDY YAMILETH GONZALEZ PEREZ 02-F 02-F LICDA. JESSICA MARIBEL SERPAS SERPAS.
LA ESCRITURA.
SOFTWARE LIBRE, OPEN SOURCE E HISTORIA DE LINUX TOVAR LÓPEZ IAN GUSTAVO PROFESOR RENÉ DOMINGUEZ ESCALONA ADMINISTRA SISTEMAS OPERATIVOS GRUPO 503.
Introducción Principios de Programación Web Aplicaciones Web con JSP y Servlets de Java.
Administración del software base Archivos sin conexión (Ref. MCTS Examen )
Universidad Nacional Abierta y a Distancia TRABAJO DE GRADO TECNOLOGÍA DE AUDIO.
Es la forma en que se denomina a un extenso conjunto de herramientas que se diferencian de las aplicaciones tradicionales de Internet por estar enfocadas.
Sistemas informáticos. Trabajo en red
Automatización de un panel solar
VECTORES OPERACIONES CON VECTORES MATRICES.
SJ4R EAN: Siente la espectacularidad del Sonido como en la realidad
Seguridad de redes empresariales
SJ4 EAN: Siente la espectacularidad del Sonido como en la realidad
File Transfer Protocol (FTP)
Análisis de vibraciones
SISTEMAS OPERATIVOS MAS COMUNES
Red Digital De Servicios Integrados.
Comprensión de lectura
MANTIS BUG TRACKER.
Proyecto de Titulación:
Componentes Básicos del computador
INFORMATICA BASICA Alba Lucía Guerrero Peralta Fisioterapeuta/ U.N.
¿Cómo se generan las señales? La generación de la señal está asociada con un sistema que responde al estímulo.La generación de la señal está asociada con.
Edición de audio Digital PRINCIPIOS BÁSICOS.. Antes que nada, ¿Qué necesitamos para editar audio? 1.Una computadora. ( características) - Un buen procesador.
AUTOR: María Dolores Segovia Torres
Autor: Ing. Maritza Núñez Solís
Sistemas informáticos. Trabajo en red
ESTRUCTURA DE UN SISTEMA. INTRODUCCION OBJETIVOS Identificar la estructura de un sistema.
Acme Acme es un editor de texto y shell gráfico del sistema operativo Plan 9 from Bell Labs, diseñado e implementado por Rob Pike. Puede usar el lenguaje.
Introducción al procesamiento digital de señales Ing. José Arturo Marín Thames
PROGRAMACIÓN BÁSICA CONCEPTOS BÁSICOS Software. TEMAS:  Software y sus funciones  Tipos de Software  Software de Sistemas  Software de Aplicación.
Hilos de Procesamiento. Hilos Concepto Beneficios Hilos a nivel kérnel y a nivel usuario Modelos multihilos Hilos de Solaris 2 Hilos de Java.
 Se accedía directamente a la consola donde se actuaba sobre una serie de micro interruptores.  No existían los programadores ni los sistemas operativos.
Transcripción de la presentación:

Desarrollo de un servidor de síntesis de habla dependiente del nivel de ruido ambiente Beatriz Barakat Melián

Índice Introducción y objetivos Paralelización de frases Paralelización de reproducción Conclusiones y líneas futuras

Introducción Servidor SOAP Reconocedor de voz Modelo 5 dB Modelo 10 dB Modelo 15 dB Modelo 25 dB Sistema de síntesis en entornos ruidosos Proyecto NAVEGABLE

Modelo de producción de la voz Frecuencia fundamental Aperiodicidad Mel cepstrum Generador de Excitación periódica (componente sonora) Generador de Excitación periódica (componente sonora) Generador de Ruido (componente sorda) Generador de Ruido (componente sorda) Filtro Cepstrum Filtro Cepstrum Voz sintética

Objetivos y herramientas fraseTts.binetiqueta HTSsíntesis Reproducción Sistema base Objetivos: – Paralelización de frases en un párrafo – Paralelización del proceso de generación y reproducción Lenguajes: – Comandos UNIX: Bash y csh – C/C++ “.h” “.cpp” “makefile”

Paralelización de frases

TTS_frase.sh Synthesis_top SynthesisCompilada1SynthesisCompilada2 FraseX.wav Reproducción de audio f0.txt mcep apf FraseX.wav Reproducción de audio Sintetiza( SNR, Texto) TTS_frase.sh Synthesis_straight2012.sh TTS_top2.sh f0.txt apf mcep TTS_top1.sh TTS_top.sh Sintetiza( SNR, Texto)

Synthesis_fft Más optimizado Generación de archivos de audio para depuración Reproducción paralela de audio

Reproducción de audio en Linux ALSA: “Advanced Linux Sound Architecture” Permite acceder al dispositivo de audio Uso: – Inicialización Abrir interfaz de audio Configurar parámetros (16 bits con signo, 48 kHz) – Reproducción (escritura en buffer) – Cierre de la interfaz

Paralelización de la reproducción: Uso de hebras POSIX Hebra principal -Operaciones intermedias -Inicialización de hebra de reproducción -Operaciones intermedias -Suficiente información generada para reproducir -Continúa generando información -Operaciones intermedias -Bloqueado mientras hebra de reproducción esté reproduciendo (playing=1) -Operaciones intermedias -Finaliza hebra principal Hebra principal -Operaciones intermedias -Inicialización de hebra de reproducción -Operaciones intermedias -Suficiente información generada para reproducir -Continúa generando información -Operaciones intermedias -Bloqueado mientras hebra de reproducción esté reproduciendo (playing=1) -Operaciones intermedias -Finaliza hebra principal Hebra de reproducción -Bloqueado hasta que hebra principal permite desbloqueo (block=1) -Reproduce información generada desde el principio -Reproduciendo -Termina reproducción -Finaliza hebra de reproducción Hebra de reproducción -Bloqueado hasta que hebra principal permite desbloqueo (block=1) -Reproduce información generada desde el principio -Reproduciendo -Termina reproducción -Finaliza hebra de reproducción desbloqueo Tiempo Fin reproducción Block=0 Playing=0 “detachable”

Uso de hebras POSIX … … … … Vector “sy” de generación Vector “s” de reproducción Copia 48 muestras Buffer de interfaz de audio Envía 500 muestras a reproducir Interfaz de audio Nidx=12.000Last=1 Copia 500 muestras = 10,46 tramas Block=0 Playing=0 0,25 s 0,01 s

Solución Interfaz de audio Hebra frase 1Hebra frase 2Hebra frase 3 … ¿Problema? Archivos de sincronización

Sincronización de hebras Pid_1.cfg Pid_2.cfg Pid_3.cfg … Sintetiza Generación de datos Reproducción de frase Elimina pid_1.cfg Frase_1 Frase_2 Generación de datos Reproducción de frase Elimina pid_2.cfg Frase_3 Generación de datos Rep. TTS_top.sh

Conclusiones y líneas futuras Conclusiones: – Conseguido paralelización de reproducción de audio y síntesis – Paralelización de síntesis de frases de un párrafo – Reducción del tiempo de síntesis y comienzo de reproducción Líneas futuras: – Combinación de bucles en “straight_synth_tb06.cpp” – Reducción de la frecuencia de muestreo – Combinación de ejecutables en “TTS_frase.sh” Antiguo_total (s)Antiguo_comienza (s)Nuevo_total (s)Nuevo_comienza (s) 7,065,524,022,56 6,935,344,082,48 7,105,544,112,58 7,245,674,032,46 6,935,214,132,55 Reducción_total (%)Reducción_comienzo (%) 43,153,6 41,153,6 42,153,4 44,356,6 40,451,1 “Hola, esto es una prueba” Modelo de 25 dB