AUTOR: María Dolores Segovia Torres

Slides:



Advertisements
Presentaciones similares
La señal de voz Asunción Moreno.
Advertisements

DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:
Autor: Nuria Pérez Magariños Tutor: Juan Manuel Montero Martínez
DESARROLLO DE UN SEGMENTADOR FONÉTICO AUTOMÁTICO PARA HABLA EXPRESIVA BASADO EN MODELOS OCULTOS DE MARKOV Proyecto Fin de Carrera Autor: Juan Carmona.
Base de datos para síntesis de dominio restringido Proyecto Natural Vox: Mejora de calidad de síntesis de voz femenina.
Desarrollo de una voz sintética con emociones para un robot-guía
Codificación bidimensional de patrones vocales mediante un esquema de reducción dimensional basado en redes neuronales Alejandro Bassi A. Universidad de.
Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote
Dpto. Señales, Sistemas y Radiocomunicaciones
LAS EMOCIONES EN EL AULA. NUESTRO CUERPO FÍSICO.
CAUSALIDAD Y VALIDEZ EN LOS ESTUDIOS EPIDEMIOLÓGICOS.
Desarrollo de un sistema de aprendizaje automático para la síntesis de textos con voces emocionales Autor: Borja Escanilla Rodríguez Tutor: Roberto Barra.
COMUNICACION VERBAL Y NO VERBAL Habilidades de Comunicacion.
1 C OMPUTACIÓN A VANZADA PARA M ÚSICA POR O RDENADOR POLYPHONIC INSTRUMENT RECOGNITION USING SPECTRAL CLUSTERING 1 ISMIR 2007.
Desarrollo de un servidor de síntesis de habla dependiente del nivel de ruido ambiente Beatriz Barakat Melián.
DETERMINACION E INTERPRETACION DE LAS MEDIDAS DE TENDENCIA CENTRAL POBLACIONAL Y MUESTRAL. POR: JUDITH MARITZA JUAN CARLOS ANA MARTIN AXEL GILBERTO FÁTIMA.
Alan Guillermo Zamora Téllez
Entonación en español Actividad 1
EL SONIDO Desde un punto de vista físico, el sonido es una vibración que se propaga en un medio elástico (sólido, líquido o gaseoso) , generalmente el.
Estudio acústico y perceptivo de la variación inter e intralocutor en español (VILE)
Desarrollo de un sistema para la recepción de la señal transpondedor y para la presentación y transmisión de datos radar Trabajo de Fin de Grado Autor:
Entonación en español EJERCICIO DE PERCEPCIÓN AUDITIVA
COMUNICACIÓN HUMANA EN DISTINTOS CONTEXTOS
VILE: Estudio acústico de la variación inter e intralocutor en español
VILE: Estudio acústico de la variación inter e intralocutor en español
Ingeniería Financiera
REFORZAMIENTO EN LENGUAJE Y COMUNICACIÓN
PROYECTO FINAL DE CARRERA Ingeniería Aeronáutica DESARROLLO DE OPTIMIZADOR DE FORMA 2D BASADO EN CÓDIGO DE ELEMENTOS FINITOS CON MALLADOS CARTESIANOS.
VOZ Y ELEMENTOS PROSODICOS DEL HABLA
7ª Jornada sobre la Biblioteca Digital Universitaria JBDU2009 "La  biblioteca universitaria en la web" 5 y 6 de noviembre de 2009 Biblioteca Central de.
5. Análisis y diseño de sistemas secuenciales (I)
VILE: Estudio acústico de la variación inter e intralocutor en español
Unidad 1 – Ruido y Ambiente Sesión 2
BASES DE DATOS.
Filtros FIR e IIR EQUIPO. Un filtro es un sistema o una red que cambia selectivamente la forma de onda, o las características amplitud-frecuencia o fase-
VILE: Estudio acústico de la variación inter e intralocutor en español
PLANTILLA Guion o Storyboard
CONTROL POR EVENTOS PARA LA ESTABILIZACIÓN DEL PÉNDULO LINEAL
RESONANCIA MAGNÉTICA FUNCIONAL
PLANTILLA Guion o Storyboard
CAPÍTULO 4: OPERACIONES DE PIXEL
CAPÍTULO 7: DETECCIÓN DE BORDES
Fonética acústica Nociones fundamentales.
Análisis Fundamental Análisis Técnico
SISTEMA DE GESTION DE CALIDAD ISO 9001:2015
SystemStar & Costar Presentado por: Andres Clavijo, Camilo Forero, Jhon Chacón y Brayan Valero.
Serrano, MA*, Díez-Minguito, M, Ortega-Sánchez, M, and Losada, MA
Ingeniería del Software
DISEÑO UNIVERSAL PARA EL APRENDIZAJE Un diseño para todos
INTRODUCCION A LA NORMA INTERNACIONAL ISO 9001:2015 ISO 9001:2015.
ESTUDIO ORGANIZACIONAL. Representa un detalle de la empresa propietaria del proyecto que se pretende desarrollar, realizando un a análisis de actores.
GADP EL ORO 2015 ESTUDIO DE VULNERABILIDAD Y DESARROLLO DEL SISTEMA DE INFORMACIÓN ON-LINE SOBRE VULNERABILIDAD FRENTE AL CAMBIO CLIMÁTICO DE LA PROVINCIA.
Neuroplasticidad. María Elena Leal Gallardo.. ¿Que es la nueroplasticidad? “ Capacidad que tiene el cerebro para formar nuevas conexiones nerviosas, a.
Conciencia Fonológica y Aprendizaje de la Lectura Tulia Ocampo Gavira.
UNIVERSIDAD DE LAS FUERZAS ARMADAS-ESPE
UNIVERSIDAD DE LOS ANDES CENTRO DE INVESTIGACIONES PSICOLÓGICAS
Sistemas de Evaluación del Desempeño Jurisdiccional
MEDIDA DEL NIVEL DE AGUA
Universidad politécnica de Madrid
ANÁLISIS DE CASOS EN OPCIÓN AL TÍTULO DE PSICÓLOGA
ANALISIS DE INFORMACIÓN
“DE LA ACADEMIA AL CIUDADANO”.
5.Análisis y diseño desistemas secuenciales (III) Fundamentos de los Computadores Grado en Ingeniería Informática.
Tamaño de muestra.
Introducción al procesamiento digital de señales Ing. José Arturo Marín Thames
UNIVERSIDAD DE GUAYAQUIL FACULTAD DE CIENCIAS PSICOLÓGICAS SISTEMATIZACION DE EXPERIENCIAS PROCESO DE EVALUACION DEL ESTILO DE AFRONTAMIENTO EN ADOLESCENTES.
Metodología de la Investigación Grupo # 8: González, Chelsea Pereira, Mónica.
SISTEMA FINANCIERO. Es cierto que la contabilidad refleja la realidad económica y financiera de la empresa, por ello es necesario interpretar y analizar.
Propagación de energía a través de un medio que puede ser liquido, solidos o gas. Cuando una onda se propaga, no transporta materia, sino energía.
SISTEMA DE COSTEO BASADO EN ACTIVIDADES ABC Cr.Eduardo Lezama.
Transcripción de la presentación:

Desarrollo de un conversor de texto-voz multiemoción en castellano por concatenación de difonemas AUTOR: María Dolores Segovia Torres TUTOR: Juan Manuel Montero Martínez

PFC- Mª Dolores Segovia Índice Introducción Segmentación y marcado de las bases de datos Proceso de creación de las nuevas bases de datos Adaptación del nuevo modelo de prosodia Nuevo lenguaje de etiquetas Conclusiones y líneas futuras de investigación 11/14/2018 PFC- Mª Dolores Segovia

PFC- Mª Dolores Segovia INTRODUCCIÓN: Sintetizador de partida: Boris: versión multi-hilo de un sintetizador: Por concatenación de difonemas. Adaptado a una base de datos de habla masculina. Estado neutro. Lenguaje sencillo de etiquetas globales: Velocidad de habla Tono medio. 11/14/2018 PFC- Mª Dolores Segovia

PFC- Mª Dolores Segovia Objetivos: Primera versión de un sintetizador: Cuatro emociones: Alegría, Tristeza, Sorpresa, Enfado Nuevas etiquetas de control. Obtención de diferentes bases de datos para el nuevo escenario: Partiendo de grabaciones de habla femenina. Adaptación del modelo prosódico a las distintas emociones. 11/14/2018 PFC- Mª Dolores Segovia

PFC- Mª Dolores Segovia Concepto de emoción: Emoción: Estado complejo del organismo originado en respuesta a la información recibida del entorno. Disponen a la acción. Proceso desencadenante: Percepción de algún cambio en las condiciones internas o externas. Evaluación y valoración del cambio para producir una tendencia hacia la acción o hacia el afrontamiento. Función de las emociones: Función adaptativa Función social Función motivacional 11/14/2018 PFC- Mª Dolores Segovia

PFC- Mª Dolores Segovia Concepto de emoción: Estudio dimensional de las emociones: Modelo de Russell Todas las emociones pueden ser ubicadas en el interior de un círculo definido en un espacio bidimensional. Dimensión Valencia Afectiva (Evaluación) Positivas Alegría Negativas Enfado Dimensión Actividad (Nivel de excitación) Activas Sorpresa Pasivas Tristeza 11/14/2018 PFC- Mª Dolores Segovia

Segmentación y marcado de las bases de datos: Marcación automática de F0 Se basa en la señal del EGG (electroglotógrafo) Proceso de marcación de F0: Obtención de la señal del EGG. Filtrado de la señal del EGG (50 - 800 Hz, en función de la emoción). Cálculo de la derivada de la señal de EGG (DEGG). Detección de máximos en la señal. Marcación de F0: Entre el 70% y el 90% del valor máximo de la señal del EGG. 11/14/2018 PFC- Mª Dolores Segovia

Segmentación y marcado de las bases de datos: Revisión manual de F0 (I) Conclusiones de revisión manual con Praat: Los problemas detectados dependen: Tipo de fonema Fricativos, vibrantes y oclusivos. Emoción analizada. Tristeza  fonemas ensordecidos. 11/14/2018 PFC- Mª Dolores Segovia

Segmentación y marcado de las bases de datos: Revisión manual de F0 (II) Conclusiones de revisión manual con Praat: Colocación incorrecta de marcas al inicio y al final de un logatomo. Pequeñas desviaciones o derivas del marcado automático. Criterios de marcación diferentes o pérdida de sincronización en fonemas sonoros consecutivos. 11/14/2018 PFC- Mª Dolores Segovia

Segmentación y marcado de las bases de datos: Segmentación fonética automática Se basa en el alineamiento forzado entre el habla y los HMMs. Se han considerado 50 alófonos independientes del contexto. Problemas detectados en revisión manual: Fonemas de duración 0 segundos. Etiquetas de nombre “sp”. 11/14/2018 PFC- Mª Dolores Segovia

Segmentación y marcado de las bases de datos: Revisión manual de segmentación (I) Conclusiones de revisión manual con Praat: Errores de segmentación dependen de: Emoción analizada Contexto y grupo fónico al que pertenece cada unidad. 11/14/2018 PFC- Mª Dolores Segovia

Segmentación y marcado de las bases de datos: Revisión manual de segmentación (II) Conclusiones generales de revisión manual con Praat: Poca precisión en la localización de las fronteras fonéticas. Fonema final del logatomo muy largo. Fonema inicial muy largo  Sonoridad inicio logatomo. 11/14/2018 PFC- Mª Dolores Segovia

Proceso de obtención de bases de datos: Grabaciones de logatomos Marcas F0 y etiquetas Listas de grabaciones y transcripciones GeneraParPcm.exe ObtenTxt.pl Muestras de logatomos Marcas de logatomos Ficheros de transcripciones SacadifVC.exe Muestras y marcas de difonemas ObtenListaDif.exe Muestras y marcas de los difonemas de interés Gendb.exe minidb.dfm 11/14/2018 PFC- Mª Dolores Segovia

Estructura del sintetizador: Bloque de procesado de texto Análisis de texto  Nuevo lenguaje de etiquetas Generación de bloques de palabra Generación de bloques de fonema Asignación de tono y duraciones  Nuevo módulo de prosodia Sintetizador por concatenación Síntesis TD-PSOLA  Nuevas bases de datos y normalización Bloque de procesado de salida Generación de archivo de audio 11/14/2018 PFC- Mª Dolores Segovia

Estructura del sintetizador: Asignación de tono y duraciones El tono y la duración final de los fonemas a sintetizar se obtienen de: Módulo existente basado en Redes Neuronales. Módulo heredado de sintetizador por formantes de Klatt basado en: Modelos paramétricos. Ficheros de inicialización. Para generación de F0 Modelos de picos y valles Para modificación de duraciones Modelo multiplicativo 11/14/2018 PFC- Mª Dolores Segovia

Obtención de valores prosódicos de los ficheros de inicialización: Tristeza Reducción del valor medio de F0 150 Hz  110 Hz Disminución de la velocidad de locución 185 sil/min  170 sil/min Alargamiento de pausas Alegría Aumento del valor medio de F0 150 Hz  200 Hz Aumento del rango de variación de F0 Subida de F0 en el último pico Aumento de la velocidad de locución 185 sil/min  195 sil/min 11/14/2018 PFC- Mª Dolores Segovia

Obtención de valores prosódicos de los ficheros de inicialización: Sorpresa Aumento en el valor medio de F0 150 Hz  200 Hz Aumento del rango de variación de F0 Pendiente de F0 ascendente Progresión hacia una emoción positiva Alargamiento de sílabas tónicas, palabra final y último fonema Enfado Reducción en la duración de los fonemas finales Aumento del nivel de amplitud Nivel de actividad medio pero con énfasis final 11/14/2018 PFC- Mª Dolores Segovia

Nuevo lenguaje de etiquetas anidables: Etiquetas de ámbito global Modificación de etiqueta de variación de tono: Etiqueta de modificación de tono por factor aditivo Etiqueta de modificación de tono por factor multiplicativo Introducción de pausas en la frase sintetizada: Etiqueta [b:x] x=Décimas de segundo Introducción de emociones en el habla Etiqueta de emociones [e:x] Tristeza, Normal, Alegría, Sorpresa, Enfado Etiqueta de grados emocionales [n:x] 11/14/2018 PFC- Mª Dolores Segovia

Nuevo lenguaje de etiquetas anidables: Etiquetas de ámbito local Variación del tono de habla: Factor aditivo Etiqueta [p:x] x=[0-200] “Puedo decir [p:195] palabras con mayor frecuencia [p:0] que otras palabras.” Factor multiplicativo Etiqueta [w:x] x=[55-200] “Ahora voy a [w:150] aumentar el tono de mi voz [w:0] y ahora voy a [w:20] reducirlo [w:0].” Variación de la velocidad de habla: Etiqueta [u:x] x=[50-250] “Lo voy a decir [u:80] muy despacio [u:0] para que me entiendas.” 11/14/2018 PFC- Mª Dolores Segovia

PFC- Mª Dolores Segovia Ejemplos: Estado Neutro “Les presento [e:2] a [n:100] mi nueva voz neutra.” Emoción Alegría “Me siento muy [e:3] feliz [n:100] con mi voz alegre.” Emoción Tristeza “Te voy [e:1] [n:100] a echar mucho de menos.” Emoción Sorpresa “Qué [e:4] proyecto más [n:100] interesante.” Emoción Enfado “No me hables porque estoy [e:5] [n:100] muy enfadada.” 11/14/2018 PFC- Mª Dolores Segovia

PFC- Mª Dolores Segovia Conclusiones: A partir de grabaciones de habla femenina, se han generado cinco bases de datos de difonemas diferentes. Se ha creado una guía de marcado usando el programa de análisis de habla Praat. Adaptación de programas del proceso de generación de base de datos de difonemas. Se ha generado una primera versión de un sintetizador multiemoción, por concatenación de difonemas utilizando: Bases de datos de difonemas generadas. Combinación del módulo de generación prosódica existente (basado en redes neuronales), con el del sintetizador por formantes (basado en ficheros de inicialización). Introducción de nuevas etiquetas para dotar al sintetizador de una mayor flexibilidad a la hora de la síntesis. 11/14/2018 PFC- Mª Dolores Segovia

Líneas futuras de investigación: Generación de nuevas bases de datos con mayor número de difonemas. Mejora en la implementación de la emoción enfado: Modificación de la intensidad del habla de los difonemas utilizados para la síntesis. Mejora en la caracterización de la emoción tristeza: Incorporación del jitter en el interpolado de la entonación (extraído del sintetizador por formantes Robint). Introducción en el sistema de las emociones asco y miedo. 11/14/2018 PFC- Mª Dolores Segovia

PFC- Mª Dolores Segovia ¿Preguntas? 11/14/2018 PFC- Mª Dolores Segovia