DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor:

Slides:



Advertisements
Presentaciones similares
PRIMERA SECCION TEMA: BALANCE DE LA POLITICA PUBLICA PARA LA ATENCION INTEGRAL AL DESPLAZAMIENTO FORZADO EN COLOMBIA ENERO 2004 – ABRIL 2007 PARTE I ANALI8SIS.
Advertisements

Conocimiento, Uso y Evaluación de Medicamentos Genéricos
SATISFACCIÓN DE CLIENTES Comparativa Convocatorias Finalizadas en 2011.
Noviembre 2007Estudio Rostros de Noticias 2007Collect-GfKWikén Estudio Rostros de Noticias de la TV Chilena Desarrollados para Revista Wikén El Mercurio.
COMPARATIVA CONVOCATORIAS FINALIZADAS EN Bilbao, Satisfacción de Clientes OBJETO Y ALCANCE Convocatorias finalizadas en 2012.
RELACIÓN POSTULADOS POR SEXO
Comisión Mixta Junio Ejercicio crediticio Al 25 de Junio de 2006 Crédito 103% POA incluyendo la parte proporcional de la bolsa reservada para crédito.
1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO de Junio de 2005.
TEMA 5.- 1ª PARTE. EL A.O. Y SUS APLICACIONES
TEMA 2 MÚLTIPLOS Y DIVISORES
01- OFERTA FORMATIVA v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
Aladdín-respuestas 1.Vivía 2.Era 3.Amaba 4.Quería 5.Gustaban 6.Se sentía 7.Salía 8.Tenía 9.Decidió 10.escapó 11. Se vistió 12. Conoció 13. Vio 14. Pensó
SIMULACIÓN DE MONTECARLO
Modas Página Internet: Correo Electrónico:
MuestraMétodo a prueba Nominal Ejercicio 1. ¿Es exacto el método?
IMAGEN Y OPINIÓN DE GRANADA La ciudad, los ciudadanos, las instituciones y las empresas IMAGEN Y OPINIÓN DE GRANADA La ciudad, los ciudadanos, las instituciones.
MEDIDAS DE TENDENCIA CENTRAL
Unidad de competencia II Estadística descriptiva:
Perfiles y necesidades formativas de las y los técnicos socioculturales de Navarra Conclusiones 23 mayo 2008.
Estructura Económica de México (parte 2)
Estructura Económica de México Prof. Abelardo Mariña Flores trimestre 2010-P.
Áreas del conocimiento para la AP III Gestión de la Planificación de los Riesgos del Proyecto Basado en los estándares del PMI® Ing. Fausto Fernández.
William Shakespeare ( greg.), fue un dramaturgo, poeta y actor inglés. Conocido en ocasiones como el Bardo de Avon (o.
DEPARTAMENTO ADMINISTRATIVO NACIONAL DE ESTADISTICA5 Libertad y Orden DEPARTAMENTO ADMINISTRATIVO NACIONAL DE ESTADISTICA CENSO GENERAL 2005 REPÚBLICA.
Imagen N° 54: Vista panorámica y de ubicación de la Calicata CB-27
Grupo de Sequía del Servicio Meteorológico Nacional
PRINCIPALES RESULTADOS INFANCIA Y ADOLESCENCIA. Población de Niños, Niñas y Adolescentes, año 2003 (Población menor de 18 años sobre la población total)
1 Avance manual A. G. Montero ¿Qué es la masonería? La francmasonería o masonería se define a sí misma como una institución discreta de carácter.
PREVENCION DE RIESGOS PROFESIONALES EN CHILE
PRUEBA DE APTITUD ACADÉMICA RAZONAMIENTO MATEMÁTICO
TELEFONÍA IP.
Evolución Tasas de Interés Promedio del Sistema Financiero *
Vocabulario querer comerlo -paja por supuesto - madera
CFX-SLIM Aplicación comercial: Canal tradicional / Canal moderno
de Joaquín Díaz Garcés (Angel Pino)
FUNCIONES DE UNA VARIABLE REAL
MUESTRARIO 2 Del Diseño 62- al diseño 97. Muestrario 2 Diseño 62Diseño 63.
U N I V E R S I D A D C A T O L I C A D E C O R D O B A I N V E S T I G A C I O N D E P E R C E P C I O N D E L A C A L I D A D E D U C A T I V A C O N.
Indicadores CNEP Escuela
¡Primero mira fijo a la bruja!
Dpto. Señales, Sistemas y Radiocomunicaciones
Autor: Nuria Pérez Magariños Tutor: Juan Manuel Montero Martínez
DESARROLLO DE UN SEGMENTADOR FONÉTICO AUTOMÁTICO PARA HABLA EXPRESIVA BASADO EN MODELOS OCULTOS DE MARKOV Proyecto Fin de Carrera Autor: Juan Carmona.
Alumnos de 2ºD Presentación: Fran Blanco y Elisa Rodríguez.
RELEVAMIENTO (especies mayores) PASEO GRAL. LAVALLE (entre Av. del Libertador y 25 de Mayo) Alejandro Amoruso Alfredo Jorge Etchevarne Parravicini.
N.Perez, J.M Perez, A. Caballero
MINIMO COMÚN MÚLTIPLO DE DOS NÚMEROS a y b
1. Datos prensa. Fuente: ACEM
Un ejemplo de agrupación de datos Problema 1 del capítulo 2 del libro de texto.
Avalúo y mejoramiento continuo en un curso medular (Econ
By: Nicholas, Rayna, Nathaniel, Calvin
Los números. Del 0 al 100.
1. 3 ATENCIÓN ELOGIO EXTINCIÓN ¿POR QUÉ SE MANTIENE LA CONDUCTA? Análisis de: 9.
Vocabulario: (Los números)
Vocabulario: Para Empezar (Numbers & Colors)
uno cero dos seis siete nueve Los Números DIEZ cinco ocho tres
Los Numeros.
1 Estudio de Caso sobre la Interacción de los Alumnos en un Curso "en Línea" Usando Aprendizaje Basado en Problemas Jaime Ricardo Valenzuela González ITESM.
CONSULTORIO PSICOLÓGICO
Vocabulario lonchera perseguir valiente simpático/a menear miedo
Diagrama CAUSA_EFECTO ó ISHIKAWA ó ESPINA DE PESCADO
1 8 de febrero del Chapter 5 Encoding 3 Figure 5-1 Different Conversion Schemes.
Norma de Información Financiera A-5
Colabora 19/11/2009 Informe 2009 II Edición de los Indicadores de la Actividad de la Justicia Colabora.

Herramienta FRAX Expositor: Boris Inturias.
Desarrollo de una voz sintética con emociones para un robot-guía
Autora: Carmen Rincón Llorente Tutor: Roberto Barra Chicote
Dpto. Señales, Sistemas y Radiocomunicaciones
AUTOR: María Dolores Segovia Torres
Transcripción de la presentación:

DESARROLLO DE UN CONVERSOR TEXTO-VOZ CON EMOCIONES Y APLICACIÓN A LA INTERACCIÓN HABLADA EN ENTORNOS INTELIGENTES Autor: Rosario Alcázar Prior Tutor: Juan Manuel Montero Martínez

INTRODUCCIÓN Proyecto ROBINT: Proyecto ROBINT: Humanizar al robot Humanizar al robot Facilitar la comunicación con los Facilitar la comunicación con los visitantes del museo visitantes del museo Objetivo en el Módulo T2S: Objetivo en el Módulo T2S: Síntesis de habla con emociones Objetivos del proyecto: Objetivos del proyecto: Mejor implementación de ALEGRÍA y TRISTEZA Mejor implementación de ALEGRÍA y TRISTEZA Implementación de la emoción SORPRESA Implementación de la emoción SORPRESA Implementación de la emoción ENFADO Implementación de la emoción ENFADO

DEFINICIÓN DE EMOCIÓN Emoción: Emoción: Estado complejo del organismo Estado complejo del organismo Respuesta a eventos que se reciben del entorno Respuesta a eventos que se reciben del entorno Percepción de cambio Evaluación Percepción de cambio Evaluación Predispone a dar una respuesta organizada. Predispone a dar una respuesta organizada. ¿Para qué sirven las emociones? ¿Para qué sirven las emociones? Función adaptativa: Función adaptativa: Miedo, asco Miedo, asco Función social: Función social: Tristeza, enfado Tristeza, enfado

CLASIFICACIÓN DE LAS EMOCIONES (I) Modelo de Russell Modelo de Russell Cada emoción se sitúa en el interior de un círculo definido en un espacio bidimensional Cada emoción se sitúa en el interior de un círculo definido en un espacio bidimensional Dimensión Valencia: evaluación Dimensión Valencia: evaluación Negativas Negativas Enfado Enfado Positivas Positivas Alegría Alegría Dimensión Activación: nivel de excitación Dimensión Activación: nivel de excitación Pasivas Pasivas Tristeza Tristeza Activas Activas Sorpresa Sorpresa

CLASIFICACIÓN DE LAS EMOCIONES (II) VALENCIA ACTIVIDAD PositivoNegativo Pasivo Activo ALEGRÍA Euforia SORPRESA Asombro ENFADO EN CALIENTE ENFADO EN FRÍO NEUTRO TRISTEZA Depresión

BASE DE DATOS (S.E.S.) Grabaciones de un actor simulando estado neutro y: Grabaciones de un actor simulando estado neutro y: TRISTEZA: más prosódica que segmental TRISTEZA: más prosódica que segmental ALEGRÍA: tan segmental como prosódica ALEGRÍA: tan segmental como prosódica SORPRESA: prosódica SORPRESA: prosódica ENFADO: segmental ENFADO: segmental Para cada emoción Para cada emoción 3 sesiones de 15 frases Patrones más identificables 3 sesiones de 15 frases Patrones más identificables 3 sesiones de 4 párrafos 3 sesiones de 4 párrafos Contenido semántico y sintáctico neutro Contenido semántico y sintáctico neutro Etiquetada manualmente Etiquetada manualmente Ficheros.par que contienen la prosodia Ficheros.par que contienen la prosodia

ESTRUCTURA DEL CONVERSOR TEXTO Análisis de texto Análisis de texto Procesado de etiquetas Procesado de etiquetas Conversión de texto a fonemasConversión de texto a fonemas Generación de prosodia Generación de prosodia FONEMAS PROSODIA Sintetizadorde Klatt Klatt VOZ PROCESADO DE TEXTO SÍNTESIS DE VOZ

SINTETIZADOR DE KLATT

ESTUDIO DE LA FUENTE GLOTAL OBJETIVO: efectos segmentales enfado OBJETIVO: efectos segmentales enfado Señal a la salida de la fuente glotal: Señal a la salida de la fuente glotal: ¼ del periodo glotal: ¼ del periodo glotal: ¾ del periodo glotal: ¾ del periodo glotal: Filtro paso banda Filtro paso banda Suma de ruido síncrono en pitch Suma de ruido síncrono en pitch

VARIACIONES EN EL BW (I) OBJETIVO: Aumentar el BW para ALEGRÍA OBJETIVO: Aumentar el BW para ALEGRÍA Incrementar la frecuencia de muestreo: 10 kHz 16 kHz Incrementar la frecuencia de muestreo: 10 kHz 16 kHz Paradójica disminución del BW efectivo Paradójica disminución del BW efectivo Formante de 4,5 KHz pierde ganancia al pasar a 16 KHz Formante de 4,5 KHz pierde ganancia al pasar a 16 KHz Filtros adicionales en la rama serie Filtros adicionales en la rama serie Apenas percibidos Apenas percibidos Misma causa Misma causa

VARIACIONES EN EL BW (II) Diseño de filtros para el caso de f muestreo Hz Diseño de filtros para el caso de f muestreo Hz Filtros en paralelo a la rama serie Filtros en paralelo a la rama serie Filtros de 2º orden de ganancia constante Filtros de 2º orden de ganancia constante

TRISTEZA (I) VALENCIA ACTIVIDAD PositivoNegativo Pasivo Activo ALEGRÍA SORPRESA ENFADO EN FRÍO NEUTRO TRISTEZA

TRISTEZA (II) TRISTEZA (II) Modelo utilizado por el actor Modelo utilizado por el actor Tono bajo y homogéneo Tono bajo y homogéneo Monotonía: poca varianza Monotonía: poca varianza Baja intensidad de la voz Baja intensidad de la voz Disminución progresiva Disminución progresiva Ralentización de la velocidad de locución Ralentización de la velocidad de locución Aumento del número y duración de las pausas Aumento del número y duración de las pausas Introducción de suspiros Introducción de suspiros

Contraste con el estado neutro PROSODIA PROSODIA Reducción del valor medio de F0 Reducción del valor medio de F0 120 Hz 100 Hz 120 Hz 100 Hz Disminución de la velocidad de locución Disminución de la velocidad de locución 156 sil/min 135 sil/min 156 sil/min 135 sil/min Alargamiento de pausas Alargamiento de pausas SEGMENTAL SEGMENTAL Reducción del BW efectivo Reducción del BW efectivo 6500 Hz 4500 Hz 6500 Hz 4500 Hz Introducción de jitter en F0 a nivel de fonema Introducción de jitter en F0 a nivel de fonema Simula voz temblorosa Simula voz temblorosa TRISTEZA (III)

ALEGRÍA (I) VALENCIA ACTIVIDAD PositivoNegativo Pasivo Activo ALEGRÍA SORPRESA ENFADO EN FRÍO NEUTRO TRISTEZA

ALEGRÍA (II) ALEGRÍA (II) Modelo utilizado por el actor Modelo utilizado por el actor Gran variedad de patrones entonativos Gran variedad de patrones entonativos Aumento del valor del tono medio Aumento del valor del tono medio Aumento del rango de F0 Aumento del rango de F0 Aumento de la velocidad de locución Aumento de la velocidad de locución Disminución en la duración de las pausas Disminución en la duración de las pausas Voz sonriente Voz sonriente Más rica en altas frecuencias Más rica en altas frecuencias

ALEGRÍA (III) Contraste con el estado neutro PROSODIA PROSODIA Aumento del valor medio de F0 Aumento del valor medio de F0 120 Hz 190 Hz 120 Hz 190 Hz Aumento del rango de variación de F0 Aumento del rango de variación de F0 20 Hz 60 Hz 20 Hz 60 Hz Subida de F0 en el último pico Subida de F0 en el último pico Elección del patrón más identificable Elección del patrón más identificable Aumento de la velocidad de locución Aumento de la velocidad de locución 156 sil/min 165 sil/min 156 sil/min 165 sil/min SEGMENTAL SEGMENTAL Aumento del BW efectivo Aumento del BW efectivo 6500 Hz 8000 Hz 6500 Hz 8000 Hz Mayor diferenciación con la sorpresa Mayor diferenciación con la sorpresa

SORPRESA (I) VALENCIA ACTIVIDAD PositivoNegativo Pasivo Activo ALEGRÍA SORPRESA ENFADO EN FRÍO NEUTRO TRISTEZA

SORPRESA (II) SORPRESA (II) Emoción transitoria Emoción transitoria Fase inicial de evaluación Fase inicial de evaluación Gritos, retrocesos, movimientos bruscos,… Gritos, retrocesos, movimientos bruscos,… Fase de confirmación Fase de confirmación Progresiva evolución hacia otra emoción Progresiva evolución hacia otra emoción Modelo vocal utilizado por el actor Modelo vocal utilizado por el actor Aumento del valor medio de F0 Aumento del valor medio de F0 Aumento del rango de F0 Aumento del rango de F0 Tendencia ascendente a lo largo del grupo fónico Tendencia ascendente a lo largo del grupo fónico Alargamiento de las sílabas tónicas Alargamiento de las sílabas tónicas Alargamiento de la última palabra Alargamiento de la última palabra

SORPRESA (III) SORPRESA (III) Contraste con alegría PROSODIA PROSODIA Aumento en el valor medio de F0 Aumento en el valor medio de F0 190 Hz 200 Hz 190 Hz 200 Hz Aumento del rango de variación de F0 Aumento del rango de variación de F0 60 Hz 140 Hz 60 Hz 140 Hz Pendiente de F0 ascendente Pendiente de F0 ascendente Progresión hacia una emoción positiva Progresión hacia una emoción positiva Alargamiento de sílabas tónicas, palabra final y último fonema Alargamiento de sílabas tónicas, palabra final y último fonema Patrón final que comunica a los demás la sorpresa Patrón final que comunica a los demás la sorpresa

ENFADO (I) VALENCIA ACTIVIDAD PositivoNegativo Pasivo Activo ALEGRÍA SORPRESA ENFADO EN FRÍO NEUTRO TRISTEZA

ENFADO (II) Expresión no vocal Expresión no vocal Tensión muscular Tensión muscular Gestos amenazantes Gestos amenazantes Manos, mirada, cara,… Manos, mirada, cara,… Modelo vocal utilizado por el actor Modelo vocal utilizado por el actor Irregularidad glotal Irregularidad glotal Baja apertura bucal Baja apertura bucal Aumento del nivel de amplitud Aumento del nivel de amplitud Especial énfasis en la última palabra Especial énfasis en la última palabra

ENFADO (III) ENFADO (III) Contraste con estado neutro PROSODIA: Progresión hacia enfado en caliente PROSODIA: Progresión hacia enfado en caliente Aumento del rango de variación de F0 Aumento del rango de variación de F0 20 Hz 70 Hz 20 Hz 70 Hz Reducción en la duración de los fonemas finales Reducción en la duración de los fonemas finales Aumento del nivel de amplitud Aumento del nivel de amplitud Nivel de actividad medio pero con énfasis final Nivel de actividad medio pero con énfasis final Introducción de jitter en F0 a nivel de fonema Introducción de jitter en F0 a nivel de fonema Irregularidad en la voz Irregularidad en la voz SEGMENTAL SEGMENTAL Introducción de ruido en la fuente glotal Introducción de ruido en la fuente glotal Irregularidad en la fuente glotal Irregularidad en la fuente glotal

Evaluación de Resultados (I) 23 personas 23 personas 5 frases semánticamente neutras x 5 emociones 25 grabaciones 5 frases semánticamente neutras x 5 emociones 25 grabaciones Orden aleatorio Orden aleatorio Sin realimentación Sin realimentación Tasa de reconocimiento global: 74,78 % (>57,6% en VAESS) Tasa de reconocimiento global: 74,78 % (>57,6% en VAESS) Precisión global: 76,7 % (>64,7% en VAESS) Precisión global: 76,7 % (>64,7% en VAESS) EMOCIÓN IDENTIFICADA EMOCIÓN SINTETIZADA GRADO DE PRECISIÓN NEUTROTRISTEZAALEGRÍASORPRESAENFADO NEUTRO 83,5 % 10,4 %7,8 %0 %3,5 %79,3 % TRISTEZA 7,8 % 87 % 0 % 2,6 %89,3 % ALEGRÍA 1,7 %0 % 53,9 % 17,4 %7 %67,4 % SORPRESA 2,6 %0 %20,9 % 79,1 % 14,8 %67,4 % ENFADO 3,5 %1,7 %9,6 %2,6 % 70,4 % 80,2 % OTRA 0,9 % 7,8 %0,9 %1,7 %---

Evaluación de Resultados (II) TASA DE RECONOCIMIENTO EMOCIÓN SIMULADA NEUTROTRISTEZAALEGRÍASORPRESAENFADO 12 primeras pruebas 82,61 % 89,86 % 36,96 % 68,12 % 69,56 % 13 últimas pruebas 84,06 % 82,61 % 65,22 % 95,65 % 71,74 % TASA DE RECONOCIMIENTO EMOCIÓN SIMULADA NEUTROTRISTEZAALEGRÍASORPRESAENFADO Voz Natural 89,3 % 90,3 % 74,6 % ,3 % VAESS 58,6 % 82,6 % 46,6 % ,6 % Re-síntesis + prosodia autom. 72,9 % 84,3 % 65,7 % 52,9 % 95,7 % Resultados Actuales 83.5 % 87% 53,9 % 79,1 % 70,4 %

OTRAS MODIFICACIONES Introducción de grados en las emociones Introducción de grados en las emociones Nueva etiqueta Nueva etiqueta 30% tristeza 100 % tristeza 30% tristeza 100 % tristeza Silabicador de fonemas Silabicador de fonemas Estructura cliente-servidor Estructura cliente-servidor Estudios para hacer la voz más robótica Estudios para hacer la voz más robótica Nuevas fuentes glotales Nuevas fuentes glotales Modificación en el modelo de interpolación entonativa Modificación en el modelo de interpolación entonativa

Conclusiones Mejora en la implementación de las emociones TRISTEZA y ALEGRÍA Mejora en la implementación de las emociones TRISTEZA y ALEGRÍA Implementación de las emociones SORPRESA y ENFADO Implementación de las emociones SORPRESA y ENFADO Tasa de reconocimiento: 75 % Tasa de reconocimiento: 75 % Enfado: 43% VAESS 70% Enfado: 43% VAESS 70% Sorpresa: 53% en resíntesis 79% Sorpresa: 53% en resíntesis 79% Alta tasa de identificación de neutra:58,6% VAESS 83,5% Alta tasa de identificación de neutra:58,6% VAESS 83,5% Modificación del BW efectivo Modificación del BW efectivo alegría alegría Estudio de la fuente glotal Estudio de la fuente glotal enfado enfado Incorporación de grados en las emociones Incorporación de grados en las emociones

Líneas futuras de investigación Implementación de las emociones en el sintetizador por concatenación Implementación de las emociones en el sintetizador por concatenación Implementación de dos nuevas emociones: miedo y asco Implementación de dos nuevas emociones: miedo y asco Evaluación de los grados de las emociones Evaluación de los grados de las emociones

DEMOSTRACIÓN DEMOSTRACIÓN: Estado neutro Tristeza Alegría Sorpresa Enfado

¿ Preguntas?