VILE: Estudio acústico de la variación inter e intralocutor en español SEAF 2003 II Congreso de la Sociedad Española de Acústica Forense Barcelona, del 9 al de 11 de abril de 2003 VILE: Estudio acústico de la variación inter e intralocutor en español Victoria Marrero, Juana Gil, Elena Battaner Departamento de Lengua Española y Lingüística General, Universidad Nacional de Educación a Distancia Joaquim Llisterri, Carme Carbó, María Jesús Machuca, Carme de la Mota, Antonio Ríos Departamento de Filología Española, Universidad Autónoma de Barcelona
VILE: Estudio acústico de la variación inter e intralocutor en español El proyectoVILE Determinación de los fenómenos fonéticos analizados Selección del corpus de análisis Conclusiones
VILE: Estudio acústico de la variación inter e intralocutor en español El proyectoVILE Determinación de los fenómenos fonéticos analizados Selección del corpus de análisis Conclusiones
El proyecto VILE Financiado por el Ministerio de Ciencia y Tecnología (BFF2001-2551, 2001-2004) Departamento de Lengua Española y Lingüística General, Universidad Nacional de Educación a Distancia y Departamento de Filología Española, Universidad Autónoma de Barcelona http://liceu.uab.es/~joaquim/VILE.html
Objetivos del proyecto VILE Caracterización acústica de los elementos segmentales y suprasegmentales que contribuyen a establecer la individualidad de un hablante Conocimiento fonético para la mejora de los sistemas de reconocimiento, identificación o verificación automáticas del locutor Nuevos datos acústicos para la práctica de la fonética forense
Etapas del proyecto VILE Delimitación de los fenómenos fonéticos objeto de interés Análisis acústico de los fenómenos fonéticos seleccionados en una muestra de materiales extraída de corpus disponibles Estudio de los resultados desde la perspectiva de la variación interlocutor e intralocutor Conclusiones para el reconocimiento automático de locutor y la fonética forense
VILE: Estudio acústico de la variación inter e intralocutor en español El proyectoVILE Determinación de los fenómenos fonéticos analizados Selección del corpus de análisis Conclusiones
Determinación de los fenómenos fonéticos analizados Parámetros relevantes para el estudio de la individualidad de la voz Importancia relativa de los distintos parámetros Conclusiones
Determinación de los fenómenos fonéticos analizados Parámetros relevantes para el estudio de la individualidad de la voz Importancia relativa de los distintos parámetros Conclusiones
Parámetros relevantes para el estudio de la individualidad de la voz Revisión bibliográfica centrada en tres campos Reconocimiento visual de espectrogramas (voiceprint) Reconocimiento perceptivo del hablante Reconocimiento automático del locutor
Parámetros relevantes para el estudio de la individualidad de la voz Parámetros referidos a la fuente Valor medio de la F0 Contorno tonal Forma de la onda glotal Fluctuación de la F0
Parámetros relevantes para el estudio de la individualidad de la voz Parámetros referidos a los resonadores Frecuencias formánticas; anchura de banda de los formantes; trayectorias de los formantes; distancias y ratios entre formantes LTAS (Long Term Averaged Spectrum) Sonidos turbulentos y consonantes nasales Efectos coarticulatorios (vocales, nasales y líquidas)
Parámetros relevantes para el estudio de la individualidad de la voz Variables temporales Tiempo total de habla Proporción de habla y de silencios Velocidad del habla
Determinación de los fenómenos fonéticos analizados Parámetros relevantes para el estudio de la individualidad de la voz Importancia relativa de los distintos parámetros Conclusiones
Importancia relativa de los distintos parámetros Prioridad del F0 Prioridad del LTAS Prioridad de la estructura espectral: frecuencias formánticas absolutas o trayectorias formánticas F1, F2 y F3, y distancias entre F1-F2 y F2-F3. Información localizada entre los 2.5 KHz. y los 3.5 KHz.
Importancia relativa de los distintos parámetros Misma prioridad para la F0 y la estructura formántica Variables temporales Contorno tonal La importancia de cada parámetro puede diferir de hablante a hablante y depende también de la naturaleza de las muestras
Determinación de los fenómenos fonéticos analizados Parámetros relevantes para el estudio de la individualidad de la voz Importancia relativa de los distintos parámetros Conclusiones
Determinación de los fenómenos fonéticos analizados Mayoría de trabajo publicados en los años 70 y 80, asumidos - sin cuestionarlos - como punto de partida de los actuales Falta de resultados coincidentes y concluyentes sobre el parámetro más decisivo para el reconocimiento del hablante
Determinación de los fenómenos fonéticos analizados Dificultad de establecer una jerarquía absoluta entre los parámetros Interdependencia entre los índices Prioridad relativa dependiente del hablante Los estudios más recientes se centran en sistemas de manipulación y control de la cualidad de la voz Falta de estudios de naturaleza puramente fonética: diferencias entre hablantes en el control y coordinación de las variables articulatorias y sus correlatos acústicos
Determinación de los fenómenos fonéticos analizados La variabilidad del hablante no se ha investigado en la misma medida que los aspectos invariantes de la producción del habla Número muy variable de locutores: entre 8 y 40 voces distintas
VILE: Estudio acústico de la variación inter e intralocutor en español El proyectoVILE Determinación de los fenómenos fonéticos analizados Selección del corpus de análisis Conclusiones
Selección del corpus de análisis Corpus disponibles en español La variación intralocutor La variación interlocutor Conclusiones La reutilización de recursos
Selección del corpus de análisis Corpus disponibles en español La variación intralocutor La variación interlocutor Conclusiones
Corpus disponibles en español ALBAYZÍN EUROM1 MULTEXT GAUDÍ SpeechDat
Locutores
Canal Albayzín Grabación microfónica en cámara aislada EUROM1 Grabación microfónica en cámara anecoica MULTEXT Gaudí Grabación microfónica en habitación silenciosa Grabación telefónica SpeechDat
Tareas Lectura Habla espontánea Albayzín EUROM1 MULTEXT Gaudí Logatomos Dígitos Palabras aisladas Frases Párrafos Albayzín EUROM1 MULTEXT Gaudí SpeechDat
Corpus disponibles en español Nivel segmental Estímulos ad hoc, pseudo-palabras (EUROM1), habla espontánea (GAUDÍ), lectura de frases, párrafos y textos Duración segmental (SpeechDat) Intensidad segmental y esfuerzo articulatorio (ALBAYZÍN) Velocidad de elocución (GAUDÍ) Nivel suprasegmental 20 párrafos con modalidades oracionales interrogativas y exclamativas (EUROM1)
Selección del corpus de análisis Corpus disponibles en español La variación intralocutor La variación interlocutor Conclusiones
La variación intralocutor Estímulos Repeticiones EUROM1 pseudo-palabras 5 x 12 locutores ALBAYZÍN frases efecto Lombard 2 x 20 locutores GAUDÍ frases texto habla espontánea 3 sesiones - control intervalos 3 ritmos x 455 locutores
Selección del corpus de análisis Corpus disponibles en español La variación intralocutor La variación interlocutor Conclusiones
La variación interlocutor locutores estímulos SpeechDat + de 2000 999 frases fonéticamente ricas lectura Gaudí 455 10 frases equilibradas y un texto lectura descripción espontánea Albayzín 304 700 frases fónicamente equilibradas lectura EUROM1 60 50 frases equilibradas y 40 párrafos con distintas entonaciones oracionales lectura
Selección del corpus de análisis Corpus disponibles en español La variación intralocutor La variación interlocutor Conclusiones
La selección del corpus de análisis El nivel segmental en tareas de lectura está sobradamente representado en los corpus orales disponibles actualmente para el español El nivel suprasegmental y los estilos de habla más espontáneos requerirían la creación de nuevos recursos
VILE: Estudio acústico de la variación inter e intralocutor en español El proyectoVILE Determinación de los fenómenos fonéticos analizados Selección del corpus de análisis Conclusiones
Conclusiones Falta de estudios de fonética acústica del español que aborden en profundidad el reconocimiento del hablante Parámetros como el F0, el LTAS y la estructura formántica parecen ser los más influyentes en el reconocimiento del locutor
Conclusiones Los datos disponibles en los corpus existentes en español son ampliamente suficientes para el estudio del nivel segmental La representación es menor en lo que se refiere a los elementos suprasegmentales La principal carencia detectada sería un corpus de diálogos espontáneos orales con suficiente calidad acústica
VILE: Estudio acústico de la variación inter e intralocutor en español http://liceu.uab.es/~joaquim/VILE.html vile@liceu.uab.es