Lingüística de corpus Compilación de corpus orales

Slides:



Advertisements
Presentaciones similares
Tecnologías del lenguaje
Advertisements

EVALUACIÓN UNIVERSIDAD PEDAGÓGICA EXPERIEMNTAL LIBERTADOR INSTITUTO DE MEJORAMIENTO PROFESIONAL DEL MAGISTERIO NÚCLEO TRUJILLO EXTENSIÓN ACADÉMICA BOCONÓ.
Recursos Tecnológicos
Conceptos. Ludy Tatiana Beltrán Montañéz Ficha: Servicio Nacional de Aprendizaje - Sena Tecnólogo en Gestión Administrativa Aplicar Tecnologías.
Conceptos. Ludy Tatiana Beltrán Montañéz Ficha: Servicio Nacional de Aprendizaje - Sena Tecnólogo en Gestión Administrativa Aplicar Tecnologías.
Un Mundo por Descubrir Distintos enfoques; un mismo objetivo. Beatriz Rocher Dorado I.E.S. Los Alamos (Bormujos)
1 La posición del pronombre sujeto como evidencia de contacto y nivelación en Nueva York Rocío Raña Risso Doctoral Program in Linguistics Graduate Center,
Introducción: En el siguiente trabajo se mencionará las destrezas básicas de redacción y comunicación escrita y oral. También se discutirá sobre las técnicas.
Elaboración de materiales educativos con herramientas de la Web 2.0 Tecnología y Educación.
Edad (promedio) 14.8 años Sexo (% hombres) Aprendió primero a hablar una lengua indígena (%) 1.7 Padres pendientes de los materiales que necesita.
El diseño industrial es una profesión cuya actividad es la acción que busca crear o modificar objetos o ideas para hacerlos útiles, prácticos o atractivos.
Análisis de usuario. Perfil de usuario Al hablar de usuario nos referimos al 90% de la población. Se determinan por medio de la investigación de campo.
LOS MENTEFACTOS CONCEPTUALES
José Manuel Valencia Moreno Clementina García Martínez
HABLAR, LEER, ESCRIBIR, ESCUCHAR.
Beneficios de promocionar tu portafolio en medios digitales
Plan Estatal de Desarrollo
ESPAÑOL MÉTODO DIRECTO GUSTAVO NUNES.
Francisco Gómez González, profesor de Inglés y RMI
Informática Especial de la Matemática
Pruebas de nivel: validez y fiabilidad
Entonación en español EJERCICIO DE PERCEPCIÓN AUDITIVA
VILE: Estudio acústico de la variación inter e intralocutor en español
VILE: Estudio acústico de la variación inter e intralocutor en español
“Radar de Innovaciones Educativas del Tecnológico de Monterrey”
¿QUÉ ES EL SISBÉN? SISTEMA DE SELECCIÓN DE BENEFICIARIOS PARA PROGRAMAS SOCIALES Es un sistema de información Nacional que permite identificar a la población.
FORMACIÓN DE INSTRUCTORES con Programación Neuro-lingüística
Tipos de textos.
LOS MENTEFACTOS CONCEPTUALES
Actividades 2do grado Bimestre 1.
Estructura de Base de Datos
Universidad Veracruzana. Facultad de Pedagogía. E. E
Miguel García Ruiz Jackeline Giraldo Urrea
CONFABULÉMONOS CON LAS PALABRAS
UNIDAD 4. DISEÑO DE ESTRATEGIAS DIDÁCTICAS EN AMBIENTES A DISTANCIA.
Uso de tablas de datos de resultados
Para beneficio de la Educación
Didáctica de la Lengua Española II
YESID CALDERON ROMERO INVESTIGACION DE MERCADOS
INSTITUTO TECNOLÓGICO SUPERIOR DE LIBRES Organismo Público Descentralizado del Gobierno del Estado de Puebla   INGENIERÍA EN SISTEMAS COMPUTACIONALES.
Tendencias contemporáneas en educación
¿Qué es la sociolingüística?
Universidad Veracruzana. Facultad de Pedagogía. E. E
SONIA ESPERANZA GARCIA AMAYA Tecnología en Gestión Administrativa
Los Portales de Transparencia y los Datos Abiertos en las Universidades Publicas Víctor Manuel Martínez Martínez Universidad Pedagógica Nacional
EL SIGNO LINGÜÍSTICO.  ¿Qué es un signo? EL SIGNO LINGÜÍSTICO Es aquello que percibimos con nuestros sentidos y que nos transmite alguna información.
Programamos Hagámoslo juntos.
Tecnologías de la Información y Comunicaciones
PRAGMÁTICA.
Guía para crear una PRESENTACIÓN
Auditoria de Tecnologías de Información PLANIFICACION Ing. Eder Gutiérrez Quispe.
Conciencia Fonológica y Aprendizaje de la Lectura Tulia Ocampo Gavira.
LINEAMIENTOS PARA LA EVALUACIÓN. Una competencia es… Actuar sobre la realidad y modificarla O lograr un propósito. 1 4 Para resolver un problema. Haciendo.
CARACTERÍSTICAS DE LOS INFORMES. Redacción y Presentación de Informes Técnicos Un informe técnico es una forma especializada de exposición, que tiene.
APLICACIONES DE LA LINGÜÍSTICA COMPUTACIONAL (III)
METODOLOGÍA DE LA INVESTIGACIÓN (SAMPIERI)
país con 103 millones de habitantes
Texto Argumentativo Hechos y Opiniones
LA LENGUA DIFERENCIAS ENTRE LENGUA Y HABLA LENGUAJE, LENGUA Y HABLA.
Tecnologías de la Información y Comunicaciones (AEQ-1064)
Competencias genéricas
Compilación de corpus textuales
Sub-Dirección de Educación Regular. “REGLAMENTO GENERAL DE LA LECTURA Y ESCRITURA “ FINALIDAD Desarrollar capacidades y aptitudes en diferentes formas.
Lingüística de corpus Anotación fonética y prosódica
Manual de funciones y de procedimientos
PARAMETROS PARA EL DISEÑO DE CONTENIDOS EDUCATIVOS DIGITALES
La programación de objetivos didácticos en Terminótica
Habilidades Comunicativas II Profesor: Víctor Aguilar Levicoy
Luis Fernando Muñoz Pantoja Ingeniero de Sistemas Copyright 2019 Luis Fernando Muñoz Pantoja Ingeniero de Sistemas Derechos reservados UML.
Transcripción de la presentación:

Lingüística de corpus Compilación de corpus orales Javier Cuétara Priede México, UNAM Agradecimiento a GSM.

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral Diseño Grabación Transcripción y etiquetado Veremos la diferencia entre corpus. desde el p. de v. de la fonética algunos corpus de habla. Nos detendremos en tres de ellos para ver sus características. Cómo se hace un corpus de voz, cuáles son sus aplicaciones. Trataremos de hacer ejercicios.

Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral, es establecer la relación entre la teoría y los datos; el corpus tiene que mostrar a pequeña escala cómo funciona una lengua natural; pero para ello es necesario que esté diseñado correctamente sobre unas bases estadísticas apropiadas que aseguren que el desarrollo sea efectivamente un modelo de la realidad” (Torruella y Llisterri, 1999) Disculpen que empiece con una cita. Recomendar esta lectura, aunque no se dediquen al área de fonética.

Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral, es establecer la relación entre la teoría y los datos; el corpus tiene que mostrar a pequeña escala cómo funciona una lengua natural; pero para ello es necesario que esté diseñado correctamente sobre unas bases estadísticas apropiadas que aseguren que el desarrollo sea efectivamente un modelo de la realidad” (Torruella y Llisterri, 1999)

Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral, es establecer la relación entre la teoría y los datos; el corpus tiene que mostrar a pequeña escala cómo funciona una lengua natural; pero para ello es necesario que esté diseñado correctamente sobre unas bases estadísticas apropiadas que aseguren que el desarrollo sea efectivamente un modelo de la realidad” (Torruella y Llisterri, 1999)

Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral, es establecer la relación entre la teoría y los datos; el corpus tiene que mostrar a pequeña escala cómo funciona una lengua natural; pero para ello es necesario que esté diseñado correctamente sobre unas bases estadísticas apropiadas que aseguren que el desarrollo sea efectivamente un modelo de la realidad” (Torruella y Llisterri, 1999) Para ser medible, cuantificable.

Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral, es establecer la relación entre la teoría y los datos; el corpus tiene que mostrar a pequeña escala cómo funciona una lengua natural; pero para ello es necesario que esté diseñado correctamente sobre unas bases estadísticas apropiadas que aseguren que el desarrollo sea efectivamente un modelo de la realidad” (Torruella y Llisterri, 1999)

Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral, es establecer la relación entre la teoría y los datos; el corpus tiene que mostrar a pequeña escala cómo funciona una lengua natural; pero para ello es necesario que esté diseñado correctamente sobre unas bases estadísticas apropiadas que aseguren que el desarrollo sea efectivamente un modelo de la realidad” (Torruella y Llisterri, 1999)

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral Diseño Grabación Transcripción y etiquetado

Corpus orales y corpus de lengua hablada Corpus orales: grabaciones de la señal sonora (speech corpora, speech databases) Corpus de lengua hablada: transcripciones ortográficas de la lengua hablada (spoken language corpora) (Llisterri, 2003) El estudio de unos y otros es diferente. Para etudios fonéticos, los primeros responden a la definición de Torruella y Llisterri; los segundos no (un ejemplo de éstos últimos es el libraco de Lope).

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral Diseño Grabación Transcripción y etiquetado

Algunos corpus orales de México Atlas Lingüístico de México (ALM) Corpus DIME Corpus INAOE 2003-2004 Corpus DIMEx100 PRESEEA

ALM Seminario de Lingüística General de El Colegio de México Reunir datos –fonéticos, gramaticales y lexicos– para determinar las zonas lingüísticas de México (Lope Blanch, 1970; Moreno de Alba, 1994) El diseño inició a finales de los años sesentas, y la recopilación de materiales se hizo a principios de los setentas. Colaboraron Moreno de Alba, López Chávez y Cantero, entre otros.

ALM Entrevistas: Cuestionarios diseñados Grabaciones magnetofónicas

Proyecto DIME Proyecto DIME Propósito: desarrollar un sistema multimodal en el dominio del diseño de cocinas (Pineda et al., 2001; Villaseñor et al., 2001) Algunos recursos; entre ellos: El Corpus DIME EL Corpus DIMEx100 El modelado computacional de la gramática del español de México El reconocedor de voz DIMEX Multimodal: interacción humano computadora.

Corpus DIME (1999) 16 experimentos con 16 personas distintas 31 diálogos 27,459 palabras (886 en promedio por diálogo) 1,113 palabras diferentes 7:10 minutos Wave Studio (Creative) Mago de Oz

Sujeto 1 (usuario) <—> Sujeto 2 (Mago) Mago de Oz Experimentos que se realizan para estudiar la interacción entre los humanos y las computadoras (Dahlbäck et al., 1993; Bonafonte et al., 1998; Allen et al., 2001) Sujeto 1 (usuario) <—> Sujeto 2 (Mago)

Mago de Oz

Mago de Oz

Corpus INAOE 2004 Propósitos Crear un corpus oral rico, completo y balanceado fonéticamente Obtener modelos acústicos para un reconocedor de habla (Villaseñor et al.)

Corpus INAOE 2004 Fuente: Internet 3 etapas: Léxico inicial de poco más de 177,000 vocablos Filtrado: Corpus 170, Corpus230 5,000 oraciones (colaboración con el Proyecto DIME)

Corpus DIMEx100 Propósitos: Necesidad de contar con un corpus oral rico, completo y balanceado fonéticamente (representatividad y balance de las unidades - alófonos menos frecuentes, como [g, b, x, r, f], etc.) Obtener modelos acústicos para un reconocedor de habla

Corpus DIMEx100 Toma como base el Corpus INAOE 2004 100 locutores Fuente: Internet 3 etapas: Léxico inicial de poco más de 177,000 vocablos Filtrado: Corpus 170, Corpus230 5,000 oraciones 100 locutores 600 archivos de audio

Corpus DIMEx100 100 locutores 5,010 oraciones diferentes 82 %, ciudad de México 23.82 % años 87 %, estudiantes de licenciatura 49 % hombres; 51 % mujeres 5,010 oraciones diferentes 50 individuales 10 idénticas (futuros estudios de reconocimiento de locutor) 6,000 archivos *.wav

PRESEEA Proyecto para el Estudio Sociolingüístico del Español de España y América 1993. Comisión de Sociolingüística de ALFAL Creación de un Corpus Sociolingüístico del español (PRESEEA)

PRESEEA Corpus Sociolingüístico y sincrónico de la lengua española (y portuguesa) Intención: “llegar a ser algo tan valioso para el futuro conocimiento de la lengua española, como útil para las personas que se ocupan de ella”

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral Diseño Grabación Transcripción y etiquetado

Aplicaciones de los corpus orales En el futuro, la comunicación con los sistemas computacionales será, seguramente, a través del habla

Aplicaciones de los corpus orales Análisis fonético y estudios fonológicos Tecnologías del habla Síntesis de habla Reconocimiento de habla (Reconocimiento de hablante) (Reconocimiento de lengua) Sistemas multimodales

Análisis fonético y estudios fonológicos Estudios dialectales Frecuencias de ocurrencia de los fonemas en la lengua

Tecnologías del habla “En fonética como en tecnologías del habla difícilmente se concibe un corpus que no vaya acompañado del correspondiente registro sonoro en formato digital (speech corpus)” (Torruella y Llisterri, 1999).

Síntesis de habla Un texto que es reproducido por una computadora Aplicaciones Lectura en voz alta de documentos, páginas y correos electrónicos, etcétera Servicios de telefonía Servicios bancarios Para el uso de los invidentes y débiles visuales

Síntesis de habla TextAloud MP3 http://www.nextuptech.com/TextAloud/download.html Festival http://cslu.cse.ogi.edu/tts/ Loquendo http://www.loquendo.com/es/demos/demo_tts.htm Laboratorios Bell http://www.research.att.com/~ttsweb/tts/demo.php

Reconocimiento de habla La computadora escucha y entiende a un humano Reconocedor de habla: Diccionario de pronunciación Modelos acústicos Modelos de pronunciación

SCANMail Correos de voz de 138 empleados de AT&T 100 horas de grabación (10K de mensajes; 2,500 hablantes) Balance de género 12% no nativos Promedio de duración: 36.4 segundos

SCANMail

SCANMail

Reconocimiento de hablante Fonética forense Peritaje de voces: identificación de criminales con propósitos legales

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral Diseño Grabación Transcripción y etiquetado

Elaboración de un corpus oral Diseño Grabación Etiquetado

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral Diseño Grabación Transcripción y etiquetado

Diseño de corpus orales Desde el inicio se debe tener una definición clara de los objetivos que guían la constitución del corpus: qué se quiere obtener y cómo: Tipo de habla que se quiere obtener -Reconocimiento: ¿quién será el usuario? (por ejemplo, ¿se modelaría la interdental para el español de México?) -Síntesis: ¿qué dialecto “hablará” el sintetizador?

Características de los hablantes Sexo (nivelación en el corpus) Edad 20, 40, 60 (Navarro Tomás, 1945) 16-32, 33-55, 56 en adelante (Perissinotto, 1975) Procedencia Nivel socioeconómico Clase iletrada, de la clase media y de la clase instruida (Navarro Tomás, 1945) Educación, profesión, situación económica (Perissinotto, 1975) Otros (dentadura completa, salud mental)

Frecuencia de fonemas

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral Diseño Grabación Transcripción y etiquetado

Grabación (instrumentos) Grabadoras magnetofónicas Wollensack y Usher en cintas magnetofónicas de acetato Scotch a una velocidad de 3 ¾ IPS (Perissinotto, 1975)

Grabación (instrumentos) Grabaciones magnetofónicas Lope Blanch, 1980/1986 Moreno de Alba, 1994

Grabación (instrumentos) Actualmente, no se puede concebir un corpus oral sin un registro electrónico Grabación en laboratorio Speech Viewer Praat Sound Forge Speech Tools Wavelab

Contenido Corpus orales y corpus de lengua hablada Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral Diseño Grabación Transcripción y etiquetado

Etiquetado Herramientas Transcripción fonética Transcripción prosódica

Etiquetado Speech Viewer (CSLU Speech Toolkit) http://cslu.cse.ogi.edu/toolkit/ Praat http://www.fon.hum.uva.nl/praat/