Descargar la presentación
La descarga está en progreso. Por favor, espere
Publicada porMaría Mercedes Barbero Ramos Modificado hace 6 años
1
Lingüística de corpus Compilación de corpus orales
Javier Cuétara Priede México, UNAM Agradecimiento a GSM.
2
Contenido Corpus orales y corpus de lengua hablada
Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral Diseño Grabación Transcripción y etiquetado Veremos la diferencia entre corpus. desde el p. de v. de la fonética algunos corpus de habla. Nos detendremos en tres de ellos para ver sus características. Cómo se hace un corpus de voz, cuáles son sus aplicaciones. Trataremos de hacer ejercicios.
3
Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral, es establecer la relación entre la teoría y los datos; el corpus tiene que mostrar a pequeña escala cómo funciona una lengua natural; pero para ello es necesario que esté diseñado correctamente sobre unas bases estadísticas apropiadas que aseguren que el desarrollo sea efectivamente un modelo de la realidad” (Torruella y Llisterri, 1999) Disculpen que empiece con una cita. Recomendar esta lectura, aunque no se dediquen al área de fonética.
4
Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral, es establecer la relación entre la teoría y los datos; el corpus tiene que mostrar a pequeña escala cómo funciona una lengua natural; pero para ello es necesario que esté diseñado correctamente sobre unas bases estadísticas apropiadas que aseguren que el desarrollo sea efectivamente un modelo de la realidad” (Torruella y Llisterri, 1999)
5
Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral, es establecer la relación entre la teoría y los datos; el corpus tiene que mostrar a pequeña escala cómo funciona una lengua natural; pero para ello es necesario que esté diseñado correctamente sobre unas bases estadísticas apropiadas que aseguren que el desarrollo sea efectivamente un modelo de la realidad” (Torruella y Llisterri, 1999)
6
Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral, es establecer la relación entre la teoría y los datos; el corpus tiene que mostrar a pequeña escala cómo funciona una lengua natural; pero para ello es necesario que esté diseñado correctamente sobre unas bases estadísticas apropiadas que aseguren que el desarrollo sea efectivamente un modelo de la realidad” (Torruella y Llisterri, 1999) Para ser medible, cuantificable.
7
Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral, es establecer la relación entre la teoría y los datos; el corpus tiene que mostrar a pequeña escala cómo funciona una lengua natural; pero para ello es necesario que esté diseñado correctamente sobre unas bases estadísticas apropiadas que aseguren que el desarrollo sea efectivamente un modelo de la realidad” (Torruella y Llisterri, 1999)
8
Espíritu de un Corpus “La función principal de un corpus, tanto textual como oral, es establecer la relación entre la teoría y los datos; el corpus tiene que mostrar a pequeña escala cómo funciona una lengua natural; pero para ello es necesario que esté diseñado correctamente sobre unas bases estadísticas apropiadas que aseguren que el desarrollo sea efectivamente un modelo de la realidad” (Torruella y Llisterri, 1999)
9
Contenido Corpus orales y corpus de lengua hablada
Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral Diseño Grabación Transcripción y etiquetado
10
Corpus orales y corpus de lengua hablada
Corpus orales: grabaciones de la señal sonora (speech corpora, speech databases) Corpus de lengua hablada: transcripciones ortográficas de la lengua hablada (spoken language corpora) (Llisterri, 2003) El estudio de unos y otros es diferente. Para etudios fonéticos, los primeros responden a la definición de Torruella y Llisterri; los segundos no (un ejemplo de éstos últimos es el libraco de Lope).
11
Contenido Corpus orales y corpus de lengua hablada
Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral Diseño Grabación Transcripción y etiquetado
12
Algunos corpus orales de México
Atlas Lingüístico de México (ALM) Corpus DIME Corpus INAOE Corpus DIMEx100 PRESEEA
13
ALM Seminario de Lingüística General de El Colegio de México
Reunir datos –fonéticos, gramaticales y lexicos– para determinar las zonas lingüísticas de México (Lope Blanch, 1970; Moreno de Alba, 1994) El diseño inició a finales de los años sesentas, y la recopilación de materiales se hizo a principios de los setentas. Colaboraron Moreno de Alba, López Chávez y Cantero, entre otros.
14
ALM Entrevistas: Cuestionarios diseñados Grabaciones magnetofónicas
15
Proyecto DIME Proyecto DIME
Propósito: desarrollar un sistema multimodal en el dominio del diseño de cocinas (Pineda et al., 2001; Villaseñor et al., 2001) Algunos recursos; entre ellos: El Corpus DIME EL Corpus DIMEx100 El modelado computacional de la gramática del español de México El reconocedor de voz DIMEX Multimodal: interacción humano computadora.
16
Corpus DIME (1999) 16 experimentos con 16 personas distintas
31 diálogos 27,459 palabras (886 en promedio por diálogo) 1,113 palabras diferentes 7:10 minutos Wave Studio (Creative) Mago de Oz
17
Sujeto 1 (usuario) <—> Sujeto 2 (Mago)
Mago de Oz Experimentos que se realizan para estudiar la interacción entre los humanos y las computadoras (Dahlbäck et al., 1993; Bonafonte et al., 1998; Allen et al., 2001) Sujeto 1 (usuario) <—> Sujeto 2 (Mago)
18
Mago de Oz
19
Mago de Oz
20
Corpus INAOE 2004 Propósitos
Crear un corpus oral rico, completo y balanceado fonéticamente Obtener modelos acústicos para un reconocedor de habla (Villaseñor et al.)
21
Corpus INAOE 2004 Fuente: Internet 3 etapas:
Léxico inicial de poco más de 177,000 vocablos Filtrado: Corpus 170, Corpus230 5,000 oraciones (colaboración con el Proyecto DIME)
22
Corpus DIMEx100 Propósitos:
Necesidad de contar con un corpus oral rico, completo y balanceado fonéticamente (representatividad y balance de las unidades - alófonos menos frecuentes, como [g, b, x, r, f], etc.) Obtener modelos acústicos para un reconocedor de habla
23
Corpus DIMEx100 Toma como base el Corpus INAOE 2004 100 locutores
Fuente: Internet 3 etapas: Léxico inicial de poco más de 177,000 vocablos Filtrado: Corpus 170, Corpus230 5,000 oraciones 100 locutores 600 archivos de audio
24
Corpus DIMEx100 100 locutores 5,010 oraciones diferentes
82 %, ciudad de México 23.82 % años 87 %, estudiantes de licenciatura 49 % hombres; 51 % mujeres 5,010 oraciones diferentes 50 individuales 10 idénticas (futuros estudios de reconocimiento de locutor) 6,000 archivos *.wav
25
PRESEEA Proyecto para el Estudio Sociolingüístico del Español de España y América 1993. Comisión de Sociolingüística de ALFAL Creación de un Corpus Sociolingüístico del español (PRESEEA)
26
PRESEEA Corpus Sociolingüístico y sincrónico de la lengua española (y portuguesa) Intención: “llegar a ser algo tan valioso para el futuro conocimiento de la lengua española, como útil para las personas que se ocupan de ella”
27
Contenido Corpus orales y corpus de lengua hablada
Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral Diseño Grabación Transcripción y etiquetado
28
Aplicaciones de los corpus orales
En el futuro, la comunicación con los sistemas computacionales será, seguramente, a través del habla
29
Aplicaciones de los corpus orales
Análisis fonético y estudios fonológicos Tecnologías del habla Síntesis de habla Reconocimiento de habla (Reconocimiento de hablante) (Reconocimiento de lengua) Sistemas multimodales
30
Análisis fonético y estudios fonológicos
Estudios dialectales Frecuencias de ocurrencia de los fonemas en la lengua
31
Tecnologías del habla “En fonética como en tecnologías del habla difícilmente se concibe un corpus que no vaya acompañado del correspondiente registro sonoro en formato digital (speech corpus)” (Torruella y Llisterri, 1999).
32
Síntesis de habla Un texto que es reproducido por una computadora
Aplicaciones Lectura en voz alta de documentos, páginas y correos electrónicos, etcétera Servicios de telefonía Servicios bancarios Para el uso de los invidentes y débiles visuales
33
Síntesis de habla TextAloud MP3
Festival Loquendo Laboratorios Bell
34
Reconocimiento de habla
La computadora escucha y entiende a un humano Reconocedor de habla: Diccionario de pronunciación Modelos acústicos Modelos de pronunciación
35
SCANMail Correos de voz de 138 empleados de AT&T
100 horas de grabación (10K de mensajes; 2,500 hablantes) Balance de género 12% no nativos Promedio de duración: 36.4 segundos
36
SCANMail
37
SCANMail
38
Reconocimiento de hablante
Fonética forense Peritaje de voces: identificación de criminales con propósitos legales
39
Contenido Corpus orales y corpus de lengua hablada
Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral Diseño Grabación Transcripción y etiquetado
40
Elaboración de un corpus oral
Diseño Grabación Etiquetado
41
Contenido Corpus orales y corpus de lengua hablada
Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral Diseño Grabación Transcripción y etiquetado
42
Diseño de corpus orales
Desde el inicio se debe tener una definición clara de los objetivos que guían la constitución del corpus: qué se quiere obtener y cómo: Tipo de habla que se quiere obtener -Reconocimiento: ¿quién será el usuario? (por ejemplo, ¿se modelaría la interdental para el español de México?) -Síntesis: ¿qué dialecto “hablará” el sintetizador?
43
Características de los hablantes
Sexo (nivelación en el corpus) Edad 20, 40, 60 (Navarro Tomás, 1945) 16-32, 33-55, 56 en adelante (Perissinotto, 1975) Procedencia Nivel socioeconómico Clase iletrada, de la clase media y de la clase instruida (Navarro Tomás, 1945) Educación, profesión, situación económica (Perissinotto, 1975) Otros (dentadura completa, salud mental)
44
Frecuencia de fonemas
45
Contenido Corpus orales y corpus de lengua hablada
Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral Diseño Grabación Transcripción y etiquetado
46
Grabación (instrumentos)
Grabadoras magnetofónicas Wollensack y Usher en cintas magnetofónicas de acetato Scotch a una velocidad de 3 ¾ IPS (Perissinotto, 1975)
47
Grabación (instrumentos)
Grabaciones magnetofónicas Lope Blanch, 1980/1986 Moreno de Alba, 1994
48
Grabación (instrumentos)
Actualmente, no se puede concebir un corpus oral sin un registro electrónico Grabación en laboratorio Speech Viewer Praat Sound Forge Speech Tools Wavelab
49
Contenido Corpus orales y corpus de lengua hablada
Algunos corpus orales de México Aplicaciones de los corpus orales Elaboración de un corpus oral Diseño Grabación Transcripción y etiquetado
50
Etiquetado Herramientas Transcripción fonética Transcripción prosódica
51
Etiquetado Speech Viewer (CSLU Speech Toolkit)
Praat
Presentaciones similares
© 2025 SlidePlayer.es Inc.
All rights reserved.