Creación de un corpus oral espontáneo de errores de estudiantes de español Leonardo Campillos Llanos leonardo.campillos@uam.es Laboratorio de Lingüística Informática Universidad Autónoma de Madrid 1
Esquema Objetivos del proyecto Metodología Participantes Tipología de L1s Composición y diseño Tipología de errores Procesamiento de los datos Evaluación de la interfaz de consulta Resultados Investigación en enseñanza y adquisición de L2 Análisis de errores asistido por ordenador Lingüística de corpus Aplicación tecnológica educativa 2
Objetivos Nivel investigador -Análisis de errores de la producción oral. -Investigación sobre adquisición del español/LE: · ¿Cuáles son los errores más frecuentes? · ¿Errores comunes y diferentes entre hablantes de distinta L1? → mejorar los materiales de enseñanza de ELE. Nivel tecnológico -Desarrollo de herramienta para formación de profesores. 3
Metodología 4
Participantes -Estudiantes de ELE (casi todos de 20-26 años). -Nivel intermedio-bajo (A2 y B1, Marco Común Europeo de Referencia). -N=40, distribuido en: 9 grupos de 4 estudiantes con la misma L1: 1 grupo mixto de 4 estudiantes con otras L1s: 20 de A2 y 20 de B1 Italiano Inglés Japonés Francés Alemán Chino Portugués Neerlandés Polaco Coreano Finés Turco Húngaro 5
Tipología de lenguas maternas 6
Composición y diseño del corpus Total: 13 hs 36 mins Grupo de control: 2 hombres y 2 mujeres (26-27 años) 7
Metodología de obtención de datos Datos orales: Entrevistas semiespontáneas entre investigador y aprendiz. 15-20 minutos cada grabación. Tareas: (similares a exámenes de idiomas) -Descripción de dos fotografías -Dos tareas narrativas a partir de viñetas: - Diálogo espontáneo: opinión sobre la comida. 8
Transcripción de las grabaciones - Fenómenos del habla: Solapamientos p. ej., *AIS: <sí> /// *ENT: [<] <muy bien> /// Pausas y alargamientos Repeticiones y reformulaciones Titubeos y palabras fragmentadas… p. ej., bueno &mm / lo → [/] lo mezclas /// - Fenómenos de la adquisición del español:. Deformaciones p. ej., mejillones {%err: melijones} Pronunciación errónea … p. ej., tranquilo {%pho: [tɾan'kwilo]} 9
Metadatos Información sobre la grabación: fecha, lugar… Información sobre el estudiante: Información personal: Perfil lingüístico: ☐ Edad ☐ Origen geográfico ☐ Papel en la grabación ☐ Profesión / ocupación ☐ Nivel educativo ☐ Nivel de español (MCER) ☐ Tiempo de estudio de español ☐ Lengua materna ☐ Tiempo en país hispanohablante ☐ Lenguas habladas 10
Muestra de datos XML (metadatos) 11
Muestra de datos XML (metadatos) 12
Muestra de datos XML (metadatos) 13
Muestra de datos XML (texto) -Sincronización texto-sonido: Sincronización manual (programa Transana©). 14
Tipología de errores Clasificación según estos criterios: Nivel lingüístico: gramática, vocabulario, pronunciación… Categoría: artículo, verbo, adjetivo… Mecanismo de cambio: orden incorrecto, deformación… p. ej., *higenias (higiene) Tipo: ser/estar, conjugación, tiempo de pasado… p. ej., *escribido (escrito) Etiología (causa del error): interlingüístico, desconocido... p. ej., to realize ('darse cuenta') ≠ realizar 15
Muestra de datos XML (errores) -Etiquetas de errores: 16
Procesamiento de los datos -Tecnología empleada en la interfaz: ·XML: transcripciones, errores, códigos de tiempo y metadatos. ·XSLT: visualización del contenido (transcripciones, metadatos y errores). ·XQuery: consultas predefinidas para la base de datos. ·Base de datos nativa (eXist, W. Meier).
Muestra de la interfaz -Criterios de búsqueda: -Menú de consulta:
Muestra de la interfaz -Información sobre el estudiante:
Muestra de la interfaz -Indicación y explicación sobre el error:
Muestra de la interfaz -Recuento de errores:
Muestra de la interfaz -Versión en inglés:
Evaluación de la interfaz -Evaluación formativa: cuestionario a 22 profesores de español/LE. Opinión sobre los criterios de búsqueda Opinión sobre los términos para describir errores Conclusiones de la evaluación: Sugerencia de guía didáctica. Simplificación de la búsqueda y la visualización de resultados. Ausencia de algún tipo de error
Resultados del análisis de errores Disminución de errores al progresar de nivel. Alta tasa de ambigüedad en oralidad: ≈ 1 ambiguo cada 23. 24
Resultados del análisis de errores Mayor número de errores: gramática 25
Referencias Sobre análisis de errores: Baralo, M. (1999) Errores y fosilización. Fundación Antonio de Nebrija. Corder, P. (1971) Idiosyncratic Dialects and Error Analysis. International Review of Applied Linguistics, 9(2): 147-60. Fernández López, S. (1997) Interlengua y Análisis de Errores en el aprendizaje del español como lengua extranjera. Madrid: Edelsa. García, J. (2005) “Una propuesta de tipología de errores”. Actas del XXIII Congreso de Lingüística Aplicada. Universidad de les Illes Balears. James, C. (1998) Errors in Language Learning and Use. London/N.Y.: Longman. Vázquez, G. (1999) ¿Errores? ¡Sin falta! Madrid: Edelsa. Sobre corpus orales: Cresti, E. & Moneglia, M. (2005) C-ORAL-ROM. Integrated Reference Corpora for Spoken Romance Languages. Amsterdam/Philadelphia: J. Benjamins. Díaz Rodríguez, L. (2007) Interlengua española. Barcelona: Printulibro. Mitchell, R., Dominguez, L., Arche, M. J., Myles, F. & Marsden, E. (2008) SPLLOC: A new database for Spanish second language acquisition research. EuroSLA Yearbook, 8, 287-304. 26
Referencias Sobre etiquetado de errores en corpus: Díaz-Negrillo, A., y J. Fernández-Domínguez. 2006. "Error tagging systems for learner corpora". RESLA, 19: 83-102 Granger, S. (2003) “Error-tagged Learner Corpora and CALL: a promising synergy”, CALICO Journal, 20 (3), pp. 465-480 . Granger, S., Kraifa, O., Pontona, C., Antoniadisa, G. & V. Zampa (2007) “Integrating learner corpora and natural language processing”. ReCALL Journal, 19, pp. 252-268. Izumi, E. et al. 2004. “SST speech corpus of Japanese learners’ English and automatic detection of learners’ errors”. ICAME Journal 28, pp. 31-48. Lüdeling, A., Walter, M., Kroymann, E. & Adolphs, P. (2005) “Multi-level error annotation in learner corpora”. Proceedings of Corpus Linguistics Conference 2005. Nicholls, D. (2003) “The Cambridge Learner Corpus – error coding and analysis for Lexicography and ELT”. En Archer et al. (eds.) Proceedings of the Corpus Linguistics Conference 2003, pp. 572-581. Sobre la evaluación formativa de la interfaz: -Colpaert, J. (2004) Design of online interactive language courseware: conceptualization, specification and prototyping: research into the impact of linguistic-didactic functionality on software architecture Universiteit Antwerpen, Faculteit Letteren en Wijsbegeerte, Departement Taalkunde. Tesis doctoral. -Ward, M. (2006) “Using Software Design Methods in CALL”. Computer Assisted Language Learning, vol. 19, nº. 2-3, Special edition of CALL: Software Design and Development, pp.129-147. 27
¡Gracias por su atención! ¿Comentarios? Leonardo Campillos Llanos leonardo.campillos@uam.es Laboratorio de Lingüística Informática Universidad Autónoma de Madrid Proyecto financiado por la Comunidad de Madrid y el Fondo Social Europeo.