CEDEL2 Corpus Escrito del Español L2 uam. es/woslac/cedel2

Slides:



Advertisements
Presentaciones similares
Como crear y usar una rúbrica
Advertisements

TESTS METODOLOGÍA. 1.- El MÉTODO CIENTÍFICO es: –A) el sujeto de la investigación –B) el objeto de la investigación –C) el nexo de unión entre el sujeto.
Plataformas y revistas científicas de acceso abierto en Chile
Sesión 1: Servidores de Blogs y Editores de Páginas Web en línea
Resultados de Escritura 4º Básico Primera evaluación nacional de Escritura.
LA ENSEÑANZA BASADA EN LA EVIDENCIA
Leonardo Campillos Llanos Laboratorio de Lingüística Informática
1 VIII CONGRESO NACIONAL DE CIENCIAS Y ESTUDIOS SOCIALES Universidad Earth Guácimo, Limón, Costa Rica Agosto 25 de 2006 Juan Carlos López G. Editor EDUTEKA.
Evaluación y Certificación de la Calidad de las Bibliotecas
1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO Resumen. 24 de Junio de 2005.
El estudio de Casos en la Investigación Cualitativa
M. Dolores Frías-Navarro
Tema 6. Evaluación de SRIs
1 Madrid, 13 de noviembre de 2008 XBRL España: Un año de trabajo Sebastián Muriel Presidente de XBRL España Sebastián Muriel Presidente de XBRL España.
Auditorías - ISO Fecha: Jornada UNED.
ASAMBLEA EXTRAORDINARIA 22 DE ENERO 2007 OBJETIVOS OPERATIVOS 2007 II PLAN ESTRATÉGICO LÍNEA Nº 3.
1 c INSPECCIÓN CAMPAÑA DE DE REBAJAS DE INVIERNO 2011 Y CAMPAÑA GENERAL DE INSPECCIONES BALANCE DE LA.
Cuestiones y problemas
Fundamentos de Diseño de Software INFT.1
Rocío Isabel Ruiz Roman1 A BILINGUAL SCIENCE CLASS UNA CLASE DE CONOCIMIENTO DEL MEDIO BILINGÜE DE PRIMARIA.
Metodología de la Investigación Social
Septiembre METODOLOGÍA DE CREACIÓN DE CONTENIDOS PARA E-LEARNING.
Julio METODOLOGÍA DE CREACIÓN DE CONTENIDOS PARA E-LEARNING 1.Introducción 2.El material 3.Puntos destacados.
Las EOIs en el sistema educativo y su futuro
MUESTREO (NAGA´s) BOLETÍN 5020
CONSULTAS AL SISTEMA DE GESTIÓN DE ARCHIVO (AKS / SGA)
1 El comité de evaluación del dominio del idioma (LPAC)
ACADEMIA PARA PADRES Tema: Servicios de Tecnología
Jornada Solvencia II - Próximos Pasos 24 Noviembre 2005 Ángel Marín Responsable Comisión de Solvencia II - IAE Instituto de Actuarios Españoles Escuela.
La conservación y preservación de la documentación digital en las bibliotecas especializadas de la Generalidad de Cataluña Mid-Term Conference in Barcelona.
1 MEJORA DE UN ANALIZADOR AUTOMÁTICO DE ESTILOS PARA TEXTOS EN INGLÉS TÉCNICO: DESARROLLO DE LA AYUDA DE USUARIO. Madrid 2001Pilar Santamaría Rebollo.
MÉTODOS Y ELEMENTOS DE PROGRAMACIÓN
COMPETENCIAS PROFESIONALES DEL INGENIERO EN INFORMÁTICA
PROGRAMA MUNICIPAL DE BILINGUISMO
¿Cómo puede ayudarte Word 2007 crear y administrar documentos largos?

ATeDis Tecnologías de Apoyo y Ayudas Técnicas
Reporte de estadía para titulación de nivel Ingeniería
Reporte de estadía para titulación de nivel Técnico Superior Universitario Esquema general 29 de Noviembre de 2010.
Elementos del diseño Instruccional Ampliado
HIS, CIE 10, CERTIFICADO DE DEFUNCION
Metodología – Procesos Psicológicos Básicos Prof: Julio Santiago
ELEMENTOS DE UN ARTÍCULO
Presentado por: APESEG & Milliman, Inc.
BRECHA DIGITAL Y NUEVAS ALFABETIZACIONES: EL PAPEL DE LAS BIBLIOTECAS 25 al 29 de junio 2007 Brecha social, digital y … paradigmática.
NIVELES DE COMPETENCIA SEGÚN EL MARCO COMÚN EUROPEO
Portfolio Europeo de las Lenguas Electrónico e-PEL
7. Los materiales curriculares y otros recursos didácticos.
Colegio Oficial de Arquitectos Técnicos y Aparejadores
Investigación en acción
School’s Out Washington and Ready Washington
Carmen Georgeta Alexe Rocío García Pin
Estrategias de Búsqueda
LA ESTRUCTURA DE LA MEMORIA IMAS
Aspectos básicos de networking: Clase 5
Índice Definición del proyecto Descripción de la aplicación Metodología/herramientas empleadas Requerimientos formales Planificación Definición de actores.
1 ACREDITACIÓN DE CARRERAS DE GRADO CONEAU Comisión Nacional de Evaluación y Acreditación Universitaria MINISTERIO DE EDUCACION, CIENCIA Y TECNOLOGIA 5.
Recursos humanos y responsabilidad social corporativa
DIRECCIÓN GENERAL DE INVESTIGACIÓN E INFORMACIÓN AMBIENTAL - DGIIA
Guía de Implementación
Normas para la redacción de trabajos de investigación
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
Moodle es un entorno de aprendizaje que está basado en los principios pedagógicos constructivistas, con un diseño modular que hace fácil agregar contenidos.
7. LOS MATERIALES CURRICULARES Y OTROS RECURSOS DIDÁCTICOS.
"Guiar en la búsqueda de información en la Red". Este es uno de los principales objetivos de las WebQuest. Una actividad didáctica, basada en la educación.
Competencia en el uso del inglés para la realización del trabajo fin de grado: necesidades de innovación docente Nuria Calet, Cristina Dumitrache & José.
VI. EVALUACIÓN DE LOS RECURSOS
Búsqueda y elaboración de Webquest sobre Religión en la Web.
Fundamentos de Auditoria PRIMERA NORMA DE AUDITORIA RELATIVA AL TRABAJO.
Componentes de un proyecto
Transcripción de la presentación:

CEDEL2 Corpus Escrito del Español L2 http://www. uam. es/woslac/cedel2 Cristóbal Lozano Universidad de Granada AESLA, Universidad de Almería, 5 abril 2008

Estado de la cuestión Si bien el uso de grandes corpus está extendido entre los investigadores de adquisición de L1 desde hace varias décadas (CHILDES, McWhinney 2000), la existencia de corpus de L2 es escasa, excepto el corpus ICLE de L2 inglés (Granger et al. 2002a) y otros corpora no disponibles comercialmente. En el caso del español L2, aún no existe ningún corpus similar disponible. Debido al auge de estudios formales de adquisición del español L2 en los últimos años (Lafford & Salaberry 2003, Montrul 2004), CEDEL2 surge para dar respuesta a esta creciente necesidad investigadora. Por tanto, CEDEL2 aportará nuevos datos que ofrecerán nuevas respuestas a los investigadores.

CEDEL2 Corpus escrito del español L2 (datos provienen de redacciones) L1 inglés – L2 español Todos los niveles de competencia (principiante, intermedio, avanzado) según test estandarizado (Univ. of Wisconsin 1998). Datos recogidos electrónicamente online vía internet. CEDEL2 surge en seno de: Grupo de investigación WOSLAC (Word Order in Second Language Acquisition Corpora) – Amaya Mendikoetxea, Univ. Autónoma Madrid – véase: http://www.uam.es/woslac Chocano et al. 2007 Objetivo de WOSLAC: Papel de las interfaces en la adquisición del orden de palabras en L2 (véase Sorace 2005, 2006) Creación de 2 corpus para ver si los déficits del orden de palabras proceden de la L1 o son universales (interfaces): WRICLE (L1 español – L2 inglés) CEDEL2 (L1 inglés – L2 español)

Corpus de aprendices de español L2 Mayoría corpus de aprendices en inglés L2 ICLE: International Corpus of Learner English LLC: Longman Learner Corpus CLC: Cambridge Learner Corpus SULEC: Santiago University Learner Corpus Auge de ELE y de la investigación de español L2, especialmente en USA Lafford & Salaberry 2003, Montrul 2004, Pérez-Leroux & Liceras 2002 En este contexto surgen: CEDEL2 SPLLOC (Spanish Learner Language Oral Corpus) Universidad de Southampton (Mitchell et al. 2008) Corpus oral, L1 inglés-L2 español Formato CHAT, estará disponible en CHILDES Tareas orales semi-naturales y tareas controladas (elicitación de clíticos y órdenes de palabras). Sin test de nivel (clasificación en niveles según curso y edad)

Metodología de CEDEL2 Algunos corpus de aprendices: metodología ad hoc Se diseña el corpus para elicitar/recoger ciertas estructuras lingüísticas CEDEL2: metodología de diseño recomendada por especialistas (Sinclair 2005) diseño ha de estar guiado por nociones como representatividad, muestreo y equilibrio. Sinclair propone 10 principios de diseño:

Metodología: Principios de diseño PRINCIPIO 1: Contenido del corpus. Sinclair 2005:1: El contenido del corpus debe ser creado según criterios externos (la función comunicativa de los textos del corpus) y no criterios internos (los referidos a la lengua de los textos). CEDEL2: se emplearon criterios externos y NO se elicitaron determinadas estructuras (criterios internos) – ver principio 2.

PRINCIPIO 2. Representatividad. Sinclair 2005: 2: El corpus debe ser lo más representativo posible de la lengua de la que ha sido escogido. CEDEL2: para representar fielmente interlengua, aprendices pueden escoger 12 temas de redacción. Estos temas elicitan todo tipo de estructuras y todo tipo de tiempos verbales. Diversos grados de dificultad (de más fácil a más difícil) para representar competencia (de principiante a avanzado)

PRINCIPIO 3. Contraste. Sinclair 2005:3: Sólo aquellos componentes del corpus que han sido diseñados para ser contrastados independientemente, deben ser contrastados. CEDEL2 permite contrastar: Distintos niveles de IL: p. ej., intermedio vs. avanzado IL vs gramática nativa (CEDEL2 contiene subcorpus de hablantes nativos español).

PRINCIPIO 4. Criterios estructurales. Sinclair 2005:5: Los criterios para determinar la estructura de un corpus deben ser reducidos en número y claramente separables los unos de los otros. Este criterio es importante para los monitor corpora de decenas de millones de palabras (BNC, ICE, etc). CEDEL2: criterios estructurales: 3 niveles de competencia (principiante, intermedio, avanzado) 2 subcorpus (aprendices y nativos) Sólo lengua escrita PRINCIPIO 5. Etiquetado. Sinclair 2005:5: Cualquier información acerca del texto (aparte de la información alfanumérica: palabras y signos de puntuación) debería ser almacenada separadamente del texto puro para posteriormente ser fusionada con el texto si la aplicación informática lo requiere. CEDEL2: Nuestro etiquetador (UAM CorpusTool) almacena el texto etiquetado en un archivo independiente en formato XML.

PRINCIPIO 6. Muestra. Sinclair 2005:6-7: Las muestras de la lengua del corpus, al ser posible, deberían consistir en documentos o transcripciones de eventos del habla completos. Esto implica que las muestras diferirán en tamaño sustancialmente. Desde un punto de vista lingüístico, no existe motivo para que las muestras sean del mismo tamaño. Aunque ésta era la norma en los corpus antiguos y se ha perpetuado hasta ahora ... es difícil justificar la continuación de esta práctica. La integridad y la representatividad de los textos completos es más importante que la dificultad de conciliar textos de tamaños diferentes. CEDEL2: variabilidad en el tamaño de los textos Principiantes: textos relativamente cortos (desde un párrafo hasta varios cientos de palabras). Avanzados: generalmente textos más largos (hasta 500 palabras).

PRINCIPIO 7. Documentación. Sinclair (2005:8): El diseño y la composición de un corpus debería ser documetada detalladamente con información sobre los contenidos. Así, si se obtienen resultados “extraños” o “contra-intuitivos”, el investigador deberá comprobar si se deben a fallos en la estructura del corpus o de los textos. CEDEL2: se recoge amplia documentación sobre cada participante y sobre la redacción (como se verá más adelante). PRINCIPIO 8. Equilibrio. Sinclair 2005:9: El diseñador de corpus debe de tener como nociones meta la representatividad y el balance. Sinclair se refiere a que el corpus debe estar equilibrado en lo que se refiere a la procedencia de las muestras (lenguaje oral y escrito). CEDEL2: sólo lenguaje escrito -- es tan bueno como el oral para estudiar la interlengua (la idea de que el lenguaje escrito no es tan fidedigno como el oral procede de la Monitor Hypothesis, Krashen 1982 y se ha perpetuado).

PRINCIPIO 10. Homogeneidad. PRINCIPIO 9. Tema. Sinclair (2005: 10): Cualquier control en el tema del corpus debería ser regido por criterios externos y no criterios internos. CEDEL2: Como queda dicho (principios 1 y 2), los temas de redacción elegidos por los aprendices están sopesados para dar lugar a un lenguaje lo más representativo posible. PRINCIPIO 10. Homogeneidad. Sinclair 2005:14: El objetivo del corpus es alcanzar la homogeneidad de sus componentes y, al mismo tiempo, mantener una cobertura adecuada y evitar los textos atípicos (rogue texts). CEDEL2: Una vez finalizada la recogida de datos, se examinará cada texto para detectar posibles textos atípicos.

Recogida de datos Recogida de datos online: http://www.uam.es/woslac/start.htm Aprendices de español: 3 formularios: Historial educativo Test de nivel Redacción Nativos de español: 2 formularios

Learning background (historial educativo)

Placement test (test de nivel)

Composition (redacción)

Etiquetado de datos Etiquetador: UAM CorpusTool Desarrollado por Mick O’Donnell Disponible gratuitamente: http://www.wagsoft.com/CorpusTool Procedimiento de etiquetado: seleccionar un segmento de texto asignarle etiquetas previamente definidas por el lingüista mediante un esquema.

Datos actuales: Evolución

Datos actuales: Palabras por grupo

Datos actuales: Nº de participantes

Datos actuales: Procedencia

Datos: Llamamientos a la participación

Conclusión CEDEL2 es un corpus que se está confeccionando para dar respuesta a las crecientes necesidades de investigación en el ámbito de español L2. El corpus consta de cerca de 400.000 palabras y se espera alcance 1 millón al final del periodo de investigación. CEDEL2 estará disponible gratuitamente en Internet para ser utilizado como fuente de datos por los investigadores de español L2 y como fuente de ejemplos para profesionales de ELE y aprendices del español.

Referencias Corpus Escrito Del Español L2 (CEDEL2) < http://www.uam.es/woslac/cedel2.htm > [Fecha de la consulta: 19-02-2008] Chocano, G., Jiménez, R., Lozano, C., Mendikoetxea, A., Murcia, S., O’Donnell, M., Rollinson, P. y Teomiro, I. 2007. “An exploration into word order in learner corpora: The WOSLAC Project”. Eds. M. Davies, P. Rayson, S. Hunston, y P. Danielsson. Proceedings of the Corpus Linguistics Conference 2007. Birmingham: University of Birmingham. French Learner Language Oral Corpus (FLLOC). < http://www.flloc.soton.ac.uk > [Fecha de la consulta: 19-02-2008] Granger, S., Dagneaux, E., and Meunier, F. 2002. International Corpus of Learner English. Louvain: UCL Presses Universitaires de Louvain. Louvain Corpus Of Native English Essays (LOCNESS). < http://www.fltr.ucl.ac.be/fltr/germ/etan/cecl/Cecl-Projects/Icle/locness1.htm > [Fecha de la consulta: 19-02-2008] Lozano, C. en prensa. “Selective deficits at the syntax-discourse interface: Evidence from the CEDEL2 corpus”. Eds. Y.-I. Leung, N. Snape y M. Sharwood-Smith. Representational Deficits in SLA. Amsterdam: John Benjamins. Lozano, C. y Mendikoetxea, A. en prensa. “Postverbal subjects at the interfaces in Spanish and Italian learners of L2 English: a corpus análisis”. Eds. G. Gilquin, S. Papp y B. Díez. Linking up contrastive and corpus learner research. Amsterdam: Rodopi. Lozano, C. y Mendikoetxea, A. 2007. “Learner corpora and the acquisition of word order: A study of the production of Verb-Subject structures in L2 English”. Eds. M. Davies, P. Rayson, S. Hunston, y P. Danielsson. Proceedings of the Corpus Linguistics Conference 2007. Birmingham: University of Birmingham. Lüdeling, A., Kytoe, M., and McEnery, T. eds. 2008. Corpus Linguistics: An International Handbook. Berlin: Mouton de Gruyter. McEnery, T. Xiao, R., and Tono, Y. 2005. Corpus-based Language Studies: An Advanced Resource Book. London: Routledge. Mitchell, R., Domínguez, L., Arche, M., Myles, F., Marsden, E., enviado 2008. “SPLLOC: A new corpus for Spanish second language acquisition research”. EUROSLA Yearbook 8. Sinclair, J. 2005. “Corpus and text – Basic principles”. Ed. M. Wynne. Developoing Linguistic Copora: A guide to good practice. Oxford: Oxbow Books. Sorace, A. 2006. “Possible manifestations of shallow processing in advanced second language speakers”. Applied Psycholinguistics 27, 88-91. Sorace, A. 2005. “Selective optionality in language development”. Eds. L. Cornips y K. P. Corrigan. Syntax and variation: Reconciling the biological and the social. Amsterdam: John Benjamins. 55-80. Spanish Learner Language Oral Corpus (SPLLOC) [en línea] < http://www.splloc.soton.ac.uk > [Fecha de consulta: 19-02-2008] University of Wisconsin, 1998. The University of Wisconsin College-Level Placement Test: Spanish (Grammar) [Form 96M]. Madison, WI: University of Wisconsin Press. Word Order in Second Language Acquisition Corpora (WOSLAC), Universidad Autónoma de Madrid [en línea] < http://www.uam.es/woslac > [Fecha de consulta: 19-02-2008]