Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” de julio de 2000 Tratamiento de corpora bilingües Joseba Abaitua Universidad de Deusto
Tratamiento de corpora bilingües Joseba Abaitua Universidad de Deusto ÊLa lingüística de corpus ËTipos de corpora bilingües/traducciones ÌTécnicas de tratamiento ÍAnotaciones ºSegmentación y alineación »Aplicaciones ¼Plurilingüismo en Internet
Aplicaciones §Enseñanza de segundas lenguas §Didáctica de la traducción §Lexicografía y terminografía §Traducción automática §Edición plurilingüe §Internalización de productos §Búsquedas translingüísticas §Internet
La lingüística de corpus §Introducciones: McEnery y Wilson 1996, Pérez Guerra 1998 §Estructuralismo, descripción gramatical (Fries 1952, Quirk y otros 1985) §Generativismo (1960): intuiciones frente a datos, críticas de Birdsong 1989, LC §Consorcios internacionales para la creación de corpora (1980/90)
Problemas de los formalismos gramaticales derivados del generativismo (ATN, DCG, LFG, GPSG, HPSG...) §Aplicaciones reales requieren gramáticas complejas (> reglas) §Redundancia §Explosión combinatoria (alternativas, ambigüedad) §Incongruencias, contradicciones §Alto coste de desarrollo, transportabilidad y mantenimiento
Consorcios internacionales para la creación de corpora §EEUU l Data Collection Initiative (ACL/DCI) l Linguistic Data Consortium (LCD) l Consortium for Lexical Research (CLR) §Europa l ELRA
Tipos de corpus §Corpus oral, sonidos sin transliteración §Corpus de lengua hablada, transliteraciones de textos grabados §Corpus de lengua escrita, de cualquier modalidad l Corpus especializado: Hansard, Aarhus l Corpus de referencia: BNC (90%-10%), CREA
Propiedades de un corpus de referencia §Representatividad (Atkins, Clear y Ostler 1992) §Cobertura amplia (registros, estilos, géneros, modos...) §Aspectos relevantes de una lengua §Criterios de categorización (Biber y Finegan 1986, Nakamura 1991) l Género: función pragmática (novela, ensayo, manual, formulario...) l Tipo: aspectos cuantitativos (longitud de oraciones, densidad léxica, frecuencias...)
Representatividad según “géneros”
Compilación de corpora en España §Castellano: RAE (CREA, CORDE -125 k.); VOX (10 k.), SGEL (8 k.), SM (0,8 k.) §Catalán: IEC, IULA §Euskara: Euskaltzaindia, UZEI, IXA, Deusto §Gallego: Academia da Lingua (?)
Compilación de corpora bilingüe? §Castellano: RAE (CREA, CORDE -125 k.); VOX (10 k.), SGEL (8 k.), SM (0,8 k.) §Catalán: IEC, IULA §Euskara: Euskaltzaindia, UZEI, IXA, Deusto §Gallego
Tipos de corpora bi/multilingües §Corpora de textos en distintos idiomas (ECI/MCI) §Corpora comparables Baker 1995, textos que sin ser traducciones comparten similar temática, tamaño, extensión y origen §Corpora paralelos “misma” colección de textos en más de una lengua, generalmente son traducciones
Contribución de los “traductólogos” §Equivalencia (Nord 1994) §Función (Rabadán 1994) §Status de la traducción (Sager 1993)
Distintas dimensiones de “equivalencia” (Nord 1994) §Semántica (contenido, significado) §Estilística (forma) §Pragmática (función, efecto comunicativo)
Función de la traducción (Rabadán 1994) §Presentación de contenido, argumento, relato §Introducción de elementos culturales, tecnológicos §Innovación literaria, desarrollo lingüístico (Garcilaso, Lutero) §Emulación del autor original (Borges, Ezra Pound) §Recreación de obras originales (Shakespeare, Fitzgerald Rubáiyat) §Promoción de ideología (Macbeth de Garneau 1978)
Status de la traducción (Sager 1993) §Tipo A: Tr. autónomas, que sustituyen a los originales (novelas de Julio Verne) §Tipo B: Tr. que complementan al original, a modo de glosa (ediciones bilingües de obras literarias) §Tipo C: Tr. simétricas, canónicas (traducciones de Atxaga, Gimferrer, Hansard, Biblia del Rey Jacobo, etc.)
Our Father, who art in heaven, hallowed be thy name; thy kingdom come; thy will be done; on earth as it is in heaven. Give us this day our daily bread. And forgive us our trespasses, as we forgive those who trespass against us. And lead us not into temptation; but deliver us from evil. For thine is the kingdom, the power and the glory, for ever and ever. Amen.
Corpora bi/multilingües §Hansard (actas parlamento candiense, EN, FR) §Aarhus (derecho contractual europeo, EN, FR, DA) §China News Service (CH, EN) Xu y Tau 1999, Fung 1995 §NACSIS- National Center for Science Information Systems (JP, EN) Kando y Aizawa 1998 § IULA (FR, EN, DE, ES, CA) § BOB o Legebiduna (EU, ES) Martínez 1998
Tratamiento (1/10) §Texto “puro” (ASCII): estudios cuantitativos l listas de formas, frecuencias, colocaciones, concordancias l filología (verificación de autoría), ling. cuantitativa, ling. diacrónica, dialectología, sociolingüísitica... l Laviosa 1998 obtiene perfiles de traductores l Stubbs 1996 “lista nuclear” (list head), palabras más frecuentes §Texto anotado: explicitación de la información
Tratamiento: anotaciones: máximas de Leech 1993 §1.Facilitar la eliminación de las anotaciones, de forma que sea posible recuperar la versión original de los textos. §2.Permitir la extracción de las anotaciones por sí mismas, de manera que puedan constituir una base de conocimientos autónoma, independiente del texto al que se deben. §3.Distribuir las normas en las que se basan las anotaciones para que los usuarios finales puedan interpretarlas sin dificultad. §4.Indicar el procedimiento por el que se introdujeron las anotaciones en los textos y las personas responsables del proceso. §5.Alertar sobre la posibilidad de que el corpus anotado contenga errores. La anotación de un corpus es un acto de interpretación de estructuras y de contenidos y no es infalible. §6.Permitir la más amplia funcionalidad y reutilización del corpus acudiendo a propuestas con mayor aceptación y neutras en lo posible respecto a formalismos o teorías gramaticales concretas. §7.Admitir la existencia de otras normas y estándares de anotación.
7ª máxima de Leech 1993: “Admitir la existencia de otras normas y estándares de anotación” §TEI-P3 (SGML), ACL, ACH, MLA l BCN, CREA... l EAGLES l PAROLE l MULTEXT l CES l CRATER
Tipos de anotaciones §Información extralingüística (cabecera) l registro de lengua, fecha(s), autor, editor, transcriptor, género, status, función, etc. §Cuestiones tipografémicas l ASCII 256 c., ISO (ISO-Latin) l JUNET l ISO (UCS, UNICODE c.) § Información lingüística
Información lingüística Anotaciones estructurales Anotaciones morfosintácticas Lematización Análisis sintáctico, (semántico) Anotaciones orientadas a la tarea Códigos de correspondencia
Lematización y etiquetado POS
Alineación (Martínez 1999) 1. Enfoque estadístico: similitud de algunos rasgos cuantitativos en el corpus, como la longitud de oraciones, el número de palabras o de caracteres, etc. (Brown y otros 1991, Gale y Church 1991). 2. Enfoque lingüístico: emparejamiento previo de unidades sintagmáticas o de estructuras dependenciales (Sadler 1991, Kaji y otros 1992, Matsumoto y otros 1993). 3. Enfoque mixto: método que aprovecha la identificación de categorías gramaticales como apoyo para la alineación estadística (Chen 1993).
Aplicaciones §Enseñanza de segundas lenguas (International Corpus of Learner English, ICLE) §Didáctica de la traducción (Baker...) §Lexicografía y terminografía §Traducción automática §Edición plurilingüe (MultiMétéo, TREE, GIST) §Internalización de productos §Búsquedas translingüísticas §Internet
Traducción automática §Métodos simbólicos (RBMT) l directa, transferencia, interlingüe (KBMT) §Métodos analógicos (ABMT) l Probabilidades Weawer 1949, Brown 1990 (Watson Center de IBM) l Basado en ejemplos (EBMT), Nagao 1984 l Memorias de traducción Déjà Vu, TW, Transit, SDLX
Internet plurilingüe
Itzulpenak mekanizatzeko, zein sistema hobe? Joseba Abaitua, D eustuko Unibertsitatea ÊZER itzuli nahi dugu? ËZERTARAKO? ÌNOIZKO? ÍZENBAT etan? º-NORK »-NOLA
ZER itzuli nahi dugun? §Testuen sailkapena l tipoa (Biber y Finegan 1986, Nakamura 1991) esaldien luzapena, dentsitate lexikoa, estiloa... l generoa foru aginduak, eguraldiko berriak, olerkiak... l modua ahozkoa (1, 2 orality) idatzizkoa elektronikoa (HTML, XML, PDF, PPT) l helburuak...
ZERTARAKO? §Informazioa eskuragatik? §Behin behingo testu/erreferentziak sortzeko? §Argitaratzeko? l hitzaldi baterako, mintzoa sustatzeko, eztabaida sortarazteko... l ahoz kontatua izateko l irakurria izateko l WWWen, softwaren barruan, produkturen dok. l paperean, inprentan, CD-ROM...
NORK eta NOLA §Term extraction and substitution §Machine Translation (MT) l SYSTRAN, LOGOS, METAL... §Translation Memories l Déjà Vu (Atril/Ampersan) l TW (Trados) l Transit (Star) l SDLX (SDL)
Translation Memories §Abantailak l Kalitatezko itzulpenak (giza-itzultzaileak eginak eta balidatuak) l TMX §Desabantailak testu kanonikoak, itxiak (bakarrik) itzulpen partzialak (testu - zatiak)
Our Father, who art in heaven, hallowed be thy name; thy kingdom come; thy will be done; on earth as it is in heaven. Give us this day our daily bread. And forgive us our trespasses, as we forgive those who trespass against us. And lead us not into temptation; but deliver us from evil. For thine is the kingdom, the power and the glory, for ever and ever. Amen.
Tipos de anotaciones §Información extralingüística (cabecera) l registro de lengua, fecha(s), autor, editor, transcriptor, género, status, función, etc. §Cuestiones tipografémicas l ASCII 256 c., ISO (ISO-Latin) l JUNET l ISO (UCS, UNICODE c.) § Información lingüística
Etiquetado de i. lingüística Segmentación Anotaciones estructurales Anotaciones morfosintácticas Lematización Análisis sintáctico, (semántico) Anotaciones orientadas a la tarea Alineación
Lematización y etiquetado POS
Alineación (Martínez 1999) 1. Enfoque estadístico: similitud de algunos rasgos cuantitativos en el corpus, como la longitud de oraciones, el número de palabras o de caracteres, etc. (Brown y otros 1991, Gale y Church 1991). 2. Enfoque lingüístico: emparejamiento previo de unidades sintagmáticas o de estructuras dependenciales (Sadler 1991, Kaji y otros 1992, Matsumoto y otros 1993). 3. Enfoque mixto: método que aprovecha la identificación de categorías gramaticales como apoyo para la alineación estadística (Chen 1993).