Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” 17-21 de julio de 2000 Tratamiento de corpora bilingües Joseba.

Slides:



Advertisements
Presentaciones similares
La enseñanza de la Gramática
Advertisements

LINGÜÍSTICA FUNCIONAL
¿Qué se traduce? ¿Cómo se traduce? MODALIDADES DE TRADUCCIÓN…
Lengua Castellana y Literatura 1º de Bachillerato
EL LENGUAJE.
TERMINOLOGÍA EN ESPAÑOL
7. LA TRADUCCIÓN Y LA TERMINOLOGÍA
TERMINOLOGÍA EN ESPAÑOL
TERMINOLOGÍA EN ESPAÑOL
5. LA TERMINOGRAFÍA: FUNDAMENTOS, MATERIALES Y METODOLOGÍA
Lenguaje Lic. Carlos Marenales
¿Cómo hacer para que una máquina comprenda el LN?
Instituto Carlos Gracida Lengua extranjera (Inglés) Nivel Intermedio
LENGUA A CRITERIOS DE EVALUACIÓN PAI
Ramas de la Lingüística
Memorias de traducción… To be or not to be Trad. Públ. Gabriela González II JORNADAS DEL TRADUCTORADO DE INGLÉS MDPCC-UCAECE 10 y.
© Manuel ColladoHerramientas software-1 Herramientas software Clasificación. Integración de herramientas.
DISCIPLINAS DE LA LINGUISTICA
La traducción automática y la traducción asistida. ¿Qué nos depara el futuro? Joseba Abaitua Grupo DELi Universidad de Deusto.
LINEAS DE INVESTIGACIÓN
Introducción al desarrollo de proyectos RIA.
El análisis y recuperación de información
TRADUCTOR DE UN PROGRAMA
Universidad de Deusto : X-Bi Antecedentes –1993 LEGEBiDUNA ( UD ) –1996 UZTURRE ( AURTEN-BAI, UD, IVAP, IBERMATICA ) –1999 (marzo-) octubre XML-Bi –diciembre.
TÉCNICAS DE DECONSTRUCCIÓN APLICADAS A LAS TECNOLOGÍAS DEL LENGUAJE HUMANO TIN Octubre 2014: Informe Evaluación de resúmenes Grupo de Procesamiento.
Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones.
CONSECUENCIAS DE LA OPCIÓN METODOLÓGICA EN LA PROGRAMACIÓN Y LA EVALUACIÓN Elena Rodríguez Halffter 27 de octubre de 2006 Palma de Mallorca.
LENGUA ESPAÑOLA Introducción.
ACIDE A C onfigurable I ntegrated D evelopment E nvironment (Un entorno integrado de desarrollo configurable)
Los corpus lingüísticos y la industria del lenguaje
Recursos generales del traductor Bianca Vitalaru Universidad de Alcalá
Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de.
1. Características del lenguaje
LA RELEVANCIA DE LOS COMPONENTES PRAGMÁTICOS: SITUACIÓN, CONTEXTO, ETC. Saussure: Inmanentismo: estudiar la lengua en sí misma y por sí misma. Atender.
Aportación de las TIC al plurilingüismo: el ejemplo de FonAtari Ana Elejabeitia – Alexander Iribar – Rosa Miren Pagola (2004) Fonetika Laborategia Deustuko.
Los Enfoques de la Traducción
MULTILINGÜÍSMO, PLURILINGÜÍSMO Y CONCIENCIA METALINGÜÍSTICA
Lengua castellana y literatura. 2º ESO. Antonio Rojo Ruiz.
La lengua oral en la enseñanza secundaria -Dolores Abascal
TEMA 2 Parte A Corpus lingüísticos: tipología y anotación automática Pablo Gamallo Otero
Introducción al PLN 2 Lingüística Computacional vs Tratamiento del Lenguaje Natural (Tratamiento de la Lengua). Disciplinas afines Lingüística Inteligencia.
LA ENSEÑANZA FUNCIONAL DE LA LENGUA
Padre Nuestro En el nombre del Padre, del Hijo y del Espiritú Santo.
Translation Be not troubled, be not frightened. Those who seek God, shall never go wanting. Be not troubled, be not frightened. God alone fulfills our.
RECOMENDACIONES PARA EL ANÁLISIS DE LOS RESULTADOS
TICAT Traducción asistida Tecnologías de la Información y de las Comunicaciones aplicadas a la Traducción.
INFORMATICA VII (Programación e implementación de sistemas)
Por otra ruta en traducción automática Joseba Abaitua Grupo DELi Universidad de Deusto.
Programa de Lenguaje y Comunicación NB3, 5to Año Básico.

La teoría de la traducción la lingüística aplicada la lingüística contrastiva : enlaces.
Alineación de textos paralelos
LE, EI, Profesor Ramón Castro Liceaga UNIVERSIDAD LATINA (UNILA) TRADUCTORES Y ANALIZADOR LEXICOGRÁFICO.
Elaboración automática de resúmenes Nahiko Arraiza Eguillor 17-V-2006.
EL ANALISIS DE CONTENIDO
El Rezo Del Señor.
Comunicación y lenguaje II: Empleamos el idioma como instrumento de comunicación 1.
C ONCEPTOS GENERALES DE LA LINGÜÍSTICA COMPUTACIONAL Ana María Tangarife Patiño.
Lingüística computacional unidad 2. lexicones y corpus
LENGUA Y LITERATURA Curso
Haz lo siguiente: (Do the following) 1. Take out your notes on prayers 2. Identify familiar words or cognates 3. Underline with pencil ONLY the words you.
¿Qué es la sociolingüística?
RUTAS DEL APRENDIZAJE.
Hay muchas circunstancias que favorecen este concepto, los cuales son la expansión de la telefonía, la tv, el internet, la migración entre comunidades,
¿Cómo te llamas? Me llamo... Cosas de la Clase. Greeting Adults in our Classroom Buenas tardes, clase. Dios les bendiga. Buenas tardes, Señorita. Dios.
Tema 1. Empleamos el idioma como instrumento de comunicación.
1 MÁS QUE PALABRAS. 2 Más que palabras ¿Qué han de aprender a manipular mentalmente los niños para ser competentes gramaticalmente hablando?
Alineación de textos Unidad 4 Taller de herramientas para la traducción Traductorado Público en idioma inglés Facultad de Lenguas Universidad Nacional.
Análisis de fenómenos de fusión en los niveles de la arquitectura gramatical. Sevilla, mayo de 2007.
2. Identify familiar words or cognates
Transcripción de la presentación:

Fundación Duques de Soria “La ingeniería lingüística en la sociedad de la información” de julio de 2000 Tratamiento de corpora bilingües Joseba Abaitua Universidad de Deusto

Tratamiento de corpora bilingües Joseba Abaitua Universidad de Deusto ÊLa lingüística de corpus ËTipos de corpora bilingües/traducciones ÌTécnicas de tratamiento ÍAnotaciones ºSegmentación y alineación »Aplicaciones ¼Plurilingüismo en Internet

Aplicaciones §Enseñanza de segundas lenguas §Didáctica de la traducción §Lexicografía y terminografía §Traducción automática §Edición plurilingüe §Internalización de productos §Búsquedas translingüísticas §Internet

La lingüística de corpus §Introducciones: McEnery y Wilson 1996, Pérez Guerra 1998 §Estructuralismo, descripción gramatical (Fries 1952, Quirk y otros 1985) §Generativismo (1960): intuiciones frente a datos, críticas de Birdsong 1989, LC §Consorcios internacionales para la creación de corpora (1980/90)

Problemas de los formalismos gramaticales derivados del generativismo (ATN, DCG, LFG, GPSG, HPSG...) §Aplicaciones reales requieren gramáticas complejas (> reglas) §Redundancia §Explosión combinatoria (alternativas, ambigüedad) §Incongruencias, contradicciones §Alto coste de desarrollo, transportabilidad y mantenimiento

Consorcios internacionales para la creación de corpora §EEUU l Data Collection Initiative (ACL/DCI) l Linguistic Data Consortium (LCD) l Consortium for Lexical Research (CLR) §Europa l ELRA

Tipos de corpus §Corpus oral, sonidos sin transliteración §Corpus de lengua hablada, transliteraciones de textos grabados §Corpus de lengua escrita, de cualquier modalidad l Corpus especializado: Hansard, Aarhus l Corpus de referencia: BNC (90%-10%), CREA

Propiedades de un corpus de referencia §Representatividad (Atkins, Clear y Ostler 1992) §Cobertura amplia (registros, estilos, géneros, modos...) §Aspectos relevantes de una lengua §Criterios de categorización (Biber y Finegan 1986, Nakamura 1991) l Género: función pragmática (novela, ensayo, manual, formulario...) l Tipo: aspectos cuantitativos (longitud de oraciones, densidad léxica, frecuencias...)

Representatividad según “géneros”

Compilación de corpora en España §Castellano: RAE (CREA, CORDE -125 k.); VOX (10 k.), SGEL (8 k.), SM (0,8 k.) §Catalán: IEC, IULA §Euskara: Euskaltzaindia, UZEI, IXA, Deusto §Gallego: Academia da Lingua (?)

Compilación de corpora bilingüe? §Castellano: RAE (CREA, CORDE -125 k.); VOX (10 k.), SGEL (8 k.), SM (0,8 k.) §Catalán: IEC, IULA §Euskara: Euskaltzaindia, UZEI, IXA, Deusto §Gallego

Tipos de corpora bi/multilingües §Corpora de textos en distintos idiomas (ECI/MCI) §Corpora comparables Baker 1995, textos que sin ser traducciones comparten similar temática, tamaño, extensión y origen §Corpora paralelos “misma” colección de textos en más de una lengua, generalmente son traducciones

Contribución de los “traductólogos” §Equivalencia (Nord 1994) §Función (Rabadán 1994) §Status de la traducción (Sager 1993)

Distintas dimensiones de “equivalencia” (Nord 1994) §Semántica (contenido, significado) §Estilística (forma) §Pragmática (función, efecto comunicativo)

Función de la traducción (Rabadán 1994) §Presentación de contenido, argumento, relato §Introducción de elementos culturales, tecnológicos §Innovación literaria, desarrollo lingüístico (Garcilaso, Lutero) §Emulación del autor original (Borges, Ezra Pound) §Recreación de obras originales (Shakespeare, Fitzgerald Rubáiyat) §Promoción de ideología (Macbeth de Garneau 1978)

Status de la traducción (Sager 1993) §Tipo A: Tr. autónomas, que sustituyen a los originales (novelas de Julio Verne) §Tipo B: Tr. que complementan al original, a modo de glosa (ediciones bilingües de obras literarias) §Tipo C: Tr. simétricas, canónicas (traducciones de Atxaga, Gimferrer, Hansard, Biblia del Rey Jacobo, etc.)

Our Father, who art in heaven, hallowed be thy name; thy kingdom come; thy will be done; on earth as it is in heaven. Give us this day our daily bread. And forgive us our trespasses, as we forgive those who trespass against us. And lead us not into temptation; but deliver us from evil. For thine is the kingdom, the power and the glory, for ever and ever. Amen.

Corpora bi/multilingües §Hansard (actas parlamento candiense, EN, FR) §Aarhus (derecho contractual europeo, EN, FR, DA) §China News Service (CH, EN) Xu y Tau 1999, Fung 1995 §NACSIS- National Center for Science Information Systems (JP, EN) Kando y Aizawa 1998 § IULA (FR, EN, DE, ES, CA) § BOB o Legebiduna (EU, ES) Martínez 1998

Tratamiento (1/10) §Texto “puro” (ASCII): estudios cuantitativos l listas de formas, frecuencias, colocaciones, concordancias l filología (verificación de autoría), ling. cuantitativa, ling. diacrónica, dialectología, sociolingüísitica... l Laviosa 1998 obtiene perfiles de traductores l Stubbs 1996 “lista nuclear” (list head), palabras más frecuentes §Texto anotado: explicitación de la información

Tratamiento: anotaciones: máximas de Leech 1993 §1.Facilitar la eliminación de las anotaciones, de forma que sea posible recuperar la versión original de los textos. §2.Permitir la extracción de las anotaciones por sí mismas, de manera que puedan constituir una base de conocimientos autónoma, independiente del texto al que se deben. §3.Distribuir las normas en las que se basan las anotaciones para que los usuarios finales puedan interpretarlas sin dificultad. §4.Indicar el procedimiento por el que se introdujeron las anotaciones en los textos y las personas responsables del proceso. §5.Alertar sobre la posibilidad de que el corpus anotado contenga errores. La anotación de un corpus es un acto de interpretación de estructuras y de contenidos y no es infalible. §6.Permitir la más amplia funcionalidad y reutilización del corpus acudiendo a propuestas con mayor aceptación y neutras en lo posible respecto a formalismos o teorías gramaticales concretas. §7.Admitir la existencia de otras normas y estándares de anotación.

7ª máxima de Leech 1993: “Admitir la existencia de otras normas y estándares de anotación” §TEI-P3 (SGML), ACL, ACH, MLA l BCN, CREA... l EAGLES l PAROLE l MULTEXT l CES l CRATER

Tipos de anotaciones §Información extralingüística (cabecera) l registro de lengua, fecha(s), autor, editor, transcriptor, género, status, función, etc. §Cuestiones tipografémicas l ASCII 256 c., ISO (ISO-Latin) l JUNET l ISO (UCS, UNICODE c.) § Información lingüística

Información lingüística  Anotaciones estructurales  Anotaciones morfosintácticas  Lematización  Análisis sintáctico, (semántico)  Anotaciones orientadas a la tarea  Códigos de correspondencia

Lematización y etiquetado POS

Alineación (Martínez 1999) 1. Enfoque estadístico: similitud de algunos rasgos cuantitativos en el corpus, como la longitud de oraciones, el número de palabras o de caracteres, etc. (Brown y otros 1991, Gale y Church 1991). 2. Enfoque lingüístico: emparejamiento previo de unidades sintagmáticas o de estructuras dependenciales (Sadler 1991, Kaji y otros 1992, Matsumoto y otros 1993). 3. Enfoque mixto: método que aprovecha la identificación de categorías gramaticales como apoyo para la alineación estadística (Chen 1993).

Aplicaciones §Enseñanza de segundas lenguas (International Corpus of Learner English, ICLE) §Didáctica de la traducción (Baker...) §Lexicografía y terminografía §Traducción automática §Edición plurilingüe (MultiMétéo, TREE, GIST) §Internalización de productos §Búsquedas translingüísticas §Internet

Traducción automática §Métodos simbólicos (RBMT) l directa, transferencia, interlingüe (KBMT) §Métodos analógicos (ABMT) l Probabilidades Weawer 1949, Brown 1990 (Watson Center de IBM) l Basado en ejemplos (EBMT), Nagao 1984 l Memorias de traducción Déjà Vu, TW, Transit, SDLX

Internet plurilingüe

Itzulpenak mekanizatzeko, zein sistema hobe? Joseba Abaitua, D eustuko Unibertsitatea ÊZER itzuli nahi dugu? ËZERTARAKO? ÌNOIZKO? ÍZENBAT €etan? º-NORK »-NOLA

ZER itzuli nahi dugun? §Testuen sailkapena l tipoa (Biber y Finegan 1986, Nakamura 1991) esaldien luzapena, dentsitate lexikoa, estiloa... l generoa foru aginduak, eguraldiko berriak, olerkiak... l modua ahozkoa (1, 2 orality) idatzizkoa elektronikoa (HTML, XML, PDF, PPT) l helburuak...

ZERTARAKO? §Informazioa eskuragatik? §Behin behingo testu/erreferentziak sortzeko? §Argitaratzeko? l hitzaldi baterako, mintzoa sustatzeko, eztabaida sortarazteko... l ahoz kontatua izateko l irakurria izateko l WWWen, softwaren barruan, produkturen dok. l paperean, inprentan, CD-ROM...

NORK eta NOLA §Term extraction and substitution §Machine Translation (MT) l SYSTRAN, LOGOS, METAL... §Translation Memories l Déjà Vu (Atril/Ampersan) l TW (Trados) l Transit (Star) l SDLX (SDL)

Translation Memories §Abantailak l Kalitatezko itzulpenak (giza-itzultzaileak eginak eta balidatuak) l TMX §Desabantailak testu kanonikoak, itxiak (bakarrik) itzulpen partzialak (testu - zatiak)

Our Father, who art in heaven, hallowed be thy name; thy kingdom come; thy will be done; on earth as it is in heaven. Give us this day our daily bread. And forgive us our trespasses, as we forgive those who trespass against us. And lead us not into temptation; but deliver us from evil. For thine is the kingdom, the power and the glory, for ever and ever. Amen.

Tipos de anotaciones §Información extralingüística (cabecera) l registro de lengua, fecha(s), autor, editor, transcriptor, género, status, función, etc. §Cuestiones tipografémicas l ASCII 256 c., ISO (ISO-Latin) l JUNET l ISO (UCS, UNICODE c.) § Información lingüística

Etiquetado de i. lingüística  Segmentación  Anotaciones estructurales  Anotaciones morfosintácticas  Lematización  Análisis sintáctico, (semántico)  Anotaciones orientadas a la tarea  Alineación

Lematización y etiquetado POS

Alineación (Martínez 1999) 1. Enfoque estadístico: similitud de algunos rasgos cuantitativos en el corpus, como la longitud de oraciones, el número de palabras o de caracteres, etc. (Brown y otros 1991, Gale y Church 1991). 2. Enfoque lingüístico: emparejamiento previo de unidades sintagmáticas o de estructuras dependenciales (Sadler 1991, Kaji y otros 1992, Matsumoto y otros 1993). 3. Enfoque mixto: método que aprovecha la identificación de categorías gramaticales como apoyo para la alineación estadística (Chen 1993).