Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad.

Slides:



Advertisements
Presentaciones similares
Escribir aquí el título de la WQ
Advertisements

Publicaciones científicas apoyadas con tecnologías de información Jorge Walters Gastelu Marzo de 2004 Santiago, Chile.
¿Cómo puede ayudarte Word 2007 crear y administrar documentos largos?
Conjunto de información almacenado en memoria auxiliar Permiten acceso directo a programas que las manipulan Es un sistema de archivos electrónicos.
Control en cascada.
Gestión Editorial usando OJS (Open Journal Systems) en Redalyc
MAIRA LUCIA ORTIZ CAMILO ORTEGON DIAZ CRISTIAN CAMILO VARGAS
Universidad de Deusto : X-Bi Antecedentes –1993 LEGEBiDUNA ( UD ) –1996 UZTURRE ( AURTEN-BAI, UD, IVAP, IBERMATICA ) –1999 (marzo-) octubre XML-Bi –diciembre.
Sistema Gestión Gubernativa
Programa de formación Criterios de evaluación de revistas vs. bases de datos Carlos Agudelo Instituto de Salud Pública Colombia Publindex (Colombia) y.
SOCIEDAD PARA EL DESARROLLO REGIONAL DE CANTABRIA (SODERCAN) Knowledge Management tools Knowledge management tools.
Diseño de una base de datos Zavaleta Nolasco Karina
Recursos generales del traductor Bianca Vitalaru Universidad de Alcalá
de septiembre.  ¿Qué hora es? La participación #1 = dibuja una FLOR GRAN DE 3. 4.
¡Hola! ¡Buenos días! ¡Bienvenidos! Please find your class number on the class paper that is taped to the board and then look for your seat.
Siéntate con un compañero nuevo. Circle paper This is Spanish practice at home. When you can do a circle, have a parent/guardian sign it off. We have done.
Time Expression with Hacer Grammar Essential #106.
Misión 1: Investigamos a nuestro alrededor Queremos invitar a todo el mundo a participar en el huerto del cole y hemos hecho una foto desde el aire.
UML 2.0 Integrantes: Diana Carolina Valencia M. Jhon Fernando Lopez T. Carlos Alberto Castillo.
MORE CONVERSATION TOOLS
The verb “ser” To be.
Hoy es martes. La fecha es el 4 de febrero LA PREGUNTA: Translate We practice basketball in gym class. Carlos and Carlota skateboard. Manuel and I sing.
Leading in Learning – Spanish Collective Memory. Plenary 1 Did you know any of the words already? If so, which? Why are the colours significant do you.
HAZLO AHORA DAY # 43 Pick up handout Please have your homework out- I am going to come around and collect it Copy, Translate in english and then answer.
Moodle es un entorno de aprendizaje que está basado en los principios pedagógicos constructivistas, con un diseño modular que hace fácil agregar contenidos.
Recursos en la UCM y principales plataformas en uso Novedades en los catálogos complutenses: Cisne, Compludoc, Complured y la plataforma de revistas electrónicas.
Agenda del día 1.(~10 minutos?) Anuncios, sillas asignadas, (repartir las copias de Más práctica en algunas clases), etc. 2.(10-15 minutos) La práctica.
ALC #7 Do the math problems and write the answer in Spanish.
Nombre de equipo: abaddon Camilo ramos rojas Grupo :6 Pista # 2 Traductor y motor de búsqueda : google Miércoles 1 de septiembre 2010 Pagina de respuesta.
Introducción a EducaMadrid
Using e-technology in production, proofing and printing, and in marketing and promotion Jorge Walters Gastelu Metodologías y Tecnologías de Información.
Mi dormitorio My bedroom
Nina Jackson, Presenter.  IMSCI is research based writing instruction.  IMSCI uses the gradual release of responsibility model to teach writing.  Scaffolds.
ALC 49 Haga el gráfico YoNosotros/as TúVosotros Usted Él Ella Ustedes Ellos Ellas.
Evaluación interna Nivel superior (NS)
¿Qué haces en la escuela? Question words, objects, yo-go’s.
ALC 47 Hoy es jueves el 30 de enero, Unscramble the letters to make words. If necessary use your vocabulary list for help. 1.seaprd 2.usaebol 3.socamat.
Alineación de textos paralelos
WALT: RECOGNISE KEY VOCABULARY FOR SCHOOL SUBJECTS AND LINKING WORDS WILF: TO BE ABLE TO RECOGNISE AND SPELL ACCURATELY AT LEAST 12 KEY WORDS FOR GRADE.
Configurando el cuaderno (Setting up your notebook) 1.Get out the composition book or spiral for your Spanish notebook. 2.Write your name and the subject.
Unified Modeling Language ™ (UML ®) es un lenguaje visual para especificar, construir y documentar los artefactos de los sistemas. Complex software.
Configurando el cuaderno (Setting up your notebook) 1.Get out the composition book or spiral for your Spanish notebook. 2.Write your name and the subject.
Hoy es lunes, el nueve de septiembre
Aurora Tapia, Stephanie Infante, Carmen Pérez. -Página web de fácil actualización (unipersonales o grupales) -Son como un diario personal o bitácora de.
Introducción a EducaMadrid Francisca García Bernal.
AFM – Web File Manager Versión 5. Novedades técnicas – Forma de Implementación Siguiendo última tecnología de Microsoft: Framework.NET 3.5 Implementación.
ALC # 13 Hoy es jueves el 26 de septiembre. Traducir las frases. Write in English. 1.¿Cuándo es tu cumpleaños? 2.Mi cumpleaños es________ (write the date.
Capítulo 3, Paso 1. Cómo decir la hora  ¿Qué hora es?  When you ask the time, you’re using the verb ser, in the 3 rd person SINGULAR. Ser soy I somos.
¡Hola, buenas tardes! Please write your desk number on your disclosure paper to the left of the large C. Place the paper on the correct color, on the table,
JUEVES, EL 10 DE SEPTIEMBRE LT: I WILL RECOGNIZE SOME NEW VOCABULARY WORDS. Go over tests & retake procedures Interpretive Assessment: numbers & alphabet.
 “La persistencia de la memoria” (1931), Salvador Dalí.
ALC 49 Responde a las preguntas Hoy es lunes el 30 de enero ¿Cómo estás? 2.¿Dónde estás? 3.¿Qué estás haciendo? 4.¿De dónde eres? 5.¿Cómo eres?
Overclipping It’s very important as a trader that you understand your clip size and what positions this allows you to have. In addition it will help you.
Science Fair 2015 Feria de la Ciencia. Monday, April 20 th Night showing: 5- 7pm.
ALC 76 Cambio de la rutina. Asignación y después ALC 76.
UD4 – 2ª Parte SEO y Comunicación Audiovisual Lluís Codina Área de Ciencias de la Documentación. Facultad de Comunicación. UPF 2015.
Marco de Trabajo para Indexación, Clasificación y Recopilación Automática de Documentos Digitales Javier Caicedo Espinoza Gonzalo Parra Chico.
¡Hola, buenos días! Bienvenidos a la clase de español. 1.Sit by person with whom you are not familiar. 2.Fill out the cream colored paper with your Gmail.
ALC 7 Viernes el 9 de septiembre. ALC 7 Emparejar: Use your map to help match Venezuela Colombia Ecuador Perú Bolivia Paraguay Chile Argentina Uruguay.
PRÁCTICA TRADOS Memorias de traducción. Objetivo El objetivo de esta práctica es aprender a crear memorias de traducción.
PRÁCTICA TRADOS Gestión de Proyectos. Objetivo Esta práctica tiene como objetivo: – Crear un proyecto. – Aprender a gestionar un paquete de proyecto.
Tutorial Rehabilitation Reference Center support.ebsco.com.
Repositorio Institucional de Tesis
English Language II (2). English Language I (2) Warm-up.
Lenguaje XHTML Raquel Gil IES Gonzalo Nazareno Lenguaje XHTML.
Saber Vs. Conocer Sra. Altamirano Español II. First, we need to learn the conjugation of the verb SABER Yo sé Tú Sabes él, ella,ud. Sabe Nosotros Sabemos.
Alineación de textos Unidad 4 Taller de herramientas para la traducción Traductorado Público en idioma inglés Facultad de Lenguas Universidad Nacional.
Time Expressions with "hacer". Hace + time + que The verb "hacer" can be used in a number of ways to indicate the length of time an action has been taking.
UNIVERSIDAD AUTÓNOMA DEL ESTADO DE HIDALGO ESCUELA SUPERIOR DE ZIMAPÁN Licenciatura en Derecho Conversaciones introductorias. Lengua extranjera. L.E.L.I.
PREGUNTAS: Questions and Question Words
Transcripción de la presentación:

Clip 2003, Florencia Gestión de traducciones mediante metadatos TEI y XLIFF JosuKa Díaz, Joseba Abaitua, Inés Jacob, Fernando Quintana DELi (Universidad de Deusto) Garikoitz Araolaza CodeSyntax CodeSyntax Guillermo Barrutieta Mondragon Unibertsitatea

2 Introducción n SARE-Bi: Modelo de gestión de traducciones –utiliza metadatos –contempla todas las fases del ciclo de vida documental –sistema Zope de publicación en web

3 Estructura de un texto TEI Todos los textos TEI tienen n cabecera –descripción bibliográfica –descripción de la forma en que ha sido codificado –descripción no bibliográfica del texto (perfil) –historia de revisiones n texto

4 Estructura de un texto TEI (ii) Cada texto tiene un y un opcionales [ TEI Header information ] [ front matter... ] [ body of text... ] [ back matter... ]

5 Campo de aplicación n Universidad de Deusto (Bilbao, España) genera numerosos documentos admisnistrativos la mayoría son bilingües español - euskara, lenguas oficiales del País Vasco algunos también en inglés, francés, italiano... n Dimensión de los documentos largos (estatutos, normativas, informes...) cortos (anuncios, cartas, convocatorias...) de una única oración(“Atenderemos en el despacho 535”)

6 Arquitectura de SARE-Bi n SARE-Bi está implementado en Zope –desarrollado en Python –incluye una base de datos orientada a objetos (ZODB) –los módulos que amplían Zope se denominan productos –El producto TeiCorpus es el motor de SARE-Bi

7 Arquitectura de SARE-Bi (ii) n Diagrama de clases del producto TeiCorpus

8 SARE-Bi: funciones n Recuperación de documentos –filtrado basado en metadatos –búsqueda texto libre cualquier lengua

9 SARE-Bi: resultados de filtrado n una fila por documento - enlace para visualización modificación

10 SARE-Bi: visualización n Exportación –TEI y TMX n Doc. completo –recuperación de contenido n Doc. segmentado –correspondencia entre lenguajes

11 SARE-Bi: resultados de búsqueda n segmentos encontrados –en todas las lenguas –equivale a lo ofrecido por una memoria de traducción n incluye enlaces a visualización

12 SARE-Bi: incorporación de un documento (primer paso) n El usuario proporciona: –valores para los metadatos –lenguas del documento (puede ser sólo una)

13 Texto introducido Gestión de metadatos por el usuario Segmentación y alineado n ventana similar a la de modificación SARE-Bi: incorporación de un documento (segundo paso)

14 SARE-Bi: componentes n Corpus de documentos multilingües anotados, segmentados y alineados los segmentos son párrafos n Metadatos asociados a cada documento cabecera TEI datos habituales: título, fechas, autor, lugar... –Los metadatos más importantes son: categoría, estado, visibilidad

15 Metadatos: categoría Taxonomía documental con 282 categorías estructuradas en tres niveles: n función comunicativa (reglamentar, informar, inquirir) n género (25) n tema (256) 31000/inquirir 31400/instancia 31401/inscripción pruebas mayores 25 años 31402/solicitud de adaptacón de planes de estudio 31403/solicitud de convalidación asignaturas 31404/solicitud de reconocimiento complementos 31405/solicitud de reconsideración admisión 31406/solicitud de título 31407/solicitud de traslado expediente 31408/solicitud cambio de asignaturas opt. y LE

16 Metadatos: estado y visibilidad n Dinámicos los usuarios cambian el estado y la visibilidad durante las diferentes etapas del ciclo de edición reflejan la situación del documento todos los demás metadatos son estáticos (con valores constantes) n Estado no validado, validado, normativo n Visibilidad borrador, confidencial, compartido, público

17 SARE-Bi: usuarios n Asociados a diferentes perfiles –invitados, redactores, traductores, administradores n y permisos, dependientes de –propietario del documento –estado –visibilidad

18 SARE-Bi: ciclo de edición 1 Un redactor añade un documento monolingüe al crearlo: visibilidad borrador, estado no validado al terminar: visibilidad compartida (por ejemplo) el redactor llama al traductor 2 El traductor al terminar su tarea cambia el estado a validado avisa al redactor 3 El redactor accede al documento bilingüe y lo publica

19 SARE-Bi: variaciones del ciclo de edición n Redactores bilingües pueden desarrollar documentos bilingües el traductor se limita a revisar y validar la traducción n Documento normativo modelo en su categoría el estado normativo es asignado por el traductor un redactor bilingüe podría utilizarlo para un nuevo documento

20 Conclusiones n Sare-Bi es una aplicación Web (basada en Zope) con interfaz multilingüe (localizado es-eu-en) adecuada gestión de información y contenidos complejo sistema de gestión de usuarios n Base de datos orientada a objetos n Funcionalidad XML exporta a formatos TEI y XML

21 Conclusiones n En uso experimental desde mayo 2003 seis redactores / dos traductores sin medidas cuantitativas, pero constante incremento del número de documentos del corpus aceptación de los usuarios n Mejoras del sistema (proyecto X-Flow) automatización de las tareas de control de flujo control de versiones de documentos (XLIFF)

22 n Las investigaciones presentadas en este proyecto han sido financiadas por: –Gobierno Vasco Depto. de Industria (proyecto X-Flow, OD- 02UD04, ) Depto. de Educación, Universidades e Investigación (proyecto XML-Bi, PI , ) –CodeSyntax (Eibar, España) n Agradecimientos –Josu Gómez, Arantza Domínguez (DELi, UD) –Luistxo Fernández (CodeSyntax)

23 Gracias por su atención

24 n Documentos dirigidos a los miembros de un departamento (aprox. 20) los empleados (aprox ) los estudiantes (aprox ) n La calidad es primordial independientemente del número de lectores independientemente de la transcendencia y la longitud del documento. está mal visto publicar documentos incorrectamente escritos, ya sea en euskara o en castellano.

25 n Producción de un documento a “writer” writes original document (in one language) he sends it to a “translator” the “translator” produces the other language version she sends it back to the “writer” he publishes the multilingual document n Almost 100% of original writing in Spanish Basque: a minority language many can read/understand, only a few can write

26 Case study: fieldwork n Cost of translation mainly an economic concern (institution can only afford to translate “important” documents) but also a problem of time (urgent documents) n Key: many docs. have a fixed structure short letters, calls, invitations... published weekly, monthly, yearly... small changes (date, place, name...) –“writers” take advantage of this: they REUSE –but “translators” MAY NOT REUSE

27 How can MT help? n Goal: to increase the number of multilingual documents generated in our University n No Spanish to Basque MT tool yet although a big research effort is being made anyway, ¿quality? translation is an important step, but not the only one n Translators use some MAT tools term-bases translation memories (not fully implemented yet)

28 Solution (1): a document management system n To organise documents cumulative document repository classified under several criteria n Multilingual functionality the textual correspondence between parts (segments) of documents is explicitly shown n Collaborative system writers and translators share the documents allows to implement other stages in the publication procedure

29 Solution (2): translation memories n Experience of DELi automatic extraction of translation memories from bilingual (es-eu) docs (XTRA-Bi project, ) several Gigabytes of TMX files unorganised chunks of texts segments n Multilingual segmented document system not only the document as a whole if we show the corresp. of multilingual segments then the system is also a translation memory (TMX) repository

30 Solution (3): metadata n Chaotic accumulation of contents difficult management, search, retrieval... n Metadata document = content + metacontent semantic web, ontologies, content syndication... XML technology n TEI (Text Encoding Initiative) not so much for the purpose of linguistic mark- up for structural and cataloguing aspects (TEI header)

31 SARE-Bi: a first tour n SARE-Bi –multilingual document management system –allows incremental compilation of documents –allows users to work collaboratively –uses metadata as a conceptual mechanism –can also be seen as a memory-based machine translation system n Demo