Hacia la gestión automática de contenidos multilingües en XLIFF Objetivos gestión de contenidos multilingües para publicación en web reutilización de traducciones (memorias de traducción) creación de fondos: terminología, texto alineado herramientas: segmentadores, alineadores, filtros filtros: formatos TXT, HTML, XML, TMX, XLIFF control de flujo: redacción, traducción, publicación DELi (UD) + Code&Syntax Albacete 2002, CLIP
X-Flow: Antecedentes Corpus LEGE-Bi (1995-2002) Boletines bilingües (~3 M. palabras, proyectos LEGEBiDUNA) Proyecto XTRA-Bi (2000-2001) Segmentación y etiquetado de boletines SGML XML, TMX Proyecto XML-Bi (2001-2002) Recursos (LEGE-Bi+, servidor SARE-Bi, herramientas) Procedimientos (EFQM) Proyecto X-Flow (2002-2003) DELi (UD) + Code&Syntax Albacete 2002, CLIP
XTRA-Bi: Extracción automática de entidades bitextuales para software de traducción asistida Compilación de corpus (extracción) Herramientas de captura de webs (Teleport Pro, HTTrack) Boletines Oficiales (BOG, BOB, BOTHA, BON, BOPV) Prensa diaria bilingüe DELi (UD) + Code&Syntax Albacete 2002, CLIP
XTRA-Bi: Extracción automática de entidades bitextuales para software de traducción asistida Segmentación en TEI/XML Disparidad de formatos originales (Word, PDF, HTML, TXT) Filtros y segmentadores (ad-hoc y generales) Conversión a XML/TEI P4: subset propio de TEI (TEI-Bi) DELi (UD) + Code&Syntax Albacete 2002, CLIP
XTRA-Bi: Extracción automática de entidades bitextuales para software de traducción asistida Alineación y reordenación en TMX Párrafo como unidad de segmentación Índice de alineación automática: 99% Posibilidad de alineación de unidades menores (oraciones y nombres propios) con menor fiabilidad Conversión a TMX (Transit, WordFast, Déjà-Vu, etc.) DELi (UD) + Code&Syntax Albacete 2002, CLIP
Ejemplo de formato TMX: <tu tuid="0100227-p11”> <prop type="project">XTRA-Bi: GAO-BOG</prop> <tuv lang="ES”> <seg>Asimismo, se hace saber que este acuerdo pone fin a la vía administrativa... </seg></tuv> <tuv lang="EU"> <seg>Era berean, erabaki hau behin betikoa da eta amaiera ematen dio administrazio bideari... </seg></tuv> </tu> DELi (UD) + Code&Syntax Albacete 2002, CLIP
DELi (UD) + Code&Syntax Albacete 2002, CLIP
XML-Bi: Análisis del flujo documental multilingüe diseño de procedimientos de optimización de flujo documental para subsanar desfases en la traducción y publicación plurilingüe distintas fases del ciclo de vida de la documentación, desde concepción inicial hasta la distribución, pasando por la redacción, corrección, traducción, revisión, publicación, archivación, recuperación, extracción y reutilización estudio de campo: Universidad de Deusto DELi (UD) + Code&Syntax Albacete 2002, CLIP
XML-Bi: Análisis del flujo documental multilingüe Desarrollos: Estudio de campo (corpus UD-Bi) Procedimientos operativos EFQM Compilación e instalación de corpus LEGE-Bi en intranet (SARE-Bi) Diseño y adaptación de segmentadores para corpus en formato TEI/XML y de filtros para conversión a TMX Integración en plataforma web: www.deli.deusto.es/SareBi DELi (UD) + Code&Syntax Albacete 2002, CLIP
SARE-Bi: Gestor de documentación multilingüe sobre XML/TEI Opciones para el servidor / gestor de corpus: TEI/XML + XSLT + JavaScript XML Query Engine, SQL, etc. XML=Web, web-servers: Microsoft .Net WebSphere ZOPE: Open Source (www.zope.org) Code&Syntax (www.codesyntax.com) Localizer (www.j-david.net/localizer/) DELi (UD) + Code&Syntax Albacete 2002, CLIP
LEGE-Bi <teiHeader>, <front> <fileDesc> <encodingDesc> <classDecl> <taxonomy>...</taxonomy> <text> <front> <DocDate>...</DocDate> <DocAuthor>...</DocAuthor> <head type="place">...</head> <head type"DepSup">...</head> <head type"DepInf">...</head> DELi (UD) + Code&Syntax Albacete 2002, CLIP
X-Flow: Gestor de contenidos multilingüe sobre XLIFF Objetivos seleccionar y organizar utilidades informáticas de apoyo a la importación y exportación de contenidos multilingües y de memorias de traducción (sobre los estándar TMX y TBX) desarrollar un sistema de control de flujo de textos y traducciones basado en los estándar TMX y XLIFF proporcionar herramientas para el mantenimiento actualizado de contenidos multilingües adaptadas a estos formatos. DELi (UD) + Code&Syntax Albacete 2002, CLIP
¿Qué es XLIFF? XML Localisation Interchange File Format: Formato para intercambio de archivos de localización. Su definición comenzó a finales de 2000 (de la mano de Oracle, Novell, Sun y IBM/Lotus). Basado en Open Tag, parecido a TMX con innovaciones para el intercambio de información en web. Primer borrador de mayo de 2001, última especificación de abril de 2002. Se anuncia como una nueva especificación XML para intercambio de datos para web multilingües. DELi (UD) + Code&Syntax Albacete 2002, CLIP
Referencias TEI: http://www.tei-c.org TMX: http://www.lisa.org/tmx Transit: http://www.star-ag.ch/ XLIFF: http://www.opentag.com/xliff.htm DELi: http://www.deli.deusto.es DELi (UD) + Code&Syntax Albacete 2002, CLIP