Hacia la gestión automática de contenidos multilingües en XLIFF

Slides:



Advertisements
Presentaciones similares
La traducción automática y la traducción asistida. ¿Qué nos depara el futuro? Joseba Abaitua Grupo DELi Universidad de Deusto.
Advertisements

Universidad de Deusto : X-Bi Antecedentes –1993 LEGEBiDUNA ( UD ) –1996 UZTURRE ( AURTEN-BAI, UD, IVAP, IBERMATICA ) –1999 (marzo-) octubre XML-Bi –diciembre.
DELi (UD)Hiztek, Eibar Itzulpen automatikoaren: bi eredu Arau bidez esaldien egiturak parekatu (Chomsky) esaldien esanahia baliokide (Leibniz, Frege,
INFORMATICA I PROYECTO SIRLA Jorge Walter Sosa Esteban Parra González Juan Camilo Morales.
DE LOCAL A GLOBAL: SISTEMA DE INFORMACIÓN DE COLECCIONES CIENTÍFICAS DEL MUSEO NACIONAL DE CIENCIAS NATURALES - SICoC - DE LOCAL A GLOBAL: SISTEMA DE INFORMACIÓN.
Comunicación en los Negocios Electrónicos. ¿Qué es una Intranet? Red de área local (LAN), que utiliza tecnología basada en Web, con protocolos abiertos.
OpenOffice.org (frecuentemente escrito OOo para abreviar) es una suite ofimática libre (código abierto y distribución gratuita) que incluye herramientas.
1.  Tomcat es un contenedor web basado en el lenguaje Java que actúa como motor de servlets y JSPs.  Se ha convertido en la implementación de referencia.
TEMA 4: ACCESIBILIDAD A LOS CONTENIDOS DIGITALES Lourdes Moreno, Paloma Martínez Universidad Carlos III de Madrid Asignatura.
PROGRAMA CIUDADANÍA DIGITAL Curso Servidor Público Competente en TIC – Versión 2.0.
Aplicando XML y CDS-ISIS en la organización y recuperación de la información J. Román Herrera Morales Ramón Genel Gómez X Reunión Regional de CDS-ISIS.
Capacitación N°1 Open Journal System Alejandro Ramos Ferretti.
Muchas gracias por su atención PILARES PARA LA CONSTRUCCIÓN DE UNA VENTANILLA ÚNICA 29 de Marzo de 2011.
II Jornada de actualizaciones sobre publicación científica Etiquetado de artículos con XML JATS Módulo: Intercambio y visibilidad de datos de investigación.
1. Diversas herramientas de software libre para diseño. -Ingenio tu sitio -Compromisos de trabajos -El software y su licencia -Aspectos analizados 2.
Medellín - Bogotá | PBX: (57) | Dirección Medellín: Cr 79# || Todos los derechos reservados 2016 © Diseño Jeduca.
Proyecto SIFIA Sistema de Inteligencia basado en Fuentes de Información Abierta.
Un modelo de Gestión Automatizada de Dispositivos IP mediante Software Libre Un Modelo de Gestión Automatizada de Dispositivos IP mediante Software Libre.
Titulo Titulo en inglés Tesis doctoral presentada por Nombre Dirigida por Dr. Director 1 Dr. codirector Fecha Logo de tu universidad.
 UML (Unified Modeling Language).  “Lenguaje" para especificar, y no para describir, métodos o procesos. Es una notación.  Para definir un sistema.
OCEANTIC SOFTWARE PARA LA TRANSFERENCIA, VISUALIZACIÓN Y GESTIÓN DE INFORMACIÓN DIGITAL EN ALTA MAR Álvaro Arroyo Díaz Estudios GIS
UNIVERSIDAD CENTRAL DE VENEZUELA FACULTAD DE HUMANIDADES Y EDUCACIÓN MAESTRÍA EN EDUCACIÓN. MENCIÓN TECNOLOGÍAS DE LA INFORMACIÓN Y LA COMUNICACIÓN Profesor:
TESIS DE GRADO DESARROLLO DEL SISTEMA WEB PARA LA ADMINISTRACIÓN DE LAS ACTIVIDADES ACADÉMICAS DE ALUMNOS, PROFESORES Y RESPONSABLES DE LOS DEPARTAMENTOS.
INSTALACIÓN DEL SISTEMA C.A.N.O.A.
Portales colaborativos
Biblioteca Virtual, Repositorio Institucional y Observatorio Tecnológico Objetivo: Recuperar y gestionar toda la documentación científica, revistas, tesis,
Un poco de lo que se de WORD
Norma para la Generación de Estadística Básica
Introducción Idea inicial: sitio web para la publicación y venta de videos grabados en 360º preparados para reproducción virtual que se adaptan a los.
Entornos Virtuales y Digitales de Aprendizaje
Griselda Rosas Informática Lic. CINTHYA P. BELMONTES GUEVARA
Ayudantía de Modelamiento de procesos
Control de Inventarios de Activos Fijos Web
#conecta2Xaccesibilidad
Oscar Fonts, Martí Pericay
Fundamentos de programación
Fundamentos de negocios y comercio electrónico.
United Nations Statistics Division
GESTOR DE CONTENIDOS Wagner Guadalupe R..
introducción Ingeniería de software
NOTICIAS EN LINEA (RSS)
Riesgos y Control Informático
Resource standard Metrics (RSM)
Ordenador Es una máquina electrónica que recibe y procesa datos para convertirlos en información útil. Son programables y están contituidos por hadware.
Recursos generales del traductor
Iniciativa Empresarial como Opción de vida Diseño de ova
Corpus MUST- equipo UCM
Ciclo de Vida del Sistema
Fundamentos del computador
Salir de la presentación
Organización y Descripción de Archivos
Las herramientas Case Julian madrigal.
Introducción Gabriel Montañés León.
Facilitador: Salvador López Vargas
Investigaciones similares
Introducción a la Lingüística de corpus
1. Funciones básicas Acceso y presentación inicial del programa El botón de Office Diseño de página 2. Dar formato al texto Seleccionar.
Plataforma Nacional de Transparencia
1. Bases de datos con varias tablas
CONVERGENCIA TECNOLOGICA
El sistema de Calidad de GFI/AST
XBRL en la recogida de datos de las Estadísticas Estructurales
Proceso de actualización de proyectos 2018 – 2019 Plan de Desarrollo Institucional
FRAMEWORK DE DESARROLLO DE APLICACIONES EMPRESARIALES WEB
Metodologías de Desarrollo Web
PLAN ESTRATÉGICO. PLAN ESTRATÉGICO Alineación al Plan Estratégico La implementación de una herramienta informática que permita interoperar entre países.
¿Para que un Archivo Institucional?
LA INTEGRACIÓN SEGMENTADA COMO METODOLOGÍA DE DESARROLLO PARA UNA GERENCIA DE SISTEMAS DE INFORMACIÓN EFECTIVOS 05/08/2019.
Gestión de Proyectos Informáticos (GPI) ISW
Transcripción de la presentación:

Hacia la gestión automática de contenidos multilingües en XLIFF Objetivos gestión de contenidos multilingües para publicación en web reutilización de traducciones (memorias de traducción) creación de fondos: terminología, texto alineado herramientas: segmentadores, alineadores, filtros filtros: formatos TXT, HTML, XML, TMX, XLIFF control de flujo: redacción, traducción, publicación DELi (UD) + Code&Syntax Albacete 2002, CLIP

X-Flow: Antecedentes Corpus LEGE-Bi (1995-2002) Boletines bilingües (~3 M. palabras, proyectos LEGEBiDUNA) Proyecto XTRA-Bi (2000-2001) Segmentación y etiquetado de boletines SGML  XML, TMX Proyecto XML-Bi (2001-2002) Recursos (LEGE-Bi+, servidor SARE-Bi, herramientas) Procedimientos (EFQM) Proyecto X-Flow (2002-2003) DELi (UD) + Code&Syntax Albacete 2002, CLIP

XTRA-Bi: Extracción automática de entidades bitextuales para software de traducción asistida Compilación de corpus (extracción) Herramientas de captura de webs (Teleport Pro, HTTrack) Boletines Oficiales (BOG, BOB, BOTHA, BON, BOPV) Prensa diaria bilingüe DELi (UD) + Code&Syntax Albacete 2002, CLIP

XTRA-Bi: Extracción automática de entidades bitextuales para software de traducción asistida Segmentación en TEI/XML Disparidad de formatos originales (Word, PDF, HTML, TXT) Filtros y segmentadores (ad-hoc y generales) Conversión a XML/TEI P4: subset propio de TEI (TEI-Bi) DELi (UD) + Code&Syntax Albacete 2002, CLIP

XTRA-Bi: Extracción automática de entidades bitextuales para software de traducción asistida Alineación y reordenación en TMX Párrafo como unidad de segmentación Índice de alineación automática: 99% Posibilidad de alineación de unidades menores (oraciones y nombres propios) con menor fiabilidad Conversión a TMX (Transit, WordFast, Déjà-Vu, etc.) DELi (UD) + Code&Syntax Albacete 2002, CLIP

Ejemplo de formato TMX: <tu tuid="0100227-p11”> <prop type="project">XTRA-Bi: GAO-BOG</prop> <tuv lang="ES”> <seg>Asimismo, se hace saber que este acuerdo pone fin a la vía administrativa... </seg></tuv> <tuv lang="EU"> <seg>Era berean, erabaki hau behin betikoa da eta amaiera ematen dio administrazio bideari... </seg></tuv> </tu> DELi (UD) + Code&Syntax Albacete 2002, CLIP

DELi (UD) + Code&Syntax Albacete 2002, CLIP

XML-Bi: Análisis del flujo documental multilingüe diseño de procedimientos de optimización de flujo documental para subsanar desfases en la traducción y publicación plurilingüe distintas fases del ciclo de vida de la documentación, desde concepción inicial hasta la distribución, pasando por la redacción, corrección, traducción, revisión, publicación, archivación, recuperación, extracción y reutilización estudio de campo: Universidad de Deusto DELi (UD) + Code&Syntax Albacete 2002, CLIP

XML-Bi: Análisis del flujo documental multilingüe Desarrollos: Estudio de campo (corpus UD-Bi) Procedimientos operativos EFQM Compilación e instalación de corpus LEGE-Bi en intranet (SARE-Bi) Diseño y adaptación de segmentadores para corpus en formato TEI/XML y de filtros para conversión a TMX Integración en plataforma web: www.deli.deusto.es/SareBi DELi (UD) + Code&Syntax Albacete 2002, CLIP

SARE-Bi: Gestor de documentación multilingüe sobre XML/TEI Opciones para el servidor / gestor de corpus: TEI/XML + XSLT + JavaScript XML Query Engine, SQL, etc. XML=Web, web-servers: Microsoft .Net WebSphere ZOPE: Open Source (www.zope.org) Code&Syntax (www.codesyntax.com) Localizer (www.j-david.net/localizer/) DELi (UD) + Code&Syntax Albacete 2002, CLIP

LEGE-Bi <teiHeader>, <front> <fileDesc> <encodingDesc> <classDecl> <taxonomy>...</taxonomy> <text> <front> <DocDate>...</DocDate> <DocAuthor>...</DocAuthor> <head type="place">...</head> <head type"DepSup">...</head> <head type"DepInf">...</head> DELi (UD) + Code&Syntax Albacete 2002, CLIP

X-Flow: Gestor de contenidos multilingüe sobre XLIFF Objetivos seleccionar y organizar utilidades informáticas de apoyo a la importación y exportación de contenidos multilingües y de memorias de traducción (sobre los estándar TMX y TBX) desarrollar un sistema de control de flujo de textos y traducciones basado en los estándar TMX y XLIFF proporcionar herramientas para el mantenimiento actualizado de contenidos multilingües adaptadas a estos formatos. DELi (UD) + Code&Syntax Albacete 2002, CLIP

¿Qué es XLIFF? XML Localisation Interchange File Format: Formato para intercambio de archivos de localización. Su definición comenzó a finales de 2000 (de la mano de Oracle, Novell, Sun y IBM/Lotus). Basado en Open Tag, parecido a TMX con innovaciones para el intercambio de información en web. Primer borrador de mayo de 2001, última especificación de abril de 2002. Se anuncia como una nueva especificación XML para intercambio de datos para web multilingües. DELi (UD) + Code&Syntax Albacete 2002, CLIP

Referencias TEI: http://www.tei-c.org TMX: http://www.lisa.org/tmx Transit: http://www.star-ag.ch/ XLIFF: http://www.opentag.com/xliff.htm DELi: http://www.deli.deusto.es DELi (UD) + Code&Syntax Albacete 2002, CLIP