Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de.

Slides:



Advertisements
Presentaciones similares
Estrategias de Comprensión Lectora
Advertisements

Know T2. Procesadores lingüísticos UPV/EHU
El Control de Gestión en la Administración Tributaria
QUÉ ES UN SEMINARIO El seminario de investigación es una estrategia para aprendizaje activo, donde los participantes deben CONSTRUIR por sus propios medios.
LOS WIKIS Características y ejemplos
Programa de Estudio Tercer Año Medio.
Programa de estudio para cuarto año medio
7. LA TRADUCCIÓN Y LA TERMINOLOGÍA
TERMINOLOGÍA EN ESPAÑOL
5. LA TERMINOGRAFÍA: FUNDAMENTOS, MATERIALES Y METODOLOGÍA
8. PLANIFICACIÓN Y NORMALIZACIÓN
TRADUCCIÓN GENERAL INGLÉS-ESPAÑOL (8227) TRADUCCIÓN GENERAL INGLÉS-ESPAÑOL (8227)
Máster en Inglés y Español para Fines Específicos 27 de marzo de 2007 El Inglés y el Español en la Fonética Forense1 La determinación/atribución de la.
CLARIN, una infraestructura para la investigación en Humanidades y Ciencias Sociales que garantizará: La infraestructura garantatizará la escalabilidad.
MaNuaL APQP CAPITULO 1 EQUIPO # 1 Lucero Honorina Alderete Loera
Por la Lic. Alina Desiree Pérez
Herramientas terminológicas
El ordenador como herramienta en la adquisición del léxico en la enseñanza del alemán en los estudios de Traducción e Interpretación Antonia Montes Fernández.
Compilador HTML David Morales Marco Jiménez Carlos Márquez
Traducción dirigida por la Sintaxis
ANALISIS SINTACTICO El análisis gramatical es la tarea de determinar la sintaxis, o estructura, de un programa. Por esta razón también se le conoce como.
ESCUELA NORMAL “J. GUADALUPE AGUILERA” CANATLÁN, DURANGO “COMUNIDADES DE APRENDIZAJE, UNA ESTRATEGIA PARA MEJORAR LA TUTORÍA”
Interpretar sentimientos y actitudes: la intervención del traductor. (ISAT) HUM DIRECCIÓN GENERAL DE INVESTIGACIÓN SECRETARÍA DE ESTADO DE POLÍTICA.
Universidad de Deusto : X-Bi Antecedentes –1993 LEGEBiDUNA ( UD ) –1996 UZTURRE ( AURTEN-BAI, UD, IVAP, IBERMATICA ) –1999 (marzo-) octubre XML-Bi –diciembre.
¿ SABIAS QUE… ◦ Hay mas de familias de palabras en inglés? ◦ un hablante nativo agrega a su léxico unas mil palabras por año? ◦ un estudiante universitario.
Investigación algorítmica Grupo Plagiatest-T. Integrantes Grupo 4 Lizzett Seminario Huamaní César Ríos Gárate Carolina Balbín Ávalos.
Especificación de Consultas M
Seminario de Análisis Documental  Presenta: Lilian Martínez Carrillo  Profesor: Georgina Araceli Torres México, D.F., 2011 Ley de Zipf y sus aplicaciones.
UPV - EHU Konputagailuen Arkitektura eta Teknologia Saila Departamento de Arquitectura y Tecnología de Computadores 1 Sistemas Ubicuos 3. Gestión del contexto.
Sistemas de Información IS95872
Recursos generales del traductor Bianca Vitalaru Universidad de Alcalá
Procesadores de Lenguajes
SenSemCat:. Corpus de la lengua catalana. anotado con información
EVALUACIÓN DE LA EXPERIENCIA TRILINGÜE EN LA CAPV
Dime con quién andas: Las Bases de Datos Bibliográficas como Herramientas de Medición Jane M. Russell Barnard Instituto de Investigaciones Bibliotecológicas.
Zair D. Torres Medina Colegio San Antonio Departamento de Ciencias
4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.
Sesión 1 COE..
Publicación de bases de datos Access en la web
TEMA 2 Parte A Corpus lingüísticos: tipología y anotación automática Pablo Gamallo Otero
REPÚBLICA BOLIVARIANA DE VENEZUELA UNIVERSIDAD NACIONAL EXPERIMENTAL SIMÓN RODRÍGUEZ COORDINACIÓN DE DESARROLLO PROFESORAL NÚCLEO BOLÍVAR FACILITADOR:
Análisis Léxico Área Software de Base.
ESTRATEGIAS PARA EL APRENDIZAJE DE LA SEMÁNTICA ESPAÑOLA
SISTEMA PARA LA CATEGORIZACIÓN AUTOMÁTICA DE CORREO ELECTRÓNICO Camilo Rodríguez, Departamento de Ingeniería de Sistemas, Universidad Nacional de Colombia.
Tecnologías para el Aprendizaje
MS WORD 2007 Ing. Johanna Navarro. MS WORD 2007 Fundamentos en la edición Crear Tablas y listas Imágenes.
Tema: Microsoft Word-Power Point
LE, EI, Profesor Ramón Castro Liceaga UNIVERSIDAD LATINA (UNILA) TRADUCTORES Y ANALIZADOR LEXICOGRÁFICO.
Elaboración automática de resúmenes Nahiko Arraiza Eguillor 17-V-2006.
LINGÜÍSTICA UNIDAD 2. Unidad 2: “PROCESAMIENTO DE ORACIONES” INTENCIONALIDADES FORMATIVAS FASE RECONOCIMIENTO COMPETENCIAS COGNITIVACOMUNICATIVAVALORATIVACONTEXTUAL.
Análisis de las herramientas tecnológicas educativas
Transposición.
FRASEOLOGÍA ESPECIALIZADA INTEGRANTES: Pastor Salinas, Elizabeth. Vergara Gonzales, Katherine.
COMPETENCIAS PARA LA COMUNICACIÓN CIENTÍFICA
Investigación cualitativa e Investigación cuantitativa
C ONCEPTOS GENERALES DE LA LINGÜÍSTICA COMPUTACIONAL Ana María Tangarife Patiño.
Lingüística computacional unidad 2. análisis semántico
Manual para la Aplicación, Calificación, Análisis y Uso de los Resultados de la Prueba Planea*Diagnóstica
Técnicas para el análisis de datos digitales
Minería de texto Análisis Documental.
LENGUA Y LITERATURA Curso
Español 2 Profesora Isabel Jazmín Ángeles Huizard.
Word of the day (Palabra del día) : 1 – Copien las palabras del día (PDD) y escriban las definiciones en inglés en la sección PALABRA DEL DÍA del cuaderno.
Rojas, C y Jackson-Maldonado, J. (2011). En Interacción y uso lingüístico en el desarrollo de la lengua materna. México: UNAM-UAQ.

PRÁCTICA TRADOS Gestión de Proyectos. Objetivo Esta práctica tiene como objetivo: – Crear un proyecto. – Aprender a gestionar un paquete de proyecto.
1 MÁS QUE PALABRAS. 2 Más que palabras ¿Qué han de aprender a manipular mentalmente los niños para ser competentes gramaticalmente hablando?
Gestión de la información y el conocimiento II Bibliometría Ángela Valderrama Muñoz Ingeniera de Sistemas (UdeA) Especialista en Alta Gerencia(UdeA) Magister.
Alineación de textos Unidad 4 Taller de herramientas para la traducción Traductorado Público en idioma inglés Facultad de Lenguas Universidad Nacional.
Basado en el libro Léxico del español como segunda lengua: aprendizaje y enseñanza, de Mª Victoria Romero Gualda (2008).
Transcripción de la presentación:

Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de Língua Espanhola, Universidade de Santiago de Compostela Xornadas empresa-universidade, Santiago, 2007

En colaboración con: Empresa Imaxin | Software:  Área Imaxim | Context (Responsable: José Ramom Pichel Campos)

Grupo Gramática do Español Miembros que colaboran en la Red:  Guillermo Rojo (coordinador)  M. Paula Santalla del Río  Victoria Vázquez Rozas  Susana Sotelo Docio  M. del Pilar Valverde Ibáñez  Pablo Gamallo Otero

Grupo Gramática do Español Líneas de Investigación  Estructura sintáctico-semántica de la cláusula  Elaboración y análisis de corpus  Bases de datos sintácticos (BDS)  Analizadores automáticos (parsers)  Extracción de información mono y plurilingüe

Objetivo general Construir léxicos bilingües: archivo: file (.85), directory (.23),... Método: - Estrategias de extracción a partir de grandes cantidades de corpus no-paralelos y de temática comparable. - Recursos externos: diccionarios bilingües electrónicos.

Objetivo específico Actualizar el diccionario bilingüe castellano-gallego del traductor automático OPENTRAD. Motivación: La falta de cobertura del diccionario castellano-gallego es la principal causa de errores de traducción: cobertura diccionario 47% errores morfo-sintácticos 26% polisemia léxica16% otros11%

Trabajo relacionado - Extracción de léxicos bilingües a partir de corpus paralelos y alineados - Extracción de léxicos bilingües a partir de corpus no paralelos y comparables

Trabajo relacionado Extracción a partir de corpus paralelos Requisito: el corpus Fuente y Meta están alineados (p.e. al nivel de la oración). Método: Una palabra del corpus Fuente es similar a una palabra del corpus Meta, si las dos tienden a aparecer en los mismos segmentos alineados. Word cannot copy the selected file to the base path because the following error occurred: Unable to copy the file. The file could not be saved because there was a sharing violation. 345Word no puede copiar el archivo seleccionado en la ruta de acceso de base debido al siguiente error: 067El archivo no se puede copiar. 003No pudo guardarse el archivo a causa de una infracción al compartir. - Similaridad basada en el cálculo de los segmentos comunes : archivo file (003, 067, 345,...)

Trabajo relacionado Extracción a partir de corpus no paralelos Requisitos: un diccionario bilingüe que nos provea de un conjunto de palabras semilla (“seed words”). Método: Una palabra en el corpus Fuente es similar a una palabra del corpus Meta, si las dos tienden a coocurrir con las mismas palabras semilla dentro de una ventana de tamaño N (N = oración, párrafo,...). - Seed words: guardarsave0560 copiarcopy0308 seleccionarselect1002 infracciónviolation Similaridad basada en el cálculo de los “seed words” comunes : archivofile (0560, 0308, 1002, )

Nuestro enfoque Extracción de léxicos bilingües a partir de corpus no paralelos - En lugar de “palabras semilla”, usamos “contextos semilla”: Similaridad basada en el cálculo de “contextos semilla” comunes: archivofile (0340, 0456, 1204,...)

Nuestro enfoque Características genéricas del aprendizaje:  no supervisado  +- dependiente de la lengua  +- pobre en conocimiento lingüístico

Etapas del método 1) Procesamiento lingüístico del corpus 2) Generar el conjunto de contextos semilla 3) Crear vectores de palabras y expresiones multiléxicas en las dos lenguas 4) Construción del léxico bilingüe

1. Procesamiento lingüístico Anotación y desambiguación morfosintáctica: - textos en inglés, francés y portugués: TreeTagger (Schimd, 2000). textos en inglés, francés y portugués: TreeTagger (Schimd, 2000). - textos en castellano y gallego: Freeling (Carreras et al., 2004). textos en castellano y gallego: Freeling (Carreras et al., 2004). Identificación de patrones léxico-sintácticos:

2. Los contextos semilla - Escogemos los pares bilingües de entradas no polisémicas de un diccionario bilingüe. - Por cada par, generamos todos los pares de contextos posibles. Por ejemplo: “venta” - “venda”: <venta de/con/a/en... NOUN><venda de/con/a/en... NOUN> <NOUN prp venta><NOUN de/con/a/en... venda> <VERB de/con/a/en... venta><VERB de/con/a/en... venda>

3. Vectores de palabras índicecontextofreq <estudiarN> índicecontextofreq <estudarN> Extracto del vector del sustantivo castellano: “Bachillerato” Extracto del vector del sustantivo gallego: “Bacharelato” - Creamos los vectores de palabras en las dos lenguas usando los contextos semilla, y filtrando aquéllos con dispersión elevada.

4. Creación del léxico bilingüe Cada expresión del corpus Fuente se compara con las expresiones del corpus Meta (frecuencia de coocurrencia en contextos semilla). Escogemos las N palabras (N = 5) del corpus Meta con el valor de similaridad más alto (coeficiente Dice).

Coeficiente DICE, e 1 Dice (e  i  2, e 1 2F (e 2  + F(e 1 F (e 2  , e 1 F (e 2 , s 1 min(f (e i  f (e 2 , s i i  n F (e , s(f (e i n  s = contexto semilla de un corpus no-paralelo

Experimentos Corpus no-paralelo comparable: - Parte española: 13 millones (El Correo Gallego, La Voz de Galicia) - Parte gallega: 10 millones (Galicia-Hoxe, Vieiros, A Nosa Terra) Diccionario bilingüe de OpenTrad: - más de entradas - número de contextos semilla: ( a partir de cognados) Vectores de palabras - con posiciones (contextos semilla seleccionados)

EVALUACIÓN Precisión y Cobertura En [Rapp, 1999], Precisión-1 = 72% Precisión-10 = 86%

Actualización del diccionario de Opentrad  Nuevo corpus no-paralelo: 22 X 2 millones  Tamaño del léxico extraído: entradas bilingües  Número de entradas extraídas que ya están en el diccionario:  Número de entradas multiléxicas extraídas con traducción composicional:  Filtrado manual del resto de entradas (~13.000): nuevas entradas

Trabajo por hacer  Fuerza bruta: recuperar cada N meses nuevos textos de la web - Tasas de crecimiento de nombres comunes, verbos y adjetivos: > 0,5% - Tasa de crecimiento de nombres propios: > 7%  Técnicas recursivas y de bootstrapping - incrementar el número de contextos semilla utilizando expresiones multiléxicas composicionales aprendidas en anteriores fases de extracción.