Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de.

Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de Língua Espanhola, Universidade de Santiago de Compostela Xornadas empresa-universidade, Santiago, 2007

En colaboración con: Empresa Imaxin | Software:  Área Imaxim | Context (Responsable: José Ramom Pichel Campos)

Grupo Gramática do Español Miembros que colaboran en la Red:  Guillermo Rojo (coordinador)  M. Paula Santalla del Río  Victoria Vázquez Rozas  Susana Sotelo Docio  M. del Pilar Valverde Ibáñez  Pablo Gamallo Otero

Grupo Gramática do Español Líneas de Investigación  Estructura sintáctico-semántica de la cláusula  Elaboración y análisis de corpus  Bases de datos sintácticos (BDS)  Analizadores automáticos (parsers)  Extracción de información mono y plurilingüe

Objetivo general Construir léxicos bilingües: archivo: file (.85), directory (.23),... Método: - Estrategias de extracción a partir de grandes cantidades de corpus no-paralelos y de temática comparable. - Recursos externos: diccionarios bilingües electrónicos.

Objetivo específico Actualizar el diccionario bilingüe castellano-gallego del traductor automático OPENTRAD. Motivación: La falta de cobertura del diccionario castellano-gallego es la principal causa de errores de traducción: cobertura diccionario 47% errores morfo-sintácticos 26% polisemia léxica16% otros11%

Trabajo relacionado - Extracción de léxicos bilingües a partir de corpus paralelos y alineados - Extracción de léxicos bilingües a partir de corpus no paralelos y comparables

Trabajo relacionado Extracción a partir de corpus paralelos Requisito: el corpus Fuente y Meta están alineados (p.e. al nivel de la oración). Método: Una palabra del corpus Fuente es similar a una palabra del corpus Meta, si las dos tienden a aparecer en los mismos segmentos alineados. Word cannot copy the selected file to the base path because the following error occurred: Unable to copy the file. The file could not be saved because there was a sharing violation. 345Word no puede copiar el archivo seleccionado en la ruta de acceso de base debido al siguiente error: 067El archivo no se puede copiar. 003No pudo guardarse el archivo a causa de una infracción al compartir. - Similaridad basada en el cálculo de los segmentos comunes : archivo file (003, 067, 345,...)

Trabajo relacionado Extracción a partir de corpus no paralelos Requisitos: un diccionario bilingüe que nos provea de un conjunto de palabras semilla (“seed words”). Método: Una palabra en el corpus Fuente es similar a una palabra del corpus Meta, si las dos tienden a coocurrir con las mismas palabras semilla dentro de una ventana de tamaño N (N = oración, párrafo,...). - Seed words: guardarsave0560 copiarcopy0308 seleccionarselect1002 infracciónviolation0601 - Similaridad basada en el cálculo de los “seed words” comunes : archivofile (0560, 0308, 1002, 0601...)

Nuestro enfoque Extracción de léxicos bilingües a partir de corpus no paralelos - En lugar de “palabras semilla”, usamos “contextos semilla”: 0340 0456 1204 - Similaridad basada en el cálculo de “contextos semilla” comunes: archivofile (0340, 0456, 1204,...)

Nuestro enfoque Características genéricas del aprendizaje:  no supervisado  +- dependiente de la lengua  +- pobre en conocimiento lingüístico

Etapas del método 1) Procesamiento lingüístico del corpus 2) Generar el conjunto de contextos semilla 3) Crear vectores de palabras y expresiones multiléxicas en las dos lenguas 4) Construción del léxico bilingüe

1. Procesamiento lingüístico Anotación y desambiguación morfosintáctica: - textos en inglés, francés y portugués: TreeTagger (Schimd, 2000). textos en inglés, francés y portugués: TreeTagger (Schimd, 2000). - textos en castellano y gallego: Freeling (Carreras et al., 2004). textos en castellano y gallego: Freeling (Carreras et al., 2004). Identificación de patrones léxico-sintácticos:

2. Los contextos semilla - Escogemos los pares bilingües de entradas no polisémicas de un diccionario bilingüe. - Por cada par, generamos todos los pares de contextos posibles. Por ejemplo: “venta” - “venda”: <venta de/con/a/en... NOUN><venda de/con/a/en... NOUN> <NOUN prp venta><NOUN de/con/a/en... venda> <VERB de/con/a/en... venta><VERB de/con/a/en... venda>

3. Vectores de palabras índicecontextofreq. 00198 123 00234 218 00456 69 01223 35 02336 6 07789<estudiarN>98 08121 56 índicecontextofreq. 00198 78 00234 145 00456 45 01223 41 02336 35 07789<estudarN>23 08121 13 Extracto del vector del sustantivo castellano: “Bachillerato” Extracto del vector del sustantivo gallego: “Bacharelato” - Creamos los vectores de palabras en las dos lenguas usando los contextos semilla, y filtrando aquéllos con dispersión elevada.

4. Creación del léxico bilingüe Cada expresión del corpus Fuente se compara con las expresiones del corpus Meta (frecuencia de coocurrencia en contextos semilla). Escogemos las N palabras (N = 5) del corpus Meta con el valor de similaridad más alto (coeficiente Dice).

Coeficiente DICE, e 1 Dice (e  i  2, e 1 2F (e 2  + F(e 1 F (e 2  , e 1 F (e 2 , s 1 min(f (e i  f (e 2 , s i i  n F (e , s(f (e i n  s = contexto semilla de un corpus no-paralelo

Experimentos Corpus no-paralelo comparable: - Parte española: 13 millones (El Correo Gallego, La Voz de Galicia) - Parte gallega: 10 millones (Galicia-Hoxe, Vieiros, A Nosa Terra) Diccionario bilingüe de OpenTrad: - más de 28.000 entradas - número de contextos semilla: 539.561 (+754.469 a partir de cognados) Vectores de palabras - con 127.604 posiciones (contextos semilla seleccionados)

EVALUACIÓN Precisión y Cobertura En [Rapp, 1999], Precisión-1 = 72% Precisión-10 = 86%

Actualización del diccionario de Opentrad  Nuevo corpus no-paralelo: 22 X 2 millones  Tamaño del léxico extraído: 41.892 entradas bilingües  Número de entradas extraídas que ya están en el diccionario: 12.344  Número de entradas multiléxicas extraídas con traducción composicional: 16.047  Filtrado manual del resto de entradas (~13.000): 2.659 nuevas entradas

Trabajo por hacer  Fuerza bruta: recuperar cada N meses nuevos textos de la web - Tasas de crecimiento de nombres comunes, verbos y adjetivos: > 0,5% - Tasa de crecimiento de nombres propios: > 7%  Técnicas recursivas y de bootstrapping - incrementar el número de contextos semilla utilizando expresiones multiléxicas composicionales aprendidas en anteriores fases de extracción.

Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de.

Presentaciones similares

Presentación del tema: "Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback

Iniciar la sesión

Autorizarse a través de una red social:

Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de.

Presentaciones similares

Presentación del tema: "Un método de extracción de equivalentes de traducción a partir de un compus comparable castellano-gallego Grupo de Gramática do Espanhol Departamento de."— Transcripción de la presentación:

Presentaciones similares

Sobre el proyecto

Feedback