Building machine translation systems for indigenous languages Ariadna Font Llitjós (Carnegie Mellon University) Roberto Aranovich (University.

Slides:



Advertisements
Presentaciones similares
MOVIMIENTO JOVENES DE LA CALLE CIUDAD DE GUATEMALA chi siamo quienes-somos qui sommes-nous who we are attività actividades activités activities scuola.
Advertisements

SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR
1 Datos sobre webloggers Datos extraidos de la encuesta a webloggers disponibles en la web de los autores.
Conocimiento, Uso y Evaluación de Medicamentos Genéricos
Los números del 0 al cero uno dos tres cuatro cinco 6 7 8
50 formas de decir “Te Amo”.
1 LA UTILIZACION DE LAS TIC EN LAS MICROEMPRESAS GALLEGAS. AÑO mayo 2005.
1 LA UTILIZACION DE LAS TIC EN LAS PYMES GALLEGAS AÑO de Junio de 2005.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN EL COMERCIO GALLEGO (Resumen COMERCIO AL DETALLE) Noviembre de 2004.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS ( Resumen PYMES ) Noviembre de 2004.
1 INFORME RESUMEN SOBRE EL NIVEL DE UTILIZACION DE LAS TIC EN LAS EMPRESAS GALLEGAS (MICROEMPRESAS, resultados provisionales) 29 de julio de 2004.
AYUDA A LA FUNCIÓN DOCENTE Internet
TEMA 2 MÚLTIPLOS Y DIVISORES
02- Plan Organización Docente v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
02- PLAN DOCENTE Febrero 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
01- OFERTA FORMATIVA v.2 Noviembre 2009 SIES – SISTEMA INTEGRADO DE EDUCACIÓN SUPERIOR.
Aladdín-respuestas 1.Vivía 2.Era 3.Amaba 4.Quería 5.Gustaban 6.Se sentía 7.Salía 8.Tenía 9.Decidió 10.escapó 11. Se vistió 12. Conoció 13. Vio 14. Pensó
Respuestas Buscando a Nemo.
ABECEDARIO FIGURAS GEOMÉTRICAS NÚMERO
Leo Marthe x 2123 COMMANDperformance Leo Marthe x 2123.
Objetivo: Los estudiantes van a usar vocabulario del desayuno para comprender un cuento. Práctica: 1. ¿Te gusta comer? 2. ¿Te gusta beber Mt. Dew.
Mulán /75 puntos. 1.Querían 2.Gustaban 3.Escuchó 4.Dijo 5.Tenía 6.Ayudaron 7.Maquillaron 8.Arreglaron 9.Dio 10.Estaba 11.Iba 12.Quería 13.Salió 14.Gritó
Los Objetos de la Clase Escriban la palabra (the word) en español para los objetos de la clase (#1-20).
1 Jeopardía TemasTramaPersonajesRecursos Autor Q $100 Q $200 Q $300 Q $400 Q $500 Q $100 Q $200 Q $300 Q $400 Q $500 Jeopardía Final.
MOVIMIENTO JOVENES DE LA CALLE CIUDAD DE GUATEMALA chi siamo quienes-somos qui sommes-nous who we are attività actividades activités activities alimentazione.
William Shakespeare ( greg.), fue un dramaturgo, poeta y actor inglés. Conocido en ocasiones como el Bardo de Avon (o.
1. Apoyo exterior sobre ala inferior de viga de acero
Estrategias en el aula con alumnos con problemas de atención y comportamiento Curso Actividad formativa: Seminario CRA “Entreviñas” - Fuensaldaña.
1 Reporte Componente Impacto Por Orden Territorial Por Departamento No Disponible ND *Los indicadores para el año 2008 no fueron calculados.
Autodesk Civil 3D 2007 Essentials
Phone2Wave-Server Manual de Operación.
TELEFONÍA IP.
Repaso del capítulo Primer Paso
Parte 3. Descripción del código de una función 1.
Licitación de FONASA para Bono AUGE
Vocabulario querer comerlo -paja por supuesto - madera
Capítulo 4 Vocabulario y Gramática 1
EL OSO APRENDIZ Y SUS AMIGOS
1 Choose a category. You will be given the answer. You must give the correct question. Click to begin.
50 principios 1. Los clientes asumen el mando.
1 PROYECTO DE PRESUPUESTO DE EGRESOS DE LA FEDERACION 2002 COORDINACIÓN DE POLITICA ECONOMICA GP-PRD.
Proyecto para Centros que trabajan una vez por semana.
Clasificación de los indicadores por categoría
Indicadores CNEP Escuela
Profr. Ricardo A. Castro Rico
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt El vocabulario.
Ecuaciones Cuadráticas
¡Primero mira fijo a la bruja!
¿Qué es un conjunto? Un conjunto es una colección de objetos considerada como un todo. Los objetos de un conjunto son llamados elementos o miembros del.
1 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt El vocabularioMe.
1 LA GLORIA DEL OTOÑO EN EL VALLE LEONÉS DE LACIANA Todas las fotografías han sido tomadas entre los días 16 y 17 de octubre de 2010 Nueva versión ampliada.
0 1 ¿Qué hora es? By: Craig Tillmann Revised by: Malinda Seger Coppell High School Coppell, TX.
BEATRIZ LAFONT VILLODRE
POLÍTICAS MACROECONÓMICAS Econ. SEGUNDO A. CALLE RUIZ Ms. Sc. C. D.
¿Quién? ¿Qué? ¿Dónde? ¿Cuándo? ¿Cómo? ¿Por qué?
Módulo 2: Condiciones Generales de Trabajo
* Fuente: Sondeo del Consumidor de la Comisión de la UE, GfK. Expectativas sobre la situación.
Los números. Del 0 al 100.
MSc. Lucía Osuna Wendehake
Calendario 2009 “Imágenes variadas” Venezuela Elaborado por: MSc. Lucía Osuna Wendehake psicopedagogiaconlucia.com Enero 2009.
Building Machine Translation Systems for Indigenous Languages Ariadna Font Llitjós (Carnegie Mellon University) Roberto Aranovich (University.
Vocabulario: (Los números)
Señales y sistemas de tiempo discreto
Manual de Procedimientos Procedimiento de ejecución del programa de
Indicaciones: 1.- Tener en cuenta que esta estrategia, solo funciona asociando las cuentas los días lunes. 2.- Los cálculos son aproximados con un margen.
¿ Como llenar la aplicación California Dream Act ? Presentado por: Armando Nu ñ ez San Joaquin Delta College Office: Ext. 6126
Herramienta FRAX Expositor: Boris Inturias.
CHAPTER 4 VOCABULARY: PART II
FUNDAMENTOS DE CALIDAD EN LA GESTIÓN PÚBLICA
Sistema Avenue de Transferencia mapudungún-español
Transcripción de la presentación:

Building machine translation systems for indigenous languages Ariadna Font Llitjós (Carnegie Mellon University) Roberto Aranovich (University of Pittsburgh) Lori Levin (Carnegie Mellon University)

2 Objetivo del artículo El artículo describe la cooperación entre un equipo de lingüistas computacionales pertenecientes al Projecto Avenue (Language Technologies Institute, Carnegie Mellon University) y dos comunidades aborígenes de América Latina, la comunidad mapuche de Chile y la comunidad quechua de Perú.

3 The Avenue Project El principal objetivo del Projecto Avenue es el desarrollo, en forma rápida y accesible económicamente, de tecnologías lingüísticas para lenguas con escasos recursos. Entendemos como lenguas con escasos recursos desde el punto de vista de las tecnologías lingüísticas a aquellas que carecen de bases de datos significativas en formato electrónico y de hablantes nativos entrenados en lingüística computacional.

4 Tecnologías lingüísticas Entre las tecnologías en desarrollo se encuentran: Bases de datos en formatos electrónicos estandarizados. Diccionarios electrónicos. Correctores ortográficos. Analizadores morfológicos automáticos. Sistemas de traducción automática.

5 Cooperación institucional (mapudungún) Las instituciones que han cooperado en la producción de tecnologías lingüísticas para el mapudungún son: El Projecto Avenue. El Ministerio de Educación de Chile. El Instituto de Estudios Indígenas, Universidad de la Frontera (UFRO).

6 El mapudungún Lengua aglutinante y polisintética hablada en el sur de Chile y Argentina. Hay mapuches, de los cuales al menos son hablantes activos de la lengua.

7 Características del mapudungún (1) Dos características distintivas de esta lengua son la aglutinación (es decir, la posibilidad de formar palabras complejas adosando múltiples afijos a una misma raíz) y, aunque en menor grado, la polisíntesis, proceso que implica la incorporación de núcleos léxicos libres o ligados a un verbo.

8 Características del mapudungún (2) Ejemplo: kofke-tu-la-ya-y pan-VERB-NEG-FUT-IND/3S ‘El no comerá pan’

9 Base de datos electrónica (1) Base de datos paralela en formato electrónico ( palabras de texto y 120 horas de transcripción de conversación). Es una base de datos paralelos (en mapudungún y español). La base de datos textual está constituida por textos históricos y periodísticos actuales (periódico Nuestros Pueblos, CONADI, Chile). La base de datos oral está constituida por la transcripción de 120 dialogos, de una hora cada uno.

10 Base de datos electrónica (2) Las conversaciones están limitadas al campo semántico de la salud primaria y preventiva. Las conversaciones reflejan distintos dialectos del mapudungún (lafkenche, nguluche, pewenche). Todos los participantes son hablantes nativos, de entre 21 y 75 años de edad. Los diálogos fueron grabados con una grabadora Sony DAT (48kHz) y micrófonos estereofónicos digitales Sony.

11 Base de datos electrónica (3) Las grabaciones fueron convertidas en archivos wave utilizando el programa CoolEdit 2000 v.1.1. ( La herramienta de transcripción utilizada fue TransEdit v.1.1. beta 10, que sincroniza el texto transcripto con el archivo wave. Se utilizó para la transcripción una convención ortográfica de 28 letras desarrollada por el IEI- UFRO. Este alfabeto es compatible con los símbolos disponibles en los teclados de computadora en español.

12 Base de datos electrónica (4) Algunos ejemplos de tópicos de conversación en la base de datos: I. Mantención de la salud y enfermedades 1. Chumkeymi tami külfünküleal. (Cómo hace para mantenerse as de bien.) 2. Rüfkünungey am tami amulngen kiñe machimew. (Es verdad que el médico lo mandó donde una machi.)...

13 Base de datos electrónica (5) II. Embarazo - Niepeklen 1.Tunten püñeñ dew nieymi. (Cuántos hijos ha tenido.) 2.Tunten mongeley. (Cuántos estn vivos.) 3.Chumngekefui tami niepüñekülen, kutrankawkefuimi kam femkelafuimi. (Cómo eran sus embarazos. Tuvo algún problema.)

14 Base de datos electrónica (6) III. Las enfermedades - Puke kutran 1. Chumngey tami kutran. (En qué consiste su enermedad.) 2. Chem. üy niey tami kutran ? (Cómo se llama su enfermad?) 3. Chem. Dewmangekey pelontual chem. Kutran niel? (Qué tipo de exámenes se necesitan para efectuar el diagnostico?)

15 Corrector ortográfico (1) Prototipo de corrector ortográfico para textos en mapudungún. Funciona en el entorno OpenOffice, un editor de texto de distribución gratuita disponible en internet ( Subraya los posibles errores y propone un menú de posibles alternativas. También permite incorporar nuevas palabras al diccionario.

16 Corrector ortográfico (2) El corrector funciona sobre la base de dos archivos: a. Una lista de raíces (5.234) y palabras (53.094). b. Una lista de grupos de sufijos (1.303).

e

18 Diccionarios (1) Diccionario (léxico para el sistema de traducción automática). Proyecto de diccionario on-line sobre la base de las palabras extraídas de la base de datos oral. Palabras segmentadas en raíz-grupo de sufijos y con ejemplos de uso.

19 Diccionarios (2) Kelluaeteu: kellu-a-eteu.ayudar-futuro-a.mi / /. el que me va a ayudar Katripache tañi kimün tati, peñi, feynga puulu iñche, iñche tañi lipang, “iñche tañi kelluaeteu ta tüfa” pipingeynga (Es conocimiento de la gente de afuera pues, hermano, entonces cuando llegué yo, mi brazo, éste es el que me va a ayudar, decía y decía) nmlch-nmpll1_x_0033_nmpll_00. Ec/Rh/Fc. Ec/ Rh

20 Analizador morfológico (1) El programa segmenta la raíz y el complejo de sufijos y obtiene la información gramatical relevante de cada morfema. El léxico morfológico contiene aproximadamente 1670 raíces y 105 sufijos.

21 Analizador morfológico (2) Ejemplo: kofketulayay → kofketu-la-ya-y negación = + tiempo = futuro persona = 3 número = sg modo = indicativo

Sistema Avenue de Traducción mapudungún-español (Rule Based) Léxico mapuche (raíces y morfemas) Analizador morfológico mapuche Input: oración/frase/palabra mapuche Grámatica de transferencia/ Léxico de transferencia Input segmentado morfológicamente/ rasgos gramaticales especificados Estructura gramatical equivalente en español (palabras no flexionadas + rasgos gramaticales) Generador morfológico español Output: oración/frase/palabra española Léxico español (palabras flexionadas) Sistema de transferencia

23 Un ejemplo 83: sl: perkefiñ Maria tl: DICEN QUE LA VI A MARÍA tree:

24 Ejemplo: perkefiñ X0: ((REPORTATIVE +) (PERSON 1) (NUMBER SG) (MOOD IND) (OBJECT ((PERSON 3)))) pe-rke-fi-ñ ver-REPORT-3O-1sS/IND

25 Léxico de transferencia (1) Estructura de las entradas léxicas Raíz: {V,4} V::V |: [pe] -> ["ver"] ( (X1::Y1) ((y0 type) = main) )

26 Léxico de transferencia (2) {VSUFF,1} VSuff::VSuff |: [ñ] -> [“ “] ( (X1::Y1) ((x0 person) = 1) ((x0 number) = sg) ((x0 mood) = ind) ) {VSUFF,23} VSuff::VSuff |: [rke] -> [“ “] ( (X1::Y1) ((x0 reportative) = +) ) {VSUFF,56} VSuff::VSuff |: [fi] -> [“ “] ( (X1::Y1) ((x0 object person) = 3) )

27 Gramática de transferencia (1) Estructura de las reglas: formalismo desarrollado para transferir rasgos gramaticales, tanto de los ítemes léxicos a los constituyentes sintácticos y de la lengua fuente a la lengua meta. Ejemplo: ;; pl N with pluralizer PU (pu ruka::las casas::the houses)

28 Estructura de las reglas {NBar,1} ;;identificador NBar::NBar : [PART N] -> [N] ;;especificación de los ;;constituyentes ( (X2::Y1) ;; alineación ((X1 number) =c pl) ;;restricción ((X0 number) = (X1 number)) ;;transferencia ((Y0 number) = (X0 number)) ;; de rasgos ((Y1 number) = (Y0 number)) ((Y0 gender) = (Y1 gender))) )

29 árbol NBar(X0)NBar(Y0) PART(X1) N(X2) N(Y1) num gen

30 Reglas que se aplican en perkefiñ Problemas a resolver: 1. Concatenación de los sufijos 2. Determinar el tiempo en mapudungún y transferirlo al español 3. Insertar el clítico en la lengua meta 4. Insertar la preposición a en la lengua meta 5. Insertar el verbo modal y el subordinante que en la lengua meta

31 Concatenación de sufijos (1) {VSuffG,1} VSuffG::VSuffG : [VSuff] -> [“ “] ( (X0 = X1) ) VSuffG VSuff rasgos

32 Concatenación de sufijos (2) {VSuffG,2} VSuffG::VSuffG : [VSuffG VSuff] -> [""] ( (X0 = X1) (X0 = X2) ) VSuffG VSuffGVSuff rasgos

33 Concatenación de sufijos (3) VSuffG VSuffGVSuff -ñ VSuffGVSuff -fi VSuff -rke

34 El tiempo en mapudungún (1) Tiempo no marcado + aspecto léxico no marcado + aspecto externo no marcado → pasado (kellu-n::ayudé::(I)helped) Tiempo no marcado + aspecto léxico estativo → presente (niye-n::poseo::(I)own)

35 El tiempo en mapudungún (2) Tiempo no marcado + aspecto léxico no marcado + aspecto externo habitual → presente (kellu-ke-n::ayudo::(I)help) Tiempo marcado (pe-a-n::veré::(I)will see)

36 Tiempo pasado {TenseBar,1} TenseBar::TenseBar : [V VSuffG] -> [V] ( (X1::Y1) ((X2 tense) = *UNDEFINED*) ((X1 lexicalaspect) = *UNDEFINED*) ((X2 aspect) = (*NOT* habitual)) ((X2 tense) <= past) (X0 = X1) (X0 = X2) (Y0 = Y1) )

37 Inserción del clítico {VBar,6} VBar::VBar : [TenseBar] -> [CLITIC V] ( (X1::Y2) ((X1 object person) =c 3) ((X0 person) = (X1 person)) ((X0 number) = (X1 number)) ((X0 object person) = (X1 object person)) ((X0 object number) = (X1 object number)) ((Y0 objmarker) = Y1) ((Y0 person) = (X0 person)) ((Y0 number) = (X0 number)) ((Y0 object person) = (X0 object person)) ((Y0 object number) = (X0 object number)) ((Y2 person) = (Y0 person)) ((Y2 number) = (Y0 number)) ((Y1 person) = (Y0 object person)) ((Y1 number) = (Y0 object number)) ((Y1 type) =c personal) ((Y1 case) =c acc) )

38 Inserción de la preposición ; transitive VP (human object) ; pefiñ Maria::la vi a María {VP,3}; transitive VP (human object) VP::VP [VBar NP] -> [VBar "a" NP] ( (X1::Y1) (X2::Y3) ((X2 type) = (*NOT* personal)) ((X2 human) =c +) (X0 = X1) ((X0 object) = X2) (Y0 = X0) ((Y0 object) = (X0 object)) (Y1 = Y0) (Y3 = (Y0 object)) ((Y1 objmarker person) = (Y3 person)) ((Y1 objmarker number) = (Y3 number)) ((Y1 objmarker gender) = (Y3 gender)) )

39 Inserción del verbo modal y el subordinante {Sbar,1} Sbar::Sbar [S] -> ["Dicen" "que" S] ( (X1::Y3) ((X1 reportative) =c +) (X0 = X1) (Y0 = Y3) )

40 Generador morfológico español Funciona sobre la base de un léxico de formas flexionadas del español con todos sus rasgos especificados. Ejemplo: alto#AQ0FP0 altas alto#AQ0FS0 alta alto#AQ0MP0 altos alto#AQ0MS0 alto

41 Algunos problemas de traducción (1) ;;inverse agreement 40: sl: pe-e-n tl: ME VISTE tree:

42 Algunos problemas de traducción (2) ;;deadjectival verbs 48: sl: fey küme-nge-y tl: ELLA ES BUENA tree: tl: ÉL ES BUENO tree:

43 Algunos problemas de traducción (3) ;;passive 58: sl: Kuan ayuda-nge-y tl: JUAN FUE AYUDADO tree:

44 Algunos problemas de traducción (4) ;;causative verbs 72: sl: trem-üm-ün tl: HICE CRECER tree:

45 Algunos problemas de traducción (5) ;;denominal verbs 73: sl: asukar-tu-n tl: COMÍ AZÚCAR tree:

46 Algunos problemas de traducción (6) ;;progressive aspect 95: sl: petu pe-yu tl: ESTAMOS VIENDO tree:

47 Algunos problemas de traducción (7) ;;negation 98: sl: pe-la-n tl: NO VI tree: