La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

SenSemCat:. Corpus de la lengua catalana. anotado con información

Presentaciones similares


Presentación del tema: "SenSemCat:. Corpus de la lengua catalana. anotado con información"— Transcripción de la presentación:

1 SenSemCat:. Corpus de la lengua catalana. anotado con información
SenSemCat: Corpus de la lengua catalana anotado con información morfológica, sintáctica y semántica Ana Fernández Montraveta (U. Autònoma de Barcelona) Glòria Vázquez (U. Lleida) M. Elena Beà (U. Lleida) Seminari sobre Tractament Automàtic del Llenguatge (TAL) Barcelona 2011 26è Congrés Internacional de Lingüística i Filologia Romàniques, València 2010

2 Objetivo Construcción de un corpus anotado para el catalán con información sobre la semántica oracional

3 Marco general Español: Corpus periodístico y literario
Anotado: morfología, sintaxis y semántica Nivel: palabra, sintagma y oración Léxico verbal asociado al corpus Énfasis: semántica de la oración Construcción Aspectualidad Modalidad

4 Motivación Aportación del primer corpus anotado del catalán con información semántica de la oración: Construcción Aspectualidad Modalidad Polaridad Revisión (corpus anotados –no lenguaje oral): Anotación morfológica: categorías y lemas Anotación sintáctica: sintagmas, funciones, dependencias Anotación semántica: Sentidos verbales y nominales Constituyentes: roles semánticos, correferencia Oración: construcción pasiva Dotación de mayor número de recursos lingüísticos para el catalán: corpus (anotados) y léxicos. Revisión (corpus sincrónicos y actuales): Lenguaje técnico: Corpus Textual Especialitzat Plurilingüe (IULA-UPF, 8 millones de palabras para el catálán) Lenguaje periodístico: Corpus paralelo Catalán-Español (El Periódico de Catalunya, 100 millones de palabras) Ancora (3LB) (UB-UPC-UPV, palabras) Textos de la web: CUCWeb (Dpto. de Traducció i Filologia; Departament de Tecnologia i Cátedra Telefónica de Producción Multimedia, Universitat Pompeu Fabra, 208 millones de paraules) Corpus de referencia: Corpus Textual Informatitzat de la Llengua Catalana (IEC, 50 millones de palabras) Lenguaje oral: SpeechDat Catalab Database (TALP Universitat Politècnica de Catalunya, hablantes) Corpus Oral Dialectal, Corpus Oral de Conversa Col·loquial, Corpus Oral de Registres (Dpto. Filología Catalna, UB) Lenguaje literario --- Llenguatge tècnic Especialtizat: Centrat en discurs tècnic. Amb anotació morfosintàctica. Mot. Llenguatge periodístic de El periódico Ancora o ELB (anotació sintàctica, morfològica i semàntica. Corpus de referència. L’anotació no és de vista pñuglica, anotació de mot, informació morfosintàctica, corpus petit, comparat amb SenSem). Aquesta informació semàntica de l’oració és un dels valors afegits del projecte Sensem. Polaritat: afirmatiu, negatiu. Correferència: pronom substitueix què en una oració.

5 Motivación Factibilidad de la tarea:
Reutilitzación de recursos: Adaptación de la infraestructura creada para el SenSEm español a un formato multilingüe. Similitud y gran afinidad estructural de español y catalán Una altra motivació és la possibilitat de la reutilització de recursos, en aquest sentit, la factibilitata de portar-la a terme: adaptació de la infraestructura tant de la base de dades com de les eines de l’anotador. Per aquest projecte s’ha aprofitat la infrastructura creada al projecte SenSem de l’espanyol adaptant-la per a ser usada en un format multilingüe, independent de la llengua, per tal de contribuir en la confecció de corpus paral·lels. D’aquesta manera el corpus SenSemCat conté el mateix tipus d’informació que el corpus SenSem de l’espanyol (més reduït per l’exclusió del corpus literari, com abans hem dit), es tracta d’un 80% de la totalitat del corpus espanyol, unes oracions i unes paraules.

6 Metodología SenSemCat
Léxico verbal inicial: 1.1 Informática: Reconversión de la estructura de la base de datos léxica (de monolingüe a plurilingüe) Editor para el léxico: permite la introducción de las traducciones del catalán a los sentidos en español. Hipertextualidad entre las entradas de las dos lenguas. Metodologia usada en el lèxic inicial: dos nivells a través d’eines informàtiques i lingüística, que s’ha fet manualment. Les eines utilitzades al SenSem espanyol s’han hagut d’adaptar estructurant les diferents bases de dades, i alhora reprogramant les interfícies d’anotació de les oracions, així com la seva visualització. Al final es pot exemplificar, ens connectem online i es tria un exemple:

7 Metodología SenSemCat
Figura 1: editor de sentidos

8 Metodología SenSemCat
En la figura 1 se observa el listado de sentidos de un lema del español (acordar) con algunos de los campos de cada uno de ellos: la definición, los roles asociados y las traducciones. A partir de esta pantalla, se puede acceder al léxico catalán, así como borrar o añadir sentidos del español para el lema en cuestión o cambiar la información consignada en cada uno de éstos. En la pantalla 2 se observa la entrada léxica completa para un sentido concreto del verbo español mencionado (acordar1), que incluye, además, los synsets y las variants de WordNet, los sinónimos en español dentro del propio léxico SenSem (en algún caso) y el tipo aspectual. Además, también se visualiza la definición traducida para el verbo o los verbos correspondientes del catalán y los roles asociados, ya que éstos deben coincidir entre las dos lenguas. Figura 2. Entrada léxica del sentido acordar 1 (español).

9 Metodología SenSemCat
1.2 Lingüística: Traducción de los verbos al catalán Traducción de las definiciones Ampliación de los sentidos del catalán con sinónimos Lingüísticament s’ha fet la traducció de les definicioons del castella això ha permés tenir enllaços hipertextuals entre les dues llengües. A més a més, aquesta eina, permet que des d’aquest llistat es pugui accedir, a través dels enllaços hipertextuals, al lèxic català; com també afegir sentits o borrar-ne algun, o simplement canviar la informació que contenen, a través de la pestanya acciones, on hi ha les dues opcions: editar/borrar Una aportació força interessant és la idea de la traducció dels verbs en espanyol al català, tenint en compte les relacions de sinonímia que s’hi estableixen, amb la finalitat d’aportar un valor afegit al lèxic, això però ha estat una tasca difícil. Així per exemple l’eina s’ha hagut de reajustat en el moment en què al borrar un sentit, tots els sentits que hi havia al darrera quedaven desfasats del plantejament inicial. Un cop solucionat aquest error del programa va caldre, però revisar manualment les traduccions de tots els sentits connectats al primer sentit. Exemple en un primer moment es van borrar el següent sentits català: agradar_2. borrar-lo (més endavant explicarem el motiu) es va haver de revisar, també aquells verbs que tinguessin sentits associats al darrere numèricament parlant, i revisar també les seves traduccions. Aquesta feina s’ha de fer manualment perquè si es recuperava una base de dades antiga, per poder recuperar així els sentis borrats del sistema, s’haguessin perdut els canvis fets pel que fa a rols semàntics amb la resta de sentits. Altres vegades el sistema ha agafat les traduccions inicials fetes manualment dels verbs en català i ha assignat una numeració correlativa, que, ja sigui per un error en la traducció catalana, o per una omissió voluntària en els verbs espanyols que s’ha exportat al català, fa que hi hagi alguna numeració no correlativa en el llistat dels sentits d’un verb. Per exemple ha succeït que un verb amb diversos sentits no té una numeració correlativa, és a dir falta un número correlatiu en un dels sentits, error que s’ha d’arreglar mitjançant l’eina informàtica adequada, per tal que no afecti el canvi als sentits anteriors i posteriors del llistat.

10 Metodología SenSemCat
EXEMPLE: ¿Gusta usted pasar, caballero? Cuando gusten vuestras mercedes D’altres vegades al exportar la traducció dels sentits verbals de l’espanyol al català, hem trobat que no es corresponen completament. Els sentits són diferents en una llengua i en l’altra. Aquest és el motiu pel qual es va eliminar la traducció al català agradar_2, esmentada abans. El verb gustar, de l’espanyol amb dos sentits diferents, es podria pensar en un primer moment que l’exportació de dades a català seria total, és a dir mateixa traducció de la definició, mateixos rols, però un cop veiem les oracions associades veiem que si bé la traducció de la definició, i els rols són els mateixos per ambdues llengües, corresponen en català a verbs diferents, agradar i voler, mentre que en castellà els dos sentits corresponen al verb: gustar. Hi ha doncs dues oracions associades al sentit gustar2 castellà que corresponen a un verb diferent, voler8 en aquest cas, en català: ¿Gusta usted pasar, caballero?.34853Cuando gusten vuestras mercedes.

11 Metodología SenSemCat
Corpus (periodístico): 2.1 Informática: Remodelación de las herramientas para la anotación de las frases del catalán y su consulta: Reestructuración de la base de datos del corpus para el almacenamiento multilingüe. Reelaboración de la interfaz de anotación: Inclusión de un módulo de conexión con el traductor de Google Incorporación del espacio de edición manual de la traducción Incorporación del espacio de edición manual de la anotación Reelaboración de la interfaz de consulta externa del corpus: El corpus SenSem espanyol consta de oracions del periodístic i 5.000del literari. En primer lloc cal destacar la creació d’un editor per al lèxic que permeti introduir la traducció del català als sentits de l’espanyol. De forma pràctica la informació associada al sentit espanyol es copia per al verb en català, és a dir tant la definició lexicogràfica, els rols semàntics, l’etiqueta aspectual i l’equivalència a l’ontologia WordNet. La traducció dels sentits verbals del projecte s’han hagut de traduir al català de forma manual a través d’aquesta nova interfície, que permet que quan despleguem, gràcies a aquesta eina, el llistat de sentits d’un lema de l’espanyol, podem veure la informació bàsica associada a cadascun dels sentits d’aquest lema. Reelaboración de la inteficie de anotación. En línia al final es pot mostrar un exemple. La reelaboració de la interfície de consulta externa del corpus, ja era visible en castellà i ara també ho és en català. Es pot consultar facilment.

12 Metodología SenSemCat
2.2 Lingüística: a) Traducción de las oraciones: Traducción automática: Google Corrección manual de la traducción: La mayoría de los errores vienen motivados por las diferencias existentes entre las lenguas Ortográficos: apóstrofes, ele geminada, etc. Morfológicos: posesivos, tiempo perfecto perifrástico Léxicos Sintácticos: preposiciones, pronombres clíticos Estructurales: problemas de alineación Algunos no tienen explicación aparente Pel que fa a les traduccions de les oracions de l’espanyol al català, s’ha utilitzat el traductor Google, conservant la anotació de l’idioma original, només fent variacions en els casos absolutament necessaris. Partint de la idea que una oració pot ser traduïda de diferents maneres, i ser totes correctes (conservant el sentit original), les traduccions expressen el mateix significat que les oracions originals (espanyol) però en la llengua de destí (català en aquest cas) ha calgut fer algunes modificacions que permetessin conservar la paral·lelització de les dues llengües. Això s’ha portat a terme gràcies a una interfície que permet mantenir la paral·lelització dels textos, i permet alhora realitzar les modificacions oportunes. En el cas de les eles geminades, el traductor de vegades tradueix correctament, però no fa servir el punt volat, signe correcte, sinó el (.) punt i prou. Altres vegades el traductor no posa cap punt entre una ela i l’altra.

13 Ortografía Apostrofación O no la hace O laa hace de forma incorrecta

14 Ortografía Ele geminada (l·l)
En el cas de les eles geminades, el traductor de vegades tradueix correctament, però no fa servir el punt volat, signe correcte, sinó el (.) punt i prou. Altres vegades el traductor no posa cap punt entre una ela i l’altra.

15 Morfología Formas verbales
En aquesta imatge podem observar també que succeeix amb la traducció dels verbs en forma passada, concretament en pretèrit perfet simple en castellà, aquí el traductor ha optat, com en la resta de casos d’aquesta forma verbal, per traduir-ho en infinitiu; fet que obliga a la seva modificació manual afegint-hi el verb auxiliar de la forma perifràstica, va davant l’infinitiu per tal de formar, en aquest cas concret el pretèrit perfet perifràstic d’indicatiu: va anunciar.

16 Léxico Lemas Catalán : haver+de+infinitivo Haber  haver-hi
Obligación: Español: tener+que+infinitivo Catalán : haver+de+infinitivo Haber  haver-hi

17 Léxico

18 Sintácticos Para que Veiem en aquest exemple que la traducció hauria de ser perquè, ja que equival a la fi que, amb la finalitat que, tal com indica el “para que” castellà. perquè s'escriu junt quan equival a a fi que, amb la finalitat que: Et dic això perquè actuïs amb coneixement de causa, Va venir perquè li féssim un certificat. En aquests casos passem de dues paraules en castellà a una sola en català:

19 Sintácticos Al/en: Español: al + infinitivo Catalán: en +infinitivo
Tanmateix mitjançant aquest sistema de traducció i anotació és possible modificar l’anotació en casos molt corrents, com per exemple aspectes sintàctics bàsics, com per exemple absència o canvi de determinades preposicions, com en l’exemple on el traductor l’ha substituït per “a”, quan la correcta és “en” igual que en castellà. D’altres vegades cal canviar més d’un element en la traducció, com per exemple el cas de les oracions on hi ha una obligació, ja que aquest s’expressa de diferent forma en les dues llengües. El traductor tradueix paraula per paraula, fet que ens ha servit, per analitzar i poder modificar cadascun dels component de l’oració amb més detall, poder-ne fer les modificacions oportunes. Així en el cas de l’obligació que en castella es construeix amb el verb “tenir” seguit de la conjunció “que” més el verb en infinitiu, el traductor no feia de la mateix forma, calia doncs canviar-ho tot, ja que les perífrasis verbals “tenir+que+infinitiu” o “haver+que+infinitiu” són incorrectes en català per expressar obligació. S’han substituit per la forma correcta “haver+de+infinitiu

20 Sintácticos (no motivados)

21 Problemas de alineación: limitaciones del editor
Alineación a nivel de palabra: Al pasar de 2 a 1 elemento: el editor no permite unir dos campos del español a uno catalán Alineación a nivel de sintagma: más graves Al pasar de 0 a 1 elemento: el editor no permite añadir campos nuevos al catalán Cambios de orden: el editor no permite cambiar el orden respecto al español

22 Alineación a nivel de palabra: de 1 a 2 elementos
Posesivos  falta exemple

23 Alineación a nivel de sintagma: de 0 a 1 elemento
Posar l’exemple del “estudia allí” Problema grave: el elemento coincide con un constituyente y requiere anotación

24 Alineación a nivel de sintagma: cambio de orden
Aquí jo trauria la foto i posaria la frase del castellà (sencera, no un fragment) i la traducció que hauria de ser en català pq es vegi el context i el canvi d’ordre millor Hi ha oracions on si bé l’ús del pronom és recomanable, i de fet la forma més correcte de traduir, aquest no s’hi pot incorporar ja que la paral·lelització en ambdues llengües seria impossible. En aquests caos s’opta per mantenir aquesta paral·lelització, alhora que es manté el significat original de l’oració. “Ellos deben tomar ahora la palabra, pues sólo en ellos reside la esperanza”:

25 Metodología SenSemCat
2.2 Lingüística: Anotación de las oraciones: Morfología: Freeling Catalán Sintaxis y semántica de los constituyentes: Herencia directa del español Corrección según los cambios de la traducción respecto a las estructuras del español Anotación nueva de los elementos incluidos Semántica de la oración: herencia directa del español (en principio, algún cambio de construcciones pronominales vs. no pronominales)  caerse vs. caure

26 Cambiar la anotación SP  SN
Simplement s’ha d’eliminar la preposició “a”, en el moment de la revisió manual de la traducció, en aquest cas caldria afegir-hi també l’article.

27 Anotar nuevos elementos
Pronombres débiles: Així en aquesta fase del procés de traducció és possible generar nous camps de text (afegir pronoms dèbils) o borrar camps ja existents per a l’espanyol però innecessaris per al català. la qüestió dels paradigmes dels pronoms clítics, per exemple. En aquests casos mantenir la paral·lelització no resulta tan senzill, ja que l’espanyol no disposa de determinants pronoms per recuperar segons quins SP i SADV, però que en català cal recuperar. En aquests casos els complements absents en l’anotació de l’espanyol s’han hagut d’afegir en la catalana

28 Reajustes alineación sintagmas: cas hi


Descargar ppt "SenSemCat:. Corpus de la lengua catalana. anotado con información"

Presentaciones similares


Anuncios Google