SenSemCat:. Corpus de la lengua catalana. anotado con información

Slides:



Advertisements
Presentaciones similares
La enseñanza de la Gramática
Advertisements

EL SINTAGMA NOMINAL CATEGORIAS GRAMATICALES (CLASES DE PALABRAS)
Know T2. Procesadores lingüísticos UPV/EHU
ORACIONES BIMEMBRES VERBALES Y SUJETO
SINTAGMAS.
Lingüística: ciencia que estudia la lengua
TERMINOLOGÍA EN ESPAÑOL
5. LA TERMINOGRAFÍA: FUNDAMENTOS, MATERIALES Y METODOLOGÍA
TERMINOLOGÍA EN ESPAÑOL
Módulo Profesional: Idioma Extranjero. Inglés
El Pronombre En lingüística y gramática, un pronombre es la clase de palabra que funciona sintácticamente como un sustantivo, pero que, a diferencia de.
El texto Una vez que ya tienes decidido sobre qué vamos a hablar o escribir, debemos entonces unir esos párrafos y crear un texto que se define como:
La oración: “Es una unidad inferior al texto, constituida por un sujeto y un predicado, con el verbo como centro funcional, que posee autonomía sintáctica,
ESQUEMA. MORFOSINTAXIS
Los sintagmas y sus clases
Del sonido a la escritura
La palabra.
El ordenador como herramienta en la adquisición del léxico en la enseñanza del alemán en los estudios de Traducción e Interpretación Antonia Montes Fernández.
Ramas de la Lingüística
SINTAXIS EN ESQUEMAS Ana Mª López Pérez.
LA ORACIÓN Y SUS CONSTITUYENTES
Repaso de sintaxis Tema 4 – Morfosintaxis: sintaxis
FUNCIONES SINTÁCTICAS (I)
LENGUA EXTRANJERA COMO INSTRUMENTO DE COMUNICACIÓN INTERNACIONAL escrita oral Macro habilidades: -Escucha -Habla -Lectura -Escritura RECONOCIMIENTO,
LA ORACIÓN Y SUS CONSTITUYENTES
La oración y sus constituyentes
El enunciado oracional El enunciado frasal
Partes: -Adecuación -coherencia -cohesión -valoración crítica
La función sintáctica.
CIUDADES INTRODUCCIÓN ¿Qué sabes sobre Sevilla, Gerona, Santander, Albacete o Huesca? ¿Y sobre Cartagena de Indias, Caracas, Quito o San Salvador? ¿No.
Modalidades textuales
DESARROLLO MORFOSINTACTICO
UNIDAD 1. LOS ENUNCIADOS Y SU ANÁLISIS
Maestría en Psicología Cognitiva y Aprendizaje
Procesamiento Práctico del lenguaje Natural Capítulo XXIII.
Recursos generales del traductor Bianca Vitalaru Universidad de Alcalá
Pura literatura Contenidos Literatura 1. La lengua literaria Lengua
La traducción periodística "Sólo dominaba la escritura aramea, en la que se escribía el español antiguo, y leía exclusivamente periódicos en esa lengua,
TEMA 2 1.EL LÉXICO Y LOS DICCIONARIOS 2.Distintos tipos de tExtos
2.1. Didáctica de la Fonología Fonología y Fonética -Definiciones - Unidades básicas - Diferencias entre Fonología y Fonética - Nuestro objetivo:
4/27/2015Lingüística Computacional1 LEXICONES Y CORPUS Carlos Mario Zapata J.
TEMA 2 Parte A Corpus lingüísticos: tipología y anotación automática Pablo Gamallo Otero
Niveles de estudio de la lengua El nivel fónico El nivel morfológico
EL SINTAGMA Es el conjunto de palabras que se relacionan entre sí de manera adecuada. Comúnmente puede ser llamado con la denominación: Frase.

Ramas de la Lingüística
LA MORFOLOGÍA.
CLASES DE PALABRAS O CATEGORÍAS GRAMATICALES
DE LA INFORMÁTICA JURÍDICA
Sintagmas y Oraciones: La GRAMATICA
Texto propio 7 Esta música, de cuyo compositor no me acuerdo, es muy alegre. funciones sintácticas a) Explique las funciones sintácticas que se establecen.
ESTRUCTURA DE LA LENGUA:
2.3. Didáctica de la Sintaxis
Aproximaciones a los estudios del verbo: problemas y aplicaciones
ESQUEMA. LA IMPERSONALIDAD
C ONCEPTOS GENERALES DE LA LINGÜÍSTICA COMPUTACIONAL Ana María Tangarife Patiño.
Tecnologías del lenguaje
La oración Simple y compuesta
Teoría Psicolingüística: un modelo sintáctico
La oración gramatical.
Estudia cómo se enlazan y ordenan las palabras en una oración El sintagma no posee significado completo; el enunciado tiene sentido, pero carece de verbo;
O 3-4 años o Abandono progresivo de lenguaje infantil y vocabulario especifico → construcciones más de lenguaje adulto. o Combinación de cláusulas en distintos.
Componentes de la oración, categorías gramaticales y signos de pausa Profesora M. Soto ESPA 3101.
Rasgos particulares de los lenguajes especializados de las disciplinas
CATEGORÍAS GRAMATICALES: EL SINTAGMA NOMINAL
Diferenciamos los sintagmas
El verbo y sus constituyentes
1 MÁS QUE PALABRAS. 2 Más que palabras ¿Qué han de aprender a manipular mentalmente los niños para ser competentes gramaticalmente hablando?
Basado en el libro Léxico del español como segunda lengua: aprendizaje y enseñanza, de Mª Victoria Romero Gualda (2008).
Análisis de fenómenos de fusión en los niveles de la arquitectura gramatical. Sevilla, mayo de 2007.
Transcripción de la presentación:

SenSemCat:. Corpus de la lengua catalana. anotado con información SenSemCat: Corpus de la lengua catalana anotado con información morfológica, sintáctica y semántica Ana Fernández Montraveta (U. Autònoma de Barcelona) Glòria Vázquez (U. Lleida) M. Elena Beà (U. Lleida) Seminari sobre Tractament Automàtic del Llenguatge (TAL) Barcelona 2011 26è Congrés Internacional de Lingüística i Filologia Romàniques, València 2010

Objetivo Construcción de un corpus anotado para el catalán con información sobre la semántica oracional

Marco general Español: Corpus periodístico y literario Anotado: morfología, sintaxis y semántica Nivel: palabra, sintagma y oración Léxico verbal asociado al corpus Énfasis: semántica de la oración Construcción Aspectualidad Modalidad

Motivación Aportación del primer corpus anotado del catalán con información semántica de la oración: Construcción Aspectualidad Modalidad Polaridad Revisión (corpus anotados –no lenguaje oral): Anotación morfológica: categorías y lemas Anotación sintáctica: sintagmas, funciones, dependencias Anotación semántica: Sentidos verbales y nominales Constituyentes: roles semánticos, correferencia Oración: construcción pasiva Dotación de mayor número de recursos lingüísticos para el catalán: corpus (anotados) y léxicos. Revisión (corpus sincrónicos y actuales): Lenguaje técnico: Corpus Textual Especialitzat Plurilingüe (IULA-UPF, 8 millones de palabras para el catálán) Lenguaje periodístico: Corpus paralelo Catalán-Español (El Periódico de Catalunya, 100 millones de palabras) Ancora (3LB) (UB-UPC-UPV, 500.000 palabras) Textos de la web: CUCWeb (Dpto. de Traducció i Filologia; Departament de Tecnologia i Cátedra Telefónica de Producción Multimedia, Universitat Pompeu Fabra, 208 millones de paraules) Corpus de referencia: Corpus Textual Informatitzat de la Llengua Catalana (IEC, 50 millones de palabras) Lenguaje oral: SpeechDat Catalab Database (TALP Universitat Politècnica de Catalunya, 1.005 hablantes) Corpus Oral Dialectal, Corpus Oral de Conversa Col·loquial, Corpus Oral de Registres (Dpto. Filología Catalna, UB) Lenguaje literario --- Llenguatge tècnic Especialtizat: Centrat en discurs tècnic. Amb anotació morfosintàctica. Mot. Llenguatge periodístic de El periódico Ancora o ELB (anotació sintàctica, morfològica i semàntica. Corpus de referència. L’anotació no és de vista pñuglica, anotació de mot, informació morfosintàctica, corpus petit, comparat amb SenSem). Aquesta informació semàntica de l’oració és un dels valors afegits del projecte Sensem. Polaritat: afirmatiu, negatiu. Correferència: pronom substitueix què en una oració.

Motivación Factibilidad de la tarea: Reutilitzación de recursos: Adaptación de la infraestructura creada para el SenSEm español a un formato multilingüe. Similitud y gran afinidad estructural de español y catalán Una altra motivació és la possibilitat de la reutilització de recursos, en aquest sentit, la factibilitata de portar-la a terme: adaptació de la infraestructura tant de la base de dades com de les eines de l’anotador. Per aquest projecte s’ha aprofitat la infrastructura creada al projecte SenSem de l’espanyol adaptant-la per a ser usada en un format multilingüe, independent de la llengua, per tal de contribuir en la confecció de corpus paral·lels. D’aquesta manera el corpus SenSemCat conté el mateix tipus d’informació que el corpus SenSem de l’espanyol (més reduït per l’exclusió del corpus literari, com abans hem dit), es tracta d’un 80% de la totalitat del corpus espanyol, unes 25.000 oracions i unes 700.000 paraules.

Metodología SenSemCat Léxico verbal inicial: 1.1 Informática: Reconversión de la estructura de la base de datos léxica (de monolingüe a plurilingüe) Editor para el léxico: permite la introducción de las traducciones del catalán a los sentidos en español. Hipertextualidad entre las entradas de las dos lenguas. Metodologia usada en el lèxic inicial: dos nivells a través d’eines informàtiques i lingüística, que s’ha fet manualment. Les eines utilitzades al SenSem espanyol s’han hagut d’adaptar estructurant les diferents bases de dades, i alhora reprogramant les interfícies d’anotació de les oracions, així com la seva visualització. Al final es pot exemplificar, ens connectem online i es tria un exemple:

Metodología SenSemCat Figura 1: editor de sentidos

Metodología SenSemCat En la figura 1 se observa el listado de sentidos de un lema del español (acordar) con algunos de los campos de cada uno de ellos: la definición, los roles asociados y las traducciones. A partir de esta pantalla, se puede acceder al léxico catalán, así como borrar o añadir sentidos del español para el lema en cuestión o cambiar la información consignada en cada uno de éstos. En la pantalla 2 se observa la entrada léxica completa para un sentido concreto del verbo español mencionado (acordar1), que incluye, además, los synsets y las variants de WordNet, los sinónimos en español dentro del propio léxico SenSem (en algún caso) y el tipo aspectual. Además, también se visualiza la definición traducida para el verbo o los verbos correspondientes del catalán y los roles asociados, ya que éstos deben coincidir entre las dos lenguas. Figura 2. Entrada léxica del sentido acordar 1 (español).

Metodología SenSemCat 1.2 Lingüística: Traducción de los verbos al catalán Traducción de las definiciones Ampliación de los sentidos del catalán con sinónimos Lingüísticament s’ha fet la traducció de les definicioons del castella això ha permés tenir enllaços hipertextuals entre les dues llengües. A més a més, aquesta eina, permet que des d’aquest llistat es pugui accedir, a través dels enllaços hipertextuals, al lèxic català; com també afegir sentits o borrar-ne algun, o simplement canviar la informació que contenen, a través de la pestanya acciones, on hi ha les dues opcions: editar/borrar Una aportació força interessant és la idea de la traducció dels verbs en espanyol al català, tenint en compte les relacions de sinonímia que s’hi estableixen, amb la finalitat d’aportar un valor afegit al lèxic, això però ha estat una tasca difícil. Així per exemple l’eina s’ha hagut de reajustat en el moment en què al borrar un sentit, tots els sentits que hi havia al darrera quedaven desfasats del plantejament inicial. Un cop solucionat aquest error del programa va caldre, però revisar manualment les traduccions de tots els sentits connectats al primer sentit. Exemple en un primer moment es van borrar el següent sentits català: agradar_2. borrar-lo (més endavant explicarem el motiu) es va haver de revisar, també aquells verbs que tinguessin sentits associats al darrere numèricament parlant, i revisar també les seves traduccions. Aquesta feina s’ha de fer manualment perquè si es recuperava una base de dades antiga, per poder recuperar així els sentis borrats del sistema, s’haguessin perdut els canvis fets pel que fa a rols semàntics amb la resta de sentits. Altres vegades el sistema ha agafat les traduccions inicials fetes manualment dels verbs en català i ha assignat una numeració correlativa, que, ja sigui per un error en la traducció catalana, o per una omissió voluntària en els verbs espanyols que s’ha exportat al català, fa que hi hagi alguna numeració no correlativa en el llistat dels sentits d’un verb. Per exemple ha succeït que un verb amb diversos sentits no té una numeració correlativa, és a dir falta un número correlatiu en un dels sentits, error que s’ha d’arreglar mitjançant l’eina informàtica adequada, per tal que no afecti el canvi als sentits anteriors i posteriors del llistat.

Metodología SenSemCat EXEMPLE: 36386- ¿Gusta usted pasar, caballero?. 34853Cuando gusten vuestras mercedes D’altres vegades al exportar la traducció dels sentits verbals de l’espanyol al català, hem trobat que no es corresponen completament. Els sentits són diferents en una llengua i en l’altra. Aquest és el motiu pel qual es va eliminar la traducció al català agradar_2, esmentada abans. El verb gustar, de l’espanyol amb dos sentits diferents, es podria pensar en un primer moment que l’exportació de dades a català seria total, és a dir mateixa traducció de la definició, mateixos rols, però un cop veiem les oracions associades veiem que si bé la traducció de la definició, i els rols són els mateixos per ambdues llengües, corresponen en català a verbs diferents, agradar i voler, mentre que en castellà els dos sentits corresponen al verb: gustar. Hi ha doncs dues oracions associades al sentit gustar2 castellà que corresponen a un verb diferent, voler8 en aquest cas, en català: 36386- ¿Gusta usted pasar, caballero?.34853Cuando gusten vuestras mercedes.

Metodología SenSemCat Corpus (periodístico): 2.1 Informática: Remodelación de las herramientas para la anotación de las frases del catalán y su consulta: Reestructuración de la base de datos del corpus para el almacenamiento multilingüe. Reelaboración de la interfaz de anotación: Inclusión de un módulo de conexión con el traductor de Google Incorporación del espacio de edición manual de la traducción Incorporación del espacio de edición manual de la anotación Reelaboración de la interfaz de consulta externa del corpus: http://grial.uab.es/tools/buscador/ El corpus SenSem espanyol consta de 25.000 oracions del periodístic i 5.000del literari. En primer lloc cal destacar la creació d’un editor per al lèxic que permeti introduir la traducció del català als sentits de l’espanyol. De forma pràctica la informació associada al sentit espanyol es copia per al verb en català, és a dir tant la definició lexicogràfica, els rols semàntics, l’etiqueta aspectual i l’equivalència a l’ontologia WordNet. La traducció dels sentits verbals del projecte s’han hagut de traduir al català de forma manual a través d’aquesta nova interfície, que permet que quan despleguem, gràcies a aquesta eina, el llistat de sentits d’un lema de l’espanyol, podem veure la informació bàsica associada a cadascun dels sentits d’aquest lema. Reelaboración de la inteficie de anotación. En línia al final es pot mostrar un exemple. La reelaboració de la interfície de consulta externa del corpus, ja era visible en castellà i ara també ho és en català. Es pot consultar facilment.

Metodología SenSemCat 2.2 Lingüística: a) Traducción de las oraciones: Traducción automática: Google Corrección manual de la traducción: La mayoría de los errores vienen motivados por las diferencias existentes entre las lenguas Ortográficos: apóstrofes, ele geminada, etc. Morfológicos: posesivos, tiempo perfecto perifrástico Léxicos Sintácticos: preposiciones, pronombres clíticos Estructurales: problemas de alineación Algunos no tienen explicación aparente Pel que fa a les traduccions de les oracions de l’espanyol al català, s’ha utilitzat el traductor Google, conservant la anotació de l’idioma original, només fent variacions en els casos absolutament necessaris. Partint de la idea que una oració pot ser traduïda de diferents maneres, i ser totes correctes (conservant el sentit original), les traduccions expressen el mateix significat que les oracions originals (espanyol) però en la llengua de destí (català en aquest cas) ha calgut fer algunes modificacions que permetessin conservar la paral·lelització de les dues llengües. Això s’ha portat a terme gràcies a una interfície que permet mantenir la paral·lelització dels textos, i permet alhora realitzar les modificacions oportunes. En el cas de les eles geminades, el traductor de vegades tradueix correctament, però no fa servir el punt volat, signe correcte, sinó el (.) punt i prou. Altres vegades el traductor no posa cap punt entre una ela i l’altra.

Ortografía Apostrofación O no la hace O laa hace de forma incorrecta

Ortografía Ele geminada (l·l) En el cas de les eles geminades, el traductor de vegades tradueix correctament, però no fa servir el punt volat, signe correcte, sinó el (.) punt i prou. Altres vegades el traductor no posa cap punt entre una ela i l’altra.

Morfología Formas verbales En aquesta imatge podem observar també que succeeix amb la traducció dels verbs en forma passada, concretament en pretèrit perfet simple en castellà, aquí el traductor ha optat, com en la resta de casos d’aquesta forma verbal, per traduir-ho en infinitiu; fet que obliga a la seva modificació manual afegint-hi el verb auxiliar de la forma perifràstica, va davant l’infinitiu per tal de formar, en aquest cas concret el pretèrit perfet perifràstic d’indicatiu: va anunciar.

Léxico Lemas Catalán : haver+de+infinitivo Haber  haver-hi Obligación: Español: tener+que+infinitivo Catalán : haver+de+infinitivo Haber  haver-hi

Léxico

Sintácticos Para que Veiem en aquest exemple que la traducció hauria de ser perquè, ja que equival a la fi que, amb la finalitat que, tal com indica el “para que” castellà. perquè s'escriu junt quan equival a a fi que, amb la finalitat que: Et dic això perquè actuïs amb coneixement de causa, Va venir perquè li féssim un certificat. En aquests casos passem de dues paraules en castellà a una sola en català:

Sintácticos Al/en: Español: al + infinitivo Catalán: en +infinitivo Tanmateix mitjançant aquest sistema de traducció i anotació és possible modificar l’anotació en casos molt corrents, com per exemple aspectes sintàctics bàsics, com per exemple absència o canvi de determinades preposicions, com en l’exemple on el traductor l’ha substituït per “a”, quan la correcta és “en” igual que en castellà. D’altres vegades cal canviar més d’un element en la traducció, com per exemple el cas de les oracions on hi ha una obligació, ja que aquest s’expressa de diferent forma en les dues llengües. El traductor tradueix paraula per paraula, fet que ens ha servit, per analitzar i poder modificar cadascun dels component de l’oració amb més detall, poder-ne fer les modificacions oportunes. Així en el cas de l’obligació que en castella es construeix amb el verb “tenir” seguit de la conjunció “que” més el verb en infinitiu, el traductor no feia de la mateix forma, calia doncs canviar-ho tot, ja que les perífrasis verbals “tenir+que+infinitiu” o “haver+que+infinitiu” són incorrectes en català per expressar obligació. S’han substituit per la forma correcta “haver+de+infinitiu

Sintácticos (no motivados)

Problemas de alineación: limitaciones del editor Alineación a nivel de palabra: Al pasar de 2 a 1 elemento: el editor no permite unir dos campos del español a uno catalán Alineación a nivel de sintagma: más graves Al pasar de 0 a 1 elemento: el editor no permite añadir campos nuevos al catalán Cambios de orden: el editor no permite cambiar el orden respecto al español

Alineación a nivel de palabra: de 1 a 2 elementos Posesivos  falta exemple

Alineación a nivel de sintagma: de 0 a 1 elemento Posar l’exemple del “estudia allí” Problema grave: el elemento coincide con un constituyente y requiere anotación

Alineación a nivel de sintagma: cambio de orden Aquí jo trauria la foto i posaria la frase del castellà (sencera, no un fragment) i la traducció que hauria de ser en català pq es vegi el context i el canvi d’ordre millor Hi ha oracions on si bé l’ús del pronom és recomanable, i de fet la forma més correcte de traduir, aquest no s’hi pot incorporar ja que la paral·lelització en ambdues llengües seria impossible. En aquests caos s’opta per mantenir aquesta paral·lelització, alhora que es manté el significat original de l’oració. “Ellos deben tomar ahora la palabra, pues sólo en ellos reside la esperanza”:

Metodología SenSemCat 2.2 Lingüística: Anotación de las oraciones: Morfología: Freeling Catalán Sintaxis y semántica de los constituyentes: Herencia directa del español Corrección según los cambios de la traducción respecto a las estructuras del español Anotación nueva de los elementos incluidos Semántica de la oración: herencia directa del español (en principio, algún cambio de construcciones pronominales vs. no pronominales)  caerse vs. caure

Cambiar la anotación SP  SN Simplement s’ha d’eliminar la preposició “a”, en el moment de la revisió manual de la traducció, en aquest cas caldria afegir-hi també l’article.

Anotar nuevos elementos Pronombres débiles: Així en aquesta fase del procés de traducció és possible generar nous camps de text (afegir pronoms dèbils) o borrar camps ja existents per a l’espanyol però innecessaris per al català. la qüestió dels paradigmes dels pronoms clítics, per exemple. En aquests casos mantenir la paral·lelització no resulta tan senzill, ja que l’espanyol no disposa de determinants pronoms per recuperar segons quins SP i SADV, però que en català cal recuperar. En aquests casos els complements absents en l’anotació de l’espanyol s’han hagut d’afegir en la catalana

Reajustes alineación sintagmas: cas hi