La descarga está en progreso. Por favor, espere

La descarga está en progreso. Por favor, espere

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.

Presentaciones similares


Presentación del tema: "XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals."— Transcripción de la presentación:

1 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

2 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 2 Índex Participants Objectius Tipus d’eines Processos  Obtenció de memòries de traducció  Obtenció de terminologia (bilingüe) Explotació

3 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 3 Participants Serveis lingüístics universitaris  Universitat Autònoma de Barcelona  Universitat de Girona  Universitat Oberta de Catalunya  Universitat Politècnica de Catalunya Institucions públiques  DURSI (Departament d’Universitats, Recerca i Societat de la Informació)

4 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 4 Objectius Disposar de materials multilingües Desenvolupar recursos que facilitin i millorin la traducció automatitzada al català dels documents docents. Facilitar que l’alumnat universitari pugui disposar dels materials docents almenys en català. Automatitzar els processos de treball Homogeneïtzar i automatitzar els processos de treball fent servir les mateixes eines de suport lingüístic i compartint recursos (memòries de traducció i terminologia). Reaprofitar la informació lingüística generada a les nostres universitats gràcies a eines informàtiques de suport lingüístic. Disposar de recursos gratuïts Distribuir gratuïtament eines i recursos a totes les universitats, institucions, empreses que hi estiguin interessades (descàrregues des d’Internet). Les aplicacions informàtiques seran de programari lliure.

5 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 5 Tipus d’eines Eines bàsiques de buidatge  Alineador automàtic de textos  Extractor de terminologia Utilitats: portabilitat (comunicació entre programes)  Base de dades terminològica => Lèxic sistema TA  Corpus paral·lel => Memòria de traducció  Creació de formats estàndard: text tabulat => TMX/TBX

6 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 6 Flux de buidatge

7 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 7 Article 80. Competències 1. Són competències del secretari general: - Redactar i custodiar les actes de les sessions del Claustre, del Consell de Govern, de l’Equip de Govern i de la Junta Consultiva, així com expedir certificacions de llurs acords. Eina d’alineació: AlinUOC Artículo 80. Competencias 1. Son competencias del secretario general: - Redactar y custodiar las actas de las sesiones del Claustro, del Consejo de Gobierno, del Equipo de Gobierno y de la Junta Consultiva, así como expedir certificaciones de sus acuerdos.

8 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 8 Alineació de documents DOC Articles català Articles anglès Articles espanyol doc2txt Articles català Articles anglès Articles espanyol Articles cat- ang alineats Articles cat- esp alineats AlinUOC DOC TXT

9 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 9 Alineació de documents HTML Articles català Articles anglès Articles espanyol html2txt Articles català Articles anglès Articles espanyol Articles cat- ang alineats Articles cat- esp alineats AlinUOC HTML TXT

10 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 10 Alineació de documents PDF PDF TXT Articles català Articles anglès Articles espanyol Pdf2txt Articles català Articles anglès Articles espanyol Resums cat- ang alineats Resums cat- esp alineats AlinUOC Resums català Resums anglès Resums espanyol

11 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 11 Tractament de documents PDF Problemes per a tractar documents PDF  Recuperar paraules tallades per un salt de línia amb guionet.  Ajuntar línies separades per peus de pàgina, encapçalaments, peus de figura, etc.

12 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 12 Tractament de documents PDF

13 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 13 Tractament de documents PDF

14 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 14 Creació de memòries de traducció Corpus paral·lel (Text tabulat) txt2tmxMT (TMX) DéjàVu ForeignDesk (Frog Translator) MT Access

15 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 15 Què és un candidat a terme? El cinema digital i la televisió són el futur.  Una paraula (cinema)  Dues paraules consecutives (cinema digital)  Tres paraules consecutives (cinema digital i)  …  N-grams (subseqüència d’n paraules consecutives)

16 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 16 Extracció de candidats a terme Elaboració d’una llista de candidats a terme  “Morim d’èxit!” Filtratge de la llista de candidats  Automàtic  Manual Cerca d’equivalents en altres llengües

17 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 17 Elaboració de la llista d’n-grams Corpus paral·lel (Text tabulat) StemTES n-grams Llista n-grams

18 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 18 Selecció dels n-gram

19 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 19 Filtratge de candidats a terme De manera implícita ja hem explotat el corpus paral·lel Aplicació de coneixement lingüístic  Eliminar unigrams per freqüència ‘podem’, ‘anys’  Eliminar unigrans emprant patrons morfosintàctics ((els el DETMP) (artistes artista NMP) (volen voler (VERB3PP)) Filtratge amb cerques a Internet  Cerques a Internet net art + medicina + esports => nombre de pàgines  Directori de dominis

20 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 20 Propostes de termes i equivalents de traducció Corpus paral·lel (Text tabulat) StemTES n-grams Llista n-grams filtrats Llista n-grams Amb propostes d’equivalències

21 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 21 Propostes d’equivalents a terme: TOND

22 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 22 Un cas pràctic Espai en xarxa: Artnodes Volum de text:  Unes 26.000 paraules Nombre de candidats a terme sense filtratge previ  2.884 Nombre de candidats finals amb filtratge  998

23 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 23

24 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 24 Gràcies per la vostra atenció Gracias por vuestra atención Eskerrik asko zuen arretagatik Grazas pola vosa atención Thanks for your atention Merci pour votre attention

25 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 25 Explotació

26 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 26 Base de dades terminològica en una eina TAO

27 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 27 Entrada lèxica sistema de TA Entrada transfer

28 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 28 Entrada lèxica llengua origen

29 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 29 Entrada lèxica llengua destí

30 XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 30 Creació automàtica de glossaris Suport electrònic o paper Requeriments  Format XML (TBX)  Eina de conversió text tabulat a TBX


Descargar ppt "XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals."

Presentaciones similares


Anuncios Google