XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals.

Slides:



Advertisements
Presentaciones similares
Projecte Agrega. Què és el Projecte Agrega? El projecte Agrega és un projecte dirigit als membres de la comunitat educativa El projecte Agrega és un projecte.
Advertisements

Introducció al Sistema Estadístic de les Illes Balears (Sestib)
Activitats artístiques al CFA Miquel Martí i Pol De l’expressió oral i escrita a la cohesió social.
Tallers d’intercanvi d’experiències
Pràctica 17 Reflexions Maria Gisbert, Llorenç Godia, Mariona Kiskeri i David González.
Memòria científica 2000 – 2002 Corporació Sanitària Parc Taulí.
ELS BLOCS I LA SEVA APLICACIÓ A L’AULA Recull de propostes sobre els usos didàctics dels blocs Material del Curs de l’Escola d’Estiu Virtual d’Espiral.
RECURSOS D’INFORMACIÓ “NOVETATS 2004” Cochrane Library plus ISI - Web of Knowledge Obtenció del document original: DOCLINE- PubMed correu electrònic fax.
El Sistema d’Espais Naturals
Catalunya escola d’emprenedors Mesures per fomentar l’esperit emprenedor Barcelona, 8 de novembre de 2011.
PRESENTACIÓ CONSORCI BIOPOL’H Comunicació - Consorci Biopol’H.
Conselleria d’Educació i Cultura Conselleria de Benestar Social El treball socioeducatiu en xarxa Conselleria d’Educació i Cultura Conselleria de Benestar.
Organització, funcionament i gestió dels centres docents públics Les competències bàsiques Jornada de participació Tarragona, Materials a càrrec.
: El meu espai. Què és el Recercador És el cercador dels recursos electrònics del CRAI de la UB. Ofereix un sol punt d’accés a: bases de dades, portals.
Generalitat de Catalunya Departament d’Educació IES El Castell Departament de tecnologia Coeducació: promoure una educació que potenciï la igualtat real.
Alineación de textos Unidad 4 Taller de herramientas para la traducción Traductorado Público en idioma inglés Facultad de Lenguas Universidad Nacional.
Catàleg de les biblioteques del CRAI de la Universitat de Barcelona.
Catàleg de les biblioteques del CRAI de la Universitat de Barcelona.
La qualitat, garantia de millora.
Sistema de gestió APPCC
Comissió de Política Lingüística
SERVEI DE PETICIÓ DE DOCUMENTS
Grup de treball SupTIC 23 d’Octubre de 2006.
Biblioteca Virtual Miguel de Cervantes
Eines digitals TIC © McGraw-Hill.
CRAI: Unitat de Procés Tècnic
CUIDATGE.
Com iniciar el treball de recerca
Recursos Informàtics en Història
2c. Les pàgines web i l’hipertext. Les bases de dades a la xarxa
Recursos informàtics i mètodes quantitatius en Història – curs
ENFISPO.
Borsa de Treball Municipal
ESTRATÈGIA DE CONTRACTACIÓ TIC PER A LA TRANSFORMACIÓ DIGITAL DE LA GENERALITAT DE CATALUNYA 28 d’agost de 2018.
Library and Information Science Abstract
Psycinfo Manual d’ús.
Presentació dels resultats de la primera fase del projecte PLANS DOCENTS i MATERIALS BÀSICS Barcelona, 22 setembre de 2016.
PubMed i el gestor de revistes del CRAI de la UB (servei SFX)
Connexió GREC/DSpace DDUB
Barcelona, 2 de desembre de 2.002
RACO Revistes Catalanes amb Accés Obert.
Comunicació Audiovisual
Integració europea i gènere Centre de Documentació Europea de la URV
Memòria Digital de Catalunya
Com enllaçar des de PubMed al gestor de
Visió estratègica de la UPC
SEEZ Formació en xarxa per a docents d’educació especial a la zona
Publicar articles de recerca al
DISSENY GRÀFIC D’UN PORTAL DE TRANSPARÈNCIA PER AJUNTAMENTS
Tesis Doctorals en Xarxa
Publicació de la recerca al Dipòsit Digital de la UB
Docublog El blog del Programa de Documentació dels Estudis de Ciències de la Informació i la Comunicació de la Universitat Oberta de Catalunya Núria Ferran.
Pràctica 2.2: Cerca en bases de dades bibliogràfiques per a la investigació en treball social Objectius: Donar a conèixer els recursos bibliogràfics que.
Projecte “TALK TO ME” febrer de 2018.
PROJECTE LINGÜÍSTIC És l’instrument que possibilita que els centres educatius organitzin i gestionin determinats aspectes en referència a l’estat i a l’ús.
ERIC Manual d’ús.
El treball en equip a la Xarxa: estratègies docents
Cap a una educació plurilingüe: conceptes clau, estratègies i eines
Dipòsit Digital de la Universitat de Barcelona
Recurs educatiu Europa
Pràctica 2.2: Cerca en bases de dades bibliogràfiques per a la investigació en treball social Objectius: Donar a conèixer els recursos bibliogràfics que.
CRAI: Unitat de Recerca
CRAI: Unitat de Docència
Dialnet.
TFC -Accessibilitat Web
Catàleg de les biblioteques del CRAI de la Universitat de Barcelona
La inserció laboral dels graduats de grau de la UPF
AL RIU NOMÉS HI HA AIGUA? UN CONTEXT PER TREBALLAR BIODIVERSITAT, ESTADÍSTICA I ÚS DE LES TIC A 1r D’ESO.
Animem a totes les persones de la Facultat de Física a participar!
Àmbits d’organització i gestió de la formació
Transcripción de la presentación:

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de 2006 El projecte RESTAD Eines per al buidatge automatitzat de corpus textuals

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Índex Participants Objectius Tipus d’eines Processos  Obtenció de memòries de traducció  Obtenció de terminologia (bilingüe) Explotació

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Participants Serveis lingüístics universitaris  Universitat Autònoma de Barcelona  Universitat de Girona  Universitat Oberta de Catalunya  Universitat Politècnica de Catalunya Institucions públiques  DURSI (Departament d’Universitats, Recerca i Societat de la Informació)

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Objectius Disposar de materials multilingües Desenvolupar recursos que facilitin i millorin la traducció automatitzada al català dels documents docents. Facilitar que l’alumnat universitari pugui disposar dels materials docents almenys en català. Automatitzar els processos de treball Homogeneïtzar i automatitzar els processos de treball fent servir les mateixes eines de suport lingüístic i compartint recursos (memòries de traducció i terminologia). Reaprofitar la informació lingüística generada a les nostres universitats gràcies a eines informàtiques de suport lingüístic. Disposar de recursos gratuïts Distribuir gratuïtament eines i recursos a totes les universitats, institucions, empreses que hi estiguin interessades (descàrregues des d’Internet). Les aplicacions informàtiques seran de programari lliure.

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Tipus d’eines Eines bàsiques de buidatge  Alineador automàtic de textos  Extractor de terminologia Utilitats: portabilitat (comunicació entre programes)  Base de dades terminològica => Lèxic sistema TA  Corpus paral·lel => Memòria de traducció  Creació de formats estàndard: text tabulat => TMX/TBX

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Flux de buidatge

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Article 80. Competències 1. Són competències del secretari general: - Redactar i custodiar les actes de les sessions del Claustre, del Consell de Govern, de l’Equip de Govern i de la Junta Consultiva, així com expedir certificacions de llurs acords. Eina d’alineació: AlinUOC Artículo 80. Competencias 1. Son competencias del secretario general: - Redactar y custodiar las actas de las sesiones del Claustro, del Consejo de Gobierno, del Equipo de Gobierno y de la Junta Consultiva, así como expedir certificaciones de sus acuerdos.

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Alineació de documents DOC Articles català Articles anglès Articles espanyol doc2txt Articles català Articles anglès Articles espanyol Articles cat- ang alineats Articles cat- esp alineats AlinUOC DOC TXT

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Alineació de documents HTML Articles català Articles anglès Articles espanyol html2txt Articles català Articles anglès Articles espanyol Articles cat- ang alineats Articles cat- esp alineats AlinUOC HTML TXT

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Alineació de documents PDF PDF TXT Articles català Articles anglès Articles espanyol Pdf2txt Articles català Articles anglès Articles espanyol Resums cat- ang alineats Resums cat- esp alineats AlinUOC Resums català Resums anglès Resums espanyol

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Tractament de documents PDF Problemes per a tractar documents PDF  Recuperar paraules tallades per un salt de línia amb guionet.  Ajuntar línies separades per peus de pàgina, encapçalaments, peus de figura, etc.

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Tractament de documents PDF

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Tractament de documents PDF

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Creació de memòries de traducció Corpus paral·lel (Text tabulat) txt2tmxMT (TMX) DéjàVu ForeignDesk (Frog Translator) MT Access

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Què és un candidat a terme? El cinema digital i la televisió són el futur.  Una paraula (cinema)  Dues paraules consecutives (cinema digital)  Tres paraules consecutives (cinema digital i)  …  N-grams (subseqüència d’n paraules consecutives)

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Extracció de candidats a terme Elaboració d’una llista de candidats a terme  “Morim d’èxit!” Filtratge de la llista de candidats  Automàtic  Manual Cerca d’equivalents en altres llengües

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Elaboració de la llista d’n-grams Corpus paral·lel (Text tabulat) StemTES n-grams Llista n-grams

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Selecció dels n-gram

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Filtratge de candidats a terme De manera implícita ja hem explotat el corpus paral·lel Aplicació de coneixement lingüístic  Eliminar unigrams per freqüència ‘podem’, ‘anys’  Eliminar unigrans emprant patrons morfosintàctics ((els el DETMP) (artistes artista NMP) (volen voler (VERB3PP)) Filtratge amb cerques a Internet  Cerques a Internet net art + medicina + esports => nombre de pàgines  Directori de dominis

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Propostes de termes i equivalents de traducció Corpus paral·lel (Text tabulat) StemTES n-grams Llista n-grams filtrats Llista n-grams Amb propostes d’equivalències

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Propostes d’equivalents a terme: TOND

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Un cas pràctic Espai en xarxa: Artnodes Volum de text:  Unes paraules Nombre de candidats a terme sense filtratge previ  Nombre de candidats finals amb filtratge  998

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Gràcies per la vostra atenció Gracias por vuestra atención Eskerrik asko zuen arretagatik Grazas pola vosa atención Thanks for your atention Merci pour votre attention

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Explotació

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Base de dades terminològica en una eina TAO

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Entrada lèxica sistema de TA Entrada transfer

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Entrada lèxica llengua origen

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Entrada lèxica llengua destí

XV Trobada de Serveis Lingüístics Universitaris Barcelona, 1 i 2 de juny de Creació automàtica de glossaris Suport electrònic o paper Requeriments  Format XML (TBX)  Eina de conversió text tabulat a TBX