GUAITA TERMINOLÒGICA: Extracció de terminologia científica i tècnica de corpus original en anglès i proposta per a la cerca d’equivalents en català

Direcció

Maria Teresa  Cabré i Castellví
Institut d'Estudis Catalans - Universitat Pompeu Fabra

Col·laboradors:

Jaume Martí (Societat Catalana de Terminologia (SCATERM)
Mercè Lorente (IEC, UPF)
Salvador Alegret (IEC, UAB)
Joana Torres (Oficines Lexicogràfiques-IEC)
 
Síntesi

La terminologia cientificotècnica apareix juntament amb la producció de coneixement nou. És en el discurs dels experts que els termes nous es consoliden. El projecte tracta d’explorar automàticament manuals de referència de diversos camps de coneixement científic i tècnic, redactats originàriament en anglès, i extreure’n els termes a fi fe constituir un corpus terminològic que pot contenir: a) termes que ja tenen equivalent en català, b) termes que s’han difós en català en la forma manllevada; i c) termes inexistents encara en el discurs català. Interessen especialment aquests termes del darrer grup a fi de buscar-los un equivalent català adequat anticipant-nos així a la difusió del manlleu.

Per dur a terme de manera sistemàtica aquesta recerca disposem dels documents dels programa Scriptorium, en anglès i les traduccions al català, que caldrà constituir com a corpus paral·lels, dels quals s’extrauran els termes que contenen. A continuació, caldrà explorar automàticament la versió actualitzada d’aquests mateixos manuals, extreure’n el llistat de termes en anglès i comparar les llistes de termes dels diferents períodes, a fi d’aïllar els termes nous que han aparegut progressivament en la versió actualitzada del manual. Aquests termes que no apareixen en la versió anterior del manual corresponen presumiblement a exponents de nou coneixement en la matèria. Els termes, així seleccionats, passaran a la Comissió de Terminologia Científica i Tècnica de l’IEC, que els lliurarà al TERMCAT perquè en constitueixi dossiers de normalització amb propostes per a la llengua catalana, que la mateixa Comissió de Terminologia haurà de validar.
 
 
Abstract
Scientific and technical terminology appears along with the production of new knowledge. It is in the speech of the experts that new terms are standardized. This project has the aim to explore reference manuals in various fields of scientific and technical knowledge, originally written in English. In addition, it has the aim to constitute a terminological corpus that may contain: a) terms that already have the equivalent word in Catalan, b) terms that have been disseminate in Catalan in the borrowed form; and c) terms not yet in the Catalan discourse. The terms included in the last group are particularly interesting in order to look for a suitable Catalan equivalent word, with the result that we foresee the dissemination of the borrowed form.
 

 

 

Paraules clau

Terminologia, neologia, corpus lingüístics, manuals universitaris

 

Inici del projecte

2018 -

 

Antecedents

L’extracció de terminologia cientificotècnica és una pràctica amplament estesa gràcies a l’aparició de diversos sistemes d’extracció automàtica d’informació en el context de la recerca en mineria de textos (text mining). Els extractors de terminologia basen la seva actuació en estratègies diverses, però la més representativa és la que correspon al que es denomina aprenentatge automàtic (machine learning). Un programa d’aprenentatge automàtic extreu generalitzacions de l’anàlisi d’un conjunt d’informació prou representatiu. En els cas dels extractors de terminologia cal donar al sistema una llista de termes de l’àmbit temàtic en el qual es vol treballar. El sistema fa inferències sobre l’estructura dels termes, les repeticions de segments representatius, etc. I així arriba a oferir una llista de candidats a terme del domini en qüestió. Cert és que a mesura que se supervisen les dades i se li indica els errors, el sistema va refinant l’extracció.

 
El projecte Guaita Terminològica treballa sobre dos projectes anteriors:
 
D’una banda, en la cooperació del projecte CIT, liderat per Salvador Alegret, amb el grup de recerca IULATERM de l’Institut de Lingüística Aplicada de la Universitat Pompeu Fabra per a l’extracció automàtica de terminologia de revistes científiques. El sistema d’extracció de terminologia del grup IULATERM ha estat aplicat amb èxit en l’extracció de tota la terminologia continguda en les revistes digitalitzades de l’Institut d’Estudis Catalans. En aquest projecte proposem de cooperar novament amb IULATERM per a aquesta extracció.
 
D’altra banda, en el projecte Scriptorium per a la traducció de manuals de ciència i tecnologia de l’anglès al català, projecte llançat per la Fundació Torrens-Iber i dut a terme a l’Institut d’Estudis Catalans, que va quallar en la traducció de l’anglès al català de deu manuals universitaris.
 

 

Resultats

Creació d’una base de dades de textos paral·lels.

Es preveu el desenvolupament d’un portal web que permeti accedir als corpus paral·lelitzat, a la terminologia bilingüe extreta, al corpus en anglès de les edicions actualitzades dels manuals, als candidats a termes o neologismes detectats en el nou corpus en anglès, i a totes les publicacions i informes que se’n derivin.
 
Difusió del projecte i dels resultats en congressos de referència en neologia i terminologia i de lingüística de corpus, i en revistes indexades internacionalment.
 

 

Més informació

 

 

 

 

 

Secció Filològica - Projectes de recerca

Àrea geogràfica


Pàgines Web

 

 

 

 

 

Institut d'Estudis Catalans. Carrer del Carme, 47; 08001 Barcelona.
Telèfon +34 932 701 620. Fax +34 932 701 180. informacio@iec.cat - Informació legal


Amb el suport de

Departament d’Empresa i Coneixement de la Generalitat de Catalunya Departament de Cultura de la Generalitat de Catalunya

i la col·laboració de

Ministerio de Educación, Cultura y Deporte        Ministerio de Educación, Cultura y Deporte

Inici

Institució

Recerca

 

Llengua

 

Publicacions

Arxiu

Serveis

Serveis lingüístics

Transparència