GUAITA TERMINOLÒGICA: Extracció de terminologia científica i tècnica de corpus original en anglès i proposta per a la cerca d’equivalents en català

Direcció

Maria Teresa  Cabré i Castellví
Institut d'Estudis Catalans - Universitat Pompeu Fabra

Col·laboradors:

Mercè Lorente (IEC, UPF)
Salvador Alegret (IEC, UAB)
Juana Torres (tècnica lingüística de la Secció Filològica-IEC)
M. Amor Montané(tècnica lingüística de la Secció Filològica-IEC)
 
 
Col·laboracions externes:
 
Jaume Martí (Societat Catalana de Terminologia (SCATERM)
Jordi Vivaldi, IULA-UPF
 
Síntesi

La terminologia cientificotècnica apareix juntament amb la producció de coneixement nou. És en el discurs dels experts que els termes nous es consoliden. El projecte tracta d’explorar automàticament manuals de referència de diversos camps de coneixement científic i tècnic, redactats originàriament en anglès, i extreure’n els termes a fi fe constituir un corpus terminològic que pot contenir: a) termes que ja tenen equivalent en català, b) termes que s’han difós en català en la forma manllevada; i c) termes inexistents encara en el discurs català. Interessen especialment aquests termes del darrer grup a fi de buscar-los un equivalent català adequat anticipant-nos així a la difusió del manlleu.

Per dur a terme de manera sistemàtica aquesta recerca disposem dels documents dels programa Scriptorium, en anglès i les traduccions al català, que caldrà constituir com a corpus paral·lels, dels quals s’extrauran els termes que contenen. A continuació, caldrà explorar automàticament la versió actualitzada d’aquests mateixos manuals, extreure’n el llistat de termes en anglès i comparar les llistes de termes dels diferents períodes, a fi d’aïllar els termes nous que han aparegut progressivament en la versió actualitzada del manual. Aquests termes que no apareixen en la versió anterior del manual corresponen presumiblement a exponents de nou coneixement en la matèria. Els termes, així seleccionats, passaran a la Comissió de Terminologia Científica i Tècnica de l’IEC, que els lliurarà al TERMCAT perquè en constitueixi dossiers de normalització amb propostes per a la llengua catalana, que la mateixa Comissió de Terminologia haurà de validar.
 
 
Abstract
Scientific and technical terminology appears along with the production of new knowledge. It is in the speech of the experts that new terms are standardized. This project has the aim to explore reference manuals in various fields of scientific and technical knowledge, originally written in English. In addition, it has the aim to constitute a terminological corpus that may contain: a) terms that already have the equivalent word in Catalan, b) terms that have been disseminate in Catalan in the borrowed form; and c) terms not yet in the Catalan discourse. The terms included in the last group are particularly interesting in order to look for a suitable Catalan equivalent word, with the result that we foresee the dissemination of the borrowed form.
 

 

 

Paraules clau

Terminologia, neologia, corpus lingüístics, manuals universitaris

 

Inici del projecte

2018 -

 

Antecedents

L’extracció de terminologia cientificotècnica és una pràctica amplament estesa gràcies a l’aparició de diversos sistemes d’extracció automàtica d’informació en el context de la recerca en mineria de textos (text mining). Els extractors de terminologia basen la seva actuació en estratègies diverses, però la més representativa és la que correspon al que es denomina aprenentatge automàtic (machine learning). Un programa d’aprenentatge automàtic extreu generalitzacions de l’anàlisi d’un conjunt d’informació prou representatiu. En els cas dels extractors de terminologia cal donar al sistema una llista de termes de l’àmbit temàtic en el qual es vol treballar. El sistema fa inferències sobre l’estructura dels termes, les repeticions de segments representatius, etc. I així arriba a oferir una llista de candidats a terme del domini en qüestió. Cert és que a mesura que se supervisen les dades i se li indica els errors, el sistema va refinant l’extracció.

 
El projecte Guaita Terminològica treballa sobre dos projectes anteriors:
 
D’una banda, en la cooperació del projecte CIT, liderat per Salvador Alegret, amb el grup de recerca IULATERM de l’Institut de Lingüística Aplicada de la Universitat Pompeu Fabra per a l’extracció automàtica de terminologia de revistes científiques. El sistema d’extracció de terminologia del grup IULATERM ha estat aplicat amb èxit en l’extracció de tota la terminologia continguda en les revistes digitalitzades de l’Institut d’Estudis Catalans. En aquest projecte proposem de cooperar novament amb IULATERM per a aquesta extracció.
 
D’altra banda, en el projecte Scriptorium per a la traducció de manuals de ciència i tecnologia de l’anglès al català, projecte llançat per la Fundació Torrens-Iber i dut a terme a l’Institut d’Estudis Catalans, que va quallar en la traducció de l’anglès al català de deu manuals universitaris.
 

 

Resultats

Guaita terminològica
 
Obtenció de vuit llistes bilingües anglès-català de termes a partir dels índexs analítics de les edicions antigues dels manuals especialitzats. Obtenció de termes en anglès a partir dels índexs analítics de les edicions recents dels manuals especialitzats. Comparació de llistes antigues i recents en anglès per a l’obtenció de candidats a termes neològics. Comprovació dels candidats neològics per confirmar que són efectivament termes nous en anglès. Aquesta tasca s’ha realitzat per a tres dels quatre àmbits: microbiologia, economia i bioquímica; l’àmbit de la química està en procés de comprovació. Vehiculació dels termes nous en anglès sense equivalent català dels àmbits de la microbiologia i la bioquímica cap a la Comissió de Terminologia Científica i Tècnica de l’IEC. 
 
Publicació del lloc web del projecte específic Guaita terminològica http://guaita.recerca.iec.cat
Conté la descripció del projecte (objectius, antecedents, metodologia, participants) i del corpus textual, i els primers vocabularis bilingües anglès-català i vocabularis neològics en anglès que s’han elaborat, en l’àmbit de la microbiologia i la bioquímica.
 
Comunicació “Prospectiva terminológica: ¿es psible avanzarse a la difusión de los préstamos?, al XIV Congreso Internacional de Lingüística General (CILG2020), Sevilla, 24-26.6.2020.
 

ExtracCiT
 
Disseny de la interfície de l’ExtracCiT, que s’incorpora al Portal CiT.
 
Revisió dels candidats a terme i adaptació dels extrets terminològiques de les revistes Educació Química: EduQ i Revista de la Societat Catalana de Química. Detecció de terminologia nova i vehiculació a la Comissió de Terminologia Científica i Tècnica de l’IEC.
 
Suport tecnològic per a l’actualització de diccionari i per a l’edició d’altres obres terminològiques en línia, en el marc del Portal CiT:

 

Més informació

 

 

 

 

 

Secció Filològica - Projectes de recerca

Àrea geogràfica


Pàgines Web

 

 

 

 

 

 

Institut d'Estudis Catalans. Carrer del Carme, 47; 08001 Barcelona.
Telèfon +34 932 701 620. Fax +34 932 701 180. informacio@iec.cat - Informació legal


Amb el suport de

Departament d’Empresa i Coneixement de la Generalitat de Catalunya Departament de Cultura de la Generalitat de Catalunya

i la col·laboració de

Ministerio de Ciencia e Innovación        Ministerio de Educación, Cultura y Deporte

Inici

Institució

Recerca

 

Llengua

 

Publicacions

Arxiu

Serveis

Serveis lingüístics

Transparència