Secció Filològica - Projectes de recerca

Continuació del Corpus Textual Informatitzat de la Llengua Catalana (CTILC2) / [Convocatòria IEC 2023]

Direcció

Joaquim Rafel i Fontanals
Institut d'Estudis Catalans -

Col·laboradors (IEC):

Joan Soler i Bou (Coordinador)
Irene Comas i Alsina
Berta Pedemonte i Miquel
Teresa Sadurní i Villaronga
Roser Sanromà i Borrell 
 
 
Col·laboradors externs:
 
Lluís Padró (Universitat Politècnica de Catalunya – UPC)
Jordi Porta (Universidad Autónoma de Madrid – UAM)
 
Síntesi

El projecte CTILC2 té com a objectiu fonamental l’actualització i la continuació del Corpus Textual Informatitzat de la Llengua Catalana (CTILC); globalment, s’estructura en una fase inicial que gira a l’entorn de tres aspectes bàsics, els dos primers dels quals es desenvoluparan paral·lelament:

  • La selecció de textos que han de formar part del corpus.
  • La planificació detallada, la integració de les diferents eines de constitució i la implementació dels processos per al desenvolupament de la fase executiva dels treballs de constitució del corpus.
  • L’inici dels treballs de constitució del nou corpus de manera experimental, introduint una part dels textos seleccionats, i l’establiment d’un sistema d’accés a les dades textuals. 
i en una fase executiva que té com a finalitat principal la incorporació del CTILC de la totalitat dels textos que constituiran l’actualització i la continuació del corpus. En la seva configuració de partida, el CTILC és un corpus de més de 52 milions de mots text que fou constituït, entre els anys 1985 i 1997, dins del programa “Diccionari del Català Contemporani”. El CTILC conté textos corresponents al període cronològic que va de 1832 a 1988; en el projecte CTILC2 hom incorporarà al corpus textos posteriors a 1988, seleccionats amb criteris i principis d’equilibri i de representativitat anàlegs als que varen informar la constitució del corpus tal com el coneixem actualment.
En la fase executiva es desenvoluparà el corpus pròpiament dit, juntament amb tots els elements necessaris per a garantir-ne l’accessibilitat i explotació, tant per a usos interns com externs.
 
L’objectiu general del projecte és acomplir la fase executiva del CTILC2 que gira a l’entorn dels aspectes següents:
  • La compleció quantitativa dels treballs de continuació del CTILC, mitjançant la introducció, etiquetatge (lematització) i incorporació progressiva de nous textos etiquetats als CTILC.
  • Disseny i implementació, a partir del programari ja existent, d’una aplicació per a la consulta pública del CTILC, que podria eventualment substituir les actualment instal·lades al web de l’IEC. Aquesta línia de treball requerirà la participació d’altres àmbits de l’IEC, a fi de satisfer tots els requisits tècnics i institucionals.
  • Establiment de les previsions per a l’actualització permanent del CTILC (fase de manteniment) sobre els mateixos criteris de disseny i equilibri.
Al final de la fase executiva hom preveu disposar en mode de consulta conjunta amb l’actual corpus de les obres de 1989 a 2013 seleccionades, distribuïdes segons els següents grups cronològics:
1989-1993
1994-1998
1999-2003
2004-2008
2009-2013
 
L’extensió total d’aquests textos serà de 25 milions de mots, distribuïts a raó de 5 milions per grup cronològic.
 
El CTILC permet obtenir informació a partir de textos en català publicats entre el 1832 i el 2008 i conté setanta-dos milions de mots consultables.
 
 
Abstract
 
This project is the continuation of the Corpus Textual Informatitzat de la Llengua Catalana (CTILC), the reference corpus of the contemporary Catalan Language. CTIL2 project seeks to achieve the following objectives: to select the texts which will be included in the Corpus, to develop the Corpus itself and to create an access system of textual data.

 

 

Paraules clau

Recursos lingüístics escrits, corpus lingüístics, lexicografia, lexicografia computacional

 

Inici del projecte

2015 -

 

Antecedents

Entre els recursos lingüístics constituïts per l’IEC, el CTILC ha estat i continua essent un element fonamental en la realització d’una gran part dels projectes lingüístics de la institució. Un ús especialment destacable és la redacció del Diccionari descriptiu de la llengua catalana (DDLC), que l’ha pres com a font d’informació exclusiva per a la descripció lèxica del català contemporani; però el CTILC també ha estat un recurs de primer ordre en la realització d’altres projectes lexicogràfics (com ara la segona edició del DIEC, o la segona edició del Diccionari manual de l’IEC) fins i tot en el procés d’elaboració de la Gramàtica normativa, en què ha servit en moltes ocasions per a l’extracció de dades corresponents a fenòmens lingüístics de diversa mena.

Més enllà d’aquests usos, el CTILC constitueix una peça fonamental per a la realització dels projectes futurs de l’IEC en els quals destaca, particularment, l’elaboració del “Nou diccionari normatiu”.
 
Aquestes utilitzacions futures, juntament amb el manteniment de la funció que desenvolupa el corpus en l’àmbit dels professionals de la llengua i de la recerca lingüística, fan palesa la necessitat d’actualitzar aquest recurs amb nous textos posteriors a 1988, seleccionats a partir dels mateixos criteris d’equilibri i representativitat.
 
Ateses totes aquestes circumstàncies, la Secció Filològica va acordar que calia procedir a l’ampliació d’aquest corpus mitjançant la incorporació de textos més recents, i que calia considerar aquesta acció com a estratègica i prioritària entre els projectes de l’IEC. Per aquest motiu, hom aprovà un dictamen en què s’estableixen les línies bàsiques del disseny del futur CTILC, a partir de criteris de classificació i de selecció textuals similars als aplicats en la part ja constituïda del corpus.
 
Es tracta d’un projecte propi de l’IEC, que en principi es portarà a terme de manera independent d’altres institucions (universitats i centres de recerca) però que, si cal, podrà comptar amb col·laboracions externes.

 

Resultats

Accessibilitat pública d’aquest recurs lingüístic que constitueix el principal corpus de referència del català contemporani.

Al final del trienni 2018-2020 restaran completats els grups cronològics que van de 1989 a 2013, i l’extensió conjunta del CTILC serà aproximadament d’uns 72.000.000 de mots públicament consultables.
 
A principis d’octubre de 2020, hom donà accés públic a la nova Base de dades lexicogràfica (BDLex).
 
 
 
 
 

 

Més informació

 S’ha instal·lat al web de l’Institut d’Estudis Catalans (IEC) una nova aplicació de consulta del Corpus Textual Informatitzat de la Llengua Catalana (CTILC), que permet obtenir informació a partir de textos en català publicats entre el 1832 i el 2008.

 

 


Amb el suport de

 

Departament d’Empresa i Coneixement de la Generalitat de Catalunya

Departament de Cultura de la Generalitat de Catalunya

i la col·laboració de

Departament de Justícia

Ministerio de Ciencia e Innovación

Ministerio de Educación, Cultura y Deporte