Continuació del Corpus Textual Informatitzat de la Llengua Catalana (CTILC2), fase executiva

Direcció

Joaquim Rafel i Fontanals
Institut d'Estudis Catalans -

Col·laboradors (IEC):

Joan Soler i Bou (Coordinador)
Irene Comas i Alsina
Berta Pedemonte i Miquel
Teresa Sadurní i Villaronga
Roser Sanromà i Borrell 
 
 
Col·laboradors externs:
 
Lluís Padró (Universitat Politècnica de Catalunya – UPC)
Jordi Porta (Universidad Autónoma de Madrid – UAM)
 
Síntesi

El projecte CTILC2 té com a objectiu fonamental l’actualització i la continuació del Corpus Textual Informatitzat de la Llengua Catalana (CTILC); globalment, s’estructura en una fase inicial (ja completada en el trienni 2015-2017) en què s’han determinat i implementat tots els elements necessaris per a l’execució del projecte, i en una fase executiva que té com a finalitat principal la incorporació del CTILC de la totalitat dels textos que constituiran l’actualització i la continuació del corpus. En la seva configuració de partida, el CTILC és un corpus de més de 52 milions de mots text que fou constituït, entre els anys 1985 i 1997, dins del programa “Diccionari del Català Contemporani”. El CTILC conté textos corresponents al període cronològic que va de 1832 a 1988; en el projecte CTILC2 hom incorporarà al corpus textos posteriors a 1988, seleccionats amb criteris i principis d’equilibri i de representativitat anàlegs als que varen informar la constitució del corpus tal com el coneixem actualment.

En la fase executiva es desenvoluparà el corpus pròpiament dit, juntament amb tots els elements necessaris per a garantir-ne l’accessibilitat i explotació, tant per a usos interns com externs.
 
L’objectiu general del projecte és acomplir la fase executiva del CTILC2 que gira a l’entorn dels aspectes següents:
  1. La compleció quantitativa dels treballs de continuació del CTILC, mitjançant la introducció, etiquetatge (lematització) i incorporació progressiva de nous textos etiquetats als CTILC.
  2. Disseny i implementació, a partir del programari ja existent, d’una aplicació per a la consulta pública del CTILC, que podria eventualment substituir les actualment instal·lades al web de l’IEC. Aquesta línia de treball requerirà la participació d’altres àmbits de l’IEC, a fi de satisfer tots els requisits tècnics i institucionals.
  3. Establiment de les previsions per a l’actualització permanent del CTILC (fase de manteniment) sobre els mateixos criteris de disseny i equilibri.
Al final de la fase executiva hom preveu disposar en mode de consulta conjunta amb l’actual corpus de les obres de 1989 a 2013 seleccionades, distribuïdes segons els següents grups cronològics:
1989-1993
1994-1998
1999-2003
2004-2008
2009-2013
 
L’extensió total d’aquests textos serà de 25 milions de mots, distribuïts a raó de 5 milions per grup cronològic.
 
 
Abstract
 
This project is the continuation of the Corpus Textual Informatitzat de la Llengua Catalana (CTILC), the reference corpus of the contemporary Catalan Language. CTIL2 project seeks to achieve the following objectives: to select the texts which will be included in the Corpus, to develop the Corpus itself and to create an access system of textual data.

 

Paraules clau

Recursos lingüístics escrits, corpus lingüístics, lexicografia, lexicografia computacional

 

Inici del projecte

2018 -

 

Antecedents

Entre els recursos lingüístics constituïts per l’IEC, el CTILC ha estat i continua essent un element fonamental en la realització d’una gran part dels projectes lingüístics de la institució. Un ús especialment destacable és la redacció del Diccionari descriptiu de la llengua catalana (DDLC), que l’ha pres com a font d’informació exclusiva per a la descripció lèxica del català contemporani; però el CTILC també ha estat un recurs de primer ordre en la realització d’altres projectes lexicogràfics (com ara la segona edició del DIEC, o la segona edició del Diccionari manual de l’IEC, en curs d’elaboració) i fins i tot en el procés d’elaboració de la Gramàtica normativa, en què ha servit en moltes ocasions per a l’extracció de dades corresponents a fenòmens lingüístics de diversa mena.

Més enllà d’aquests usos, el CTILC constitueix una peça fonamental per a la realització dels projectes futurs de l’IEC en els quals destaca, particularment, l’elaboració del “Nou diccionari normatiu”.
 
Aquestes utilitzacions futures, juntament amb el manteniment de la funció que desenvolupa el corpus en l’àmbit dels professionals de la llengua i de la recerca lingüística, fan palesa la necessitat d’actualitzar aquest recurs amb nous textos posteriors a 1988, seleccionats a partir dels mateixos criteris d’equilibri i representativitat.
 
Ateses totes aquestes circumstàncies, la Secció Filològica va acordar que calia procedir a l’ampliació d’aquest corpus mitjançant la incorporació de textos més recents, i que calia considerar aquesta acció com a estratègica i prioritària entre els projectes de l’IEC. Per aquest motiu, hom aprovà un dictamen en què s’estableixen les línies bàsiques del disseny del futur CTILC, a partir de criteris de classificació i de selecció textuals similars als aplicats en la part ja constituïda del corpus.
 
Es tracta d’un projecte propi de l’IEC, que en principi es portarà a terme de manera independent d’altres institucions (universitats i centres de recerca) però que, si cal, podrà comptar amb col·laboracions externes.

 

Resultats

Accessibilitat pública d’aquest recurs lingüístic que constitueix el principal corpus de referència del català contemporani.

Al final del trienni 2018-2020 restaran completats els grups cronològics que van de 1989 a 2013, i l’extensió conjunta del CTILC serà aproximadament d’uns 75.000.000 de mots públicament consultables.
 
 
 
 

 

Més informació

 

 

 

 

 

Secció Filològica - Projectes de recerca

Àrea geogràfica


Pàgines Web

Corpus Textual Informatitzat de la Llengua Catalana (CTILC);  

 

 

 

 

 

 

Institut d'Estudis Catalans. Carrer del Carme, 47; 08001 Barcelona.
Telèfon +34 932 701 620. Fax +34 932 701 180. informacio@iec.cat - Informació legal


Amb el suport de

Departament d’Empresa i Coneixement de la Generalitat de Catalunya Departament de Cultura de la Generalitat de Catalunya

i la col·laboració de

Ministerio de Educación, Cultura y Deporte        Ministerio de Educación, Cultura y Deporte

Inici

Institució

Recerca

 

Llengua

 

Publicacions

Arxiu

Serveis

Serveis lingüístics

Transparència