Corpus oral de la llengua catalana (COLC)

Direcció

Nicolau A. Dols Salas
Institut d'Estudis Catalans - Universitat de les Illes Balears

Director (fins 2017):

Pere J. Quetglas Nicolau, IEC i UB

 

Investigadors:

Vicent Martines i Peres, IEC i UA
Lluís de Yazaguirre i Maura, UPF

 

 
Síntesi

El projecte Corpus Oral de la Llengua Catalana (COLC) pretén la recollida, el tractament i l’anàlisi de mostres significatives de la llengua catalana parlada en totes les varietats i tots els dialectes majors de la llengua catalana. De la mateixa manera que el Corpus Textual Informatitzat de la Llengua Catalana ha permès fonamentar moltes decisions normatives, el Corpus Oral es preveu com a complement d’aquesta tasca pel que fa a l’oralitat de la llengua. Des de les varietats funcionals més estandarditzades d’il·locucions menys espontànies fins a les varietats més pròpies de la informalitat, el projectes reculls actes de parla i en fa la digitalització i la classificació dels elements lingüístics i comunicatius. Són tasques d’aquest projecte la recerca d’originals prèviament enregistrats, la digitalització, la segmentació i transcripció de les mostres, i la classificació d’elements mitjançant etiquetes prèviament definides i pensades especialment per a l’optimització dels processos de codificació. En aquest sentit, més enllà de les informacions relacionades amb la identificació de l’acte comunicatiu i les varietats lingüístiques, es preveu confegir un índex d’etiquetes classificatòries relacionades amb tots els aspectes del codi: gramàtica (fonologia, morfologia i sintaxi) i lèxic. 
 
Els objectius generals del projecte són:
  1. Conformar una plataforma tecnològica compatible amb un corpus oral general de la llengua catalana, oberta i adaptable especialment a les necessitats de codificació de la llengua.
  2. Alimentar el Corpus Oral de la Llengua Catalana amb materials de totes les procedències geogràfiques i, concretament, de produccions orals de l’àmbit formal no espontani.
  3. Analitzar els materials recollits per a la detecció de graus de convergència que permetin identificar tendències d’estandardització.
 
Els objectius generals es concreten en els objectius específics següents:
  1. Assolir un corpus d’un milió (aproximadament) de mots transcrits procedents d’il·locucions dels dialectes centrals, balears, valencians i nord-occidentals.
  2. Establir l’índex d’etiquetes relacionades amb els epígrafs de la Gramàtica de la Llengua Catalana, amb marques del “Diccionari Descriptiu de la Llengua Catalana”, i amb indicacions de la Proposta per a una Estàndard Oral de la Llengua Catalana.
  3. Aplicar les etiquetes proposades a l’anàlisi de la mostra.
 
 
Abstract
The project Corpus Oral de la Llengua Catalana (COLC) have as objectives the conservation, computerization, accessibility, dissemination and evaluation of oral corpus recorded. This necessarily involves the participation of linguists, computer scientists and data analysts, specialists in audiovisual media and in data storage. It is, therefore, a very transversal and wide-ranging project.

 

Paraules clau

Recursos lingüístics orals, corpus lingüístics orals

 

Inici del projecte

2017 -

 

Antecedents

La creació de corpus textuals és una de les tasques que la Secció Filològica de l’IEC ha desenvolupat com a suport per a l’elaboració de la Gramàtica de la llengua catalana  i de l’Ortografia catalana, com posem de manifest els projectes de Constitució d’un Corpus Textual per a una Gramàtica del Català Modern (GCM) o la constitució del Corpus Textual Informatitzat de la Llengua Catalana (CTILC2). 

Independentment que calgui continuar la implementació de corpus com els esmentats, una vegada assolida la fita de la publicació de la Gramàtica i de l’Ortografia de l’IEC, és el moment de plantejar-se altres fites que vagin més enllà del que és un corpus textual pensat bàsicament per desenvolupar pràctiques descriptives i prescriptives.

Si partim de la consideració nuclear que una llengua abans de ser fixada en forma escrita és un fenomen de parla, i que en l’acte de parlar a més de fenòmens suprasegmentals com l’entonació, l’èmfasi, les vacil·lacions i dubtes, o les particularitats fòniques, s’hi fan presents elements propis del llenguatge no verbal com és la gestualitat que acompanya el discurs i la postura dels partícips en l’acte, la seva forma d’escoltar i de fer-se escoltar, la seva forma de vestir, etc., veurem que hi ha molts aspectes que no poden ser captats a partir de corpus textuals escrits. Així mateix, no es pot defugir la realitat que la gent corrent parla molt més que no escriu, i que una llengua retratada només a partir de l’escriptura ha d’oferir necessàriament una imatge borrosa. I si, d’altra banda, els comportaments actitudinals evolucionen i canvien de generació en generació, és evident que una de les responsabilitats de l’IEC és la de salvar aquest patrimoni, al mateix temps que ha de poder posar a l’abast dels investigadors elements que vagin més enllà de projectes particulars i amb objectius més concrets. 
 
En vistes al desenvolupament dels COLC s’han tingut en compte els precedents existents de corpus orals d’altres llengües, com són: en el cas del francès el projecte Corpus de Langue Parlée en Interaction (CLAPI), el projecte Phonologie du Français Contemporain (PFC), o en el cas de la comparativa lingüística el C-ORAL-ROM, que fa comparacions de llenguatge espontani en quatre llengües romàniques: francès, italià, portuguès i espanyol. Però, d’altra banda, caldrà tenir molt en compte, per tal d’optimitzar els recursos, els projectes previs desenvolupats en el si de les universitats de l’àmbit de la llengua catalana com:  
També s’ha tingut en compte l’experiència del Laboratori de Tecnologies Lingüístiques (LATEL) de la UPF.
 

 

 

Resultats

Seminari “Construcció i alimentació de corpus orals” dissenyat com a formació inicial de personal tècnic impartit a la Universitat de les Illes Balears pels doctors Lluís de Yzaguirre (UPF) i Nicolau Dols (IEC-UIB). 5.9.2018.
 
Conferència “Reequilibrar el sistema: entre la normativa i l’estandardització espontània” a càrrec de Nicolau Dols. XXXI Curs de sociolingüística de la Nucia, organitzat per la Universitat d’Alacant. 23.11.2018.
 

Altres resultats
 
Durant el 2018, s’ha treballat amb materials audiovisuals facilitats per la direcció general de l’Ens Públic de Ràdio i Televisió de les Illes Balears (IB3), que han consistir en dos mesos de telenotícies enregistrats i acompanyats dels texts corresponents als teleprompters. Aquests materials s’han revisat i segmentat mitjançant l’eina TextGrid del programa d’anàlisi acústica Praat, i el programa ELAN de gestió de vídeo i text.
 

 

Més informació

 

Entitats

 

 

 

 

 

Secció Filològica - Projectes de recerca

Àrea geogràfica


Pàgines Web

 

 

 

 

 

Institut d'Estudis Catalans. Carrer del Carme, 47; 08001 Barcelona.
Telèfon +34 932 701 620. Fax +34 932 701 180. informacio@iec.cat - Informació legal


Amb el suport de

Departament d’Empresa i Coneixement de la Generalitat de Catalunya Departament de Cultura de la Generalitat de Catalunya

i la col·laboració de

Ministerio de Educación, Cultura y Deporte        Ministerio de Educación, Cultura y Deporte

Inici

Institució

Recerca

 

Llengua

 

Publicacions

Arxiu

Serveis

Serveis lingüístics

Transparència