Secció Filològica - Projectes de recerca

Corpus oral de la llengua catalana (COLC) / [Convocatòria IEC 2023]

Direcció

Nicolau A. Dols Salas
Institut d'Estudis Catalans - Universitat de les Illes Balears

Director (del juny de 2018 al gener de 2019): Pere J. Quetglas Nicolau, IEC i UB 


Investigadors:

Vicent Martines i Peres, IEC i UA
Lluís De Yzaguirre i Maura (LATEL-UPF)
Ester Pedreño Puertas (IEC)
Judit Feliu Cortès (IEC)
Pere Garau Borràs (UIB)
M. Antònia Puigròs Caldentey (Universidad de Comillas-CESAG)
Josep Vicent Garcia Sebastià (ISIC-IVITRA, UA)
Jordi M. Antolí (ISIC-IVITRA) 
Elena Sánchez López (ISIC-IVITRA, UA)
Caterina Martínez Martínez (ISIC-IVITRA, UA).

 
 
Síntesi

El projecte Corpus Oral de la Llengua Catalana (COLC) pretén la recollida, el tractament i l’anàlisi de mostres significatives de la llengua catalana parlada en totes les varietats i tots els dialectes majors de la llengua catalana. De la mateixa manera que el Corpus Textual Informatitzat de la Llengua Catalana ha permès fonamentar moltes decisions normatives, el Corpus Oral es preveu com a complement d’aquesta tasca pel que fa a l’oralitat de la llengua. Des de les varietats funcionals més estandarditzades d’il·locucions menys espontànies fins a les varietats més pròpies de la informalitat, el projectes reculls actes de parla i en fa la digitalització i la classificació dels elements lingüístics i comunicatius. Són tasques d’aquest projecte la recerca d’originals prèviament enregistrats, la digitalització, la segmentació i transcripció de les mostres, i la classificació d’elements mitjançant etiquetes prèviament definides i pensades especialment per a l’optimització dels processos de codificació. En aquest sentit, més enllà de les informacions relacionades amb la identificació de l’acte comunicatiu i les varietats lingüístiques, es preveu confegir un índex d’etiquetes classificatòries relacionades amb tots els aspectes del codi: gramàtica (fonologia, morfologia i sintaxi) i lèxic. 
 
Els objectius generals del projecte són:
  1. Conformar una plataforma tecnològica compatible amb un corpus oral general de la llengua catalana, oberta i adaptable especialment a les necessitats de codificació de la llengua.
  2. Alimentar el Corpus Oral de la Llengua Catalana amb materials de totes les procedències geogràfiques i, concretament, de produccions orals de l’àmbit formal no espontani.
  3. Analitzar els materials recollits per a la detecció de graus de convergència que permetin identificar tendències d’estandardització.
 
Els objectius generals es concreten en els objectius específics següents:
  1. Assolir un corpus d’un milió (aproximadament) de mots transcrits procedents d’il·locucions dels dialectes centrals, balears, valencians i nord-occidentals.
  2. Establir l’índex d’etiquetes relacionades amb els epígrafs de la Gramàtica de la Llengua Catalana, amb marques del “Diccionari Descriptiu de la Llengua Catalana”, i amb indicacions de la Proposta per a una Estàndard Oral de la Llengua Catalana.
  3. Aplicar les etiquetes proposades a l’anàlisi de la mostra.
 
 
Abstract
The project Corpus Oral de la Llengua Catalana (COLC) have as objectives the conservation, computerization, accessibility, dissemination and evaluation of oral corpus recorded. This necessarily involves the participation of linguists, computer scientists and data analysts, specialists in audiovisual media and in data storage. It is, therefore, a very transversal and wide-ranging project.

 

Paraules clau

Recursos lingüístics orals, corpus lingüístics orals

 

Inici del projecte

2017 -

 

Antecedents

La creació de corpus textuals és una de les tasques que la Secció Filològica de l’IEC ha desenvolupat com a suport per a l’elaboració de la Gramàtica de la llengua catalana  i de l’Ortografia catalana, com posem de manifest els projectes de Constitució d’un Corpus Textual per a una Gramàtica del Català Modern (GCM) o la constitució del Corpus Textual Informatitzat de la Llengua Catalana (CTILC2). 

Independentment que calgui continuar la implementació de corpus com els esmentats, una vegada assolida la fita de la publicació de la Gramàtica i de l’Ortografia de l’IEC, és el moment de plantejar-se altres fites que vagin més enllà del que és un corpus textual pensat bàsicament per desenvolupar pràctiques descriptives i prescriptives.

Si partim de la consideració nuclear que una llengua abans de ser fixada en forma escrita és un fenomen de parla, i que en l’acte de parlar a més de fenòmens suprasegmentals com l’entonació, l’èmfasi, les vacil·lacions i dubtes, o les particularitats fòniques, s’hi fan presents elements propis del llenguatge no verbal com és la gestualitat que acompanya el discurs i la postura dels partícips en l’acte, la seva forma d’escoltar i de fer-se escoltar, la seva forma de vestir, etc., veurem que hi ha molts aspectes que no poden ser captats a partir de corpus textuals escrits. Així mateix, no es pot defugir la realitat que la gent corrent parla molt més que no escriu, i que una llengua retratada només a partir de l’escriptura ha d’oferir necessàriament una imatge borrosa. I si, d’altra banda, els comportaments actitudinals evolucionen i canvien de generació en generació, és evident que una de les responsabilitats de l’IEC és la de salvar aquest patrimoni, al mateix temps que ha de poder posar a l’abast dels investigadors elements que vagin més enllà de projectes particulars i amb objectius més concrets. 
 
En vistes al desenvolupament dels COLC s’han tingut en compte els precedents existents de corpus orals d’altres llengües, com són: en el cas del francès el projecte Corpus de Langue Parlée en Interaction (CLAPI), el projecte Phonologie du Français Contemporain (PFC), o en el cas de la comparativa lingüística el C-ORAL-ROM, que fa comparacions de llenguatge espontani en quatre llengües romàniques: francès, italià, portuguès i espanyol. Però, d’altra banda, caldrà tenir molt en compte, per tal d’optimitzar els recursos, els projectes previs desenvolupats en el si de les universitats de l’àmbit de la llengua catalana com:  
També s’ha tingut en compte l’experiència del Laboratori de Tecnologies Lingüístiques (LATEL) de la UPF.
 

 

 

Resultats

Dols, Nicolau (2020, en premsa) “El concepte d’integritat lingüística i la competència comunicativa. El contínuum estàndard/dialecte a Mallorca”. IVITRA, 27: 1-24 (http://doi.org/10.1075/ivitra.27.01dol)
 
Dols, Nicolau (2020, en premsa) “Descripció i prescripció en la Gramàtica catalana de Fabra (1918) i en la Gramàtica de la Llengua Catalana de l’IEC (2016). Ítaca, núm. 10-11.
 
Dols, Nicolau (2020, en premsa) “Who rules the Language? Codifying orality in a dispersed community”. A. Cotijo & V. Martines (eds.) History of Catalonia and Its Implications for Contemporary Nationalism and Cultural Conflict. Perspectives from History, Linguistics, Cultural Studies and Education. Hershey (Pennsylvania): IGI Gobal.
 
Presentació del projecte del Corpus Oral de la Llengua Catalana (COLC) per als membres de la Secció Filològica en la primera reunió de l'any 2020, a càrrec dels doctors Lluís de Yzaguirre (UPF) i Nicolau Dols (IEC-UIB). 17.01.2020.
 
Celebració de la I Jornada sobre Corpus Orals del Català: «Ciència, lingüística i tecnologia» a càrrec dels doctors Lluís de Yzaguirre (UPF), Juan María Garrido (UNED), Ramon Ferrer (UPC), Antoni Hernàndez-Fernàndez (UPC), Mireia Farrús (UPF) i Nicolau Dols (IEC-UIB). IEC 16.01.2020.
 
Conferència “La codificació de l'oralitat: funció del Corpus Oral de la Llengua Catalana [COLC] de la Secció Filològica de l'IEC” a càrrec de Lluís de Yzaguirre. Jornada Internacional de l'Associació Internacional de Llengua i Literatura Catalanes [AILLC] "Innovació en la recerca en Filologia Catalana. Corpus, Lingüística, Sociolingüística, Literatura, Història, Estudis Culturals, TIC i Ensenyament multilingüe. Nucia 22.11.2019.
 
Presentació del projecte Corpus Oral de la Llengua Catalana al personal tècnic i administratiu de la Secció Filològica, i als seus col·laboradors vinculats, en la celebració de la segona sessió d’obertura del curs 2019-2020 a càrrec dels doctors Lluís de Yzaguirre (UPF) i Nicolau Dols (IEC-UIB). Barcelona 20.09.2019.
 
Conferència “Reequilibrar el sistema: entre la normativa i l’estandardització espontània” a càrrec de Nicolau Dols. XXXI Curs de sociolingüística de la Nucia, organitzat per la Universitat d’Alacant. 23.11.2018.
 
Seminari “Construcció i alimentació de corpus orals” dissenyat com a formació inicial de personal tècnic impartit a la Universitat de les Illes Balears pels doctors Lluís de Yzaguirre (UPF) i Nicolau Dols (IEC-UIB). 5.9.2018.
 
 

Altres resultats
 
Durant el 2018, s’ha treballat amb materials audiovisuals facilitats per la direcció general de l’Ens Públic de Ràdio i Televisió de les Illes Balears (IB3), que han consistir en dos mesos de telenotícies enregistrats i acompanyats dels texts corresponents als teleprompters. Aquests materials s’han revisat i segmentat mitjançant l’eina TextGrid del programa d’anàlisi acústica Praat, i el programa ELAN de gestió de vídeo i text.

 

Més informació

 

Entitats

 

 

Àrea geogràfica


Pàgines Web

Aquest projecte el 2022 i el 2023 ha comptat amb la col·laboració de

Diputació de Barcelona


 


Amb el suport de

 

Departament d’Empresa i Coneixement de la Generalitat de Catalunya

Departament de Cultura de la Generalitat de Catalunya

i la col·laboració de

Departament de Justícia

Ministerio de Ciencia e Innovación

Ministerio de Educación, Cultura y Deporte