Lingüística quantitativa: les lleis lingüístiques en el català

Direcció

Antoni Hernández-Fernández
Institut d'Estudis Catalans - Universitat Politècnica de Catalunya

Ponent

Ramon López de Mántaras i Badia
Institut d'Estudis Catalans -

Col·laboradors:
Ramon Ferrer-i-Cancho, UPC
Lucas Lacasa, Queen Mary University of London
Bartolomé Luque Serrano, Universidad Politécnica de Madrid
Iván G. Torre, Universidad Politécnica de Madrid
 

Síntesi

Les lleis lingüístiques són les regularitats estadístiques que es troben a les llengües humanes, les més conegudes de les quals són la Llei de Zipf, la llei de Menzerath-Altmann, la llei de brevetat i la llei de Hepas-Herdan. La seva potencialitat, tant en aplicacions lingüístiques (sistemes automàtics d’anàlisi textual, tecnologies de reconeixement de veu...) com en d’altres àmbits de recerca molts diversos (genòmica, comunicació animal...), tot just es comencen a explotar.

Aquest treball es planteja desenvolupar una recerca sobre la revisió i exploració de les lleis lingüístiques en els corpus del català des del nivell subfonèmic fins al nivell textual. La idea principal és determinar si en el català se segueixen els patrons estadístics més coneguts (tant de llengües romàniques com d’altres llengües), alguns plantejats com a universals, o si pel contrari es dóna alguna especificitat estadística pròpia.
 
A aquest efecte, es partirà de l’anàlisi de corpus escrits coneguts per després passar a l’estudi de corpus orals i determinar-ne les diferències, si n’hi han. Es tracta, doncs, d’un treball interdisciplinar on si bé la lingüística quantitativa és el tema central, intervindran també experts de la modelització matemàtica, la computació i la física.
 
Els objectius seqüencials del projecte són:
  1. Desenvolupar els programes informàtics necessaris per a l’exploració estadística dels corpus.
  2. Posar a prova (Test) els programes en corpus molt coneguts i explorats a la literatura internacional (corpus fonamentalment en anglès o treballats prèviament)
  3. Aconseguir en paral·lel corpus del català per a dur a terme la recerca.
  4. Aplicar als corpus del català els programes i models desenvolupats.
  5. Fer l’anàlisi estadística dels resultats i la recerca en els models matemàtics i físics subjacents.
  6. Presentar el treball en congressos internacionals de lingüística quantitativa i/o computacional.
  7. Publicar els resultats obtinguts en revistes d’alt impacte (Nature, Science...) 
  8. Elaborar una obra de divulgació en català sobre el tema: actualment no n’hi ha cap de divulgació en català sobre lingüística quantitativa. 

 

Paraules clau

Lingüística quantitativa, lleis lingüístiques, corpus lingüístics (textuals i orals)

 

Inici del projecte

2018 -

 

Antecedents

Antoni Hernández-Fernández va fer la tesi doctoral sobre l’estudi general de les lleis lingüístiques en els sistemes de comunicació, explorant, a més del llenguatge humà, la comunicació animal, la genètica o la comunicació química, així com reflexionant sobre les implicacions per a la ciència cognitiva en general. Dirigida per Ramon Ferrer-i-Cancho (UPC) i Faustino Diéguez-Vide (UB).

  • Ferrer i Cancho, R & Hernández-Fernández, A. (2013). «The failure of the law on brevity in two New World primates. Statistical caveats». A: Glottotheory 4, p. 45-55. [ doi: 10.1524/glot.2013.0004 ]
  • Baixeries, J; Hernández-Fernández, A. & Ferrer-i-Cancho, R. (2012). «Random models of Menzerath Altmann law in genomes». A: BioSystems 107, p. 167-173. [ doi: 10.1016/j.biosystems.2011.11.010 ]
  • Hernández-Fernández, A. & Ferrer-i-Cancho, R. (2016) «The infochemical core» A: Journal of Quantitative Linguistics 23, p. 133-153. [ doi: 10.1080/09296174.2016.1142323 ]
  • Ferrer-i-Cancho, R., Hernández-Fernández, A., Lusseau, D., Agoramoorthy, G., Hsu, M. J. & Semple, S. (2013). «Compression as a universal principle of animal behavior». A: Cognitive Science 37 (8), p. 1565–1578. [ doi: 10.1111/cogs.12061, e-print ]
  • González Torre, I.; Luque, B.; Lacasa, L.; Luque, J. & Hernandez Fernandez, A. (2017). «Emergence of linguistic laws in human voice». A: Scientific Reports, 7, number 43862, p. 1-10. [https://doi.org/10.1038/srep43862 ]
  • Hernández-Fernández, A.; González Torre, I.; Lacasa, L.; Luque, J. & Luque, B. (2018). «Do linguistic laws emerge from voice?» A: International Quantitative Linguistics Conference 2018, QUALICO 2018, Wroclaw, Polònia, https://futur.upc.edu/23256957
  • González Torre, I.; Luque, B.; Lacasa, L.; Luque, J. & Hernández-Fernández, A. (2017). «Linguistic laws or statistical learning?» A: Interdisciplinary Advances in Statistical Learning, BCBL 2017, Bilbao, Euskadi, https://futur.upc.edu/21124934

 

Resultats

 

Més informació

 

 

 

 

 

Secció de Ciències i Tecnologia

Àrea geogràfica


Pàgines Web

 

 

 

 

 

Institut d'Estudis Catalans. Carrer del Carme, 47; 08001 Barcelona.
Telèfon +34 932 701 620. Fax +34 932 701 180. informacio@iec.cat - Informació legal


Amb el suport de

Departament d’Empresa i Coneixement de la Generalitat de Catalunya Departament de Cultura de la Generalitat de Catalunya

i la col·laboració de

Ministerio de Educación, Cultura y Deporte        Ministerio de Educación, Cultura y Deporte

Inici

Institució

Recerca

 

Llengua

 

Publicacions

Arxiu

Serveis

Serveis lingüístics

Transparència