Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES: gradnja, vsebina, uporaba
Ključne besede:
referenčni korpusi, besedilna recepcija, besedilna produkcija, spletna besedila, jezikovne tehnologijeKratka vsebina
V projektu Sporazumevanje v slovenskem jeziku (2008−2013; SSJ) je bil eden od ciljev izgradnja referenčnega, enojezičnega in pisnega korpusa sodobne slovenščine. Nastal je korpus Gigafida z več kot milijardo besed, ki je nadgradnja dveh predhodnih korpusov: korpusa FIDA iz leta 2000 in korpusa FidaPLUS iz leta 2006.
V več kot milijardo besed obsegajoči korpus Gigafida smo dali vsa besedila, ki smo jih dobili na novo (ter besedila iz predhodnih korpusov FIDA in FidaPLUS), bolj uravnotežena razmerja med zvrstmi besedil pa smo že predhodno načrtovali in jih tudi uresničili v 100-milijonskem korpusu KRES. Dodatno smo izdelali še dva podkorpusa, ki sta po licenci Creative Commons »priznanje avtorstva« + »nekomercialno« dostopna kot baza podatkov: prvi (ccGigafida) vsebuje 9 % Gigafide, drugi (ccKRES) pa 9 % KRES-a.