Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES: gradnja, vsebina, uporaba

Avtorji

Nataša Logar Berginc, Univerza v Ljubljani, Fakulteta za družbene vede; Miha Grčar; Marko Brakus; Tomaž Erjavec, Institut Jožef Stefan, Ljubljana; Špela Arhar Holdt, Univerza v Ljubljani, Fakulteta za računalništvo in informatiko; Simon Krek, Institut Jožef Stefan, Ljubljana

Ključne besede:

referenčni korpusi, besedilna recepcija, besedilna produkcija, spletna besedila, jezikovne tehnologije

Kratka vsebina

V projektu Sporazumevanje v slovenskem jeziku (2008−2013; SSJ) je bil eden od ciljev izgradnja referenčnega, enojezičnega in pisnega korpusa sodobne slovenščine. Nastal je korpus Gigafida z več kot milijardo besed, ki je nadgradnja dveh predhodnih korpusov: korpusa FIDA iz leta 2000 in korpusa FidaPLUS iz leta 2006.

V več kot milijardo besed obsegajoči korpus Gigafida smo dali vsa besedila, ki smo jih dobili na novo (ter besedila iz predhodnih korpusov FIDA in FidaPLUS), bolj uravnotežena razmerja med zvrstmi besedil pa smo že predhodno načrtovali in jih tudi uresničili v 100-milijonskem korpusu KRES. Dodatno smo izdelali še dva podkorpusa, ki sta po licenci Creative Commons »priznanje avtorstva« + »nekomercialno« dostopna kot baza podatkov: prvi (ccGigafida) vsebuje 9 % Gigafide, drugi (ccKRES) pa 9 % KRES-a.

Prenosi

Podatki o prenosih še niso na voljo.

Prenosi

Forthcoming

August 28, 2020