Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES: gradnja, vsebina, uporaba

Avtorji

Nataša Logar Berginc, Univerza v Ljubljani, Fakulteta za družbene vede; Miha Grčar; Marko Brakus; Tomaž Erjavec, Institut Jožef Stefan, Ljubljana; Špela Arhar Holdt, Univerza v Ljubljani, Fakulteta za računalništvo in informatiko; Simon Krek, Institut Jožef Stefan, Ljubljana

Ključne besede:

referenčni korpusi, besedilna recepcija, besedilna produkcija, spletna besedila, jezikovne tehnologije

Kratka vsebina

V projektu Sporazumevanje v slovenskem jeziku (2008−2013; SSJ) je bil eden od ciljev izgradnja referenčnega, enojezičnega in pisnega korpusa sodobne slovenščine. Nastal je korpus Gigafida z več kot milijardo besed, ki je nadgradnja dveh predhodnih korpusov: korpusa FIDA iz leta 2000 in korpusa FidaPLUS iz leta 2006.

V več kot milijardo besed obsegajoči korpus Gigafida smo dali vsa besedila, ki smo jih dobili na novo (ter besedila iz predhodnih korpusov FIDA in FidaPLUS), bolj uravnotežena razmerja med zvrstmi besedil pa smo že predhodno načrtovali in jih tudi uresničili v 100-milijonskem korpusu KRES. Dodatno smo izdelali še dva podkorpusa, ki sta po licenci Creative Commons »priznanje avtorstva« + »nekomercialno« dostopna kot baza podatkov: prvi (ccGigafida) vsebuje 9 % Gigafide, drugi (ccKRES) pa 9 % KRES-a.

Downloads

Download data is not yet available.

Prenosi

Forthcoming

August 28, 2020

Kako citirati

Logar Berginc, N., Grčar, M., Brakus, M., Erjavec, T., Arhar Holdt, Špela, & Krek, S. (2020). Korpusi slovenskega jezika Gigafida, KRES, ccGigafida in ccKRES: gradnja, vsebina, uporaba. Založba Univerze v Ljubljani. https://doi.org/10.4312/9789610603542