Vodnik po frekvenčnih spiskih iz korpusov Gigafida 2.0 in GOS 1.0

Avtorji

Jaka Čibej
Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
Špela Arhar Holdt
Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
Kaja Dobrovoljc
Univerza v Ljubljani, Filozofska fakulteta
Simon Krek
Institut Jožef Stefan, Ljubljana

Ključne besede:

pisna slovenščina, govorjena slovenščina, program LIST, repozitorij CLARIN.SI, besedilni korpusi

Kratka vsebina

Raziskovalni projekt “Nova slovnica sodobne standardne slovenščine: viri in metode” je potekal v sodelovanju raziskovalk in raziskovalcev z Instituta Jožef Stefan ter Filozofske fakultete in Fakultete za računalništvo in informatiko Univerze v Ljubljani. Cilj projekta je bil opredeliti jezikoslovne metodološke temelje računalniške analize pisne in govorjene slovenščine, kakršna je zajeta v sodobnih korpusih slovenskega jezika. Na podlagi nove metodologije smo pripravili prosto dostopne korpusne podatke, ki so uporabni za pripravo empirično osnovanega slovničnega opisa sodobne slovenščine in razvoj jezikovnotehnoloških orodij za slovenski jezik.

Namen publikacije Vodnik po frekvenčnih spiskih iz korpusov Gigafida 2.0 in GOS 1.0 je ponuditi hiter pregled podatkov, ki so na voljo na repozitoriju CLARIN.SI, prek tega pa prikazati zmogljivosti programa LIST, ki ga je mogoče na primerljiv način uporabiti tudi na drugih besedilnih korpusih. Vodnik predstavlja kratke izseke vseh razpoložljivih seznamov - naslovno vrstico in cca. 30 podatkovnih vrstic. Ob vsaki tabeli je na voljo povezava na podatke v repozitoriju, na začetku vsakega podpoglavja pa kratek opis metodologije, na kateri temelji izvoz. Vodnik je na voljo v dveh jezikih, slovenskem in angleškem.

Prenosi

Podatki o prenosih še niso na voljo.

Prenosi

Forthcoming

December 30, 2020