Vodnik po frekvenčnih spiskih iz korpusov Gigafida 2.0 in GOS 1.0
Keywords:
pisna slovenščina, govorjena slovenščina, program LIST, repozitorij CLARIN.SI, besedilni korpusiSynopsis
Raziskovalni projekt “Nova slovnica sodobne standardne slovenščine: viri in metode” je potekal v sodelovanju raziskovalk in raziskovalcev z Instituta Jožef Stefan ter Filozofske fakultete in Fakultete za računalništvo in informatiko Univerze v Ljubljani. Cilj projekta je bil opredeliti jezikoslovne metodološke temelje računalniške analize pisne in govorjene slovenščine, kakršna je zajeta v sodobnih korpusih slovenskega jezika. Na podlagi nove metodologije smo pripravili prosto dostopne korpusne podatke, ki so uporabni za pripravo empirično osnovanega slovničnega opisa sodobne slovenščine in razvoj jezikovnotehnoloških orodij za slovenski jezik.
Namen publikacije Vodnik po frekvenčnih spiskih iz korpusov Gigafida 2.0 in GOS 1.0 je ponuditi hiter pregled podatkov, ki so na voljo na repozitoriju CLARIN.SI, prek tega pa prikazati zmogljivosti programa LIST, ki ga je mogoče na primerljiv način uporabiti tudi na drugih besedilnih korpusih. Vodnik predstavlja kratke izseke vseh razpoložljivih seznamov - naslovno vrstico in cca. 30 podatkovnih vrstic. Ob vsaki tabeli je na voljo povezava na podatke v repozitoriju, na začetku vsakega podpoglavja pa kratek opis metodologije, na kateri temelji izvoz. Vodnik je na voljo v dveh jezikih, slovenskem in angleškem.