Računalniška analiza čustev in tem v Wikiviru
Kratka vsebina
V prispevku predstavimo računalniško analizo tem in čustev v korpusu slovenske književnosti, prosto dostopni v repozitoriju Wikivir. Pri tem predstavimo tako pristop k izgradnji korpusa, ki ga želimo v analizo ponuditi tudi drugim raziskovalcem v okviru platforme SketchEngine in na repozitoriju Clarin, kot tudi metodo za analizo čustev in prevladujočih tematik v obsežnih podatkovnih zbirkah. Pri raziskavi poskušamo izpostaviti glavne tematske poudarke v različnih časovnih obdobjih, žanrih in pri različnih avtorjih ter prevladujoča čustva, pri čemer uporabimo tako leksikonski pristop kot tudi analizo sentimenta. Kljub neprecenljivemu bogastvu digitaliziranega slovenskega leposlovja na Wikiviru je bil ta vir zaradi zapletenosti označevalnika MediaWiki, razpršenosti prenesenih besedil ter zahtevnosti pretvarjanja in procesiranja besedil do zdaj slabo izkoriščen za obsežnejše raziskave, ki bi temeljile na računalniškem procesiranju naravnega jezika. Za namene te raziskave smo pripravili korpus prosto dostopne slovenske književnosti, ki zajema nekaj več kot 62 milijonov besed, nabranih iz 22.919 različnih besedil, ki so v Wikiviru (nekonsistentno) označena z več kot 2000 različnimi kategorijami oz. metapodatki (avtor, leto, stoletje, žanr ipd.). Te podatke poskušamo z uporabo računalniških pristopov tudi sistematizirati ter natančneje predstaviti distribucijo besedil, objavljenih v Wikiviru.
Prenosi
Pages
Izdano
Zbirka
Kategorije
Licenca

To delo je licencirano pod Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 mednarodno licenco.