Računalniška analiza čustev in tem v Wikiviru

Avtorji

Damjan Popič
Univerza v Ljubljani, Filozofska fakulteta

Kratka vsebina

V prispevku predstavimo računalniško analizo tem in čustev v korpusu slovenske književnosti, prosto dostopni v repozitoriju Wikivir. Pri tem predstavimo tako pristop k izgradnji korpusa, ki ga želimo v analizo ponuditi tudi drugim raziskovalcem v okviru platforme SketchEngine in na repozitoriju Clarin, kot tudi metodo za analizo čustev in prevladujočih tematik v obsežnih podatkovnih zbirkah. Pri raziskavi poskušamo izpostaviti glavne tematske poudarke v različnih časovnih obdobjih, žanrih in pri različnih avtorjih ter prevladujoča čustva, pri čemer uporabimo tako leksikonski pristop kot tudi analizo sentimenta. Kljub neprecenljivemu bogastvu digitaliziranega slovenskega leposlovja na Wikiviru je bil ta vir zaradi zapletenosti označevalnika MediaWiki, razpršenosti prenesenih besedil ter zahtevnosti pretvarjanja in procesiranja besedil do zdaj slabo izkoriščen za obsežnejše raziskave, ki bi temeljile na računalniškem procesiranju naravnega jezika. Za namene te raziskave smo pripravili korpus prosto dostopne slovenske književnosti, ki zajema nekaj več kot 62 milijonov besed, nabranih iz 22.919 različnih besedil, ki so v Wikiviru (nekonsistentno) označena z več kot 2000 različnimi kategorijami oz. metapodatki (avtor, leto, stoletje, žanr ipd.). Te podatke poskušamo z uporabo računalniških pristopov tudi sistematizirati ter natančneje predstaviti distribucijo besedil, objavljenih v Wikiviru.

Prenosi

Izdano

1 December 2025

Zbirka

Kako citirati

Popič, D. (2025). Računalniška analiza čustev in tem v Wikiviru. In A. Zupan Sosič (Ed.), Čustva in slovenska književnost: Vol. Obdobja 44 (pp. 269-278). Založba Univerze v Ljubljani. https://ebooks.uni-lj.si/ZalozbaUL/catalog/book/839/chapter/4507