Znanost i istraživanje

dr. sc. Nikola Bakarić

Ustanova: Sveučilište u Zagrebu, Filozofski fakultet (Odsjek za informacijske i komunikacijske znanosti)

Znanstveno polje: Društvene znanosti / Informacijske i komunikacijske znanosti

Tema: Automatska klasifikacija žanrova hrvatske usmene književnosti

Obrana: 7. 7. 2025.

Sadržaj: Ovaj doktorski rad istražuje primjenu metoda digitalne humanistike u klasifikaciji hrvatskih folklornih žanrova. Cilj rada je razviti model za klasifikaciju hrvatskih folklornih žanrova na temelju kvantificiranih stilskih obilježja na razini fonema, slogova i nizova znakova. Postavljene su dvije hipoteze: (a) kratki oblici hrvatske usmene književnosti mogu se razlikovati od drugih književnih oblika pomoću automatskih algoritama te (b) model temeljen na znakovnim n-gramima nadmašit će modele temeljene na slogovima. Istraživanje koristi korpus koji obuhvaća brojalice, brzalice, basme, blagoslove, kletve i druge folklorne tekstove. Stilske značajke obrađuju se metodama obrade prirodnog jezika, a žanrovi se klasificiraju standardnim algoritmima strojnog učenja (naivni Bayes, k-najbližih susjeda, stroj potpornih vektora i dr.). Testirano je ukupno 18 modela nad svakim od sedam žanrova, a najuspješnijim se pokazala kombinacija značajki n-grama i algoritma stroj potpornih vektora s točnošću 68–90%. Zaključci potvrđuju obje hipoteze i donose generalni model čija prosječna točnost usporediva s međunarodnim istraživanjima. Rezultati uključuju javno dostupan korpus hrvatskih folklornih žanrova, izdvojene stilske značajke i algoritam za slogovanje hrvatskog jezika.

 

Skip to content