Page 5 - Fister jr., Iztok, and Andrej Brodnik (eds.). StuCoSReC. Proceedings of the 2016 3rd Student Computer Science Research Conference. Koper: University of Primorska Press, 2016
P. 5
navanje plagiatov s pomocˇ jo n-gramov

Žiga Leber Luka Horvat Patrik Kokol

Univerza v Mariboru Univerza v Mariboru Univerza v Mariboru

Fakulteta za elektrotehniko, Fakulteta za elektrotehniko, Fakulteta za elektrotehniko,

racˇunalništvo in informatiko racˇunalništvo in informatiko racˇunalništvo in informatiko

Smetanova ulica 17, SI-2000 Smetanova ulica 17, SI-2000 Smetanova ulica 17, SI-2000

Maribor, Slovenija Maribor, Slovenija Maribor, Slovenija

ziga.leber1@student.um.si luka.horvat@student.um.si patrik.kokol@student.um.si

Marko Ocˇko

Univerza v Mariboru
Fakulteta za elektrotehniko,
racˇunalništvo in informatiko
Smetanova ulica 17, SI-2000

Maribor, Slovenija

marko.ocko@student.um.si

POVZETEK detekcijo plagiatov.

V ˇclanku predstavimo postopek avtomatske detekcije plagi- V praksi se pojavlja veˇc naˇcinov nelegitimne ponovne upo-
atov s pomoˇcjo n-Gramov in izboljˇsavo z algoritmom Stupid rabe besedila, ki jih lahko na grobo kategoriziramo v nasle-
Backoff. Algoritem deluje na podlagi primerjave povedi iz dnji skupini. Plagiati, ki temeljijo na dobesednem kopira-
dokumenta z referenˇcnim korpusom. Iz rezultatov je razvi- nju, kjer so deli besedila v celoti prevzeti v originalni obliki.
dno, da izboljˇsan algoritem deluje bolje. Na koncu ˇse po- Te je praviloma najlaˇzje zaznati. V drugo skupino sodijo
damo zakljuˇcke in naˇse mnenje. plagiati, kjer so bili dobesedno kopirani segmenti besedila
zamaskirani. V tem primeru plagiator namenoma prevzame
Kljucˇne besede tuje ideje in jih prepiˇse v svojem slogu brez omembe ori-
ginalnega avtorja. Pri takˇsni obliki so besede zamenjane s
Plagiati, n-grami, Stupid Backoff sinonimi, prav tako pa je pogosto zamenjan tudi njihov vr-
stni red. V teh primerih je poslediˇcno plagiat dosti teˇzje
1. UVOD zaznati [5, 1].

Plagiat je objava del, ki se pripisujejo drugemu avtorju, brez V tem ˇclanku smo za uporabo plagiatov preizkusili metodo
da bi citirali vir iz katerega smo jih pridobili. To predvsem opisano v [1]. Ta temelji na primerjavi veˇcih povedi z refe-
velja v primeru, kjer lahko legitimno priˇcakujemo, da je delo renˇcnim korpusom na podlagi n-gramov (zaporednih n ele-
originalno. Dejanje je storjeno, z namenom pridobitve ko- mentov v dani sekvenci npr. zaporednih n besed v povedi).
risti, kreditnih toˇck ali druge oblike dobiˇcka [4]. Pred 18. Postopek smo dodatno izboljˇsali z uporabo algoritma Stupid
stoletjem v Evropi kopiranja oz. prepisovanja in posnema- Backoff. Delovanje metode preizkusimo za razliˇcne velikosti
nja niso dojemali kot nemoralno ali prepovedano poˇcetje, n-gramov. Iz pridobljenih rezultatov je razvidno, da tako
temveˇc so celo spodbujali k posnemanju velikih mojstrov in originalna, kot referenˇcna metoda delujeta boljˇse pri nizkih
zgledovanju pri njih. V umetnosti je tudi danes teˇzko dolo- vrednostih n. Predlagan algoritem izboljˇsa F1-mero za 0.44
ˇciti, ˇce gre za plagiat ali ne, saj se nekateri umetniki zgledu- %.
jejo drug pri drugem, lahko pa tudi nezavedno vplivajo drug
na drugega. V znanosti ˇzene plagiatorje ˇzelja po ugledu ali Cˇ lanek je organiziran v naslednje odseke. V odseku 2 pred-
zasluˇzku brez lastnega truda, lahko pa pride do kraje in- stavimo sorodna dela. Nato referenˇcno metodo in naˇse iz-
telektualne lastnine tudi samo zaradi pomanjkanja svojega boljˇsave opiˇsemo v poglavju 3. Sledijo rezultati in diskusija
znanja in sposobnosti [9]. Plagiatorstvo se ˇse posebaj po- v odseku 4. Cˇ lanek s kratkim povzetkom zakljuˇcimo v od-
javlja v sodobnem ˇcasu, saj lahko preprosto dostopamo do seku 5.
del drugih avtorjev s pomoˇcjo elektronskih virov. Zato so
raziskovalci razvili veliko razliˇcnih postopkov za avtomatsko

2. SORODNA DELA

Trenutno obstaja ˇze kar nekaj metod za ugotavljanje pla-
giatov. Sistem PPChecker [6] razdeli sumljivo besedilo v
manjˇse dele, kot so odstavki in povedi, ter nato posamezne
manjˇse dele primerja z referenˇcnim korpusom. Problem te
metode je, spreminjanje vrstnega reda besed v stavkih, kajti
tega ta sistem ne bo zaznal. V Ferret [7] sistemu za detek-
cijo plagiatov, se celoten testni dokument razdeli v razliˇcne

StuCoSReC Proceedings of the 2016 3rd Student Computer Science Research Conference 5
Ljubljana, Slovenia, 12 October
   1   2   3   4   5   6   7   8   9   10