The Completeness of Articles and Citation Analysis on the Slovenian Wikipedia
manca Noč, maja Žumer
Oddano: 12. 7. 2012 – Sprejeto: 8. 1. 2013 1.01 Izvirni znanstveni članek
1.01 Original Scientific Article UDK 001.89:030:004.738.5(497.4) Izvleček
Namen: Namen raziskave je bil preveriti, koliko in kakšne vire citirajo izbrani članki slovenske Wi- kipedije ter primerjati vzorec izbranih člankov z vzorcem naključnih člankov, oboje z namenom, da bi se dobila okvirna predstava o kvaliteti enih in drugih.
metodologija: Pregledanih je bilo 122 izbranih člankov slovenske Wikipedije iz let 2009, 2010 in 2011. Analizirani so bili predvsem naslednji vidiki člankov: tema in popolnost članka ter število, jezik in vrsta virov. Vzorec izbranih člankov je bil primerjan z vzorcem 194 naključnih člankov, ki predstavljajo povprečne članke na slovenski Wikipediji.
Rezultati: Rezultati so pokazali, da je večina izbranih člankov prirejena po angleški Wikipedi- ji, najpogostejše tematike pa so naravoslovje, šport in zgodovina. Izkazalo se je, da večino na- ključnih člankov predstavljajo škrbine in članki z minimalnim številom referenc, najpogosteje z vojaško, športno ali biografsko tematiko. Na podlagi rezultatov se je potrdilo, da izbrani članki, kljub nekaterim pomanjkljivostim, v primerjavi z naključnimi članki predstavljajo najkvalitetnej- še članke slovenske Wikipedije.
Omejitve raziskave: Največja problematika in omejitev raziskave je izjemno slaba kvaliteta na- ključnih člankov, saj so to večinoma škrbine, za katere je bilo težko najti smiselne parametre, po katerih bi se jih lahko analiziralo.
Izvirnost/uporabnost raziskave: To je prva tovrstna raziskava slovenske Wikipedije, ki se ukvarja specifično z analizo citiranja v izbranih člankih. Rezultati raziskave urednikom izbranih člankov na slovenski Wikipediji ponujajo dragocene informacije glede njihovega dela ter opozarjajo na nekatere pomanjkljivosti, ki jih je mogoče odpraviti.
Ključne besede: slovenska Wikipedija, izbrani članki, analiza citiranja, celovitost člankov
Abstract
purpose: The purpose of this research was to examine the number and type of sources cited by featured articles on the Slovenian Wikipedia and to compare a sample of featured articles with a sample of random articles, with the purpose of determining an indicative framework for the quality of both.
methodology: 122 featured Wikipedia articles created in 2009, 2010 and 2011 were analysed, particularly the topic and originality of an article and the number, language and type of sources.
A sample of featured articles was compared to a sample of 194 random articles which represent average Wikipedia articles.
Results: The results showed that most of the featured articles were adapted from the English Wikipedia, the most common topics being natural science, sports and history. It turned out that the majority of random articles were stubs and articles with a minimal number of references, with military, sports or biographic topic. Based on these results it has been confirmed that de- spite their deficiencies the featured articles represent the highest-quality Wikipedia articles as compared to random articles.
Research limitation: The biggest limitation of the research was the very low quality of random articles as they were mostly stubs, so it was hard to even determine sensible parameters upon which they could be analysed.
Originality/practical implications: This is the first research of the Slovenian Wikipedia that fo- cuses on citation analysis of featured articles. Results of this research offer valuable information to editors of featured articles on their own work as well as point out certain deficiencies which can be eliminated.
Keywords: Slovenian Wikipedia, selected articles, citation analysis, article comprehensiveness
1 Uvod
Spletna enciklopedija Wikipedija je kljub pogostim kritikam že nekaj časa eden od zelo priljubljenih ponudnikov informacij, predvsem zaradi svoje odprtosti in preprostega dostopa. Ne le, da deluje po principu prostega dostopa, ampak vsakemu uporabniku ponuja tudi možnost, da prispeva in ureja vnose. Da bi zagotovila čim boljšo kvaliteto informacij, je Wikipedia razvila sistem pravil in smernic. Članki, ki naj bi tem pravilom še posebej zvesto sledili, so izbrani članki, ki predstavljajo najkvalitetnejši del Wikipedije.
Uporabnik naj bi se ob branju teh člankov celovito, načeloma točno in hitro poučil o določeni tematiki.
Upravičeno se postavlja vprašanje, zakaj sploh raziskovati Wikipedijo. Dejstvo je, da je Wikipedija šesta najbolj obiskana spletna stran na svetu in sedma najbolj obiskana
spletna stran v Sloveniji. Pri učencih, dijakih in študentih je vedno bolj priljubljen in pogosto citiran vir, kljub nejevolji profesorjev. Eijkman (2010) glede študentske upo- rabe Wikipedije piše, da akademiki odklanjajo Wikipedijo prav zaradi njenih odprtih recenzijskih procesov in odsotnosti natančnega akademskega (uredniškega) nadzora.
Vendar isti avtor meni, da je neodgovorno, da izobraževalne ustanove ne poučujejo o novih tehnologijah znanja, kakršna je Wikipedija, saj ta spreminja način, na katerega človek ustvarja, deli in zapisuje znanje. Zato ima izjemno pomemben vpliv na pristop k izobraževanju v vseh vedah. Težava citiranja Wikipedije v znanstvene namene je, da so študenti vse prehitro zadovoljni z najdenimi informacijami, zato se po navadi zado- voljijo s tistimi, ki jih najdejo v članku. Ne zavedajo pa se, da vsak dobro napisan čla- nek citira reference, ki bi jim lahko pomagale pri kvalitetni izdelavi seminarske naloge.
Mnogi od teh virov so v današnjem času prosto dostopni, zato so vse informacije, ki jih potrebujejo, oddaljene le še en klik – vendar v večini primerov na žalost en klik preveč.
Zato so raziskave virov, ki jih citirajo članki Wikipedije, izjemnega pomena, saj tako lahko vsakdo preveri, ali so ti viri dovolj kvalitetni za nadaljnjo uporabo, kakšne vrste virov članki citirajo in ali so ti viri sploh dostopni vsakokratnemu bralcu posameznega članka. To so pomembna vprašanja, ki se jim je posvetila tudi raziskava, predstavljena v tem članku.
Wilkinson in Huberman (2007) sta v raziskavi primerjala število urejanj in urednikov v vzorcu izbranih člankov z vzorcem naključnih člankov, pri tem pa upoštevala starost člankov in priljubljenost teme. Teme, ki so posebej priljubljene ali trenutno relevan- tne in zanimive, so v ospredju zanimanja in tudi urejanja, posledično pa so članki na te teme kvalitetnejši, saj so rezultati pokazali močno povezavo med številom urejanj, številom posameznih urednikov in kakovostjo članka. Poleg kakovosti člankov na Wi- kipediji je pomembna tudi tematska pokritost Wikipedije, ki je seveda precej odvisna od osebnega zanimanja urednikov, ki se odločijo za avtorstvo ali urejanje določenega članka. Poderi (2009) ugotavlja, da je kategorizacija izbranih člankov sicer arbitrarna in se lahko spremeni, vendar nekatere kategorije oziroma tematski sklopi vsebujejo tudi po desetkrat več člankov kot druge. Očitno je, da članki v določenih kategorijah lažje pridobijo status izbranih člankov. Poderi je zato v svoji raziskavi preveril, kateri dejavniki (poleg kriterijev, ki so določeni) vplivajo na sprejem članka med izbrane član- ke. Tudi naša raziskava se izdatno posveča temam izbranih člankov in ugotavlja, da je priljubljenost teme skupaj z osebnimi zanimanji najbolj zagretih urednikov velikega pomena pri odločanju o statusu izbranega članka.
Lindsey (2010) je preverjal učinkovitost procesa potrjevanja izbranih člankov, in sicer tako, da je prosil strokovnjake, naj ocenijo splošno kvaliteto in točnost izbranega član- ka z njihovega strokovnega področja. Med 22 preverjenimi izbranimi članki jih je le 12 uspešno prestalo test z Wikipedijinimi lastnimi kriteriji. V članku polemizira tudi z
raziskavami, ki so pokazale, da je dolžina članka dober pokazatelj, ali je članek izbran ali ne. Lindsey namreč meni, da je večina obstoječih raziskav predpostavila, da so iz- brani članki visoke kakovosti, in je zato izhajala iz napačnih hipotez. Dejstvo, da so iz- brani članki načeloma daljšega obsega, zgolj pomeni, da se tisti, ki glasujejo o statusu izbranih člankov, osredotočajo zgolj na kriterije, ki jih je lahko določiti – torej predvsem na dolžino – in kvaliteti ne posvečajo dovolj pozornosti. Nekdo, ki ni strokovnjak na do- ločenem področju, lažje presoja na podlagi dolžine članka kot pa na podlagi njegove resnične izčrpnosti.
Na podlagi pregledane dostopne literature na temo Wikipedije in izbranih člankov je bila zasnovana raziskava, ki se osredotoča predvsem na stanje izbranih člankov v slo- venski Wikipediji. Kriteriji, po katerih so bili izbrani članki analizirani, so izvor izbranih člankov (ali gre za izvirni slovenski vnos ali zgolj za prevod ali povzetek že obstoječega vnosa v tujem jeziku) in viri, ki jih članki citirajo (ali so spletni ali tiskani, znanstveni ali poljudni, v slovenskem ali tujem jeziku).
2 Wikipedijina merila za izbrane članke
Za izbrane članke poleg standardnih pravil in smernic, ki veljajo za vse članke na Wikipediji,1 veljajo tudi posebna merila.2
1. Izbrani članek je dobro napisan, celovit, točen, nepristranski in stabilen.
a. Dobro napisan pomeni, da je besedilo na kar se da visoki ravni.
b. Celovit pomeni, da članek zaobjame vsa pomembna dejstva in podrobnosti.
c. Točen pomeni, da je trditve mogoče preveriti v zanesljivih virih in da točno predstavlja s predmetom članka povezano objavljeno znanje. Trditve so podprte z navedbami zanesljivih zunanjih objav. Pri tem morajo snovalci imeti v mislih dve temeljni pravili Wikipedije, in sicer Preverljivost in Brez izvirnega raziskovanja.
d. Nepristranski pomeni, da članek predstavlja stališča pošteno in nepristransko.
To načelo sloni na tretjem temeljnem pravilu Wikipedije, ki je Nepristranskost.
e. Stabilen pomeni, da članek ni neprestano predmet urejevalnih vojn in da se njegova vsebina ne spreminja iz dneva v dan.
1 Wikipedija: Pravila in smernice: http://sl.wikipedia.org/wiki/Wikipedija:Pravila_in_smernice
2 Wikipedija: Opredelitev izbranega članka: http://sl.wikipedia.org/wiki/Wikipedija:Opredelitev_
izbranega_%C4%8Dlanka)
2. Izbrani članek ustreza slogovnim smernicam Wikipedije, kar pomeni, da ima:
a. jedrnat uvodni odstavek, ki povzame celotno temo in bralca pripravi na višjo raven podrobnosti v naslednjih odstavkih;
b. ustrezno hierarhično urejene podnaslove;
c. daljše, vendar ne preobsežno kazalo vsebine.
3. Kjer je treba, vsebuje slike z jedrnatimi napisi in sprejemljivim položajem avtorskih pravic.
4. Je primerne dolžine in ostaja osredotočen na glavno temo, ne da bi postal preti- rano podroben.
3 Zasnova raziskave
Namen raziskave je bil proučiti, koliko in kakšne vire citirajo avtorji člankov, ki so kasne- je ob splošnem konsenzu urednikov Wikipedije označeni za Izbrane članke, te rezultate primerjati z vzorcem člankov, pridobljenih prek funkcije Naključni članek, na podlagi vseh rezultatov pa odgovoriti na naslednja raziskovalna vprašanja:
1. Ali se dejstvo, da so to izbrani članki, odraža v številu citiranih virov?
2. Kakšni so viri, ki jih izbrani članki citirajo, glede na njihov jezik in vrsto?
3. Ali so članki izvirno slovenski ali so prevzeti iz drugih Wikipedij?
4. Kakšne so značilnosti naključnih člankov?
3.1 metodologija
Wikipedija je bila v slovenskem jeziku ustanovljena marca 2002. Do 15. maja 2012 je bilo na Wikipediji objavljenih 133.494 člankov v slovenščini, med njimi 273 izbranih člankov. Vzorec v tej raziskavi predstavljajo izbrani članki v letih 2009, 2010 in 2011, kar obsega 122 člankov ali 44,7 odstotka vseh izbranih člankov.
Posebej za potrebe raziskave je bila razvita metodologija za vrednotenje izbranih član- kov slovenske Wikipedije. To je prva tovrstna raziskava, zato so bili kriteriji vrednotenja postavljeni glede na Wikipedijina lastna pravila in smernice ter njena merila za izbrane članke. Wikipedija ima jasno postavljene kriterije o tem, kaj sodi na Wikipedijo, za kaj si Wikipedija kot celota prizadeva in kako naj bi bil videti primeren vnos. Glede na to, da Wikipedija članke, ki so po mnenju uredništva najboljši glede na zastavljene kriteri- je, nagrajuje s statusom izbranega članka, ti članki verjetno najbolj sledijo smernicam in pravilom. Zbran je bil vzorec 122 izbranih člankov iz Wikipedijinega arhiva izbra- nih člankov za leta 2009, 2010 in 2011. Prešteti so bili viri v izbranih člankih, določe- na njihova vrsta, oblika in jezik, v katerem so napisani, poleg tega pa je bil na osnovi
primerjave z vsakokratnimi ustreznicami člankov v drugih Wikipedijah določen izvor izbranih člankov. Analizirani so bili naslednji vidiki:
1. Izvor izbranih člankov v slovenski Wikipediji: koliko so ti članki neodvisni od člankov na isto temo v drugih jezikih – ali gre zgolj za prevod ali povzetek že obsto- ječega vnosa v tujem jeziku ali gre za izvirno slovenski članek.
2. Izvor oziroma jezik virov – ali izbrani članki navajajo slovenske ali tuje vire.
3. Vrsta virov – ali so viri znanstveni ali poljudni, ali gre za monografske publikacije, znanstvene članke, časopisne članke ali spletne strani.
4. Oblika virov – ali so viri tiskani ali spletni.
Da bi se prvi vzorec primerjal z vzorcem, ki predstavlja povprečje člankov na Wikipediji, je bil prek funkcije Naključni članek v razmiku enega tedna pridobljen še vzorec dvakrat po 97 naključnih člankov, ki jih iz celotne baze ponudi Wikipedija. Ker gre, kot rečeno, pri naključnih člankih za povprečje, jih na žalost ni bilo mogoče analizirati po enakih kriterijih kot izbrane članke, saj je bila diskrepanca med njimi preprosto prevelika, tako v smislu ob- sega in kvalitete članka kot v številu in vrsti referenc. Pri naključnih člankih je bil pregledan, preštet in opredeljen vir. Ker so članki večinoma občutno krajši, se je določalo število be- sed in opredelilo, ali gre za običajen članek, za škrbino, za razločitveno stran ali za seznam.
4 Rezultati
4.1 Izbrani članki4.1.1 Izbrani članki v letu 2009
Leta 2009 so uredniki status izbranega članka podelili 44 člankom. Teme člankov so raznovrstne, vseeno pa se jih da kategorizirati na nekaj temeljnih skupin, saj prevladu- jejo članki s področja športa, zgodovine in naravoslovja.
Članki skupno citirajo 1378 virov, kar pomeni, da v povprečju en članek citira 31,3 referen- ce. 20 člankov citira članke v znanstvenih revijah, vsak v povprečju 18,3. 37 člankov citira monografske publikacije, vsak v povprečju 11,8. 41 člankov citira spletne strani, vsak v povprečju 10,02, in 17 člankov citira časopisne članke, vsak v povprečju 9,7. Skupno je ci- tiranih 366 člankov v znanstvenih revijah (26 odstotkov), 437 monografskih publikacij (32 odstotkov), 411 spletnih strani (30 odstotkov) in 164 časopisnih člankov (12 odstotkov).
Glede na temo zgodovinski članki skupno citirajo 258 virov (19 odstotkov), naravo- slovni članki 578 (42 odstotkov), članki s športno temo 366 (26 odstotkov) in preostali članki 176 virov (13 odstotkov).
Med pregledom tem izbranih člankov so se pokazale nekatere zanimive lastnosti citi- ranja člankov z določeno tematiko. Večino časopisnih člankov citirajo članki s športno vsebino, saj skupno ti članki citirajo kar 85 odstotkov časopisnih člankov (glej Sliko 1).
Ostali članki;
25
Športni članki;
139
Ostali članki;
128
Naravoslovni/
zgodovinski članki; 309
Slika 1: Delež citiranih časopisnih člankov pri športnih izbranih člankih 2009.
Slika 2: Delež citiranih monografskih publika- cij pri naravoslovnih in zgodovinskih izbranih člankih 2009.
Večino monografskih publikacij citirajo članki z zgodovinskimi (osebnosti, dogodki) in naravoslovnimi temami, skupno ti članki citirajo 71 odstotkov vseh monografskih publikacij (glej Sliko 2). Prav tako naravoslovni članki citirajo večino člankov v znan- stvenih revijah, in sicer 88 odstotkov vseh člankov v znanstvenih revijah (Slika 3).
Ostali članki;
19
Naravoslovni članki; 347
Slika 3: Delež citiranih znanstvenih člankov pri naravoslovnih izbranih člankih 2009.
Citiranje spletnih strani je dokaj enakomerno porazdeljeno med vse teme izbranih člankov, zato glede na njihovo temo ni mogoče določiti statistično pomembnih la- stnosti člankov, ki citirajo spletne strani.
43 od 44 izbranih člankov leta 2009 citira angleške vire, v povprečju 30,02 na članek, skupno pa izbrani članki leta 2009 vsebujejo 1291 angleških referenc (94 odstotkov).
14 izbranih člankov leta 2009 citira slovenske vire, v povprečju 2,9 na članek, skupno pa izbrani članki leta 2009 citirajo 40 slovenskih referenc (3 odstotki). 11 izbranih član- kov citira vire v drugih tujih jezikih, skupno 47 (3 odstotki).
Med izbranimi članki leta 2009 je 12 izvirnih slovenskih člankov (27 odstotkov), kar pomeni, da nimajo neposredne ustreznice v drugem jeziku, pa tudi če jo imajo, se ta od slovenske bistveno razlikuje. 13 člankov je skrajšanih (30 odstotkov), kar pomeni, da članek sledi predlogi članka iz angleške Wikipedije, vendar je bistveno skrajšan. 9 član- kov je prevedenih iz angleške Wikipedije (20 odstotkov), kar pomeni, da je članek lah- ko sicer skrajšan, a ne bistveno, večinoma pa gre za dobeseden prevod, kar se pogosto vidi po okornejšem jeziku v slovenskem članku, napačnem slovenjenju nekaterih imen ali ustaljenih besednih zvez ipd. Najbolj zanimivi so lokalizirani članki, ki jih je bilo leta 2009 med izbranimi članki 10 (23 odstotkov). Predstavljajo tiste članke, ki so povzeti po članku z Wikipedije v drugem jeziku, a so razširjeni in prirejeni za slovenske bralce. Tak članek ima lahko dodane slovenske reference, podatke, ki orisujejo slovenske razmere, ali pa dodatna pojasnila, zaradi katerih lahko slovenski bralci bolje razumemo temati- ko, ki jim je sicer oddaljena.
4.1.2 Izbrani članki v letu 2010
Arhiv izbranih člankov za leto 2010 vsebuje 53 člankov. Prevladujoče teme ostajajo šport, geografija, zgodovina in naravoslovje. V primerjavi z izbranimi članki 2009 se je pojavila nova kategorija člankov, in sicer članki o popularni kulturi. Članki skupno citirajo 1944 referenc, kar pomeni, da vsak članek v povprečju citira 36,7 reference.
28 člankov citira članke v znanstvenih revijah, vsak v povprečju 12,6. 46 člankov citira monografske publikacije, vsak v povprečju 10,8. 48 člankov citira spletne strani, vsak v povprečju 17,4. 27 člankov citira časopisne članke, v poprečju 9,6 na članek. Skupno je citiranih 354 strokovnih člankov (18 odstotkov), 497 monografskih publikacij (26 odstot- kov), 835 spletnih strani (43 odstotkov) in 258 časopisnih člankov (13 odstotkov). Glede na temo članka naravoslovni članki citirajo 517 virov (26 odstotkov), športni 309 (16 od- stotkov), zgodovinski 402 (21 odstotkov), članki o popularni kulturi 409 (21 odstotkov), članki o geografiji 272 (14 odstotkov), preostali članek pa citira 35 virov (2 odstotka).
Naravoslovni izbrani članki ponovno citirajo večino člankov v znanstvenih revijah, sku- pno teh 18 člankov citira 308 znanstvenih člankov ali 87 odstotkov vseh citiranih znan- stvenih člankov (glej Sliko 4).
Ostali članki;
46
Naravoslovni članki; 308
Naravoslovni in zgodovinski članki; 284 Ostali članki;
213
Slika 4: Delež citiranih znanstvenih člankov pri zgodovinskih člankih 2010
Slika 5: Delež citiranih monografskih publikacij pri naravoslovnih člankih 2010.
Največ monografskih publikacij citirajo članki z zgodovinskimi temami (dogodki ali osebnosti), skupno 14 zgodovinskih člankov citira 284 od 497 citiranih monografskih publikacij, kar je 57 odstotkov vseh citiranih monografskih publikacij (glej Sliko 5).
Največ časopisnih člankov citirajo članki o znanih osebnostih, popularni kulturi in športnikih, saj skupno članki o popularni kulturi citirajo 155 od 258 časopisnih člankov, kar predstavlja 60,08 odstotka vseh časopisnih člankov (glej Sliko 6). Citiranje spletnih strani je tudi leta 2010 porazdeljeno tako, da se težko sklepa, da bi bilo za določeno temo bolj značilno.
Članki o popularni kulturi; 155 Ostali članki;
103
Slika 6: Delež citiranih časopisnih člankov pri člankih o popularni kulturi 2010.
52 od 53 izbranih člankov leta 2010 citira vire v angleškem jeziku, in sicer v povpre- čju vsak članek citira 32,06 vira v angleščini, skupno pa citirajo 1667 virov v angleščini (86 odstotkov). 22 člankov citira vire v slovenskem jeziku, in sicer v povprečju 8,6, sku- pno pa 189 (10 odstotkov).
Med izbranimi članki leta 2010 je 13 izvirnih člankov (24 odstotkov), 18 je skrajšanih člankov (34 odstotkov), 11 prevedenih člankov (21 odstotkov) in 11 lokaliziranih član- kov (21 odstotkov).
4.1.3 Izbrani članki v letu 2011
Arhiv izbranih člankov leta 2011 vsebuje 25 člankov. Prevladujoče teme ostajajo šport, zgodovina in naravoslovje, ostaja tudi kategorija člankov o popularni kulturi. Članki skupno citirajo 1212 referenc, kar pomeni, da vsak članek v povprečju citira 48,5 refe- rence. Med izbranimi članki leta 2011 je 6 izvirnih člankov, 3 skrajšani članki, 3 preve- deni članki in 11 lokaliziranih člankov.
9 člankov citira članke v znanstvenih revijah, vsak v povprečju 25,2. 21 člankov citira monografske publikacije, vsak v povprečju 13,4. 24 člankov citira spletne strani, vsak v povprečju 21,6. 12 člankov citira časopisne članke, v poprečju 15,75 na članek. Skupno je citiranih 277 znanstvenih člankov (18 odstotkov), 281 monografskih publikacij (22 odstotkov), 519 spletnih strani (46 odstotkov) in 189 časopisnih člankov (14 odstotkov).
Glede na temo članka naravoslovni članki citirajo 302 vira (25 odstotkov), športni 504 (41 odstotkov), zgodovinski 298 (25 odstotkov), članki o popularni kulturi 59 (5 odstot- kov), članek o geografiji pa 49 virov (4 odstotkov). Naravoslovni izbrani članki ponovno citirajo večino člankov v znanstvenih revijah, skupno teh 5 člankov citira 211 znanstve- nih člankov ali 93 odstotkov vseh citiranih znanstvenih člankov (glej Sliko 7).
Naravoslovni članki; 211 Ostali članki;
16 Ostali članki;
74
Naravoslovni zgodovinski in članki; 207
Slika 7: Delež citiranih znanstvenih člankov pri naravoslovnih izbranih člankih 2011.
Slika 8: Delež citiranih monografskih publika- cij pri naravoslovnih in zgodovinskih izbranih člankih 2011.
Največ monografskih publikacij citirajo članki z zgodovinskimi in naravoslovnimi te- mami, skupno 13 naravoslovnih in zgodovinskih člankov citira 207 od 281 citiranih monografskih publikacij, kar je 74 odstotkov vseh citiranih monografskih publikacij (glej Sliko 8).
Največ časopisnih člankov citirajo članki o športu, saj skupno citirajo 145 od 185 ča- sopisnih člankov, kar predstavlja 78 odstotkov vseh časopisnih člankov (glej Sliko 9).
Citiranje spletnih strani je tudi leta 2011 enakomerno porazdeljeno po vseh tematskih področjih.
Športni članki; 145 Ostali članki;
40
Slika 9: Delež citiranih časopisnih člankov pri športnih izbranih člankih 2011.
24 od 25 izbranih člankov leta 2011 citira vire v angleškem jeziku, in sicer v povprečju vsak članek citira 42,7 vira v angleščini, skupno pa citirajo 1024 virov v angleščini (84 odstotkov). 9 člankov citira vire v slovenskem jeziku, in sicer v povprečju 14,3, sku- pno pa 129 (11 odstotkov). 15 člankov citira skupno še 59 virov v drugih tujih jezikih (5 odstotkov).
Med izbranimi članki 2011 je 6 izvirnih člankov (24 odstotkov), 3 skrajšani članki (12 odstotkov), 3 lokalizirani članki (3 odstotki) in 13 prevedenih člankov (52 odstotkov).
4.2 Naključni članki
Vzorec je bil zbran s pomočjo funkcije Naključni članek, prvi del vzorca 19. novembra 2010, drugi del vzorca pa teden dni kasneje, 26. novembra 2010. Vzorca sta bila prido- bljena ločeno s tedenskim razmikom, da so lahko rezultati verodostojnejši, saj imata vzorca resnično primerljive lastnosti, kar pomeni, da naključni članki tvorijo vzorec, ki kaže realno sliko slovenske Wikipedije. Vzorec sestavljajo večinoma krajši članki, večina poleg besedila vsebuje še preglednice. V vzorcu naključnih člankov je malo referenc.
Večinoma se članki nanašajo na osebnosti, geografske (vasi, mesta, reke) in vojaške teme. Članki so v povprečju dolgi 160 besed, od 194 člankov jih vsaj eno referenco citira 66, oziroma 34 odstotkov vzorca. Teh 66 člankov skupno citira 172 virov, kar je povprečno 2,6 vira na članek, med temi viri je 108 spletnih strani, 53 monografskih pu- blikacij in 11 člankov (glej Sliko 10). Med članki je 13 seznamov, 17 razločitvenih strani, 99 škrbin in 65 običajnih člankov, med temi pa je celo en izbrani članek, in sicer Darej I, ki je bil s statusom izbranega članka nagrajen leta 2008 (glej Sliko 11).
Članki; 6%
Monografske publikacije;
31%
Spletne strani; 63%
Seznam; 7%
Razločitvena stran; 9%
Škrbina; 51%
Članek; 33%
Slika 10: Viri naključnih člankov Slika 11: Vrsta naključnih člankov
5 Razprava
Slovenska Wikipedija je majhna skupnost, z majhnim številom aktivnih uporabnikov in še manjšim številom administratorjev (dne 20. avgusta 2011 jih je bilo 31). Čeprav ni nobenega izrecnega pravila o skrbništvu nad izbranimi članki, na slovenski Wikipediji zanje večinoma skrbijo administratorji (jih ustvarijo, predlagajo, urejajo, popravljajo, sodelujejo v razpravi in glasujejo o statusu članka). Zaradi majhnega števila dejavnih administratorjev in zaradi njihovega sicer gotovo nenamernega monopolnega polo- žaja nad izbranimi članki se slovenska Wikipedija v tej kategoriji povsem očitno ne more izogniti pristranskosti. Tovrstna pristranskost odraža interese vodilnih oziroma najbolj zagnanih uporabnikov, ki imajo večinoma status administratorjev, najbolj pa se kaže v temah izbranih člankov. Uredniki se večinoma odločajo za avtorstvo, prevod in priredbo člankov, katerih teme so jim pri srcu oziroma se nanje najbolj spoznajo.
Prevladuje naravoslovje z 92 izbranimi članki, sledi družboslovje s 86 izbranimi članki, kategorija Šport vsebuje 42 izbranih člankov, kategorija Geografija in kraji pa 25. Vidi- mo lahko, da uredniki članke ustvarjajo glede na svoje interese, znanja in izobrazbo, in ne toliko glede na morebitne potrebe oz. vrzeli, ki obstajajo v slovenski Wikipediji.
18
10 11
0
3 2
7
13
19
8
5
1
8 8
5 3
1 0
Šport Zgodovina Naravoslovje Popularna
kultura Geografija Ostalo 2009 2010 2011
Slika 12: Primerjava tem izbranih člankov
Leta 2009 prevladujejo športni članki, leta 2010 naravoslovni, leta 2011 pa športni in zgodovinski (glej Sliko 12). Leta 2009 so uredniki izglasovali 44 izbranih člankov, leta 2010 kar 9 več, torej 53, leta 2011 pa več kot pol manj, in sicer le 25. Ni presenetljivo, da izbrani članki leta 2010 zaradi večjega števila skupno citirajo več virov, in sicer 1944, medtem ko so članki leta 2009 citirali 1378 virov. Zanimivo je, da članki leta 2011 kljub majhnemu vzorcu citirajo skupno 1212 virov, kar je 48,5 na članek. Najbolj očitna raz- lika med leti 2009, 2010 in 2011 je v citiranju spletnih strani, saj jih izbrani leta 2010 citirajo kar dvakrat več (835, leta 2009 pa 411), izbrani članki leta 2011 pa 519, kar je glede na majhno število člankov visoka številka. Tako v izbranih člankih leta 2009 kot med tistimi leta 2010 in 2011 kot viri prevladujejo monografske publikacije in spletne strani, največ virov pa v vseh treh letih citirajo izbrani članki z naravoslovno tematiko (glej Sliko 13). Čeprav si na Wikipediji prizadevajo za korektno citiranje v vseh člankih, še posebej v izbranih, so članki z naravoslovno oz. znanstveno tematiko očitno bolj
»zavedni« glede citiranja ali pa so znanstvenega citiranja bolj vajeni. Poleg tega je prav tako očitno, da se število virov glede na število člankov vsako leto povečuje.
437 411
164 366
1378
497
835
258 354
1944
281 519
185 227
1212
Monografske
publikacije Spletne strani Časopisni članki Znanstveni
članki Skupno
2009 2010 2011 Slika 13: Primerjava virov v izbranih člankih 2009. in 2010.
Posebej zanimiva in ne povsem pričakovana je povezava, ki se je pokazala med pre- gledom tem izbranih člankov in primerjavo z vrsto citiranih virov. Za izbrane članke na določeno temo je bolj značilno citiranje določene vrste virov kot za druge. Tako izbrani članki s športno tematiko citirajo največ časopisnih člankov, naravoslovni in zgodo- vinski članki citirajo največ monografskih publikacij, poleg tega naravoslovni članki citirajo največ znanstvenih člankov. Citiranje spletnih strani je med vsemi tematikami dokaj enakomerno porazdeljeno. Glede na to, da je med skupno 122 izbranimi član- ki zgolj 31 izvirnih člankov, torej je bilo kar 75 odstotkov člankov prevzetih z drugih Wikipedij, je očitno, da je tovrsten vzorec citiranja značilen za določene tematike. O športnih temah se res največ piše v dnevnem časopisju, napredek v naravoslovju se najlažje spremlja prek člankov v znanstvenih revijah, poleg tega je tudi citiranje mono- grafskih publikacij v naravoslovnih in zgodovinskih člankov povsem na mestu. Članki v znanstvenih revijah in monografske publikacije predstavljajo primernejše in načelo- ma zanesljivejše vire kot časopisni članki in spletne strani, ki so preveč fluidne. Kot je bilo nakazano že v prejšnjem odstavku, rezultati kažejo povezanost med tematiko in citiranjem določene vrste virov. Naravoslovni izbrani članki citirajo več, poleg tega so njihovi viri zanesljivejši. Seveda se nobena tematika ne more izogniti spletnim virom, še posebej zato, ker splet ponuja mnogo raznovrstnih, prosto dostopnih podatkov, kar se posebej prilega duhu enciklopedije Wikipedije, zato prevladujoče citiranje spletnih strani tudi ni presenetljivo.
Med skupno 122 izbranimi članki je torej zgolj dobrih 25 odstotkov člankov izvirnih, kar pomeni, da nimajo neposredne ustreznice v drugih Wikipedijah ali pa da se članki z istim naslovom v drugih jezikih bistveno razlikujejo od slovenskega. Zato verjetno ne preseneča, da leta 2009 43 od 44 izbranih člankov citira vsaj en vir v angleškem jeziku, v povprečju 30 na članek, skupno 1291; med izbranimi članki leta 2010 jih vsaj en vir v
angleškem jeziku citira 52 od 53, v povprečju 32 na članek, skupno kar 1667. Leta 2011 pa jih vsaj en angleški vir citira 24 od 25, v povprečju 42,7 na članek, skupno pa 1024.
Skrb zbujajoče majhno število virov v slovenskem jeziku iz leta 2009 (le 14 izbranih člankov citira vsaj en slovenski vir, skupno pa le 40) se leta 2010 poveča skoraj za pet- krat, na 189 slovenskih referenc, vendar ostaja (pre)majhno. Leta 2011 vsaj en sloven- ski vir citira 9 člankov, skupno pa 129, kar kaže na postopno povečevanje slovenskih virov v izbranih člankih, vendar bi se za potrditev tega moralo analizirati izbrane članke v prihodnjih letih (glej Sliko 14). Na slovenski Wikipediji bi bilo med izbranimi članki vseeno pričakovati več referenc v slovenskem jeziku ali pa vsaj referenc, ki so dostopne tudi slovenskim uporabnikom Wikipedije. Delež izvirnih in lokaliziranih člankov se ni povečal, oziroma se je glede na leto 2009 celo zmanjšal, kar pomeni, da manj člankov citira več slovenskih virov. Majhno število referenc v slovenskem jeziku (pa tudi v dru- gih tujih jezikih razen angleščine) je povezano z majhnim številom izvirnih člankov. Je- zik referenc je torej najbolj zgovoren pokazatelj, da je večina izbranih člankov prevzeta z angleške Wikipedije, ne glede na obseg priredbe članka za slovensko Wikipedijo.
1291
40 47
1667
189 88
1024
129 59
angleščina slovenščina tuji jeziki
2009 2010 2011 Slika 14: Jezik virov v izbranih člankih
Med vsemi prevzetimi članki so slovenski Wikipediji najpomembnejši lokalizirani član- ki, saj jih večina vsebuje tudi slovenske reference, s katerimi so podkrepljeni podatki, ki se nanašajo na Slovenijo, Slovence, slovensko … Glede na to, da gre za izbrane članke na slovenski Wikipediji, bi bilo v prihodnje smiselno spodbujati več izvirnih člankov oziroma vsaj lokaliziranih člankov, ki bi uporabnikom ponujali slovenske vire. V ta na- men bi bilo smiselno oblikovanje nove smernice oziroma dopolnitev slogovnega pri- ročnika za izbrane članke s kriterijem, po katerem bi moral vsak kandidat za izbrani članek imeti vsaj 25 odstotkov virov v slovenskem jeziku, pri temah, ki so lokalne in zadevajo Slovenijo, pa vsaj 50 odstotkov.
Med vsemi izbranimi članki je 52 takih, ki so izbrani članki tudi v vsaj enem drugem jeziku, od tega 42 prevedenih ali prirejenih, 8 izvirnih in 2 lokalizirana. Podatki naka- zujejo, da uredniki novih izbranih člankov glede na svoje interese pogosto poiščejo članke, ki so že dosegli status izbranega članka v kakem drugem jeziku, in tako očitno poskušajo že od začetka članku zagotoviti čim višjo kvaliteto, kar je seveda z določe- nega vidika pohvalno. Iskanje kvalitetnih člankov na drugih Wikipedijah nedvomno skrajša čas ustvarjanja članka, saj urednikom preostane zgolj prevod in končno ure- janje članka. Kljub prihranku časa lahko sam proces prevajanja in urejanja traja kar nekaj časa, saj je treba doseči konsenz, poleg tega je nekatere teme težko prevajati iz tujih jezikov, še posebej če avtor jezika ni vešč. Če se bo trend zmanjševanja izvirnosti člankov nadaljeval v tako velikih korakih, bodo izbrani članki kmalu vsebovali še manj slovenskih virov kot sedaj.
Glede na temo je daleč največ dobesedno prevedenih izbranih člankov na področju športa, skrajšani članki so enakomerno porazdeljeni med zgodovino, naravoslovje in šport, največ izvirnih in lokaliziranih člankov pa je z zgodovinsko, naravoslovno in ge- ografsko tematiko (glej Sliko 15).
8
11
4 5
3 11
8 8
1
4
1 6
11
3 3
2 6
4
18
4
1 zgodovinopisje naravoslovje šport geografija popularna
kultura ostalo izvirni skrajšani lokalizirani prevedeni
Slika 15: Izvirnost izbranih člankov glede na temo
Izbrani članki so napisani na zadovoljivo visoko ravni. Uporabnik se ob branju lahko celovito, načeloma točno in hitro pouči o določeni tematiki, večina izbranih člankov ponuja tudi vire zadovoljive kvalitete. Kar zadeva dostopnost teh virov, pa se slovenska Wikipedija ne more izogniti kritiki. Slovenski izbrani članki so namreč najslabši v toč- ki preverljivosti, ki je eno od treh temeljnih načel Wikipedije. Izbranim člankom sicer formalno ne gre očitati pomanjkanja preverljivih virov, vendar v resnici vsi skrajšani
in prevedeni izbrani članki citirajo preveč virov, ki prav gotovo niso dostopni v slo- venskem jeziku, kaj šele, da bi bili dostopni v Sloveniji (to so predvsem monografske publikacije in znanstveni članki v angleškem jeziku), da bi lahko verjeli, da je urednik določenega članka preveril prav vsako referenco, ki jo je zapisal oziroma prepisal pod članek. Wikipediji prepisovanje virov v izbranih člankih prav gotovo ne koristi, poleg tega je to v nasprotju s slogovnim priročnikom o navajanju virov, ki jasno določa, naj uporabnik: »… navaja le vire, ki jih je sam imel v rokah. Skopirati navedek iz posredne- ga vira je primerno le, kadar jasno navedemo, da gre za posredni vir. Verodostojnost članka je odvisna od verodostojnosti virov, česar pa ne moremo zagotoviti, če sami virov nismo preverili.« (Wikipedija: Navajanje virov)
Poleg tega je v nasprotju s priročnikom tudi nadomeščanje potencialnih slovenskih vi- rov z viri v tujih jezikih, saj se: » … slovenska Wikipedija zavzema za citiranje slovenskih virov, kjer je to mogoče. Ti imajo pri enaki kakovosti vselej prednost pred viri v tujih jezikih.« (Wikipedija: Navajanje virov) Glede na rezultate in analizo izbranih člankov v dveh letih bi se lahko uredniki nekaterih člankov potrudili in našli slovenske vire ter z njimi ustrezno in kakovostno nadomestili vsaj 10 odstotkov virov v angleškem jezi- ku. Vendar pa je treba pri vsakršni kritiki Wikipedije priznati, tako kot Andrew Dalby (7, 2009): »Ker uporabljam Wikipedijo, so napake v člankih Wikipedije, ki jih omenjam, moja krivda. Opazil sem jih, torej bi jih lahko popravil. Napake, ki ste jih opazili vi in jih še niste popravili, so vaša krivda … Ne samo, da jo beremo, ampak jo tudi pišemo. Če je ne bi, sploh ne bi obstajala.«
Na podlagi vzorca naključnih člankov je povprečen članek na slovenski Wikipediji mo- goče opisati na naslednji način: tema povprečnega članka na slovenski Wikipediji je športna, geografska, vojaška ali biografska. Povprečen članek je dolg okrog 165 besed in vsebuje vsaj eno preglednico. Vsaj en vir citira vsak tretji članek na slovenski Wiki- pediji, povprečno 2,5 vira na članek. Okrog 64,5 odstotka virov predstavljajo spletne strani, okrog 29,5 odstotka monografske publikacije in okrog 6 odstotkov člankov.
Slovenska Wikipedija vsebuje približno 51 odstotkov škrbin, 33 odstotkov dejanskih člankov, 6,5 odstotka seznamov in 9,5 odstotka razločitvenih strani.
6 Zaključek
Rezultati raziskave so pokazali, da je večina izbranih člankov prirejenih po angleški Wi- kipediji, najpogostejše tematike so naravoslovje, šport in zgodovina. Med pregledom tem izbranih člankov so se pokazale nekatere zanimive lastnosti citiranja člankov z določeno tematiko. Večino časopisnih člankov citirajo članki s športno vsebino, večino monografskih publikacij citirajo članki z zgodovinskimi (osebnosti, dogodki) in nara- voslovnimi temami. Prav tako naravoslovni članki citirajo večino člankov iz znanstve- nih revij. Največja pomanjkljivost izbranih člankov se kaže v jeziku virov, ki jih citirajo.
Glede na to, da je kar 75 odstotkov izbranih člankov prevzetih iz angleške Wikipedije, je prevladujoč jezik virov angleščina. Poleg tega tudi tisti članki, ki so izvirni, citirajo pre- težno tuje vire. Deloma je mogoče to dejstvo razložiti s temami izbranih člankov – na- ravoslovni članki citirajo znanstvene vire v angleškem jeziku, ker so bolje dostopni in jih je več, športni članki o tujih športnikih citirajo časopisne članke v angleškem jeziku, ker gre večinoma za angleške in ameriške športnike in so teme v njihovih medijih bolje pokrite kot v slovenskih. V splošnem se izbrani članki, tudi tisti, ki so izvirni, zelo malo ukvarjajo s tematikami, ki bi bile izrazito slovenske. Tako so naključni članki bolj »slo- venski«, pokrivajo slovenske geografske pojme, biografski članki se osredotočajo na slovenske znane osebnosti iz sveta kulture in politike, vendar gre večinoma za škrbine ali pa za zelo kratke članke, ki citirajo zelo malo virov, če sploh. Prav to je predstavljalo največjo omejitev raziskave, saj je bilo za vzorec naključnih člankov težko najti smisel- ne parametre, po katerih bi se jih lahko analiziralo. Ker jih ni bilo mogoče analizirati po enakih kriterijih kot izbrane članke, je bila primerjava med vzorcema otežena.
Očitno je, da se uredniki ne posvečajo veliko temu, da bi slovenska Wikipedija ponu- jala slovenske članke, ampak sledijo osebnim interesom in pišejo o stvareh, ki zani- majo njih. Pri izbranih člankih dejstvo, da se morebiti ukvarjajo s tematiko, ki bi bila pomembna za slovenski prostor in zanimiva za slovenske bralce, ne pomeni tako rekoč ničesar. Vsakdo lahko predlaga kandidata za izbrani članek in o njem se glasuje bolj kot ne na podlagi tehnikalij – ali ustreza minimalnim merilom, ali sta jezik in slog ustrezna, ali je dovolj obširen, ali citira dovolj referenc, predvsem pa ne sme vsebovati veliko rdečih povezav.
Kar zadeva število citiranih virov, obsega in izčrpnosti člankov, so izbrani članki prav gotovo najkvalitetnejši članki slovenske Wikipedije. Glede tematike, ki jih obravnavajo, jezika virov in izvirnosti pa bi se lahko reklo, da naključni članki bolje odražajo dejstvo, da je to slovenska Wikipedija. Če se želi nekdo poučiti o športu ali naravoslovju, so izbrani članki slovenske Wikipedije prav gotovo ustrezna začetna postaja, prek katere je mogoče pridobiti lepo število referenc za nadaljnjo radovednost. Če pa uporabnik
želi izvedeti kaj o Sloveniji, Slovencih in slovenskih posebnostih, slovenska Wikipedija za to ni dobro izhodišče.
Za konec je treba opozoriti le še na eno dejstvo. Rezultati, ki so predstavljeni zgoraj, ta trenutek najverjetneje ne držijo več v celoti. Kot sta opozorili že Royal in Capila (2008), so namreč informacije na Wikipediji izredno dinamične. Članki se lahko čez čas nepre- poznavno spremenijo, zato so rezultati študije relevantni sedaj, že jutri pa morda nič več.
Navedeni viri
Dalby, A. (2009). The world and Wikipedia: How we are editing reality. Draycott, Sommerset: Siduri Books.
Eijkman, H. (2010). Academics and Wikipedia Reframing Web 2.0+ as a disruptor of traditional academic power-knowledge arrangements. Campus-Wide Information Systems, 27 (3), 173–185. Pridobljeno 27. avgusta 2011 s spletne strani: http://www.emeraldinsight.com.
nukweb.nuk.uni-lj.si/journals.htm?issn=1065-0741&volume=27&issue=3&articleid=186544 6&PHPSESSID=ai7iu1oech6c855b63gbdippm0
Lindsey, D. (2010). Evaluating quality control of Wikipedia's featured articles. First Monday, 15 (4). Pridobljeno 22. junija 2011 s spletne strani: http://www.uic.edu/htbin/cgiwrap/bin/
ojs/index.php/fm/article/viewArticle/2721/2482
Poderi, G. (2009). Comparing featured article groups and revision patterns correlations in Wikipedia. First Monday, 14 (5). Pridobljeno 2. julija 2011 s spletne strani: http://www.uic.
edu/htbin/cgiwrap/bin/ojs/index.php/fm/article/viewArticle/2365/2182
Royal, C. in Kapila, C. (2008). What’s on Wikipedia, and What’s Not …? Assessing Completeness of Information. Social Science Computer Review, 27 (1), 138–148. Pridobljeno 3. julija 2011 s spletne strani: http://ssc.sagepub.com.nukweb.nuk.uni-lj.si/content/27/1/138.full.pdf+html Wikipedija: Navajanje virov. Pridobljeno 2. julija 2011 s spletne strani: http://sl.wikipedia.org/
wiki/Wikipedija:Navajanje_virov
Wikipedija:Opredelitev izbranega članka. Pridobljeno 1. 7. 2011 s spletne strani: http://
sl.wikipedia.org/wiki/Wikipedija:Opredelitev_izbranega_%C4%8Dlanka
Wikipedija: Pravila in smernice. Pridobljeno 28. junija 2011 s spletne strani: http://sl.wikipedia.
org/wiki/Wikipedija:Pravila_in_smernice
Wilkinson, D. in Huberman, B. Cooperation and quality inWikipedia. V WikiSym '07 Proceedings of the 2007 international symposium on Wikis. 157–164. New York: ACM. Pridobljeno 25. junija 2011 s spletne strani: http://www.wikisym.org/ws2007/_publish/Wilkinson_WikiSym2007_
WikipediaCooperationQuality.pdf
manca Noč
Filozofska fakulteta, Aškerčeva 2, 1000 Ljubljana e-pošta: manca.noc@ff.uni-lj.si
red. prof. dr. maja Žumer
Filozofska fakulteta, Univerza v Ljubljani, Aškerčeva 2, 1000 Ljubljana e-pošta: maja.zumer@ff.uni-lj.si