Vpogled v ARHIVIRANJE SPLETNIH STRANI V NARODNI IN UNIVERZITETNI KNJIŽNICI

(1)

Alenka Kavčič - Čolić Janko Klasinc

Oddano: 7. 9. 2010 – Sprejeto: 3. 1. 2011

Izvirni znanstveni članek UDK 02:004:005.921.1"746"(497.4)

Izvleček

Narodna in univerzitetna knjižnica (NUK) raziskuje metode zajemanja spleta že od leta 2001, vendar je šele po letu 2006, s sprejetjem novega Zakona o obveznem izvodu publikacij, ki je vključeval tudi gradivo na spletu, lahko prevzela odgovornost za zbi- ranje in ohranjanje elektronskih publikacij na spletu v Sloveniji. K tej dejavnosti, ki se je začela izvajati leta 2008, je prispevalo tudi članstvo NUK-a v mednarodnem konzorciju International Internet Preservation Consortium (IIPC), ki ima zelo pomembno vlogo pri razvoju orodij za zajem spleta ter gradnji različnih aplikacij za arhiviranje in dostopu do spletnega arhiva. V prispevku je na kratko predstavljena kompleksnost postopka zajemanja spleta, pregled dosedanje mednarodne prakse in sodelovanje NUK-a v konzorciju IIPC. Posebno pozornost avtorja posvečata analizi zajema skupine spletišč s področja javne uprave od leta 2008. Najpomembnejše načrte za prihodnji razvoj spletnega arhiva predstavljajo povečanje pokritosti slovenskega spleta, razvoj upo- rabniškega vmesnika za javni dostop do arhiva in izboljšanje metod zajemanja teh- nično problematičnih vsebin.

Ključne besede: spletni arhivi, Narodna in univerzietna knjižnica, analize zajema spletišč, javna uprava

KAVČIČ - ČOLIĆ, Alenka; Janko KLASINC. Web archiving in the National and Uni- versity Library, Slovenia. Knjižnica, 55(2011)1, pp. 209–232

(2)

Original scientific article UDC 02:004:005.921.1"746"(497.4)

Abstract

The National and University Library (NUK) of Slovenia has been investigating web archiving methods and techniques since 2001. Under the new Legal Deposit Law adopted in 2006, NUK is the responsible institution for harvesting and archiving the Slovenian web. In 2008 NUK started archiving the Slovenian web by making use of the web harvesting and access tools developed by the IIPC International Internet Preservation Consortium (IIPC). The paper presents the complexity of web harvesting and gives an overview of the international practice and NUK’s cooperation in the IIPC consortium. Special attention is given to the analysis of public sector web content, harvested since 2008. Main goals of future developement of the web archive are an increase of harvested Slovenian web sites, the development of a user interface for public access and development of improved methods for harvesting technically pro- blematic content.

Key-words: web archives, National and University Library, Slovenia, web archive analysis, public sector

1 Uvod

V zadnjem desetletju je postal internet, na katerem objavlja večina ustvarjalcev digitalnih vsebin, najbolj razširjen kanal za komuniciranje in publiciranje. Po podatkih ARNES (www.register.si) je bilo v letu 2010 registriranih več kot 80.000 domen s končnico *.si. Statistični urad RS navaja, da je imelo v prvem četrtletju 2008 dostop do interneta 59 % gospodinjstev, 63 % slovenske populacije v staro- sti od 10–65 let (1.057.893) pa je uporabljalo internet. Narašča tudi število ustvarjalcev blogov (Kozic, Činkole in Vehovar, 2009).

Značilnost interneta je, poleg eksponencialne rasti, tudi kratka življenjska doba spletnih strani na svetovnem spletu. Različne raziskave ugotavljajo, da ena stran povprečno preživi od 44 do 75 dni (Kahle, 1997; Day, 2003). Zato si depozitne kulturne ustanove prizadevajo za ohranitev vsaj tistih vsebin, ki predstavljajo zgodovinski dokaz pisne kulturne dediščine in človekovega ustvarjanja. Vseka- kor je to zelo težka naloga. Kako lahko predvidimo, kaj je relevantno za prihodnost? Nove oblike posredovanja informacij so lahko zelo pomembne, čeprav ne sodijo v kategorijo klasičnih medijev, kot so na primer knjiga, članek, prispevek na konferenci in podobno. Morda so celo oglasi, ki jih mnogokrat niti ne opazimo, forumi ali spletne trgovine zelo pomemben vir informacij o kulturi in družbi naroda v določenem času (Thelwall in Vaughan, 2004).

(3)

V Narodni in univerzitetni knjižnici (NUK) smo poskusno začeli zajemati splet leta 2003, vendar v praksi uradno ustvarjamo digitalni arhiv od leta 2008. Glav- ni razlogi za petletno odlašanje z zajemom so bili predvsem pomanjkanje kadrov, ustreznih orodij za zajem in zakonskih predpisov, saj zajem elektronskih publikacij na spletu vključuje šele leta 2006 sprejet Zakon o obveznem izvodu pu- blikacij. Preden predstavimo prakso in analizo NUK-ovega spletnega arhiva, želimo najprej razložili kompleksnost postopka zajemanja spletnih strani in na kratko opisati dosedanji razvoj, na podlagi katerega temelji praksa v NUK-u.

2 Metode zajemanja spleta

Pri zajemanju spletnih strani je zelo pomembno razumevanje strukture in delovanja spleta. Po definiciji Bibliotekarskega terminološkega slovarja (Kanič et al., 2009, str. 122) je internet »globalno računalniško omrežje, ki s protokolom TCP/

IP omogoča elektronsko komuniciranje«. Svetovni splet pa je »porazdeljen in- ternetni informacijski sistem, v katerem so spletne strani, spletni dokumenti povezani s hiperpovezavami.« (Kanič et al., 2009, str. 317) Spletne strani se pove- zujejo v spletno mesto in tako tvorijo zaokroženo intelektualno enoto. Spletno mesto ima lahko več hierarhijskih ravni. Najvišja raven je domača stran, prek katere vstopamo v spletno mesto. Potem se vrstijo nižje ravni, ki jih je lahko več.

Izbira metode zajema je odvisna od sprejetih kriterijev izbire spletnih vsebin in od sposobnosti orodja za zajem (robot, pajek, robotski program za samodejno zajemanje¹), ki ga v ta namen uporabljamo. Danes nobena metoda še ne omogoča 100 % zajema spletnih strani. Tudi pri ročnem zajemu lahko tvegamo, da se med prevzemom spletne strani določenega spletnega mesta nekatere spletne strani iz drugih ravni spremenijo in spletno mesto ni več takšno, kot je bilo v začetku.

Praksa je še v razvoju, vendar lahko s kombinacijo metod pri določenih spletnih mestih dosežemo zelo dobre rezultate.

Pri svetovnem spletu ločimo površinski in globinski splet (Kavčič - Čolić, 2007), pojma, ki nadomeščata angleška surface web in deep web. Namreč zelo razširjena termina vidni (ang. visible) in nevidni splet (ang. invisible web) sta za področje arhiviranja spletnih strani manj primerna, saj so nekatere aplikacije, kot je npr.

Flash ter vsebine baz podatkov, vidne uporabnikom, niso pa dosegljive brskalni- kom (Kavčič - Čolić, 2007, str. 14–17). Površinski splet sestavljajo spletna mesta, ki jih zaznajo konvencionalni brskalniki in druga orodja za zajemanje, ter jih

1 V angleščini so v uporabi različni izrazi za označevanje orodja za zajem, kot so npr. (ang.) harves- ter, crawler, spider, robot idr., za katere še ni ustaljenega prevoda.

(4)

ta z lahkoto indeksirajo ali zajemajo. Globinski splet pa je za te aplikacije ne- dosegljiv (Pedley, 2001). Med njimi so podatkovne baze, diskusijski seznami, katalogi, različni arhivi, CGI (Common Gateways Interface) skripte, intraneti, Macro Media Flash, videoposnetki, slovarji in podobno. Bergman (2001) je ocenil, da je globinski splet lahko celo od 400- do 550-krat večji od površinskega.

Opredelitev kriterijev za izbiro spletnih strani pomaga pri opredelitvi globine in širine načrtovanega zajema in je izhodišče pri izbiri določene metode in orodja za zajem. Kriteriji selekcije se lahko nanašajo na vsebinski vidik (tematski zajem: slovenski jezik, slovenske vsebine, slovenski avtorji itd.), formalni (zvrst vsebin, ki jih zajemamo: publikacije, spletna mesta, blogi itd.) ali tehnični vidik (globina zajema, količina zajema za vsako spletno mesto, format datoteke, ča- sovni presledek itd.). Na podlagi kriterijev selekcije poteka izbira metode zajema. Pri Internet Archivu so opredelili štiri glavne metode zajemanja spleta, in sicer (Sigurďsson, 2005): ekstenzivno, intenzivno, kontinuirano in eksperimentalno. Zajem lahko poteka ročno ali polavtomatsko; sicer lahko ločujemo tudi med selektivnim in avtomatskim zajemanjem, vendar avtomatskega zajema de- jansko ni, saj je potrebno upoštevati formalni in tehnični kriteriji zajema.

Pri metodi ekstenzivnega ali celostnega zajemanja (ang. broad crawling) se zajem začne na podlagi tehničnih ali formalnih kriterijev selekcije iz izhodiščnih URL-jev oz. URI-jev² in se širi prek zunanjih povezav. Najprej se zajame prvo raven (vstopne strani), potem drugo in tako naprej. Baeza-Yates in Castillo (2004) sta v svojem verjetnostnem modelu uporabniškega poizvedovanja ugotovila, da kadar zajamemo spletne strani do tretje ravni, zajamemo 90 % vseh strani, ki jih običajno uporabniki obiščejo, oziroma strani, ki imajo neko uporabniško vrednost. Res pa je, da sta omenjena avtorja v svoji raziskavi izhajala iz predpostavke, da uporabniki vstopajo v spletno mesto le prek domačih strani, čeprav to vedno ne drži. Z ročnim zajemom bi se pri ekstenzivnem zajemanju lahko povečala kvaliteta zajetih strani.

Pri metodi intenzivnega zajemanje (ang. focused crawling) gre za zajemanje v globino. Spletni skrbnik se osredotoči (fokusira) na spletno mesto in ga zajame v celoti. V večini primerov se izvaja ročno.

Obe omenjeni metodi temeljita na ustvarjanju posnetkov (ang. snapshots) in periodičnem zajemu. To pomeni, da se vsakič na novo zajamejo iste spletne strani, pri čem se informacije o obstoječih ne uporabijo, razen pri nastavljanju kriterijev selekcije, da bi se preprečile napake. Ko je splet zajet, robot spravi iden-

2 URI (ang. uniform resource identifier) ali enotni označevalnik vira je enoten in enoličen niz znakov, s katerim se opredelita ime in/ali lokacija vira, navadno na internetu. URL (ang. univer- sal resource locator) ali enolični krajevnik vira je podvrsta URI-jev in brskalniku pove, kje naj dokument poišče (Islovar, 2010). V besedilu uporabljamo URI v pomenu lokacije na strežniku oziroma URL.

(5)

tifikacijo (ang. fingerprint) URI-ja in simplificira strukturo podatkov, da bi se lahko uporabili v nekem vrstnem redu, dokler jih ne procesira.

Pri kontinuirani metodi zajemamo spletne strani polavtomatsko tako, da robot večkrat zajame določen seznam URL-jev ekstenzivno in intenzivno. Da bi pre- prečil ustvarjanje duplikatov, mora imeti določen kontrolni mehanizem, ki bi mu omogočil izločitev že obstoječe spletne strani. Pri tem izvaja rastočo strategijo (ang. incremental strategy), ki mu omogoča pomnjenje vseh sprememb v zajetih straneh. Robot mora računati tudi na verjetnost sprememb in na osnovi le-teh ustrezno nadaljevati zajemanje. Obstaja tudi problem glede formatov. Datoteke v HTML se spremenijo večkrat in pogosteje kot pa slike ali grafične datoteke.

Tudi datoteke v Wordu ali PDF se le malokdaj spreminjajo. Pri večjih datotekah lahko pričakujemo manj sprememb. Pri večini spletnih mest se najpogosteje spreminja domača stran. Tudi strani brez metapodatkov so začasne ali se pogosteje spreminjajo. Vse to je pomembno upoštevati pri nastavitvah robota.

Metodo eksperimentalnega zajemanja uporabljamo pri testiranju različnih teh- nik zajemanja glede vrste vsebin, vrstnega reda, različnih protokolov in analiz oziroma arhiviranja rezultatov zajema.

Vsaka od naštetih metod ima prednosti in slabosti. Pri ekstenzivnem zajemu se lahko zgodi, da niso zajete najnižje ravni spletnih strani, oziroma da v spletnem arhivu ostanejo nedelujoče povezave. Pri intenzivnem je možno tudi to. Poleg tega pri dostopu do spletnega mesta nimamo občutka, da smo v »živem« okolju.

Pri kontinuiranem zajemu pa se lahko zgodi, da se medtem, ko robot zajema neko raven v širino, spremenijo podatki v spodnjih ravneh, kar lahko ustvarja nekon- gruentnost vsebin. Zato Masanès (2005) predlaga kombiniranje različnih pri- stopov, predvsem intenzivnih in ekstenzivnih. Seveda je zajem odvisen tudi od orodja za zajemanje.

3 Razvoj prakse zajemanja spletnih strani

Nacionalne knjižnice skandinavskih držav, Internet Archive v ZDA in Nacional- na knjižnica Avstralije so v letih 1996–1997 prve začele zajemati splet. Švedska nacionalna knjižnica je leta 1996 v okviru projekta KULTURARW3 na osnovi aplikacije za brskanje po spletu razvila prvi robot za zajemanje spleta Combine (Arvidson, 2002). Splet so zajemali ekstenzivno in polavtomatsko, glavni kriterij je bila švedska domena *.se.

Ko je stekel projekt KULTURARW3, se je začel izvajati tudi evropski projekt NEDLIB (1998–2000), katerega cilj je bil razviti osnovno infrastrukturo in teo-

(6)

retični model za arhiviranje elektronskih publikacij ter omogočiti dostop do njih.

Nosilec projekta je bila nizozemska nacionalna knjižnica, sodelovalo pa je tudi šest evropskih nacionalnih knjižnic (švedska, norveška, francoska, nemška, itali- janska, portugalska), Univerzitetna knjižnica na Finskem ter trojica komercial- nih založnikov. Pomemben rezultat projekta je bilo orodje za zajemanje spleta NEDLIB Harvester (http://www.csc.fi/sovellus/nedlib/), ki so ga prvič testirali v islandski nacionalni knjižnici (Hakala, 2001). V okviru projekta Nordic Web Archive (NWA) so leta 1998 skandinavske nacionalne knjižnice razvile še orodje za dostop do spletnega arhiva NWA Access Tool.

Medtem ko so se v Evropi začeli graditi prvi spletni arhivi, je ameriška nepro- fitna organizacija Internet Archive začela sodelovati s komercialnim podjetjem Alexa Internet. Podjetji sta leta 1996 ustanovila Brewster Kahle in Bruce Gilliat (Mohr et al., 2004). Alexa Internet je bilo podjetje za katalogizacijo vsebin na spletu, ki je za svoje potrebe nenehno zajemalo najpogosteje obiskane spletne strani. S šestmesečnim zamikom je zajete strani podarjalo Internet Archivu. Takrat je bilo težko dokazati pomembnost njihove aktivnosti. V sodelovanju z washing- tonskim institutom Smithsonian so začeli zajemati spletne strani predsedniških kandidatov; že v letih 2000 in 2002 so prejeli nova naročila in pozneje tudi vlad- na sredstva. Do leta 2005 jim je uspelo zajeti okrog 60 milijard URL-jev, oziroma 600 TB spletnih strani s celega sveta. V povprečju baza raste 10 TB mesečno.

Pomemben mejnik pri razvoju aplikacij za zajemanje spleta predstavlja Altavis- tina rešitev za izločevanje spletnih strani s funkcijo robots.txt, ki jo upravitelji spletnih strani lahko uporabijo za omejitev delovanja različnih programov, ki z avtomatiziranimi postopki preiskujejo, beležijo ali zajemajo spletne vsebine.

Datoteka je običajno v vrhnjem direktoriju in vsebuje izključitve – navedbe map, ki jih ti programi ne smejo obiskati – lahko pa tudi popolnoma prepove kakršnokoli delovanje raznih robotskih programov (Klasinc in Sešek, 2010). To je zmanjšalo število pritožb zaradi agresivnega napada Alexinega robota na spletne strežnike.

Leta 1999 je Andy Jewel za Alexo Internet napisal nov program za zajemanje spleta, ki je bil sposoben filtrirati 16 milijard in zajeti okrog 4 milijarde URL-jev. Od leta 2001 je spletni arhiv Internet Archive prosto dostopen (www.archive.org), iskanje po URL-jih omogoča vmesnik Wayback Machine, ki so ga dokončali iste- ga leta in je še v uporabi. Leto dni pozneje je Internet Archive začel sodelovati s Kongresno knjižnico. Takrat je knjižnica v okviru projekta MINERVA (http://

www.loc.gov/minerva/) zajemala splet po tematskih kriterijih selekcije (npr.

napad na New York 11. 9. 2001) (Arms et al., 2001).

Tudi v avstralski Nacionalni knjižnici so leta 1996 začeli zajemati splet. Njihova dejavnost je bila sofinancirana v okviru projekta PANDORA. Uporabljali so orodje HTTrack (http://www.httrack.com), ki preslika spletno stran in onesposobi zunanje povezave, ki niso bile zajete. Po želji uporabnika omogoča prehod v živo

(7)

okolje. Njihov pristop je bil izredno selektiven, zato so v desetih letih uspeli zbrati le 12.423 enot spletnega gradiva (32.108.057 datotek ali 1.210,73 GB). Ker so se zavedali pomanjkljivosti njihovega selektivnega pristopa, so začeli sodelovati z Internet Archive.

Od leta 2000 dalje so se že omenjenim pridružile tudi druge nacionalne knjižnice.

Nekatere so uporabile orodja, ki so jih razvile prve (leta 2000 na Češkem (http:/

/www.webarchiv.cz/), leta 2001 v Islandiji, leta 2002 v Avstriji (Rauber, Aschen- brenner in Witvoet, 2002), Novi Zelandiji in na Japonskem (http://warp.ndl.go.jp/) (Kurahashi, 2005) itd.), in sicer Nedlib Harvester, HTTrack, WGET (ftp://

ftp.gnu.org/gnu/wget/), RoboSuite in podobno. Druge, kot sta francoska nacionalna knjižnica in NUK, pa so se povezale z raziskovalnimi inštituti, francoska z INRIA (Abiteboul et al., 2002), NUK z Institutom »Jožef Stefan« (Kavčič - Čolić in Grobelnik, 2004), s katerimi so začele na novo razvijati orodje za zajem spleta.

Splet so eksperimentalno zajemali tudi oddelki na različnih univerzah, vendar njihove aktivnosti niso bile komplementarne z njihovimi nacionalnimi knjižnicami.

Razlog za toliko različnih preizkusov in rešitev je, da so imela obstoječa orodja preveč pomanjkljivosti, ki se jih ni dalo odpraviti. Z razvojem je bilo potrebno začeti znova. V ta namen je bil ustanovljen mednarodni konzorcij za trajno ohranjanje interneta International Internet Preservation Consortium (IIPC).

4 Aktivnosti mednarodnega konzorcija IIPC

IIPC je bil formalno ustanovljen leta 2003 na pobudo francoske nacionalne knjižnice in Internet Archiva. Njegovi glavni cilji so bili mednarodno sodelovanje pri razvoju orodij za zajem, dostop in trajno ohranjanje spletnih strani. Poleg francoske nacionalne knjižnice in Internet Archiva so bili ustanovitelji konzorcija nacionalne knjižnice Avstralije, Kanade, Danske, Finske, Islandije, Italije, Norveške, Švedske ter Velike Britanije in ZDA. Združili so vse dotedanje izkuš- nje pri razvoju različnih orodij za zajem spletnih strani in dostop do spletnega arhiva. Odločili so se, da začnejo z združenimi močmi povsem od začetka razvijati robot za zajemanje spleta. Tako je nastala aplikacija Heritrix.

Leta 2007 so se ustanovitveni člani odločili, da odprejo organizacijo novim članom. Vse njihove rešitve so bile odprtokodne, kar je omogočalo sodelovanje širše skupnosti pri njihovem razvoju. NUK se je pridružil konzorciju aprila 2007, kar mu od tedaj omogoča, da neposredno spremlja in prispeva k razvoju najnovej- ših orodij za zajem spleta. Obenem aktivno sodeluje v delovni skupini za trajno ohranjanje spletnih arhivov.

(8)

Trenutno ima konzorcij 39 članic iz 28. držav. Med njimi so nacionalne knjižnice, univerze, raziskovalni inštituti in komercialne firme, leta 2010 je predsedstvo organizacije pripadlo singapurski nacionalni knjižnici. V okviru konzorcija de- lujejo tri delovne skupine: skupina za razvoj Heritrixa, skupina za dostop do spletnega arhiva in skupina za trajno ohranjanje spletnih arhivov.

Ustanovitev IIPC predstavlja zelo pomemben mejnik pri razvoju tehnologij za zajemanje spleta in spletnih arhivov. Sodelovanje med članicami ne poteka le na področju razvoja, ampak tudi na področju gradnje spletnih zbirk. To se je poka- zalo pri tematskem zajemu vsebin o olimpijskih igrah v Pekingu leta 2008, načr- tuje pa se že zajem vsebin o naslednjih olimpijskih igrah leta 2012 v Londonu.

Poleg tega člani IIPC razmišljajo tudi o združevanju arhivov in razvoju orodij za skupen dostop. Tehnologija aplikacij za indeksiranje in dostop do vsebin v spletnih arhivih že omogoča zelo sofisticirane poizvedbe in zanimive prikaze sprememb spletnih strani skozi čas. IIPC nima enotnega pristopa do teh aplikacij, ker članice konzorcija sodelujejo pri več skupnih projektih, kot je npr. Memento, ki ga izvajajo v instituciji Los Alamos National Laboratory.

Trenutno se depozitarne ustanove soočajo z ogromnimi količinami podatkov.

Raziskave potekajo v smeri upravljanja z njihovimi metapodatki in iskanja re- šitev za kvalitetno migracijo iz starejših formatov ARC v novejše WARC. Primer sistema za upravljanje z velikimi količinami podatkov je Hadoop, pri njegovem razvoju so uporabili Lucene. Leta 2008 je postal vodilni projekt pri Apache. Sposo- ben je sortirati 1TB v 62 sekundah in 100 TB v 173 minutah. Njegova uporaba se zelo hitro širi, implementirali so ga tudi v britanski knjižnici. Pokazal je visoko učinkovitost na naslednjih področjih: upravljanju z metapodatki, obvladovanju strani z robots.txt, migraciji iz formata ARC v WARC, ustvarjanju informacijskih paketov za arhiviranje, pri CDX indeksih in indeksih v Lucene, pri validaciji objektov z JHOVE in migraciji formatov v digitalnih objektih (http://

wiki.apache.org/hadoop/FrontPage).

Pri IIPC prav tako preučujejo možne konverzije datotečnih formatov, ki ne bi vplivale na vsebino oziroma strukturo spletnih mest v arhivu. Članice konzorcija IIPC pa skrbijo tudi za ohranjanje novih zvrsti vsebin. Tako si na primer v Kongresni knjižnici prizadevjo najti rešitev za vsebine, ustvarjene s tehnologija- mi spleta 2.0 (npr. Second Life in Twitter). Med zadolžitve članov IIPC sodi tudi opredelitev merske enote v spletnem arhivu, ki bi olajšala statistike in analize obstoječih formatov datotek. Pri tem izhajajo iz obstoječih orodij (DROID, JHOVE).

Problemi, s katerimi se člani IIPC trenutno ukvarjajo, so še: ohranjanje obsto- ječe aplikacije (računalniških programov), da bodo omogočale dostop do spletnih vsebin v prihodnosti; ravnanje z virusi, ki jih pridobimo z zajemom spleta;

obvladovanje premične slike in interaktivne vsebine na spletu; ustvarjanje

(9)

arhivskih informacijskih paketov v spletnem okolju v smislu teoretičnega modela OAIS, oziroma kako natančno implementirati teoretični model OAIS v spletnem arhivu. Člani konzorcija IIPC si prizadevajo tudi za standardizacijo nekaterih postopkov. Njihova zasluga je razglasitev arhivskega datotečnega formata WARC za ISO standard (ISO 28500, 2009).

Nadaljujejo tudi razvoj NutchWaxa za iskanje po celotnem besedilu v spletnih zbirkah, vključno z razvojem Nutcha za večjezičnost. Čehi so razvili orodje WebAnalizer, ki omogoča jezikovno diferenciacijo pri zajemih spleta. NUK pa je sodeloval pri prilagajanju orodja Web Curator v okolju Windows (Musek in Kragelj, 2007).

5 Arhiviranje spletnih strani v NUK-u

5.1 Izhodišča

Razvoj modela arhiviranja spletnih strani se je v NUK-u začel leta 2001, v sodelovanju z Institutom “Jožef Stefan” (IJS). Prvi poskusi so bili ekperimentalni (Mladenić, Grobelnik in Kavčič - Čolić, 2005). Žal je, tako kot pri drugih tujih nacionalnih knjižnicah, orodje za zajem spleta kazalo precej napak, ki jih na IJS niso mogli odpraviti. Poleg tega tedanji Zakon o obveznem pošiljanju tiskov (1972) ni vključeval elektronskih publikacij na spletu. NUK ni imel ne sredstev ne kadrov, ki bi lahko nadaljevali z arhiviranjem spleta.

Stanje se je precej spremenilo z novim Zakonom o obveznem izvodu publikacij leta 2006 in s članstvom NUK-a v konzorciju IIPC, tako se je leta 2008 začelo prvo sistematično zajemanje. Zakon opredeljuje spletne publikacije kot predmet obveznega izvoda in depozitarni organizaciji (NUK-u) omogoča samodejno zajemanje, shranjevanje in dajanje na voljo javnosti tovrstnih publikacij, ki so opre- deljene kot »vse elektronske publikacije, ki so dostopne preko spleta in so lahko v besedilni, avdio ali video obliki ali so kombinacija naštetih oblik, vključno s spletnimi stranmi in podobno« (Zakon, 2006, , 2. člen). Podrobnejšo definicijo in kriterije izbora opredeljuje tudi leta 2007 sprejeti Pravilnik o vrstah in izboru elek- tronskih publikacij za obvezni izvod (Klasinc in Sešek, 2010).

Z razliko od pridobivanja obveznega izvoda tiskanih publikacij, pri zajemu spletnih vsebin praviloma ni potrebno komunicirati z izdelovalci spletnih strani ali avtorji vsebin. Zakon omogoča NUK-u zajemanje in shranjevanje spletnih publikacij (vključno s spletnimi stranmi) brez posebnega dovoljenja izdelovalcev ali avtorjev publikacij. Enako kot tiskano gradivo je NUK dolžan zajete spletne

(10)

vsebine hraniti za vedno ter skrbeti za tekoče oblikovanje in vzdrževanje var- nostnih arhivov.

Pravilnik (2007) navaja, da NUK išče spletne publikacije s postopki iskanja po spletu, kar pomeni, da ustvarjalcem spletnih strani ni potrebno obveščati NUK-a o novih spletnih straneh. V primeru predloga za zajem, ki pride izven NUK-a, se o možnosti arhiviranja odločimo na podlagi ocene, v kolikšni meri spletna stran ustreza kriterijem iz pravilnika, kot tudi na podlagi lastnih zmožnosti.

Kot kriterij za izbor spletnih strani za zajem se načeloma upošteva kriterije slovenike. V poštev pridejo spletne strani, ki so plod slovenskih avtorjev ali so v slo- venskem jeziku ali pa se na kak drug način nanašajo na Slovenijo. Spadajo lahko pod domeno *.si ali katerokoli drugo domeno.

5.2 Tehnična podpora

Tehnično podlago za izvajanje zajemov spleta v NUK-u predstavlja program za samodejno zajemanje Heritrix (http://crawler.archive.org), odprtokodno orodje, napisano v Javi, ki deluje na isti način kot spletni pajki, programi, ki jih upo- rabljajo spletni iskalniki za preiskovanje in indeksacijo spleta, le da Heritrix pregledano vsebino tudi shrani in tako omogoča poznejšo uporabo arhiviranih spletnih strani. Heritrix omogoča izvedbo tako manjših in srednje velikih kot tudi zelo obsežnih zajemov. Uporabljamo ga lahko za selektivno zajemanje ožjega izbora spletnih strani ali za velike zajeme celotnih domen ali podobno velikih kosov spleta. Heritrix uporablja vedno več nacionalnih knjižnic in drugih us- tanov, ki se ukvarjajo s tovrstno dejavnostjo. V nadaljevanju podrobneje pred- stavljamo delovanje Heritrixa in postopek zajemanja, kot ga izvaja operater.

- Heritrix

Heritrix sestavljajo izmenljivi moduli, ki jih je možno poljubno konfigurirati in medsebojno povezovati. Vsak postopek zajema urejajo in izvajajo posamezne komponente programa, ki so med seboj povezane in soodvisne. Poglavitne komponente, potrebne za vsak zajem, so:

- modul obseg (ang. scope): določa obseg zajema;

- modul razvrščevalec (ang. frontier): razvršča najdene povezave (URI-je) glede na to, ali so že bile zajete ali ne;

- moduli znotraj verige procesorjev (ang. processors chain): veriga procesorjev vsak URI spravi skozi postopek pridobitve, shranitve, iskanja novih povezav in posredovanja le-teh v modul razvrščevalec, ki jih razvrsti naprej.

(11)

Za začetek vsakega zajema mora biti določen njegov obseg (ang. scope). Osnovni element za določitev obsega vsakega zajema je t. i. »seme« (ang. seed URI) ali izhodiščni URI, ki predstavlja lokacijo na spletu, s katero določimo, kje naj se začne zajem. Manjši zajemi lahko vsebujejo le en izhodiščni URI, medtem ko za obsežnejše zajeme lahko vnesemo tudi več sto, tisoč ali deset tisoč tovrstnih semen. Na podlagi podanega semena lahko na različne načine izrazimo obseg oz.

omejitev zajema:

- glede na domeno semena;

- glede na gostitelja (ang. host) semena;

- glede na število zaporednih poddirektorijev, ki vodijo od vrhnjega direkto- rija semena;

- glede na število povezav, ki vodijo od semena glede na globino spletišča.

Možne so tudi različne kombinacije načinov določanja obsega, predvsem pa so pomembne podrobnejše nastavitve, s katerimi se lahko izognemo različnim pastem, v katere se lahko robot zaplete med zajemom (neskončno ponavljajoče povezave, koledarji itd.). Z optimalnim nastavljanjem obsega dosežemo, da zajem zaobjame le datoteke znotraj domene, ki jo vsebuje seme, hkrati pa lahko zajem, če želimo, omejimo tudi glede na globino. Poleg omejitev, ki jih določimo glede na izhodiščni URI, lahko določimo tudi omejitev zajema glede na čas trajanja, število zajetih datotek ali količino zajetih podatkov v bajtih. Običajno želimo zajeti celotno stran in jo ohraniti v obliki, ki je čim bližja originalu, vseeno pa imamo na voljo možnost, da z nastavljanjem obsega zajema izločimo določene vrste datotek.

Sam zajem poteka tako, da modul razvrščevalec (ang. frontier) posreduje URI verigi procesorjev, ki ga spravi skozi naslednji niz korakov:

- predpreverba (ang. prefetch): preverba primernosti URI-ja za zajem glede na obseg, ki smo ga določili. Tudi preverba morebitnih izključitev, navedenih v robots.txt. Modul poskrbi, da so najprej zajeti tisti URI-ji, ki so predpogoj za trenutnega;

- pridobitev (ang. fetch): pridobitev vsebine posredovanega URI-ja;

- izločitev povezav (ang. extract): iskanje in izločitev novih povezav v pridoblje- nem URI-ju;

- zapis (ang. write): shranitev pridobljenega URI-ja;

- zaključno preverjanje (ang. post-procesor): preverba ustreznosti na novo odkritih URI-jev glede na obseg, ki smo ga določili, in (po potrebi) posredovanje modulu razvrščevalec.

Po zaključenem postopku se ta ponovi z novim URI-jem, ki čaka v vrsti. Da se zajamejo le tiste vsebine, ki jih želimo zajeti, ves čas skrbijo nastavitve obsega

(12)

v modulu obseg, modul razvrščevalec pa poskrbi za to, da se zajamejo le tisti URI-ji, ki še niso bili zajeti. Zajem se konča, ko so zajete vse datoteke, ki ustreza- jo nastavitvam o obsegu zajema ali pa je bila dosežena katera od določenih zgor- njih mej glede na trajanje, največje dovoljeno število datotek ali največjo dovoljeno velikost zajema.

- Potek zajema s strani operaterja

Ker Heritrix nima posebnega grafičnega uporabniškega vmesnika, je za rokovanje z njim potrebno določeno tehnično znanje in dobro poznavanje njegovega delovanja. Da bi bilo delo z njim preprostejše in možno tudi za tehnično manj podkovane uporabnike, uporabljamo orodje Web Curator (Web Curator Tool – WCT) (http://webcurator.sourceforge.net/), ki sta ga v letu 2006 pod okriljem IIPC razvili Nacionalna knjižnica Nove Zelandije in Britanska knjižnica. WCT prek grafičnega vmesnika omogoča dostop do vseh nastavitev robota Heritrix in učin- kovito vodenje robota, preprosto vodenje urnikov zajemov, vnašanje deskriptivnih metapodatkov, urejanje avtorizacij za zajemanje in preverjanje kakovosti zajemov.³

Večina dela poteka ravno prek vmesnika WCT. Za vsako novo spletno stran, ki jo izberemo za zajem, v WCT ustvarimo tarčo. Pri ustvarjanju tarči določimo nasled- nje glavne nastavitve, potrebne za uspešen zajem (Slika 1):

- Vnos izhodiščnega URI-ja, na podlagi katerega se izvršujejo tudi omejitve zajema, ki jih določimo pri nastavitvi obsega zajema.

- Izbiro ustreznega profila nastavitev. Vsak profil vsebuje nastavitve posameznih modulov in podmodulov (obseg, razvrščevalec, verige procesorjev), ki so potrebni za izvedbo zajema. Za različne tipe zajemov lahko pripravi- mo različne profile.

- Določitev frekvence zajemanja in urnika zajemov. Zajem določene tarče lahko izvršimo le enkrat ali pa ga periodično ponavljamo. Frekvence za različne tarče se lahko gibljejo od enkrat dnevno do enkrat letno. Na podlagi frekvence vsaka tarča ustvari instance (načrtovane zajeme), ki se poženejo ob določenih časih.

- Vnos deskriptivnih metapodatkov. WCT vsebuje obrazec za vnos nekaterih osnovnih metapodatkov o zajeti spletni strani v shemo Dublin Core simple.

Vsak opravljen zajem pregledamo in ocenimo, ali je bil dovolj uspešen, da ga arhiviramo, ali pa ga ponovimo z drugačnimi nastavitvami. Kakovost zajema ocenjujemo glede na vsebinske, tehnične in oblikovne kriterije. Najbolj pogoste pomanjkljivosti zajemov po dosedanjih izkušnjah so:

3 Čeprav je že izšla različica Heritrixa 3.0, verzija orodja WTC, ki ga uporablja NUK, sloni na različici 1.14.4.

(13)

- manjkajoča vsebina zaradi spremembe strani ali preselitve lokacije vsebine;

- preveč ali premalo zajete vsebine zaradi preširoko ali preozko zastavljenega obsega zajema;

- napačno prikazana vsebina ali večje težave pri zajemu bistvenih oblikovnih elementov strani;

- neuspešen zajem pretočnih video ali avdio vsebin;

- občutno prevelik zajem glede na vsebino strani zaradi pasti, kot so koledarji ipd;

- bistven del vsebine strani je dostopen le s poizvedovanjem v bazi, ki je ni možno zajeti;

- povezave vodijo na živo stran namesto na arhivirano;

- nedelujoči meniji zaradi neuspešnega zajema JavaScripta.

Slika 1: Diagram poteka izvedbe zajema

Kljub temu, da naletimo na nekatere pomanjkljivosti pri zajemu, ga v primeru, da je ohranjen bistveni del vsebine, ki jo je možno tudi ustrezno prikazati, vseeno

(14)

shranimo. Če na primer bistveni del spletne strani predstavljajo članki v PDF datotekah, bo zajem sprejemljiv, če bodo članki uspešno shranjeni, kljub temu da bo morda po oblikovni plati zajem pomanjkljiv. Če smo ocenili, da zajem ni sprejemljiv in da bi lahko s spremenjenimi nastavitvami dosegli boljši rezultat, ga ponovimo. V primeru, da spletne strani ni možno zajeti tako, da se ohrani bistveni del vsebine, tarčo odpovemo.

Vsak zajem je možno shraniti v ARC ali bolj naprednem WARC arhivskem for- matu. Za pregledovanje arhiviranih vsebin potrebujemo orodje, ki lahko odpre arhivske datoteke in jih prikaže v internetnem brskalniku v obliki, ki je enaka izvorni. Za ta namen uporabljamo Wayback Machine, orodje, ki ga je za lastne potrebe razvil Internet Archive. Wayback Machine omogoča brskanje po arhivu zajetih vsebin po času zajemov. Spletne strani, shranjene v ARC ali WARC for- matu, prikaže v obliki, ki je enaka originalu, in tako uporabniku omogoča izkuš- njo uporabe arhiva, ki je podobna uporabi živega spleta.

6 Analiza zajema spletnih strani v NUK-u (2008–2010)

V NUK-u smo se morali glede na kadrovske in tehnične zmožnosti odločiti za najbolj primeren pristop k zajemanju slovenskega spleta. Zaradi omejenih zmožnosti se za zdaj še nismo odločili za celosten pristop, s katerim bi zajeli celotno domeno *.si in po možnosti tudi slovenske spletne strani v ostalih domenah, pač pa za selektiven pristop, s katerim zajemamo ožji izbor pomembnejših spletišč s stališča slovenske kulturne dediščine. Trenutno zajemamo 535 spletišč s področij javne uprave, visokega šolstva, serijskih publikacij, kulture in zna- nosti. Izbor seveda ni zaključen in vztrajno narašča.

Frekvence zajemov posameznih spletišč se gibljejo od enkrat tedensko do enkrat letno. Načeloma je frekvenca odvisna od pogostosti spreminjanja strani, vendar imajo pomembno vlogo tudi naše tehnične in kadrovske zmožnosti. Največ tarč zajemamo enkrat na šest mesecev (56 %), na drugem mestu so zajemi z eno- letno frekvenco (15 %), sledijo tarče, ki smo jih zajeli le enkrat, saj se vsebina strani ne spreminja (10 %). Manj pomembni deleži pripadajo četrtletnim, meseč- nim, dvomesečnim, tedenskim in drugim frekvencam (Slika 2).

V obdobju od sredine leta 2008, ko smo po uvodnem testnem obdobju začeli s sistematičnim zajemanjem, do sredine 2010 smo izvedli 2235 zajemov. Celotna količina zajetega gradiva je v dveletnem obdobju znašala 1,5 TB, skupni čas vseh zajemov je znašal 5831 ur.

(15)

Pri količini zajetega gradiva je potrebno izpostaviti problematiko podvajanja vsebin pri zaporednih zajemih iste tarče. Kljub temu da se spletišča neprestano spreminjajo, ostaja del vsebine dalj časa nespremenjen. Pri vsakem zajemu tako poleg novih ali spremenjenih ponovno shranimo tudi stare vsebine, ki so bile pridobljene že v prejšnjih zajemih – vsakič je shranjeno celotno spletišče. S sta- lišča pomnilniške kapacitete sicer problem tovrstnega podvajanja ni zelo pereč, saj je prostor za shranjevanje vedno bolj poceni. Večjo težavo predstavlja zase- denost pasovne širine, ki bi lahko bila na voljo za druge naloge, če bi se lahko izognili podvajanju. Za aplikacijo Heritrix je trenutno na voljo eksperimentalno orodje (DeDuplicator, http://deduplicator.sourceforge.net/), ki do neke mere odpravi podvajanje, vendar ga zaradi zamudne in težavne implementacije še ne uporabljamo.

Večina zajemov je bila uspešnih (71 %), manjši del (25 %) je bil zavrnjen, in sicer zaradi tehničnih, vsebinskih ali oblikovnih pomanjkljivosti. 4 % zajemov je zaradi očitnih napak ali pomanjkljivosti, ki so bile opažene že tekom zajema, prekinil operater (Slika 3).

Sprotno spremljanje delovanja robota in pregledovanje zajemov nam nudi splošen vtis o naši uspešnosti, vendar kljub temu obstaja potreba po bolj pod- robni opredelitvi nekaterih trendov, težav in možnih izboljšav naše dejavnosti.

Za ta namen smo opravili manjšo analizo obsega in kakovosti zajema tarč iz skupine javna uprava. Poleg nekaterih kvantitativnih podatkov nas je zanimal predvsem delež pomanjkljivih zajemov in značilnosti teh pomanjkljivosti.

Slika 2: Delež tarč po frekvenci zajemanja

(16)

6.1 Analiza obsega zajema spletišč skupine javna uprava

Skupino javna uprava sestavlja 100 tarč, med katere smo uvrstili spletne strani ministrstev, vladnih služb, uradov in agencij ter nekatere druge pomembnejše državne ustanove. Prvi zajem je potekal med koncem leta 2008 in začetkom leta 2009. Zajem vseh 100 tarč, ki so skupaj vsebovale 123 semen, je dosegel velikost 154 GB, zajetih pa je bilo 1.876.620 datotek. Največji zajem je dosegel velikost 20 GB, najmanjši pa 275 KB. Celoten zajem je trajal dobrih 423 ur, v pov- prečju je zajem vsake tarče trajal 4 ure, 13 minut in 54 sekund. Najdaljši zajem je trajal skoraj 52 ur, najkrajši pa le 15 sekund.

Pri analizi tipov datotek, ki smo jih pridobili z zajemom, po številčni zastopanosti pričakovano prednjačijo tekstovne HTML datoteke (85 %), ki sestavljajo večji del spletnih strani. Precej manjši je delež slikovnih datotek (6 %), PDF datotek (6

%) in datotek, izdelanih v MS Office (2 %). Delež avdio in video ter drugih datotek je zanemarljiv (Slika 4).⁴

4 Podatek o avdio in video datotekah se nanaša na statične datoteke, ki si jih mora uporabnik shra- niti na računalnik, da jih lahko uporablja. Pretočnih avdio in video vsebin trenutno še ne zajema- mo, saj tovrstni postopki zahtevajo bolj kompleksne rešitve. V prihodnosti računamo na imple- mentacijo enega od nedavno izdanih odprtokodnih orodij iz paketa LiWa Toolkit, ki je namenjen tovrstnemu delu (http://liwa-project.eu/index.php/news/C9).

Slika 3: Deleži zajemov po statusu glede na uspešnost

(17)

Če si ogledamo tipe datotek glede na velikost, seveda dobimo drugačno podobo.

Nekoliko presenetljivo je po velikosti na prvem mestu format PDF z 41 %, sledi pa mu HTML z 32 %. Glede na delež števila datotek so bolje zastopani tudi avdio in video formati (8 %), slikovne datoteke (13 %) in MS Office datoteke (4 %) (Slika 5).

Slika 5: Tipi datotek po velikosti na disku Slika 4: Tipi datotek po številu

(18)

Da bi prepoznali nekatere kvantitativne trende pri spreminjanju spletnih strani, smo izvedli analizo šestih zaporednih zajemov 10 tarč, ki smo jih naključno iz- brali iz skupine javna uprava. Zajemi so potekali v obdobju od decembra 2008 do junija 2010, tarče pa so bile zajete vsake tri mesece.

Pri številu zajetih datotek lahko v večini primerov opazimo rahlo do zmerno povečevanje, najbolj občutno povečanje se zgodi pri tarči Banka Slovenije. Le dve tarči doživita pomemben upad števila datotek – Varuh človekovih pravic in Ustavno sodišče RS (Slika 6).

Slika 6: Zaporedni zajemi 10 tarč po številu datotek

Tudi pri velikosti zajemov gre v večini primerov za povečevanje. Do manjšega upada pride le pri obeh tarčah, ki sta doživeli tudi upad števila datotek – Varuh človekovih pravic in Ustavno sodišče RS (Slika 7).

Pri skupnem trendu vseh 10 tarč opazimo postopno povečevanje pri količini zajetih podatkov (skupno 9 % prirasta) in istočasno upadanje števila datotek (skupno 11 % upada) (Slika 8). Če v sliko vključimo še trend spreminjanja trajanja zajemov, ugotovimo, da ta ni očitno povezan s spremembami v velikosti tarč ali v številu zajetih datotek. Razlike v časih lahko najverjetneje pripišemo različ- nim stanjem pretočnosti omrežja.

(19)

Slika 8: Primerjava trendov glede velikosti zajemov, števila zajetih datotek in trajanja zajemov

Slika 7: Zaporedni zajemi 10 tarč po količini podatkov

(20)

6.5 Analiza kakovosti zajema skupine javna uprava

Pri ocenjevanju kakovosti smo ugotavljali popolnost zajemov glede na vsebino in oblikovne značilnosti. Več kot polovica (56 %) zajemov je bila brez pomanjkljivosti, pri 44 % pa smo odkrili različne, bolj ali manj pomembne napake. Po- drobnejši pregled napak je pokazal, da se je večina pomanjkljivosti nanašala na manjkajočo vsebino, za kar smo ugotovili različne vzroke (Slika 9):

1. Zajem se je ustavil zaradi dosežene zgornje meje dovoljenega števila datotek, vendar ni bila zajeta celotna vsebina strani. Meja je v osnovi nastavljena na 50.000 datotek. Omejitev je smiselna zaradi primerov, ko robot naleti na past, ki proizvaja neskončno število povezav in tako nikoli ne konča zajema. Veči- na strani ne preseže te meje, a po potrebi lahko vrednost zvišamo (npr. na 100.000 ali 150.000).

2. Vsebina celotnega spletišča ni dostopna le na gostitelju, ki smo ga posredovali v obliki izhodiščnega URI-ja. Vsebina na drugih gostiteljih ni bila zajeta. Težavo odpravimo z vnosom več ustreznih izhodiščnih URI-jev.

3. Del vsebine spletišča je shranjen v bazi. Do vsebine lahko pridemo le tako, da izpolnimo neko iskalno polje in sprožimo poizvedbo. Ker robot ne more izpolnjevati polj, ne more zajeti tovrstne vsebine.

4. Del vsebine spletišča je dostopen le ob registraciji. Deli spleta, ki so zaščite- ni z gesli, so ravno tako nedostopni zaradi nezmožnosti izpolnjevanja polj.

5. Manjkajoča vsebina ali nedelujoče povezave zaradi skript. Heritrix sicer pogosto uspešno zajame strani, napisane z uporabo JavaScripta ali drugih jezi- kov, vendar ne vedno.

6. Vsebina strani je zajeta, vendar povezave vodijo na živo stran namesto na arhivirano.

Nekatere pomanjkljivosti smo lahko odpravili brez težav s spreminjanjem nastavitev (1. in 2. točka). V drugem poskusu smo uspešno ponovili vse zajeme, ki so bili prvotno preozko zastavljeni ali omejeni s prenizkim številom dovoljenih datotek. Tako smo popravili dobro polovico (52 %) problematičnih zajemov.

Pri odpravljanju drugih težav nismo bili tako uspešni. Zajemanje strani, ki vsebino na zahtevo posredujejo iz ločene baze, še vedno predstavlja izziv, za katerega ni na voljo ustaljenih rešitev, poskusi z avtomatiziranim izpolnjevanjem polj za registra- cijo (vnos uporabniškega imena in gesla) pa za zdaj tudi še niso obrodili sadov. Primeri, pri katerih povezave vodijo na živo stran namesto na arhivirano, zaenkrat ostajajo nerešeni, vendar jih bomo po vsej verjetnosti v prihodnje lahko rešili z uporabo proxya. Pomembno je, da smo uspešno zajeli vsebino. Problemi, ki jih predstavljajo različne skripte, ki jih Heritrix ne uspe zajeti ali ustrezno prepisati, ostajajo odprti, vendar smo lahko glede na dosedanji razvoj tega orodja optimistični in upamo, da bodo prihodnje verzije odpravile tudi čim več tovrstnih težav.

(21)

Poleg težav z vsebino so bile pogoste tudi oblikovne. V večini primerov je prišlo le do izgube manjših, komaj zaznavnih oblikovnih elementov. V nekaterih prime- rih pa je bil delež zajetega oblikovanja tako majhen, da niso bili vidni ključni ele- menti strani, na primer meniji, ki so sicer bili zajeti in so tudi delovali, vendar niso bili vidni in smo jih lahko zaznali le, če smo z miško prešli določeno ob- močje. Tovrstne težave smo v večini primerov ustrezno rešili z razširjenim iz- borom podmodulov v modulu extractors, tako da smo poleg modula, ki išče povezave znotraj HTML datotek, dodali še module, ki poiščejo tudi povezave, ki se skrivajo v datotekah v formatih Java, Flash in datotekah za oblikovanje CSS.

Oblikovanje je sicer običajno drugotnega pomena v primerjavi z vsebino strani, kljub temu da igra pomembno vlogo pri predstavitvi vsebine strani, odsotnost pomembnejših oblikovnih elementov pa pogosto celo onemogoči dostop do večjega dela spletišča. Zato se trudimo ohraniti čim večji delež oblikovanja, kar ne nazadnje omogoča tudi uporabniško izkušnjo, ki je enaka uporabi živih strani na spletu.

7 Zaključek in načrti za prihodnost

Na prvem mestu je med načrti za prihodnost povečanje pokritosti slovenskega spleta. V prihodnosti se želimo lotiti zajemov celotne domene .si, kasneje pa tudi Slika 9: Razlogi za napake v zajemih po pogostosti

(22)

slovenskih spletnih strani v drugih domenah. Če bi tovrstne zajeme lahko izvajali dvakrat do trikrat letno, bi lahko opustili zajemanje trenutnega seznama spletišč. Vzporedno bi lahko bolj pogosto selektivno zajemali spletišča, ki imajo visoko frekvenco obnavljanja (npr. dnevni časopisi) ali pa bi izvajali bolj po- drobne tematske zajeme (npr. pokrivanje volitev in drugih dogodkov).

Spletni arhiv trenutno še ni javno dostopen, saj je izdelava ustreznega portala za uporabo arhiva še v razvoju. V prihodnosti bo potrebno poskrbeti za uporabniš- ki vmesnik, ki bo omogočal vsaj možnost brskanja po vsebinskih skupinah in po abecednem seznamu naslovov spletišč, še bolj uporabna pa bi bila možnost iskanja po polnem besedilu.

S tehničnega stališča nas čaka reševanje težav na področjih, kot so: zajemanje pretočnih vsebin, odprava podvajanja zajetih vsebin, dostop do baz in drugih področij globokega spleta, uvedba boljših načinov sledenja zajemom in anali- ziranje podatkov ter mnogi drugi izzivi. Potrebno bo tudi preučiti optimalne metode za trajno ohranjanje vsebin v spletnem arhivu.

Sodelovanje s konzorcijem IIPC omogoča NUK-u spremljanje najnovejšega razvoja in uporabo že preverjenih odprtokodnih rešitev pri uresničevanju zastav- ljenih ciljev. Dobro se zavedamo, da so publikacije na spletu pomemben vidik slovenske kulturne dediščine, in želimo si, da bi lahko to funkcijo v prihodnosti čim bolj kvalitetno izvajali. Brez dodatne kadrovske podpore bo to zelo težko.

Navedeni viri

1. Abiteboul, S., Cobéna, G., Masanès, J. in Sedrati, G. (2002). A first experience in archiving the French web. V M. Agosti in C. Thanos (Ur.), Research and advanced technology for digital libraries. (str. 185–195). Berlin: Springer.

2. Arms, W. Y., Adkins, R., Ammen, C. in Hayes, A. (2001). Collecting and preserving the web: the Minerva prototype. RLG DigiNews, 5 (2). Pridobljeno 20. 8. 2010 s spletne strani: http://www.rlg.org/preserv/diginews/

diginews5-2.html

3. Arvidson, A. (2002). The collection of Swedish web pages at the Royal library - The web heritage of Sweden. V 68th IFLA council and general conference, Libraries for life: democracy, diversity, delivery, August 18th - 24th 2002, Glasgow, Scotland. Pridobljeno 19. 8. 2010 s spletne strani: http://archive.ifla.org/IV/

ifla68/papers/111-163e.pdf

4. Baeza-Yates, R. in Castillo, C. (2004). Crawling the infinite web. Journal of Web Engineering, 6 (1), 49–72.

(23)

5. Bergman, M. K. (2001). White paper: the deep web: surfacing hidden value.

The Journal of Electronic Publishing, 7 (1). Pridobljeno 19. 8. 2010 s spletne strani: http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=

main;idno=3336451.0007.104

6. Day, M. (2003). Collecting and preserving the World Wide Web. Bath: University of Bath. Pridobljeno 19. 8. 2010 s spletne strani: http://www.jisc.ac.uk/

uploaded_documents/archiving_feasibility.pdf

7. Hakala, J. (2001). Collecting and preserving the web: developing and testing the NEDLIB harvester. RLG DigiNews, 5 (2). Pridobljeno 20. 8. 2010 s spletne strani: ttp://www.rlg.org/preserv/diginews/diginews5-2.html#feature2 8. Islovar. (2010). Ljubljana: Slovensko društvo Informatika. Dostopno na spletni

strani: http://www.islovar.org/

9. Kahle, B. (1997). Preserving the Internet: an archive of the Internet may prove to be a vital record for historians, businesses and governments. Scientific American, 276 (3), 72–74. Pridobljeno 20. 8. 2010 s http://web.archive.org/

web/19980627072808/http://www.sciam.com/0397issue/0397kahle.html 10. Kanič, I., Leder, Z., Ujčič, M., Vilar, P. in Vodeb, G. (2009). Bibliotekarski

terminološki slovar. Knjižnica, 53 (3–4), 1–374.

11. Kavčič - Čolić, A. (2007). Arhiviranje slovenike na internetu: metodološki pristup.

Doktorska disertacija. Zagreb: Filozofski fakultet. Pridobljeno 1. 9. 2010 s spletne strani: http://www.dlib.si/?urn=URN:NBN:SI:doc-W8KYSY1I.

12. Kavčič - Čolić, A. in Grobelnik, M. (2004). Archiving the Slovenian web:

recent experiences. V 4th International Web Archiving Workshop (IWAW04), September 16 2004, Bath, UK. Bath: University. Pridobljeno 20. 8. 2010 s spletne strani: http://www.iwaw.net/04/index.html.

13. Klasinc, J. in Sešek, I. (2010). Zbiranje obveznega izvoda spletnih publikacij v narodni in univerzitetni knjižnici: zakonska podlaga in praktični vidiki.

Knjižnica, 54 (1–2), 121–135.

14. Kurahashi, T. (2005). Collection development of the National Diet Library.

CDNLAO Newsletter, 53. Pridobljeno 19. 8. 2010 s spletne strani: http://

www.ndl.go.jp/en/publication/cdnlao/053/534.html

15. Masanès, J. (2005). Web archiving methods and approaches: a comparative study. Library Trends, 54 (1), 72–90.

16. Mladenić, D., Grobelnik, M. in Kavčič - Čolić, A. (2005). Initiatives to preserve Slovenian digital heritage. V P. Cunningham in M. Cunningham (Ur.), Innovation and knowledge economy: issues, applications, case studies (str. 993–

998). Amsterdam [etc.]: IOS Press.

17. Mohr, G., Stack, M., Ranitovic, I., Avery, D. in Kimpton, M. (2004). An introduction to Heritrix: an open source archival quality web crawler. V 4th International Web Archiving Workshop (IWAW 2004). Pridobljeno 20. 8. 2010 s spletne strani: http://www.iwaw.net/04/Mohr.pdf

(24)

18. Musek, T. in Kragelj, M. (2007). Instalation of Web Curator Tool 1.1GA on Windows 2003 platform. Pridobljeno 19. 8. 2010 s spletne strani: http://

webcurator.sourceforge.net/documentation.shtml

19. Pedley, P. (2001). The invisible web: searching the hidden parts of the internet.

London: ASLIB-IMI.

20. Pravilnik o vrstah in izboru elektronskih publikacij za obvezni izvod (2007).

Uradni list RS, št. 90.

21. Rauber, A., Aschenbrenner, A. in Witvoet, O. (2002). Austrian online archive processing: analyzing archives of the world wide web. V M. Agosti in C.

Thanos (Ur.), Research and advanced technology for digital libraries. (str. 16–31).

Berlin: Springer.

22. Sigurďsson, K. (2005). Incremantal crawling with Heritrix. V 5th International web archiving workshop (IWAW05), 22–23 September 2005, Vienna, Austria.

Pridobljeno 20. 8. 2010 s spletne strani: http://www.iwaw.net/05/papers/

iwaw05-sigurdsson.pdf

23. Zakon o obveznem izvodu publikacij. (2006). Uradni list RS, št. 69.

24. Zakon o obveznem pošiljanju tiskov. (1972). Uradni list RS, št. 55.

Dr. Alenka Kavčič - Čolić je zaposlena v Narodni in univerzitetni knjižnici.

Naslov: Turjaška 1, 1000 Ljubljana

Naslov elektronske pošte: alenka.kavcic@nuk.uni-lj.si

Janko Klasinc je zaposlen v Narodni in univerzitetni knjižnici.

Naslov: Turjaška 1, 1000 Ljubljana

Naslov elektronske pošte: janko.klasinc@nuk.uni-lj.si