Vpogled v JEZIKOSLOVNI VIRI STAREJŠE SLOVENŠČINE

(1)

Tomaž erjavec

Oddano: 10. 7. 2012 – Sprejeto: 19. 7. 2012 1.01 Izvirni znanstveni članek

1.01 Original Scientific Article UDK: 027:025.4.036:81'374

Izvleček

V prispevku so predstavljeni trije jezikovni viri starejšega slovenskega jezika: zbirka besedil oz. digitalna knjižnica, referenčni jezikoslovno označeni korpus in slovar oz. besedišče. Zbirka besedil vsebuje 158 del, večinoma knjig z redigirano transkripcijo besedila in faksimili, skupaj nekaj več kot 13.000 strani. Korpus sestavlja 1000 strani, vzorčenih iz te zbirke, kjer je vsaki besedni pojavnici pripisana ročno pregledana sodobna ustreznica besedne oblike, njena lema in leksikalna oblikoskladenjska oznaka. Slovar je bil zajet iz razširjenega ročno pregledanega korpusa in ima 25.000 gesel, ki vsebujejo sodobne ustreznice in korpusno atestirane besedne oblike. Vsi trije viri so zapisani skladno s smernicami za zapis besedil TEI (Text Encoding Initiative Guidelines) in dostopni na spletu za pregledovanje in preiskovanje, kot tudi za prenos pod licenco Creative Commons – priznanje avtorstva. Namen virov je po eni strani omogočiti empirično podprte diahrone jezikoslovne raziskave in približati starejša besedila in leksiko sodobnemu bralcu, po drugi pa ti predstavljajo podatkovno infrastrukturo za razvoj jezikovnih tehnologij, ki lahko npr. omogočajo iskanje po polnem besedilu pisne kulturne dediščine. Zbirka besedil, korpus in slovar so dostopni na http://nl.ijs.si/imp/.

Ključne besede: digitalne knjižnice, starejša slovenščina, referenčni korpusi, slovarji

extended abstract

The paper presents three language resources enabling better full-text access to digitised printed historical Slovenian texts: a hand-annotated corpus, a hand-annotated lexicon of historical words and a collection of transcribed texts. The aim of the resources is twofold: on one hand they support empirical linguistic research (corpus, collection) and represent a reference tool for the research of historical Slovenian (lexicon) while on the other hand they may serve as training

(2)

data for the development of Human Language Technologies enabling better full-text search in digital libraries containing Slovenian written cultural heritage, modernisation of historical texts, and the development of better technological solutions for text recognition and scanning.

The hand annotated corpus of historical Slovenian contains the text from 1,000 pages sampled from the years 1750 to 1900, two texts date to the end of the 16^th or 17^th century. The corpus contains a little more than 250,000 word tokens; each of them being annotated with hand validated linguistic features: modernised form, lemma or base form, and morhpo-syntactic description.

Thus the word token »ajfram« is annotated with the normalised form »ajfrom«, by the lemma

»ajfer« and morphosyntactic description »Som« or »Samostalnik« (noun), »občni« (common),

»moški« (masculine) and a modernised form »gorečnost« (fervour). At first the corpus was annotated automatically and then manually verified and corrected.

The lexicon was created automatically from the hand-annotated corpus. It contains only attested word-forms and examples of use. The word-forms are ordered under their modern equivalents.

All the modern forms of a particular word constitute a dictionary entry, defined by its lemma with conjoint information i.e. the morpho-syntactic description and the closest contemporary synonyms. Thus the entry »ajfrer/Som/gorečnost« is annotated by two modernised words »aj- fra« and »ajfrom« and their archaic forms »ajfram« and »aifram« and by attestattion: »…shaz noi frihtei tu shebranje karbo sdei udrukono is velzhim aifram noi is flisam inu is andohtjo 3 vezh- iere saporedama …« (Tapravi inu tazieli Colemone-Shegen, 1800, p. 183). At present, the lexicon contains over 25,000 entries (including modern words in archaic texts), 50,000 word-forms and 70,000 archaic forms.

The third resource is represented by an extensive collection of digitised texts similar to the corpus. The difference is that the words are annotated automatically by a tool developed to process historical Slovenian text named ToTrTaLe. The tool implements a pipeline, where it first tokenises the text and then attempts to transcribe the archaic words to their modern day equivalents.

Then, the text is tagged and lemmatised using the models for modern Slovenian language.

It contains about 5 million words of hand-corrected transcriptions from the following digitised texts:

• Slovenian books and editions of the newspaper »Kmetijske in rokodelske novice«, digitised by the National University Library (NUK) in the frame of the EU project IMPACT (5000 pages),

• Digital library AHLib,¹ comprising Slovenian books translated from German (100 books),

• A selection of Slovenian books²

All three resources (corpus, lexicon, collection) are encoded according to the Text Encoding Initiative Guidelines TEI P5, which enable the definition of XML schemas for encoding texts for scholarly purposes. The home page of the project at http://nl.ijs.si/imp/ enables access to the

1 See: http://nl.ijs.si/ahlib/

2 Available at: http://sl.wikisource.org/wiki/Wikivir:Slovenska_leposlovna_klasika

(3)

resources. The collection and the lexicon are available for on-line browsing, the corpus and the automatically annotated collection for linguistics searches via a concordancer, while all the resources can be also downloaded in their source XML form under the Creative Commons Attribu- tion Licence.

In future we expect to extend the resources, however, even their present scope is sufficient for corpus based diachronic studies of historical Slovenian language and for developing useful language technology tools for processing cultural heritage texts.

Keywords: digital libraries, historical Slovene, reference corpora, dictionaries

1 uvod

V prispevku so predstavljeni trije medsebojno povezani digitalni viri starejšega slovenskega jezika, ki imajo namen razširiti ponudbo diahronih spletnih priročnikov in postaviti osnovo za korpusno podprte jezikoslovne študije, po drugi strani pa ponu- jajo referenčne podatkovne vire za razvoj jezikovnih tehnologij za obravnavo starejše slovenščine.

Na spletu je sedaj dostopna že velika količina starejših slovenskih knjig in časopisov (Hladnik, 2009), predvsem prek Digitalne knjižnice Slovenije dLib.si (Krstulović in Šetinc, 2005) in projekta Googlovih knjig. Vendar so ta dela dostopna predvsem kot faksimili, tipično samo s predogledom avtomatsko razpoznanega besedila, v katerem pa je zaradi poškodb papirja, starega tiska in bohoričice polno napak. Besedila tudi niso strukturno označena, kar onemogoča npr. generiranje kazala in stavljenje besedila. Obstaja tudi nekaj digitalnih knjižnic manjšega obsega s pregledanimi besedili in stavljenim besedilom, na prvem mestu projekt »Slovenska leposlovna klasika« na WikiViru (Hladnik, 2009), pa tudi projekt SiStory (Šorn in Hadalin, 2010), knjižnica eZISS (Ogrin in Erjavec, 2009) in projekti posameznih knjižnic. Takim knjižnicam je dodana še ena, besedilna zbirka IMP,³ ki vsebuje faksimile in pregledano besedilo večjega števila zanimivih starejših publikacij, ki so obenem tudi ustrezno označene, da jih je mogoče kvalitetno staviti ali drugače obdelati naprej.

Slovarji, ki vsebujejo starejšo slovensko leksiko, so že spletno dostopni. Na strežniku Korpusnega laboratorija Inštituta za slovenski jezik Frana Ramovša ZRC SAZU⁴ je za pregledovanje dostopen SSKJ, ki je sicer osredotočen na sodobnejši jezik, vseeno pa vsebuje več tisoč zastarelih in starinskih besed, ter Pleteršnikov Slovensko-nemški

3 Glej Jezikovni viri starejše slovenščine IMP: http://nl.ijs.si/imp/

4 Glej http://bos.zrc-sazu.si/

(4)

slovar iz leta 1894 (Keber, 2006), ki sicer res vsebuje starejšo besedišče, vendar pa je razlagalni del v nemškem jeziku. Želja je bila, da bi vrzel zapolnili s slovarjem, ki bi med drugim pokrival gesla, ki jih v SSKJ ni, po drugi strani pa bi ponudil sodobne ustreznice za zastarele besede v slovenskem jeziku.

Na spletu je dostopnih tudi že več jezikoslovno označenih korpusov slovenskega jezika, npr. veliki, a avtomatsko označeni referenčni FidaPLUS (Arhar in Gorjanc, 2007) in ročno označeni JOS (Erjavec in Krek, 2008), vendar ti pokrivajo samo sodobni slovenski jezik. Želja je bila podobno kot korpusu JOS ponuditi tudi ročno označeni korpus sta- rejše slovenščine, ki bi omogočal korpusno podprte jezikoslovne študije slovenskega jezika.

Če so zgoraj naštete uporabe namenjene neposredno ljudem, pa najdejo pregledani in označeni digitalni viri uporabo tudi, ali celo predvsem, kot podatkovne množice za razvoj jezikovnih tehnologij. Pregledana besedila vsebujejo besedne oblike, na osnovi katerih je mogoče poboljšati OCR starejših besedil, označeni korpusi omogočajo npr.

učenje oblikoskladenjskih označevalnikov za starejši jezik, medtem ko slovar s sodobnimi ustreznicami in osnovnimi oblikami besed služi kot osnova programom za učin- kovito iskanje po polnem besedilu digitalnih knjižnic, kjer lahko npr. poizvedba po besedi »ljubezen« vrne vse pregibne in zgodovinske oblike te besede, npr. »ljubesni«,

»lubesen«, »lubeſne« itd. Nadalje lahko s pomočjo takega leksikona razvijemo progra- me, ki avtomatsko posodabljajo staro besedilo, s čimer ga naredijo bolj razumljivega sodobnemu bralcu.

V nadaljevanju bodo podrobneje predstavljeni ti trije viri. V 2. razdelku sta obravna- vana računalniški zapis in dostopnost treh predstavljenih virov, v 3. razdelku zbirka besedil IMP, v 4. razdelku korpus goo300k, v 5. slovar, 6. razdelek pa poda zaključke in smernice za nadaljnje delo.

(5)

2 zapis in dostopnost

Pred posamično predstavitvijo virov starejšega slovenskega jezika IMP je v tem razdelku predstavljenih nekaj njihovih skupnih lastnosti, predvsem računalniški zapis ter načini in pogoji, pod katerimi so dostopni.

2.1 zapis TeI

Viri IMP so zapisani skladno s smernicami za zapis besedil TEI, »Text Encoding Initiati- ve Guidelines« (TEI, 2007). Smernice temeljijo na standardu XML (Extensible Markup Language) in so namenjene zapisu besedil v znanstvene namene. Uporabljajo se za večino kompleksnejših izdaj v digitalnih knjižnicah, pa tudi za zapis jezikoslovno ozna- čenih korpusov in slovarjev. Smernice TEI definirajo in dokumentirajo nabor oznak (elemente in atribute XML) za zapis strukturnih in konceptualnih lastnosti besedil.

Smernice so izražene kot modularna in razširljiva shema XML, ki ji je pridružena podrobna dokumentacija, dostopne pa so pod odprtokodno licenco. Prva izdaja smernic je iz leta 1994, zadnja, ki se sproti dopolnjuje in popravlja, pa je TEI P5 iz leta 2007 in je usklajena z ustreznimi smernicami W3C in ISO, ki jih ipso facto upoštevajo tudi izdaje instituta.⁵ Poseben primer je na primer oznaka za bohoričico, ki do sedaj ni imela svoje standardizirane kode, v teku projekta pa je institut na IANA (Internet Assigned Num- bers Authority) prijavila kodo za podjezik »sl-bohoric«, namenjeno za označevanje slovenskih besedil, pisanih v bohoričici, ob tem pa (čeprav naši viri teh pisav ne vsebujejo) še za »sl-metelko« in »sl-dajnko«.

Primer je začetek geselskega članka (<entry>), ki vsebuje zaglavje (<form type=

«lemma«>). V zaglavju je danes neobstoječe geslo (<orth type=«hypothetical«>)

»anati«, pri čemer so njegove skladenjske lastnosti podane v obliki oznake (<gram type=«msd«>) in kot množica lastnosti (<pos> in ostali <gram>), izražene pa so tako v slovenščini kot angleščini. Geslo ima razlago (<gloss>), ki vsebuje sodobno ustreznico in vir (<bibl>), ki je pomagal pri določanju te ustreznice. Končno labela (<lbl>) poda še število pojavitev te leme v korpusu.

5 Institut »Jožef Stefan«, Odsek za tehnologije znanja (dalje samo institut).

(6)

<orth type=«hypothetical«>anati</orth>

<pos>glagol</pos>

<gram type=«vrsta«>glavni</gram>

<gram type=«vid«>nedovršni</gram>

<gram xml:lang=«en« type=«Aspect«>progressive</gram>

</gramGrp>

<gloss>izogibati se</gloss>

<bibl>Pleteršnik</bibl>

</form>

Kanonična oblika posameznega vira IMP je torej dokument XML, ki je veljaven (validi- ran) glede na shemo XML, ta pa je narejena skladno s smernicami TEI. S tem je zagoto- vljeno, da neodvisno in ločeno od datotek na določenem institutu obstaja podrobna dokumentacija – smernice TEI –, v kateri je struktura njegovih virov dokumentirana tako s proznim opisom (smernice) kakor s shemo XML, s pomočjo katere je mogoče pravilnost strukture teh virov kadarkoli preveriti.

Kanonični zapis je namenjen izmenjavi, primeren za raznovrstne uporabe, neodvisen od računalniške platforme, in, kolikor je to glede na hiter razvoj računalniških tehnologij mogoče, odporen na zastaranje. Kot je ilustrirano v naslednjih razdelkih, se ta format (s skriptami XSLT) pretvori v formate za uporabo v konkretnem orodju (npr.

konkordančniku) ali za prikaz na spletu.

Spletne predstavitve posameznih virov so tudi neposredno naslovljive prek URL-jev, ne samo celotnih del, temveč tudi njihovih sestavnih delov, npr. strani ali poglavij. Tako ima npr. »XV. CAP.« oz. 15. poglavje Dalmatinove Biblije iz leta 1584, ki ima incipit »TEdaj ſo k' njemu priſhli Piſsarji inu Fariseerji od Ierusalema« točno določen URL,⁶ podobno pa so naslovljivi tudi geselski članki slovarja in celo poizvedbe konkordančnika.

6 Glej http://nl.ijs.si/imp/zrc/dl/ZRC_00001-1584.html#ZRC_00001-1584-body.1_div.6

(7)

2.2 dostopnost virov

Če je ena plat dostopnosti virov njihov zapis, je druga resnična možnost dostopa do njih. Dostopnost jezikoslovnih virov je v Sloveniji vse prevečkrat omejena na spletno pregledovanje, kar sicer v večini primerov zadošča za njihovo neposredno uporabo, ne omogoča pa uporabe za razvoj jezikovnih tehnologij ali za bolj poglobljene, celo- stne jezikoslovne študije, kjer potrebujemo možnost prenosa celotnega vira na lasten računalnik. Razlogi za takšno zapiranje so v nekaterih primerih sicer legitimni (npr. da so izvorna besedila nekega korpusa še pod avtorsko zaporo), v večini primerov pa so bolj stvar institucije, ki je vir razvila, saj želi ohrani monopol nad virom, in to čeprav je bil izdelan z javnimi sredstvi (Erjavec, 2009).

Za vse vire IMP velja, da so dostopni ne samo za pregledovanje po spletu, temveč tudi za prenos v kanonični obliki TEI po licenci »Creative Commons, priznanje avtorstva«.

Licenca omogoča prenos virov za uporabo v raziskovalne namene ali komercialno, pa tudi predelavo virov in njihovo nadaljnjo distribucijo. Edini pogoj, ki je postavljen, je, da se vir IMP, ki se ga uporablja, tudi primerno citira.

3 zbirka besedil IMP

Zbirka besedil IMP je zasnovana kot digitalna knjižnica in vsebuje večinoma celotna dela (knjige ali izvode časopisov), tako v obliki faksimilov kot tudi pregledanih tran- skripcij besedil. Zbirka trenutno vsebuje 158 del oz. okoli 13.000 strani ali dva milijona besed. Stopnja označevanja se razlikuje glede na izvor posameznega dela, v vseh primerih pa vsebuje prelome strani s kazalci na faksimile, naslove, odstavke in oznake za posebne dele besedila, kot so številke strani, tiskarska znamenja itd. Kot vsi drugi viri je izvorni zapis zbirke v XML/TEI, na spletu pa je zbirka dostopna za branje v formatu HTML. Trenutni spletni izpis vsake enote ima naslov, kolofon TEI v slovenskem in an- gleškem jeziku, kazalo po straneh in poravnan prikaz faksimila in stavljenega besedila.

Besedila za zbirko so vzeta iz treh virov, ki so razmeroma dobro ločeni tako po vrsti digitalnega izvirnika kot po starosti in tipu besedil, zato je v naslednjih podpoglavjih obravnavan vsak posebej.

3.1 Besedila AHLib

Besedila digitalne knjižnice AHLib (Prunč, 2007; Erjavec, 2011a) so v celoti vključena v zbirko besedil IMP in tudi sestavljajo njen največji, čeprav tudi najmlajši del. AHLib

(8)

vsebuje slovensko prevodno književnost med letoma 1848 in 1918, okoli sto zelo ra- znovrstnih knjig z nemškimi izvirniki.

Knjige so bile izbrane kot najpomembnejše predstavnice tiste dobe, tako glede na svoj zgodovinski kot jezikovni vpliv. Največ knjig je leposlovnih, večinoma vzgojnih (npr.

Zlata Vas, Hirlanda bretanjska vojvodinja ali zmaga čednosti in nedolžnosti), vendar je po številu strani skoraj polovica neleposlovja, predvsem poučne knjige (npr. Kratki navod zreji domačih sviloprejk, Stelja in gnoj) in učbeniki (npr. Knjigovodstvo za dvorazredne tr- govske šole, Nauk o serviranju). Posebej velja opozoriti na obsežne učbenike Friedricha Karla Ludwiga Schödlerja s področja naravoslovja (Astronomija, Fizika, Mineralogija, Ke- mija, Botanika, Zoologija), ki so bili prevedeni v številne evropske jezike in so bogat vir terminologije tistega časa, obenem pa vsebujejo tudi veliko ilustracij.

Besedila za AHLib so bila najprej pregledana v urejevalniku Word, nato pa s spletno aplikacijo avtomatsko pretvorjena v zapis TEI. Transkripcija posamezne knjige vsebuje, poleg ročno pregledanega besedila, tudi bogat nabor oznak, tako za strukturo knjige (prelomi strani, razdelki in naslovi, opombe …) kot tudi za osnovne jezikoslovne in uredniške zaznamke, npr. oznake za tujejezične dele besedila in uredniške popravke tiskarskih škratov v izvirniku. Prav tako so označena mesta slik, s čimer je mogoče preprosto identificirati vse skenograme, ki vsebujejo slike. Kot poseben tip slike (»orna- ment«) so označena tudi okrasna znamenja na straneh, npr. secesijske vinjete.

3.2 Besedila NuK

Drugi sklop enot za zbirko je prispeval NUK (Erjavec [et al.], 2011) in vsebuje okoli 5000 strani. Gradivo NUK je sestavljeno iz treh sklopov. Prvi obsega 15 knjig (1900 strani), ki so v resnici del digitalne zbirke AHLib, vendar predhodno niso bile deležne korektur OCR. Drugi sklop vsebuje 15 knjig (okoli 2250 strani) iz dLib.si, kjer je bila posebna pozornost namenjena izbiri pomembnih besedil slovenske kulturne dediščine iz po- znega 18. ter z začetka 19. stoletja, tj. iz obdobja slovenskega razsvetljenstva, ko so se oblikovali temelji sodobnega slovenskega jezika. Med njimi so Kolemonov žegen, Pohlinove Zimske urice, Abecedika in Kratkozhasne uganke, Japljeve Pridige, Vodnikove Kuharske bukve in Linhartova Županova Micka. Tretji sklop, prav tako iz dLib.si, obse- ga vzorce iz 47 letnikov (1843–1890) izdaj časopisa Kmetijske in rokodelske novice (590 strani), ki mdr. vsebuje besedila z obdobja črkarske pravde in romantike. Tu niso vklju- čeni celotni letniki časopisa, saj bi jih bilo preveč, pač pa je bil narejen vzorec vsakega posameznega letnika po izdajah, tako da je bil uporabljen celotni prvi letnik, ki je zapi- san v bohoričici, nato pa za vsako leto do 1890 nekaj manj izdaj časopisa.

(9)

Drugače od knjižnice AHLib besedila niso bila izvorno pisana v zapisu TEI, pač pa v formatu PAGE XML (Pletschacher in Antonacopoulos, 2010), ki je nadgradnja standardnega formata za analizo oblike in besedilnih elementov skenogramov ALTO (Analyzed Layout and Text Object). Format je namenjen zajemanju informacij, pomembnih za besedila pridobljena z OCR, in je zato manj primeren za zapis vezanega digitalnega besedila.

Za namene zbirke IMP je bil razvit program, ki besedila iz PAGE XML prevedel v TEI, pri čemer pa je zapis manj bogat kot pa za besedila AHLib – predvsem ne vsebuje členitve besedil po (pod)poglavjih, zato imajo ta besedila na spletu kazalo samo po straneh.

3.3 vzorci zRC SAzu

Faksimile in čistopise za tretji sklop, ki vsebuje 75 strani, je zagotovil ZRC SAZU. V na- sprotju z drugimi sklopi ne vsebuje celotnih besedil, pač pa samo vzorce posameznih knjig, pri čemer sta dve od treh tudi najstarejši deli v zbirki IMP. Ta dela so Dalmatinova Biblia iz leta 1584 (8 strani), Sacrum promptuarium Janeza Svetokriškega iz leta 1695 (27 strani) in še Japljevo Svetu pismu noviga testamenta iz leta 1784 (40 strani).

Podobno kot zbirka AHLib je bila tudi transkripcija teh vzorcev najprej izdelana v urejevalniku Word, nato pa avtomatsko pretvorjena v TEI.

4 Referenčni korpus goo300k

Za jezikoslovne raziskave in za razvoj programov jezikovnih tehnologij predstavlja roč- no označeni korpus besedil nujno infrastrukturo. Jezikoslovcem tak korpus omogoča študij diahronih besedil prek spletnega konkordančnika ali s prenosom korpusa na lastni računalnik, jezikovnotehnološki programi pa lahko korpus uporabijo bodisi kot učno ali pa kot testno podatkovno množico.

Ročno pregledani korpus goo300k (Erjavec, 2012) obsega 1000 vzorčenih strani iz be- sedilne zbirke IMP oz. nekaj manj kot 300.000 besednih pojavnic. Postopek vzorčenja je potekal v dveh fazah. Najprej so bila iz zbirke IMP izbrana čim bolj raznovrstna besedila, nato pa iz teh besedil naključno izbrane posamezne strani, pri čemer je bilo treba paziti, da iz nobenega besedila oz. časovnega obdobja ni bilo preveč strani.

V korpusu je vsaka stran zapisana kot svoja datoteka, te so nato združene v posamezna dela, ta pa v skupni dokument TEI. Posamezna stran ima kazalko na faksimile in ustrezno stran v spletni knjižnici IMP, besedilo pa je najprej razdeljeno na bloke (naslove, odstavke itd.), ti na stavke oz. povedi, ti pa na besedne pojavnice, ločila in presledke.

(10)

4.1 Oznake v korpusu

Vsaki besedi v korpusu so pripisane njena ročno preverjena sodobna oblika, lema in oblikoskladenjska oznaka IMP. Sodobne oblike besed lahko razdelimo v štiri skupine.

Situacija je najbolj preprosta, kadar je besedna oblika iz korpusa enaka sodobni obliki.

V drugi, tudi razmeroma preprosti skupini so besede, kjer je razlika samo na glasoslov- ni oz. pravopisni ravni, npr. »ſolnze«, ki se posodobi v »sonce«. Tretjo skupino predstavljajo besede, ki so se včasih pisale narazen, sedaj pa skupaj (npr. »nar bolj«, sedaj

»najbolj«), ali obratno (»namoresh«, sedaj »ne moreš«). Te so problematične s stališča zapisa jezikoslovnega označevanja, saj so posodobljene oblike sicer preprosto pripisane kot atribut posamezni besedi, tu pa je treba vzpostaviti relacijo med več besednimi pojavnicami in eno analizo oz. eno pojavnico in nizom analiz. V zadnjo, četrto skupino besed spadajo zastarele besede, torej tiste, ki nimajo sodobne ustreznice ali pa so se jim spremenile skladenjske lastnosti, npr. spol. V takih primerih smo kot posodobljeno obliko vzeli besedo, napisano po sodobnem pravopisu (npr. »ajfram« posodobimo v

»ajfrom«), smo jim pa zato pripisali tudi najbližje sodobne ustreznice (v tem primeru

»gorečnost«). Pri zastarelih besedah velja še opomba, da kot zastarele nismo šteli tiste, ki se pojavljajo v SSKJ, čeprav imajo pripisano oznako »zastarelo« oz. »starinsko«. Glav- ni razlog je bil, da so te besede že obdelane v SSKJ in je sodobne ustreznice oz. razlage mogoče zajeti iz tega vira.

Besedam je pripisana tudi lema oz. osnovna oblika besede, ki je tudi posodobljena in izhaja iz posodobljene besedne oblike, npr. »sonce«, »ne moči« oz. »ajfer«. Pripis lem omogoča npr. iskanje po korpusu ne glede na obliko besede, medtem ko je pripis posodobljenih besednih oblik najbolj zanimiv za učenje programov, ki bi posodabljali starejša besedila in jih s tem naredili bolj razumljiva. Seveda pa se je treba zavedati, da se je slovenski jezik spremenil ne samo na nivoju leksike, temveč tudi skladnje. Tako se besedila iz druge polovice 19. stoletja s posodobljenimi besednimi oblikami lahko berejo dokaj normalno, medtem ko so tista iz 18. stoletja še vedno nenavadna za sodobnega bralca.

Tretji jezikoslovni podatek, ki je pripisan besednim pojavnicam, je njihova kontekstno razdvoumljena oblikoskladenjska oznaka. V korpusih sodobnega jezika, kot sta Fida- PLUS (Arhar in Gorjanc, 2007) in JOS (Erjavec in Krek, 2008), so uporabljene oblikoskladenjske oznake, ki zajemajo tako leksikalne (npr. obči samostalnik srednjega spola) kot pregibne lastnosti (npr. rodilnik ednine) posameznih besed. V korpusu goo300k je ta sistem, ki zajema več kot 1000 različnih oznak, poenostavljen in besedam so pripisane samo leksikalne lastnosti, tako da število oznak pade na 32. Oznake IMP so definirane in opisane, tako kot oblikoskladenjske oznake JOS, v dokumentu TEI, kjer so definirane besedne vrste, vsaki pripisane njene oblikoskladenjske lastnosti, množice teh pa so

(11)

pripisane posameznim oblikoskladenjskim oznakam, pri čemer so imena lastnosti in oznak definirana tako v slovenščini kot angleščini. V korpusu so uporabljene oznake v angleščini, vendar je te prek izvedenih tabel preprosto prevesti v slovenščino in jih tudi razstaviti v posamezne lastnosti. Tako npr. korpusna oznaka »Vmp« pomeni »Verb Type=main Aspect=progressive« in je ekvivalentna slovenski oznaki »Ggn« oz. »glagol vrsta=glavni vid=nedovršni«.

Razlog za uvedbo poenostavljenega nabora oznak je predvsem v tem, da je bil pouda- rek pri ročnem označevanju na posodobljenih oblikah besed, pri tem pa je natančno označevanje oblikoskladnje zelo zamudno – zato je bilo raje zajetega več besedila, vendar z bolj grobimi oblikoskladenjskimi oznakami. Oznake so vseeno koristne, saj omogočijo, da se v korpusu npr. išče vse kombinacije pridevnikov z neko besedo, po drugi strani pa so lahko uporabljene za učenje modelov avtomatskega oblikoskladenj- skega označevanja starejših besedil.

Primer oznak je prikazan v spodnji tabelarični obliki; iztržek iz Sacrum promptuarium (1695):

Sdaj tudi vij moshje vſimite vaſh fazonetel , ter premislite pamet , lubesan , zdaj tudi vi možje vzemite vaš faconetelj , ter premislite pamet , ljubezen , zdaj tudi ti mož vzeti vaš faconetelj - ter premisliti pamet - ljubezen -

Rgp Q P Ncm Vme P Ncm , C Vme Ncf , Ncf ,

- - - - - - robec - - - - - - -

4.2 Konkordančnik CuWI

Korpus je sicer dostopen za prenos, vendar ga bo večini laže uporabljati prek spletnega konkordančnika, ki podpira iskanje tako po besedah oz. besednih zvezah kot po jezikoslovnih oznakah in omogoča raznovrstne prikaze rezultatov.

Konkordančnik je sestavljen iz zalednega dela, tj. programske opreme, ki izvaja iskanje po korpusu, in čelnega dela sistema, tj. spletnega vmesnika po imenu CUWI. Kot zaledni del je uporabljen CWB (Christ, 1994), ki je visokozmogljiv sistem, v uporabi za številne korpuse tako v Sloveniji kot po svetu. Pojavnice in njihove oznake, npr. posodobljena oblika besede ali oblikoskladenjska oznaka, imajo v CWB enakovreden status, tako da je mogoče tako iskanje po prikazu pojavnic ali pa njihovih oznak kot poljubne kombinacije obojih. CWB omogoča iskanje z regularnimi izrazi, izpis meta- podatkov posameznih zadetkov v korpusu, pa tudi omejitev iskanja na tista besedila, kjer so metapodatki enaki kot zahtevana omejitev, npr. iskanje samo po straneh z do- ločenim naslovom.

(12)

Arhitektura, na kateri je zasnovan spletni vmesnik CUWI, omogoča veliko fleksibilno- sti in zelo dober izkoristek sodobnih računalniških arhitektur z več procesorskimi jedri.

CUWI je splošno uporaben konkordančnik, ki ga je zelo lahko prilagoditi tudi za uporabo z drugimi korpusi in v drugačnih jezikovnih okoljih in je v uporabi tudi za iskanje po drugih korpusih. CUWI je prosto dostopen pod dvojno licenco Perl Artistic Licence/GPL2.

CUWI podpira več načinov izpisa najdenih fraz v korpusu. Zadetki s kontekstom so lahko prikazani v vezanem besedilu, v standardnem formatu KWIC (»Key-Word In Context«

oz. ključna beseda s kontekstom) ali pa brez konteksta, vendar s številom pojavitev v korpusu, torej kot frekvenčni seznam. Pri vseh načinih izpisa velja, da se lahko izpiše ne samo pojavnica (besedilo), temveč katerakoli kombinacija oznak. Konkordančnik prav tako ponuja razne možnosti sortiranja (po kontekstu in a tergo) in filtriranja (vse, na- ključni vzorec). Rezultate iskanja lahko shranimo na svoj računalnik kot razpredelnico v formatu CSV ali Excel, kar omogoča nadaljnje analize najdenih nizov v enem od programov za delo z razpredelnicami. Konkordančnik prav tako omogoča shranjevanje rezultatov v obliki podatkovnih struktur za skriptne jezike v formatu JSON (JavaScript Object Notation) ali Perl, če jih želimo programsko obdelovati.

5 Slovar IMP

Tretji jezikovni vir starejše slovenščine je slovar oz. besedišče, ki ima, podobno kot korpus, dva namena. Po eni strani je uporaben za jezikoslovce in kogarkoli, ki ga zani- ma starejša slovenska leksika, po drugi pa lahko služi kot računalniški leksikon, ki npr.

omogoča iskanje po polnem besedilu digitalnih knjižnic z uporabo sodobnih lem.

Slovar je bil avtomatsko izluščen iz korpusa goo300k, poleg tega pa so mu bile dodane tiste besedne oblike iz zbirke besedil IMP, ki se ne pojavljajo v goo300k, v zbirki IMP pa vsaj dvakrat. Tudi pri teh besednih oblikah so bile oznake ročno pregledane, prav tako pa je bil naknadno pregledan še celoten slovar. Iz takšnega postopka izdelave sledi, da slovar vsebuje samo korpusno izpričane oblike.

Celoten slovar vsebuje več kot 25.000 lem, 50.000 besednih in 70.000 zgodovinskih besednih oblik, vendar to zajema vse pregledane besedne pojavnice iz korpusa oz.

zbirke besedil, torej tudi številke, simbole, tujejezične in zatipkane besede in besedne oblike, ki so enake sodobnim. Če se omejimo samo na »prave« besede, pade število lem na nekaj pod 20.000, če samo na tiste leme, ki imajo vsaj eno besedno obliko dru- gačno, kot je sodobna, na 11.000, če samo na zastarele besede, pa na 2000.

(13)

5.1 Struktura slovarja

Slovar, kot vsak dokument TEI, najprej vsebuje kolofon, ki mu sledijo geselski članki.

Vsak vsebuje zaglavje in korpusno izpričane besedne oblike. Zaglavje je sestavljeno iz geselske iztočnice, torej leme, njene oblikoskladenjske oznake in, za zastarele besede, sodobne ustreznice kot tudi vira, na osnovi katerega so bile te ustreznice določene.

Posamezen geselski članek tako definira njegovo zaglavje – enake leme se kot homo- nimi pojavljajo v več geselskih člankih, če se ti razlikujejo glede na oblikoskladenjsko oznako ali sodobne ustreznice.

Zaglavju sledi seznam vseh sodobnih besednih oblik, pri čemer ima nato vsaka seznam vseh svojih zgodovinskih različic, te pa nato primere uporabe iz korpusa, pri čemer je vsak pospremljen z metapodatki vira, od koder je primer vzet. V slovar je vključenih samo nekaj primerov za vsako zgodovinsko obliko, saj bi bilo vseh, posebej za visoko- frekvenčne funkcijske besede, preveč – če si želimo primere uporabe vseh, jih je bolj preprosto poiskati neposredno v korpusu.

5.2 Slovarji IMP na spletu

Podobno kot pri korpusu je slovar sicer mogoče prenesti na lasten računalnik, vendar bo večini uporabnikov laže iskati po slovarju po spletu. Zato je bila narejena pretvorba slovarja v spletno obliko, pri čemer je ta trenutna narejena kar kot statična zbirka strani v HTML. Spletni slovar ima krovno stran, ki vsebuje kazalko na kolofon in kazalo vseh lem, sam slovar pa je potem razdeljen na posamezne strani, saj bi bil celoten prevelik za eno datoteko.

Spletni slovar primerno stavi elemente iz kanonične oblike v TEI, tako npr. razveže oblikoskladenjsko oznako v lastnosti v slovenščini, lema ima hiperpovezavo na kon- kordančnik, bibliografski podatki o posameznih primerih uporabe pa so povezani na spletno knjižnico IMP. Geslom so tudi dodane povezave na SSKJ in Pleteršnikov Slo- vensko-nemški slovar, oba dostopna prek iskalnika na ZRC SAZU.

Kot je bilo že omenjeno, vsebuje celoten slovar tudi geselske članke, ki za večino uporabnikov ne bodo zanimivi. Zato so iz zapisa TEI izvedeni štirje slovarji v različnih veli- kostih. Na voljo je:

1. celoten slovar,

2. slovar, ki vsebuje samo »prave« besede,

3. slovar, ki vsebuje samo gesla, kjer se vsaj ena oblika razlikuje od sodobne, in 4. slovar, ki vsebuje samo zastarele besede.

(14)

6 zaključki

V članku so predstavljeni trije uniformno zapisani, medsebojno povezani in prosto dostopni referenčni viri starejšega slovenskega jezika, dosegljivi na http://nl.ijs.si/imp/.

Ti viri svoj smisel dobijo šele skozi uporabo in v zaključkih je podanih nekaj mogočih smernic za njihovo izkoriščanje.

Kot je bilo omenjeno že v uvodu, sicer že obstajajo spletne digitalne knjižnice in slovarji, ki zajemajo tudi starejši slovenski jezik, vendar so njihova kvaliteta, obseg ali zasnova še vedno omejeni. Zato bodo pregledana, stavljena in dostopna nova besedila in slovar z do sedaj neobdelanimi besedami obogatili ponudbo na teh področjih. Uporabna so za branje in pregledovanje zainteresiranih posameznikov, pa tudi kot pripomoček pri učnem procesu, saj predstavljajo okno v aktualne teme in načine razmišljanja v posameznih obdobjih naše zgodovine, s poudarkom na drugi polovici 19. stoletja.

O jezikoslovju starejšega slovenskega knjižnega jezika seveda obstaja že cela vrsta študij (Herrity, 2001), od besedišča in strukture posameznega dela ali sklopa del (npr. Grafenauer, 1940; Golec, 2009) do širše zastavljenih obravnav (Merše [et al.], 1992;

Orožen, 1996), vendar so te raziskave tipično kvalitativne. Uporaba korpusa – seveda z zavedanjem o njegovi zvrstnosti in strukturi – omogoča tudi kvantitativne študije, posebej ob dostopu do zmogljivega konkordančnika. Razmeroma preprosto bi bilo npr. napraviti študijo diahronih premen slovenske leksike, frazeologije in terminologije.

Z jezikovnotehnološkega vidika so viri uporabni za učenje in testiranje orodij, ki jezikoslovno označijo besedne oblike s sodobnimi ustreznicami, jih oblikoskladenjsko ozna- čijo in lematizirajo. Prvi koraki v tej smeri so že bili narejeni (Erjavec, 2011b), vendar je mogoče kvaliteto avtomatskega označevanja še precej izboljšati. Kot že omenjeno, so aplikacije takšnih orodij v podpori iskanja po polnem besedilu digitalnih knjižnic, in ta funkcionalnost, izvedena za zdaj samo na osnovi statičnega slovarja IMP, se že uporablja v knjižnici dLib.si. Avtomatsko bi bilo mogoče tudi posodabljati leksiko starejših besedil, konec koncev pa tudi izdelati program, ki bi postaral sodobno besedilo. V bolj raziskovalno usmerjene naloge spada še avtomatska indukcija pravil za transkripcijo starinskih besednih oblik v sodobne ter uporaba metod strojnega prevajanja za poso- dabljanje besedil.

Za popularizacijo, dostopnost in vpetost virov IMP bo treba storiti še marsikaj. V ospred- ju raziskav spletno dosegljivih podatkov kulturne dediščine so agregatorji vsebin, kot

(15)

so Europeana, in, še v razvoju, portali projektov CLARIN⁷ in DARIAH⁸ oz. SI-DIH,⁹ in vire IMP bi bilo koristno spojiti z njimi, pa tudi npr. vključiti v ponudbo dLib.si. Zaželeno bi bilo tudi obogatiti metapodatke virov IMP. Tako ima npr. trenutno vsaka publikacija en naslov, ki so ga določili izdelovalci digitalne predloge. Vendar pa so, posebej pri starej- ših besedilih, naslovi v različnih jezikih ali pisavah, zato bi bilo koristno imeti naslov v več različicah, tudi v sodobni slovenščini. Rokopise, ki sestavljajo del zbirke, bi lahko dodatno opisali, saj TEI ponuja tudi modul za opis rokopisov.

Ročno označeni korpus bi si želeli tudi razširiti, predvsem z besedili iz druge polovice 18. in prve polovice 19. stoletja, prav tako pa zbrati še dodatna pregledana besedila, kjer bi vzeli tista iz WikiVira, in skozi te povečati tudi slovar.

zahvala

Avtor bi se rad zahvalil skupini LUGOS, predvsem Mojci Miklavec, za pomoč pri regi- straciji kode za bohoričico. Pri delu, ki je opisano v prispevku, so sodelovali Kozma Ahačič, Tina Benčina, Katja Cingerle, Metod Čepar, Darja Fišer, Alenka Jelovšek, Urška Kamenšek, Alenka Kavčič Ćolić, Maša Kodrič, Nina Mikulin, Matija Ogrin, Daša Pokorn, Erich Prunč, Zala Šmid, Ines Vodopivec in Maja Žorga Dulmin, delo pa sta podprla projekt EU IP IMPACT »Improving Access to Text« in nagrada Google »Developing Langua- ge Models of Historical Slovene«.

Navedeni viri

Arhar, Š. in Gorjanc, V. (2007). Korpus FidaPLUS: nova generacija slovenskega referenčnega korpusa. Jezik in slovstvo, 52 (2). Povzeto10. julija 2012 s spletne strani http://www.

jezikinslovstvo.com/pdf/2007-02-Razprave-SpelaArharInVojkoGorjanc.pdf

Christ, O. (1994). A Modular and Flexible Architecture for an Integrated Corpus Query System. V:

Proceedings of COMPLEX ’94, Budimpešta, str. 23–32.

Erjavec, T. (2011b). Automatic linguistic annotation of historical language: ToTrTaLe and XIX century Slovene. V: LaTeCH 2011: The 5th Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities. Portland, ZDA. Portland: Association for Computational Linguistics, str. 33−38. Povzeto10. julija 2012 s spletne strani http://aclweb.

org/anthology-new/W/W11/W11-1505.pdf

7 Glej http://www.clarin.eu/

8 Glej http://www.dariah.eu/

9 Glej http://www.sidih.si/

(16)

Erjavec, T., Vodopivec, I. in Kodrič, M. (2011). Izdelava korpusa starejših slovenskih besedil v okviru projekta IMPACT. Meddisciplinarnost v slovenistiki. Obdobja, 30. Ljubljana: Znanstvena založba Filozofske fakultete, str. 41-47. Povzeto10. julija 2012 s spletne strani http://www.

centerslo.net/files/file/simpozij/simp30/Zbornik/Erjavec_Jerel_Kodric.pdf

Erjavec, T. in Krek. S. (2008). Oblikoskladenjske specifikacije in označeni korpusi JOS. Zbornik Šeste konference Jezikovne tehnologije. Ljubljana. Povzeto10. julija 2012 s spletne strani http://nl.ijs.si/jos/bib/jos_isltc08.pdf

Erjavec, T. (2009). Odprtost jezikovnih virov za slovenščino. Infrastruktura slovenščine in slovenistike. Obdobja, 28. Ljubljana: Znanstvena založba Filozofske fakultete, str. 115−121.

Povzeto10. julija 2012 s spletne strani http://www.centerslo.net/files/file/simpozij/simp28/

Erjavec.pdf

Erjavec, T. (2011a). Slovenska prevodna književnost 1848−1918 : digitalna knjižnica in korpus AHLIB. Meddisciplinarnost v slovenistiki. Obdobja, 30. Ljubljana: Znanstvena založba Filozofske fakultete, str. 33-40. Povzeto10. julija 2012 s spletne strani http://www.centerslo.net/files/

file/simpozij/simp30/Zbornik/Erjavec.pdf

Erjavec, T. (2012). The goo300k corpus of historical Slovene. V: Eight International Conference on Language Resources and Evaluation (LREC'12), Istanbul. European Language Resources Association (ELRA). Povzeto10. julija 2012 s spletne strani http://www.lrec-conf.org/

proceedings/lrec2012/summaries/445.html

Golec, B. (2009). Mestna prisežna besedila v slovenskem jeziku do začetka 19. stoletja. Ljubljana : Inštitut za slovensko literaturo in literarne vede ZRC SAZU, Zgodovinski inštitut Milka Kosa ZRC SAZU Povzeto10. julija 2012 s spletne strani http://nl.ijs.si/e-zrc/prisege/

Grafenauer, I. (1940). »Duhovna bramba« in »Kolomonov žegen« (nove najdbe in izsledki).

Razprave I. Filozofsko-filološko-historični razred. Akademija znanosti in umetnosti v Ljubjani.

Povzeto10. julija 2012 s spletne strani http://nl.ijs.si/imp/bib/Bramba_in_Kolemon.pdf Herrity, P. (2001). Konstituiranje slovenskega knjižnega jezika: vloga zgodovine in lingvistike.

Slovenski knjižni jezik - aktualna vprašanja in zgodovinske izkušnje. Obdobja, 20. Ljubljana:

Znanstvena založba Filozofske fakultete, str. 531-539. Povzeto10. julija 2012 s spletne strani http://www.centerslo.net/files/File/simpozij/sim20/herrity.pdf

Hladnik, M. (2009). Infrastruktura slovenistične literarne vede. Infrastruktura slovenščine in slovenistike. Obdobja, 28, str. 161–169. Povzeto10. julija 2012 s spletne strani http://www.

centerslo.net/files/file/simpozij/simp28/Hladnik.pdf

Keber, J. (2006). Nova izdaja Pleteršnikovega Slovensko-nemškega slovarja. Jezikoslovni zapiski, 12(2), str. 161−166.

Krstulović, Z. in Šetinc, L. (2005). Digitalna knjižnica Slovenije – dLib.si. V: Informatika kot temelj povezovanja: zbornik posvetovanja, str. 683-689.

Merše, M., Jakopin, F. in Novak, F. (1992). Fonološki sistem knjižnega jezika slovenskih protestantov. Slavistična revija, 40(4), str. 321−340.

Orožen, M. (1996). Oblikovanje enotnega slovenskega knjižnega jezika v 19. stoletju. Ljubljana:

Filozofska fakulteta.

(17)

Pletschacher, S. in Antonacopoulos, A. (2010). The PAGE (Page Analysis and Ground-Truth Elements) Format Framework. V: 20th International Conference on Pattern Recognition (ICPR2010). Istanbul, 23.−26. avgust 2010, IEE‐CS Press, str. 257−260.

Prunč, E. (2007). Deutsch-slowenische/kroatische Übersetzung 1848−1918. Ein Werkstättenbericht. Wiener Slavistisches Jahrbuch, 53. Dunaj: Založba Avstrjske Akademije znanosti, str. 163−176.

Šorn, M. in Hadalin, J. (2010). Spletni portal SIstory: prost dostop do dosežkov slovenskega zgodovinopisja. Zbornik prispevkov 4. skupnega posvetovanja Sekcije za specialne knjižnice in Sekcije za visokošolske knjižnice Zveze bibliotekarskih društev Slovenije, Ljubljana, 27. in 28.

oktober 2010, str. 103−107.

TEI Consortium (2007). TEI P5: Guidelines for Electronic Text Encoding and Interchange. Povzeto 10. julija 2012 s spletne strani http://www.tei-c.org/Guidelines/P5/

dr. Tomaž erjavec

Institut »Jožef Stefan«, Odsek za tehnologije znanja, Jamova cesta 39, 1000 Ljubljana e-pošta: tomaz.erjavec@ijs.si