Anali za istrske in mediteranske študije Annali di Studi istriani e mediterranei Annals for Istrian and Mediterranean Studies Series Historia et Sociologia, 26, 2016, 4

(1)

ANNALES Series His toria e t Sociologia, 26, 20 16, 4

ISSN 1408-5348

Cena: 11,00 EUR 5

8 7 6

Anali za istrske in mediteranske študije Annali di Studi istriani e mediterranei Annals for Istrian and Mediterranean Studies

Series Historia et Sociologia, 26, 2016, 4

UDK 009 Annales, Ser. hist. sociol., 26, 2016, 4, pp. 629-802, Koper 2016 ISSN 1408-5348

1

4 3 2

(2)

KOPER 2016

Anali za istrske in mediteranske študije Annali di Studi istriani e mediterranei Annals for Istrian and Mediterranean Studies

Series Historia et Sociologia, 26, 2016, 4

UDK 009 ISSN 1408-5348

(3)

ISSN 1408-5348 UDK 009 Letnik 26, leto 2016, številka 4 UREDNIŠKI ODBOR/

COMITATO DI REDAZIONE/

BOARD OF EDITORS:

Simona Bergoč, Furio Bianco (IT), Milan Bufon, Lucija Čok, Lovorka Čoralić (HR), Darko Darovec, Goran Filipi (HR), Vesna Mikolič, Aleksej Kalc, Avgust Lešnik, John Martin (USA), Robert Matijašić (HR), Darja Mihelič, Edward Muir (USA), Claudio Povolo (IT), Vida Rožac Darovec, Mateja Sedmak, Lenart Škof, Tomislav Vignjević, Salvator Žitko

Glavni urednik/Redattore capo/

Editor in chief: Darko Darovec Odgovorni urednik/Redattore

responsabile/Responsible Editor: Salvator Žitko Uredniki/Redattori/Editors: Urška Lampe

Gostujoči urednici/Guest editors: Tina Rožac, Klara Šumenjak

Prevajalci/Traduttori/Translators: Tina Rožac (it., ang., slo.), Petra Berlot (it.) Oblikovalec/Progetto grafico/

Graphic design: Dušan Podgornik , Darko Darovec Tisk/Stampa/Print: Grafis trade d.o.o.

Izdajatelja/Editori/Published by: ZgodovinskodruštvozajužnoPrimorsko - Koper/Societàstorica delLitorale - Capodistria©

Za izdajatelja/Per Editore/

Publisher represented by: Salvator Žitko Sedež uredništva/Sede della redazione/

Address of Editorial Board: SI-6000 Koper/Capodistria, Kreljeva/Via Krelj 3,

e-mail: annaleszdjp@gmail.com,internet: http://www.zdjp.si/

Redakcija te številke je bila zaključena 15. 12. 2016.

Sofinancirajo/Supporto finanziario/

Financially supported by: Javna agencija za raziskovalno dejavnost Republike Slovenije (ARRS)

Annales - Series historia et sociologia izhaja štirikrat letno.

Maloprodajna cena tega zvezka je 11 EUR.

Naklada/Tiratura/Circulation: 300 izvodov/copie/copies

Revija Annales, Series historia et sociologia je vključena v naslednje podatkovne baze / La rivista Annales, Series historia et sociologia è inserita nei seguenti data base / Articles appearing in this journal are abstracted and

indexed in: Thomson Reuters (USA): Arts and Humanities Citation Index (A&HCI) in/and Current Contents / Arts

& Humanities; IBZ, Internationale Bibliographie der Zeitschriftenliteratur (GER); Sociological Abstracts (USA);

Referativnyi Zhurnal Viniti (RUS); European Reference Index for the Humanities (ERIH); Elsevier B. V.: SCOPUS (NL).

Vsi članki so v barvni verziji prosto dostopni na spletni strani: http://www.zdjp.si.

All articles are freely available in color via website http://www.zdjp.si.

(4)

Metka Furlan: Slovenska dialektologija:

od gradiva do interpretacije ... 629 La dialettologia slovena: dal materiale

linguistico all‘interpretazione Slovene dialectology: from linguistic material to interpretation

Luka Repanšek: Dial. Slovene *kvȇs- and

the accentual history of Proto-Slavic *kry ‘blood’ ... 639 Narečnoslovensko *kvȇs- in naglasni razvoj

praslovanskega *kry ‘kri’

Lo sloveno dialettale *kvȇs- e lo sviluppo accentuale da protoslavo *kry ‘sangue’

Tjaša Jakop: Tipologija samostalnikov moškega

spola v srednjesavinjskem narečju ... 647 Tipologia dei sostantivi mascolini nel dialetto

della Valle del Savinja centrale

The typology of masculine noun forms in the central Savinja dialect

Jožica Škofic: Naglasni tipi ženske a-jevske sklanjatve

v krajevnem govoru Krope na Gorenjskem ... 655 L’accentuazione della a-declinazione nella parlata locale di Kropa nella regione della Gorenjska Accentuation and declension of feminine a-stem nouns in the Slovenian Gorenjsko local dialect of Kropa Mojca Horvat: Narečne tvorjenke z vmesnim

morfemom -ov-/-ev- iz pomenskega polja

kulturne rastline ... 663 Derivati dialettali con il morfema interno

-ov-/-ev- dal campo semantico delle colture Dialectal complex words with a morpheme

-ov-/-ev- from the semantic field of cultivated plants Mihaela Koletnik: Narečna poimenovanja

za zdravilne rastline v Krajinskem parku Goričko .... 671 Denominazioni dialettali delle erbe medicinali

del Parco naturale del Goričko Dialectal names for medicinal herbs in Krajinski park Goričko

Anali za istrske in mediteranske študije - Annali di Studi istriani e mediterranei - Annals for Istrian and Mediterranean Studies

VSEBINA / INDICE GENERALE / CONTENTS

UDK 009 Letnik 26, Koper 2016, številka 4 ISSN 1408-5348

Matej Šekli: Frazni glagoli v rezijanskem

narečju slovenščine ... 689 Sintagmi con verbi copulativi nel dialetto

sloveno di Resia/Rezija

Coupulas with object complement in the Resian/rezijansko dialect of Slovene

Danila Zuljan Kumar: Priredne stavčne

strukture v nadiškem in briškem narečju ... 699 Proposizioni coordinate nei dialetti

del Natisone e del Collio

Coordinate clauses in the nadiško/Natisone and the Brda/Collio dialects

Andreja Žele: Aktualni jezikovni načini izražanja v slovenščini: sklapljanje

kot naravni in aktualni odraz nepretrganosti

govora v narečnem in knjižnem jeziku ... 709 Il metodo attualizzato di verbalizzazione

in lingua slovena: la giustapposizione come espressione attuale di natura ininterrotta del parlato in collegamento i componenti sistemici e non sistemici della lingua slovena The current modes of expression in Slovenian:

juxtaposition as a natural and topical reflection of the continuity of speech

in both dialect and standard literary language

Barbara Ivančič Kutin: Folklorno gradivo in njegov zapis kot stičišče slovstvene folkloristike in dialektologije. Pogled

v preteklost in predlogi za prihodnost ... 715 Materiale folkloristico e la sua trascrizione

come giunzione tra la folkloristica letteraria e la dialettologia. Uno sguardo

nel passato e proposte per il futuro Folklore material and its recording as the point of contact between folkloristics and dialectology. A look into the past and a proposal for the future

(5)

Anali za istrske in mediteranske študije - Annali di Studi istriani e mediterranei - Annals for Istrian and Mediterranean Studies Tina Rožac: Diskurzni označevalci

v besedilnih vrstah vsakdanjih pogovorov.

Študija primera Rakitovca v slovenski Istri ... 727

Segnali discorsivi nei tipi di testo delle conversazioni quotidiane. Ricerca sul esempio del villaggio Rakitovec nell’Istria slovena Discourse markers in text genres of everyday conversations. Case study of Rakitovec in Slovenian Istria Klara Šumenjak: Uporabnost korpusne obdelave podatkov pri oblikoslovni analizi narečnega govora: 1. sklanjatev samostalnikov moškega spola v koprivskem govoru ... 741

L’utilità dell’elaborazione dei dati dai corpora nell’analisi morfologica della parlata dialettale: prima declinazione dei sostantivi maschili nella parlata di Kopriva sul Carso Usefulness of the corpus approach for morphological analysis of dialects: first declension of masculine nouns in the dialect of kKopriva na Krasu Jernej Vičič: Jezikovni viri za prevajalne sisteme ... 751

Materiali linguistici prodotti per sistemi di traduzione automatica Linguistic materials for the machine translation systems Urška Lampe: Obeležji v spomin deportiranim iz Julijske krajine po drugi svetovni vojni v goriškem Parku spomina ... 767

I due monumenti in memoria dei deportati dalla Venezia Giulia del secondo dopoguerra nel Parco della rimembranza di Gorizia Two monuments in memory of the deportees from Venezia Giulia after World War II in the Gorizia Park of remembrance Zaure Malgarayeva, Indira Akylbayeva, Nurlan Mukhlissov & Bagila Tairova: Technology of formation of poly-ethnicity in the discourse of modern states ... 779

Tecnologia di formazione di polietnicità nel dibattito sugli stati moderni Tehnologija oblikovanja polietničnosti v diskurzu modernih držav OCENE/RECENSIONI/REVIEWS Gherardo Ortalli & Ornella Pittarello (ur.): Cronica Jadretina. Venezia – Zara, 1345–1346 (Darja Mihelič) ... 791

Zdenka Bonin & Deborah Rogoznica: Koprska rodbina Grisoni in njene sorodstvene povezave (Salvator Žitko) ... 792

Michele Grison: Giannandrea De Gravisi. Scritti editi (Salvator Žitko) ... 794

IN MEMORIAM Silvano Sau (1942–2016) (Tilen Glavina, Darko Darovec) ... 796

Kazalo k slikam na ovitku ... 798

Indice delle foto di copertina ... 798

Index to images on the cover ... 798

Navodila avtorjem ... 799

Istruzioni per gli autori ... 801

Instructions to authors ... 803

(6)

original scientifi c article DOI 10.19233/ASHS.2016.57 received: 2014-12-05

JEZIKOVNI VIRI ZA PREVAJALNE SISTEME

Jernej VIČIČ

Univerza na Primorskem, Inštitut Andreja Marušiča, Muzejski trg 2, 6000 Koper e-mail: jernej.vicic@upr.si

IZVLEČEK

V članku so predstavljeni jezikovni viri sistema za strojno prevajanje naravnih jezikov jezikovnega para sloven- ščina – hrvaščina. Prikazan je sistem za strojno prevajanje z vsemi pripadajočimi jezikovnimi viri. Za vsak vir je opisana metoda izdelave, tako osnovna samodejna metoda kot načini ročnega čiščenja izdelanih virov. Evalvacija je imela dva osnovna cilja: evalvacija kakovosti prevodov prevajalnega sistema ter evalvacija velikosti in kakovosti posameznih jezikovnih virov. Vsa opisana gradiva in tudi celoten sistem so prosto dostopni.

Ključne besede: strojno prevajanje naravnih jezikov, oblikoskladenjski slovar, pravilo prevoda, paradigma, lema

MATERIALI LINGUISTICI PRODOTTI PER SISTEMI DI TRADUZIONE AUTOMATICA

SINTESI

Nell’articolo viene presentato il materiale linguistico per il sistema di traduzione automatica di linguaggi naturali per la coppia di lingue sloveno-croato. Si presenta il sistema di traduzione automatica affi ancato dalla completa documentazione linguistica inerente. Viene inoltre descritta la modalità di realizzazione del materiale stesso, data non soltanto dalla metodologia di base automatica, ma anche dai procedimenti manuali di selezione del materiale prodotto. La valutazione ha avuto due obiettivi fondamentali: la valutazione della qualità delle traduzioni ottenute mediante il sistema di traduzione, e la valutazione dell’ampiezza e della qualità del materiale linguistico. Tutta la documentazione descritta nonché l’intero sistema sono liberamente accessibili.

Parole chiave: traduzione automatica di linguaggi naturali, vocabolario morfosintattico, vocabolario, regole di traduzione, paradigma, lemma

(7)

752

Jernej VIČIČ: JEZIKOVNI VIRI ZA PREVAJALNE SISTEME, 751–766

UVOD

Razlogov za postavitev prevajalnega sistema za opisani jezikovni par je več. Omeniti jih velja vsaj nekaj.

Dejstvo je, da sta ekonomiji držav, v okviru teh pa še zlasti turizem na območju slovenske in hrvaške Istre (to velja pravzaprav za vse obmejne regije (SVLR, 2006), v zadnjem času vedno bolj povezani. Poleg tega pa nas povezujejo skupne zgodovinske, gospodarske, kulturne in družbene značilnosti.

Izhodišče za izdelavo prevajalnega sistema za opisani jezikovni par je med drugim tudi načelo Sveta Evrope o jezikovni raznolikosti (Jagland in Vassiliou, 2011), prevajalni sistem pa oblikovan na primer za potrebe gospodarstva na eni ter čezmejnih projektov s področja kulturne in naravne dediščine na drugi strani. Še zlasti pa nas je pri postavljanju prevajalnega sistema vodilo dejstvo, da ga pri svojem raziskovanju ter medkultur- nem in čezmejnem sodelovanju lahko koristno izrabijo prav raziskovalci različnih področij tako naravoslovja in družboslovja kot tudi humanistike. Kot primer naj navedem prevajalni sistem kot pripomoček pri snovanju in vodenju različnih bilateralnih in mednarodnih projektov (npr. Interreg). Prav tako se lahko tovrstna orodja uporabljajo na področju izobraževanja.

Glede na to, da imajo mlajše generacije, generacije po razpadu Jugoslavije, pri medsebojni komunikaciji jezikovne težave, lahko takšna orodja presežejo razme- jenost med državama ter nedvomno olajšajo komunika- cijo med sorodnima jezikoma, še posebej na obmejnih območjih, kjer je stikov veliko več in, posledično, komunikacija pogostejša.

Gradiva, ki sestavljajo prevajalni sistem in so opisana v 3. razdelku, se lahko uporabijo na področjih humanistike ter kulturne in naravne dediščine, in sicer pri izdelavi področnih glosarjev in terminoloških slovarjev, zgrajenih s pomočjo oblikoskladenjskih slovarjev obeh jezikov, ter dvojezičnih terminoloških slovarjev, zgrajenih s pomočjo dvojezičnega slovarja prevajalnega sistema.

Članek je strukturiran takole: prvi razdelek predstavlja raziskovalno domeno in predstavi osnovne pojme.

Drugi razdelek prek predstavitve osnovnih pojmov uvede bralca v raziskovalno domeno. Sledi opis posameznih jezikovnih gradiv in metodologije samodejne izdelave ter ročnega popravljanja teh gradiv v tretjem razdelku. Četrti razdelek predstavlja metode ter rezultate evalvacije jezikovnih gradiv in prevajalnega sistema.

Članek se zaključi s predstavitvijo načinov dostopnosti prevajalnega sistema in jezikovnih gradiv ter opisom smernic za nadaljnje delo.

Strojno prevajanje

Pregled strojnega prevajanja (Sanchez-Martnez et al., 2007) deli področje na dve skupini: prevajanje s pomočjo pravil (Rule-Based – RBMT) in prevajanje na osnovi korpusov (Corpus-Based – CBMT).

• RBMT obsega sisteme in metode za prevajanje s pomočjo zbirke pravil. Način zapisa pravil se med sistemi razlikuje, veže pa jih skupno dejstvo, da je postavitev takšnega sistema dolgotrajno opravilo. Primeri sistemov: Presis,¹ Systran,² Promt,³ Apertium.⁴

• CBMT obsega sisteme, ki sledijo naslednjemu vzoru: pripravljena je množica referenčnih prevodov, ki so analizirani in prevedeni v modele prevajalnega sistema po načelih, ki določajo prevajalni sistem (faza učenja). Ti modeli slu- žijo kot osnova za poznejše prevode neznanih povedi (faza prevajanja). Najbolj razširjena paradigma med sistemi CBMT je statistično strojno prevajanje (Statistical Machine Transla- tion – SMT) Primeri sistemov: Google Translate v osnovni obliki⁵ (Och, 2006), Moses (Koehn et al., 2007).

• Hibridni sistemi predstavljajo mešanico obeh pristopov. Osnov a takšnih sistemov sodi v eno od predstavljenih paradigem in je oplemenitena z metodami druge paradigme. Primeri sistemov:

Google Translate za izbrane jezikovne pare (Och, 2006), Microsoft Bing.⁶

Strojno prevajanje in slovenščina

Pregled spleta (2. 5. 2016) ponuja izbiro naslednjih prevajalnih sistemov, v katerih v jezikovnih parih nasto- pa tudi slovenščino (sistemi so urejeni po abecednem vrstnem redu):

• Bing Translator je hibridni sistem za strojno prevajanje naravnih jezikov. Sistem temelji na statističnem strojnem prevajalniku, ki uporablja tudi pravila, odvisna od jezika, ter določeno mero analize izvornega besedila. Microsoft ta sistem defi nira kot »jezikovno obveščeno stati- stično strojno prevajanje« (Linguistically informed statistical machine translation). Sistem je v osnovi statistični sistem za strojno prevajanje na osnovi fraz, ki vključuje jezikovno odvisno analizo besedila, drevesa odvisnosti (dependency trees) ter drevesa izpeljave (parse trees) in pravila za poravnavo besed (word alignment rules) za gene- ralizacijo naučenih fraz.

1 Presis: http://presis.amebis.si/.

2 Systran: http://www.systransoft.com/.

3 ProMT: http://www.online-translator.com/.

4 Apertium: http://www.apertium.org/.

5 Google Translate: https://translate.google.com/.

6 Microsoft Bin translator: https://www.bing.com/translator.

(8)

• Google Translate je za jezikovne pare s sloven- ščino tipičen predstavnik sistemov statističnega strojnega prevajanja (SMT). Prevodi se izvajajo prek jezika, v tem primeru angleščine, kar pomeni, da se izvorno besedilo najprej prevede v angleščino in šele nato v ciljni jezik. Poleg te omejitve Google Translate ne uporablja dodatnih metod, ki temeljijo na pravilih, ki jih uporablja za nekatere jezikovne pare (Vičič in Kuboň, 2015).

• iTranslate4.eu je Evropski projekt z istim imenom (http://www.itranslate4.eu/) in željo povečati za- upanje v strojno prevajanje. Končna naloga tega sistema je postavitev spletnega portala za prevajanje med evropskimi jeziki. Portal uporablja raz- lične prevajalne sisteme in izbiro sistemov tudi prikaže. Portal za prevode ponuja več predlogov, ki jih sestavi z različnimi prevajalnimi sistemi.

Slovenščino podpira prevajalni sistem Presis1 podjetja Amebis, ki se po potrebi kombinira še z drugimi prevajalniki za druge jezike.

• Presis podjetja Amebis (Romih in Holožan, 2002) je bil prvi sistem za strojno prevajanje, ki je med prevajalnimi jezikovnimi pari vseboval slovenski jezik. Sistem sodi v paradigmo strojnih prevajalnih sistemov na osnovi pravil (Rule-Based Machine Translation – RBMT). Presis razčleni vsako poved v izvornem jeziku na slovnične komponente, kot so osebek, predmet, povedek in atributi ustreznih semantičnih kategorij. Na osnovi analiziranega izvornega besedila izbere pripravljena pravila, ki omogočajo prevod analiziranih komponent v ciljni jezik, nato sintetizira poved v ciljnem jeziku.

• Prevajalni sistem Guat⁷ (Vičič, 2012) (ime je dobil po majhnih ribah Gobiidae, ki živijo tudi v slovenskem morju) je bil zgrajen med razvojem metod, prikazanih v poglavju Metodologija.

Sistem podpira jezikovna para slovenščina – srbščina in slovenščina – hrvaščina. Metode so bile preverjene prek več iteracij (sistematične napake so bile popravljene in popravki so vklju- čeni v osnovno ogrodje). Posebnosti jezikovnih

parov so: jeziki so zelo pregibni, oblikoslovno in derivacijsko bogati. Visoka stopnja pregibnosti zahteva oblikoskladenjsko analizo izvornega jezika in, posledično, oblikoskladenjsko sintezo v končni fazi v ciljnem jeziku, čeprav so si jeziki sorodni.

Strojno prevajanje na osnovi pravil plitkega prenosa Sistemi strojnega prevajanja s pravili plitkega prenosa (shallow transfer rule based machine translation) v večini primerov uporabljajo enostavno arhitekturo, pri čemer je analiza izvornega jezika omejena na oblikoskladenjske oznake. Arhitektura, ki jo uporablja večina sistemov za strojno prevajanje naravnih jezikov na osnovi pravil plitkega prenosa in plitke sinteze, je prikazana na sliki 1.Ta arhitektura je bila najprej predstavljena v (Hajič et al., 2000) in pozneje uporabljena tudi v ogrodju Apertium (Corbi-Bellot et al., 2005).

Opis posameznih modulov prevajalnega sistema, kot so prikazani na sliki 1:

• Oblikosk ladenjska analiza (morphosyntactic analysis) izvornega besedila vsaki besedi pripiše vse možne oblikoskladenjske oznake, ki bi jih ta besedna oblika lahko imela.

• Razdvoumljanje (disambiguation) služi za izbiro najverjetnejše oznake za posamezno besedo glede na njeno okolico.

• Strukturni prenos s pomočjo pravil in dobesednih prevodov prenese označeno besedilo v ciljni jezik.

• Oblikoskladenjska sinteza nadomesti oblikoskladenjsko označeno besedilo z dejanskimi besednimi oblikami v ciljnem jeziku.

Moduli so natančneje opisani v 5. razdelku, in sicer na primeru ogrodja Apertium (Corbi-Bellot et al., 2005).

Apertium – odprtokodno ogrodje za prevajalni sistem sorodnih jezikov

Apertium (Corbi-Bellot et al., 2005) je odprtokodno ogrodje za postavitev samodejnega prevajalnega sis- Izvorno besedilo

Oblikoskladenjska sinteza Strukturni prenos

Razdvoumljanje (MSD označevalec) Oblikoskladenjska

analiza

Ciljno besedilo

7 Prevajalnik GUAT: http://jt.upr.si/guat.

Slika 1: Moduli tipičnega sistema za strojno prevajanje na osnovi pravil plitkega prenosa

(9)

754

tema za sorodne jezike tipa plitkega prenosa (shallow transfer) (Sanchez-Martinez in Ney, 2006). Predstavlja ogrodje, ki omogoča prevajanje med sorodnimi jeziki s pomočjo pravil. Uvršča se med sisteme za samodejno prevajanje naravnih jezikov na osnovi pravil plitkega prenosa (shallow-transfer RBMT). Prevajanje je razdelje- no na pet osnovnih faz:

• označevanje neprevajanih razdelkov,

• leksikalni prenos ,

• odpravljanje dvoumnosti (disambiguation),

• strukturni prenos ,

• dejanski prevod posameznih besed in besednih zvez.

Arhitektura ogrodja Apertium je predstavljena na sliki 1.

METODOLOGIJA

V naslednjih razdelkih so opisana vsa jezikovna gradiva, ki jih potrebujemo za postavitev sistema za strojno prevajanje sorodnih jezikov z ogrodjem Apertium. Opi- sani so tudi postopki samodejne izdelave gradiv in najpo- membnejše napake v njih, ki so bile ročno odpravljene.

Nabor oblikoskladenjskih oznak

V postopku oblikoskladenjskega označevanja, v literaturi pogosto predstavljenega tudi kot označevanje z oblikoskladenjskimi oznakami – MSD (morphosyntactic descriptions), so posameznim besedam v besedilu pripisane oznake, upoštevajoč besedni razred (ali: bese- dnovrstno kategorijo) in tudi njeno okolico v besedilu. V slovenskih korpusih so standardne oznake MSD po dveh virih oblikoskladenjskih specifi kacij:

• projekt JOS (Erjavec et al., 2010a), same specifi - kacije so predstavljene v Erjavec, 2010b,

• projekt MULTEXT(-East) (Dimitrova et al., 1998), ki temeljijo na delu skupine EAGLES (Calzolari in Monachini, 1996).

Oboje določajo strukturo in vsebino veljavnih oblikoskladenjskih oznak ali MSD-jev.

Nabor oblikoskladenjskih oznak ogrodja Apertium je prirejen za uporabo v dokumentih v formatu XML.

Oznake so sestavljene iz posameznih oznak, ki jih lepimo skupaj (konkateniramo). Vrstni red ne spremeni kategorij in lastnosti posamezne oznake, a je pri prevajanju še vedno pomemben. Primeri oznak s slovenskimi prevodi so predstavljeni v tabeli 1.

Oblikoskladenjski slovar

Oblikoskladenjski slovar združuje vse besedne oblike, ki spadajo v isto pregibno skupino, v razrede z osnovno obliko – lemo. Nadalje, te razrede oziroma skupine druži v paradigme, razrede, ki združujejo vse

leme, ki se spreminjajo po istih pravilih glede na oblikoskladenjske oznake.

Oblikoskladenjski slovar, ki ga uporablja Apertium , lahko pa bi takšne slovarje z manjšimi spremembami uporabljali tudi drugi prevajalni sistemi ali pa jezikovno gnane aplikacije, temelji na lemah, ki so zbrane v paradigmah. Posamezna paradigma združuje vse leme, ki se Tabela 1: Razlaga značk in atributov zapisa oblikoskla- denjskih oznak v formatu Apertium.

oznaka opis

〈n〉 samostalnik

〈nom〉 imenovalnik

〈gen〉 rodilnik

〈m〉 moški spol

〈f〉 ženski spol

〈nt〉 srednji spol

〈sg〉 ednina

〈pl〉 množina

〈du〉 dvojina

〈vblex〉 glavni glagol

〈vbser〉 pomožni glagol

〈adj〉 pridevnik

〈adv〉 prislov

Slika 2: Del zapisov v enojezičnem slovarju. Lema je za- pisana v atributu lm značke e, nato sledi krn ter značka par, ki označuje paradigmo. Zapis cerkev je predstavljen z lemo, krnom ter paradigmo.

<e lm="cepljen">

cepljen

<par n="veplen/__adj"/>

</e>

<e lm="procesija">

procesij

<par n="og/a__n"/>

</e>

…

<e lm="cerkev">

cerk

<par n="cerk/ev__n"/>

</e>

lema: cerkev krn: cerk

paradigma: cerk/ev__n

Slika 2: Del zapisov v enojezičnem slovarju. Lema je zapisana v atributu lm značke e, nato sledi krn ter značka par, ki označuje paradigmo. Zapis cerkev je predstavljen z lemo, krnom ter paradigmo.

Slika 2 prikazuje primere lem in njihovo članstvo v paradigmah. Lema je predstavljena s svojim imenom (ime leme), krnom, najdaljšim delom, ki je skupen vsem njenim besednim oblikam, in z imenom paradigme, v kateri so opisana vsa pravila sprememb glede na oblikoskladenjske kategorije.

Primer za lemo cerkev je predstavljen na sliki 2. Posamezna gesla enojezičnega slovarja so združena v oblikoskladenjske paradigme, kot so definirane v (Spencer, 1991).

Oblikoskladenjske paradigme vsebujejo vse leme, katerih besedne oblike se spreminjajo na enak način za vse oblikoskladenjske oznake (oznake MSD).

Slika 3 prikazuje primer paradigme za ženski samostalnik v slovenščini. Uporaba paradigme omogoča izdelavo kompaktnejšega zapisa podatkov. Za paradigmo cerk/ev__samostalnik v slovenskem jeziku velja: vsi samostalniki prve ženske sklanjatve paradigme -ev, kot so cerkev, breskev, podkev, se sklanjajo po istem vzorcu in jih združimo v isto paradigmo. Enostavno pravilo določa spremembo besede iz imenovalnika v rodilnik s spremembo končnice iz cerkev v cerkve, torej eno pravilo tako zadošča za celo skupino besed in ne le za en osamljeni primer.

Tabela 2: Razlaga značk in atributov zapisa slovarjev v formatu Apertium

oznaka opis

pardef definicija paradigme

(10)

spreminjajo po istih pravilih glede na oblikoskladenjske oznake.

Slika 2 prikazuje primere lem in njihovo članstvo v paradigmah. Lema je predstavljena s svojim imenom (ime leme), krnom, najdaljšim delom, ki je skupen vsem njenim besednim oblikam, in z imenom paradigme, v kateri so opisana vsa pravila sprememb glede na oblikoskladenjske kategorije.

Primer za lemo cerkev je predstavljen na sliki 2.

Posamezna gesla enojezičnega slovarja so združena v oblikoskladenjske paradigme , kot so defi nirane v (Spencer, 1991). Oblikoskladenjske paradigme vsebujejo vse leme, katerih besedne oblike se spreminjajo na enak način za vse oblikoskladenjske oznake (oznake MSD).

Slika 3 prikazuje primer paradigme za ženski samostalnik v slovenščini. Uporaba paradigme omogoča izdelavo kompaktnejšega zapisa podatkov. Za paradigmo cerk/ev__samostalnik v slovenskem jeziku velja: vsi samostalniki prve ženske sklanjatve paradigme -ev, kot so cerkev, breskev, podkev, se sklanjajo po istem vzorcu in jih združimo v isto paradigmo. Enostavno pravilo določa spremembo besede iz imenovalnika v rodilnik s spremembo končnice iz cerkev v cerkve, torej eno pravilo tako zadošča za celo skupino besed in ne le za en osamljeni primer.

Posamezen zapis v slovarju je predstavljen z oznako XML e, atribut te oznake lm predstavlja ime leme, gnezdena oznaka i krn besede, oznaka par pa ime paradigme.

e element for entry – zapis v slovarju in paradigmi

p string pair – par nizov

par reference to paradigm – povezava na paradigmo

re reference to regular expression – povezava na regularni izraz

s reference to regular symbol – povezava na simbole oblikoskladenjskih oznak

i reference to identity transduction – način za zapis para nizov z isto vsebino

l left part – leva stran zapisa besedila s slovničnimi simboli

r right part – desna stran zapisa besedila s slovničnimi simboli

lm Lema atribut Opis

n dejanska vsebina značke s

Posamezen zapis v slovarju je predstavljen z oznako XML e, atribut te oznake lm predstavlja ime leme, gnezdena oznaka i krn besede, oznaka par pa ime paradigme.

Pri indoevropskih jezikih, ki večinoma uporabljajo konkatenativno oblikoslovje,⁸ besedne oblike določajo menjave obrazil, najpogosteje pripon ter včasih predpon.

8 Besede so sestavljene iz več združenih (concatenated) morfemov.

Slika 3: Del paradigme za samostalnike ženskega spola v slovenščini. Tipični predstavnik je lema cerkev. Končnica -ev se spreminja v skladu z različnimi MSD-ji. Značke so obširneje predstavljene v Tabeli 2

Tabela 2: Razlaga značk in atributov zapisa slovarjev v formatu Apertium

oznaka opis

〈pardef〉 defi nicija paradigme

〈e〉 element for entry – zapis v slovarju in paradigmi

〈p〉 string pair – par nizov

〈par〉 reference to paradigm – povezava na paradigmo

〈re〉 reference to regular expression – povezava na regularni izraz

〈s〉 reference to regular symbol – povezava na simbole

oblikoskladenjskih oznak

〈i〉 reference to identity transduction – način za zapis para nizov

z isto vsebino

〈l〉 left part – leva stran zapisa besedila s slovničnimi simboli

〈r〉 right part – desna stran zapisa besedila s slovničnimi simboli

〈lm〉 Lema

atribut Opis

n dejanska vsebina značke ásñ

(11)

756

Pri indoevropskih jezikih, ki večinoma uporabljajo konkatenativno oblikoslovje,⁸ besedne oblike določajo menjave obrazil, najpogosteje pripon ter včasih predpon.

V to družino spada večina evropskih jezikov. Primer iz češčine: pridevnik sladký (sladek) lahko spremeni- mo v nej-slad-ší-ho (najslajši – moški ali srednji spol imenovalnik ali tožilnik) z dodajanjem pripone nej-, ki predstavlja presežnik, in z menjavo pripone -ký (kompa- rativ) s pripono -ší ter z dodajanjem pripone -ho moški ali srednji spol imenovalnik ali tožilnik.

Samodejna izdelava enojezičnih oblikoskladenjskih slovarjev izvornega in ciljnega jezika

Iz oblikoskladenjsko označenega in lematiziranega korpusa najprej izluščimo vse besedne oblike ter jih združimo po lemah. Lahko bi uporabili poljuben oblikoskladenjsko označen korpus, uporabili smo poravna- ni del korpusa MULTEXT-EAST (Dimitrova et al., 1998), ki ga sestavlja roman 1984 (Orwell, 1949) predvsem zaradi dostopnosti. V okviru tega projekta je nastal tudi leksikon, ki pa ga nismo uporabili zaradi možnih licenč- nih težav, poleg tega pa nam metoda omogoča širjenje leksikona z dodatnimi korpusi.

Leme z enakimi spremembami družimo v paradigme, kar nam omogoča sestavljanje manjkajočih besednih oblik. Vsaka paradigma ima naslednje elemente:

• tipična lema – iz te leme izpeljemo začetno paradigmo,

• krn – najdaljši skupni del vseh besednih oblik v lemi,

• množica vseh besednih oblik, razdeljenih na krn, ter obrazila – k vsaki besedni obliki je zapisana oblikoskladenjska oznaka po (Erjavec, 2010b).

Metoda je bila predstavljena v članku (Vičič, 2009).

Primer paradigme je prikazan na sliki 4.

Paradigme izdelamo z naslednjim algoritmom: vse besedne oblike za vsako lemo združimo v razred, ki predstavlja to lemo. Za vsak razred izdelamo paradigmo, ki vsebuje na začetku le zapise ene leme. Sledi zdru-

ževanje paradigem: dve paradigmi združimo v eno, če pripadata isti besedni vrsti (prva kategorija MSD) in če se noben par zapisov ne izključuje. Dva zapisa se izključu- jeta, če imata enako oznako MSD in različna obrazila, kot kaže primer na sliki 5. Vsaka paradigma ima shranjen celoten seznam vseh lem, ki jo sestavljajo; ta seznam pri združevanju vsebuje leme obeh paradigem.

Oblikoskladenjski slovarji izvornega in ciljnega jezika so bili zgrajeni s pomočjo paradigem ; leme z manjkajočimi besednimi oblikami v originalnih slovarjih so bile dopolnjene, velikost končnega slovarja je bila približno dvajsetkrat večja od začetnega (Vičič, 2009).

Ročna predelava enojezičnega slovarja

Ročni pregled je bil zastavljen metodično: vsako besedno vrsto smo obravnavali ločeno in poskušali odkriti sistematske napake. Posebej smo se lotili odprave napak slovarja zaradi napak v izvornih učnih gradivih.

Glagoli so imeli določene že vse potrebne oznake, ki jih potrebujemo pri prevajanju v našem sistemu:

namenilnik, povednik, velelnik, deležnik na -n/-t ter deležnik na -l. Poleg osnovnih oblik je bil določen tudi glagolski vid. Samodejna metoda ni upoštevala podatkov o glagolski prehodnosti. Vse glagolske paradigme so bile podvojene, tako da smo lahko označili obe oblikoskladenjski oznaki za glagolsko prehodnost.

Z ročnim označevanjem smo za vsako lemo posebej določili pravilne oznake.

V slovenščini pridevnike in prislove stopnjujemo tristopenjsko, in sicer kot osnovnik, primernik, presežnik, ter dvostopenjsko kot osnovnik in elativ (Toporišič, 2000).

Dopolnjene so bile paradigme, ki pokrivajo vse štiri osnovne oblike; z ročnim označevanjem so bile označene leme, za katere obstaja samo osnovnik oziroma različne kombinacije vseh štirih oblik. Za lažje generiranje pri- devniških oblik so bile paradigme osnovnih oblik vezane na sekundarne paradigme, ki vsebujejo še oznake, kot so Slika 4: Del paradigme cerk-ev. Lema: cerkev, krn: cerk,

dve besedni obliki cerkev in cerkvah

8 Besede so sestavljene iz več združenih (concatenated) morfemov.

Slika 5: Končnici besednih oblik z isto oznako MSD se ne ujemata, kar pomeni, da paradigem ne združimo

(12)

spol, število, sklon in določnost. Uporabljene oblikoskladenjske oznake označujejo vse potrebne informacije za prevajanje jezikovnega para, razen opisanih pomanjklji- vosti. Treba je bilo le dodati manjkajoče leme.

Poleg samodejno zgrajenih gradiv smo uporabili tudi že obstoječa gradiva projekta Apertium, izdelana v okviru pilotskega prevajalnega sistema srbščina in hrvaščina ter makedonščina⁹ v okviru projekta Google Summer Of Code 2011 (Google, 2012b).

Dvojezični slovar

Dvojezični slovarji temeljijo na parih <izvorna lema – ciljna lema> in na poravnanih besednih zvezah v lematizirani obliki, torej na dobesednih prevodih lem. Primeri dvojezičnih prevodov lem iz slovenščine v hrvaščino so predstavljeni na sliki 6.

Pri prev ajanju se poleg samega prenosa iz izvornega v ciljni jezik prenesejo oziroma prevedejo tudi oblikoskladenjske oznake . Primer (1) prikazuje prevod hrvaške besede prozor v slovensko besedo okno, pri čemer se spremeni tudi spol iz moškega v srednji.

Oznaka izvorne leme se ponavadi ujema z oznako ciljne leme, še posebej pri sorodnih jezikih. Uporaba oznak omogoča razdvoumljanje lem z istim imenom in različnim pomenom. Dvojezični slovar z menjavo oznak omogoča opisovanje leksikalnih razlik med jezikoma.

Samodejna izdelava dvojezičnih prevajalnih slovarjev Dvojezični prevajalni slovar vsebuje besede enoje- zičnih slovarjev ter njihove ustrezne prevode z vsemi ustreznimi oblikoskladenjskimi oznakami. Pri tem mora-

mo paziti, da se oblikoskladenjske oznake izvornega ter ciljnega slovarja pokrivajo, v tem primeru je pomemben tudi vrstni red. V primeru nepravilnega zaporedja oblikoskladenjskih oznak se beseda ne bi pravilno prevedla.

(1)

prozor 〈samostalnik〉〈moški〉 ⇒ okno 〈samostalnik〉

〈srednji〉

stol 〈samostalnik〉〈moški〉 ⇒ miza 〈samostalnik〉

〈ženski〉

godina 〈samostalnik〉〈ženski〉 ⇒ leto 〈samostalnik〉

〈srednji〉

Dvojezični prevajalni slovar lahko izdelamo iz po- ravnanega dvojezičnega korpusa s pomočjo statističnih metod oziroma modelov (Vičič, 2008). Poseben problem pri uporabi statističnih modelov je v redkih podatkih (sparse data problem) (Katz, 1987). Osnovni korpus ima določeno število dovolj dobro opisanih pravil in dovolj pogosto zastopanih besed, vsebuje pa tudi delež slabo predstavljenih besed in pravil. Z večanjem korpusa uva- jamo tudi nove besede. Tako se, ob predpostavki, da se porazdelitev besed ne spremeni, odstotek slabo opisanih besed in pravil z večanjem korpusa ne manjša. Problem redkih (pomanjkljivih) podatkov rešujemo s pomočjo naprednih algoritmov, ki upoštevajo predhodno znanje o problemu, izkušnje s sorodnih domen ali pa celo pov- sem tujih domen. Šumne podatke izločamo s pomočjo zakonitosti v podatkih, z izločanjem ekstremov. Paziti moramo, da pri izločanju napačnih podatkov ne pretira- vamo in korpusa ne »porežemo«, poenostavimo preveč.

Opisanega problema smo se lotili z dvema meto- dama (Vičič in Homola, 2010), ki sta predstavljeni v naslednjih razdelkih:

• poravnava lematiziranih besed s pomočjo besednih vrst: iskanje poravnav med lemami s pripisano oznako besedne vrste jezikovnega para učnega korpusa namesto iskanja povezav med vsemi besednimi oblikami, oznaka besedne vrste odpravlja veliko dvoumnosti, na žalost pa ne vseh;

• razširitev dvojezičnega slovarja s podobnicami in iskanje najprimernejših paradigem v ciljnem enojezičnem slovarju: pri tej metodi se zanašamo na podobnice; leme so prenesene v ciljni jezik brez prevoda, v ciljnem slovarju pa je novi lemi poiskana najprimernejša paradigma.

Poravnava lematiziranih besed s pomočjo oznak besednih vrst

Dvojezični prevajalni slovar je sestavljen iz parov

<izvorna lema z oznako besedne vrste – ciljna lema z oznako besedne vrste>, ki omogočajo prevajanje v cilj- ni jezik. Oznake besednih vrst v dvojezičnih slovarjih Slika 6: Primeri dvojezičnih prevodov lem iz sloven-

ščine v hrvaščino. Značke so obširneje predstavljene v Tabeli 2

9 Projekt Apertium (sh-mk): http://sourceforge.net/p/apertium/svn/46791/tree/trunk/apertium-sh-mk/

(13)

758

omogočajo enostavno izogibanje dvoumnostim enako imenovanih lem različnih besednih vrst.

(2)

priti_SAMOSTALNIK biti_GLAGOLP do_PREDLOG

podrt_PRIDEVNIK drevo_SAMOSTALNIK . o_PREDLOG kateri_ZAIMEK on_ZAIMEK biti_GLAGOLP

praviti_GLAGOL . ...

Besede v enojezičnih slovarjih so zapisan e v lematizirani obliki, besedne oblike pa so zabeležene v paradigmah. Metoda poravnave lem omogoča boljše rezultate v primerjavi s poravnavo besed v korpusu zaradi zmanj- šanja prostora iskanja (Saleh, 2009). Omejitev prostora iskanja poveča natančnost modela poravnave besed, vendar v njem ni več informacije o besednih oblikah.

To informacijo smo ohranili s povezavo s paradigmami v enojezičnih slovarjih. Podobna metoda je uporabljena tudi v (Vargas-Sierra in Lindemann, 2013).

Za samo učenje poravnave lem lahko uporabimo poljuben statistični algoritem za iskanje poravnave besed v dvojezičnih, povedno poravnanih korpusih (SMT word-to-word model).

Uporabili smo orodje GIZA++ (Och in Ney, 2003), ki temelji na algoritmu, prikazanem v (Brown et al., 1993). Model je bil naučen na vzporednem, povedno poravnanem seznamu lem z oznakami besednih vrst, ki je bil izluščen iz korpusa 1984. Del seznama pripravlje- nih učnih podatkov je prikazan na primeru (2).

Razširitev dvojezičnega slovarja s podobnicami in iskanje najprimernejših paradigem v ciljnem

enojezičnem slovarju

Ta metoda omogoča večanje dvojezičnega slovarja in ustrezno popravi enojezični oblikoskladenjski slovar.

Metode, opisane v razdelkih poglavja Metodologija ne zagotavljajo popolne pokritosti enojezičnih slovarjev z dvojezičnim slovarjem. Leme izvornega enojezičnega slovarja, ki po izvajanju teh metod nimajo prevodov, poskušamo prevesti s pomočjo metode, ki temelji na podobnicah. Podobnice – cognates so besede, ki imajo skupen etimološki izvor. Pri prevajanju med dvema jezikoma so predvsem dobrodošle tiste, ki se s časom niso veliko spremenile ne v pomenu niti v obliki.

Metoda doda manjkajoče zapise v dvojezični slovar:

za vsak vnos izvornega slovarja, ki nima pokritja v dvoje- zičnem slovarju, tj. nima ustreznega prevoda, vstavimo v dvojezični slovar nov par izvorna lema – izvorna lema, kar pomeni, da prevajamo lemo v enako lemo v ciljnem jeziku. Poleg same leme je novemu zapisu dodan tudi del MSD-ja; pri primeru (3) je zapisana besedna vrsta in spol. Nov vnos se v ciljni enojezični slovar doda, če

nove leme z enako besedno vrsto ne najdemo v ciljnem slovarju. V ciljnem slovarju je dodana nova lema in za- njo izbrana paradigma, ki najbolj ustreza novo dodani lemi; to je paradigma, ki omogoča generiranje besednih oblik z ustreznimi MSD-ji in vsebuje najdaljšo pripono, ki ustreza novi lemi. Algoritem ponovimo še za ciljni slovar, trenutni izvorni slovar postane v drugem delu metode ciljni.

(3) slovenski slovar:

lema: list krn list

paradigma žvenket/__samostalnik slovensko-srbski dvojezični slovar:

list samostalnik moški spol se prevaja v

list samostalnik moški spol srbski slovar:

lema: list krn list

paradigma um/__samostalnik

Prvi del primera kaže slovensko lemo list z ozna- čeno paradigmo žvenket/__samostalnik, ki je prisotna v izvornem slovarju in nima prevoda v dvojezičnem slovarju. Drugi del primera kaže nov vnos v dvojezični slovensko-srbski slovar; vpis prevaja slovensko lemo list v srbsko lemo list. Poleg same leme je zapisan še del MSD-ja, v tem primeru še besedna vrsta (samostalnik) in spol (moški), ki bi se lahko tudi zamenjal, vendar se pri pomanjkanju dodatnih informacij zanašamo na podobnost besed. Tretji del primera opisuje nov vpis v ciljnem slovarju. Dodana je nova lema list in poiskana najustreznejša paradigma um /__samostalnik.

Ročna predelava dvojezičnega slovarja

Dvojezični slovar, ki je bil izdelan samodejno, je bil razširjen s pomočjo prevajalnega sistema Google Translate (Google, 2012a). Prevajali smo samo leme.

Napake in manjkajoči prevodi so bili ročno popravljeni.

Tak način uporabe sistema se je izkazal za neprimernega pri prevajanju pridevnikov, prislovov ter predlogov brez okolice (prevajali smo samo leme). Kakovost prevodov samostalnikov in glagolov je tudi zadovoljiva.

V novonastalem dvojezičnem slovarju so bile uporabljene le prevedene leme, ki so imele vnose v slovarju ciljnega jezika. Po opravljeni prvi iteraciji izdelave dvojezičnega slovarja je sledila druga iteracija enakega procesa z zamenjanima izvornim in ciljnim slovarjem (smer hr – sl). V nadaljevanju so opisane najpomembnej- še težave, ki smo jih odpravljali pri gradnji dvojezičnega prevajalnega slovarja.

Prva težava, na katero smo naleteli, je bila razlika v

(14)

stopnjevanju prislovov. V obeh jezikih prislove stopnjujemo štiristopenjsko, in sicer kot osnovnik, primernik, presežnik ter elativ. Težava je nastala pri prevajanju besed, ki niso imele enakega števila oziroma istih stopenj v izvornem in ciljnem jeziku. Težavo smo rešili na tak način, da smo pred prislovi dodali besedo bolj, najbolj ali preveč, odvisno od manjkajoče oblike. Primer (4) kaže primere prevajanja iz hrvaškega v slovenski jezik:

(4)

bijelo (osnovnik) – belo (osnovnik) bjelije (primernik) – bolj belo (primernik)

najbjelije (presežnik) – najbolj belo (presežnik)

Na podobno težavo naletimo tudi pri pridevnikih. V enojezičnem slovarju ciljnega jezika hrvaščina so bila prisotna tudi deležja, ki se v slovenske m jeziku prevedejo v načinovne prislove s končnicami -oč/-eč/-e/-aje.

Težave smo imeli z glagolskimi prislovi, ki nimajo ustreznega prevoda v slovenskem jeziku, zato jih je bilo treba prevesti v pridevnike (moški spol, ednina, imenovalnik). Primer (4) kaže glagolske prislove s primernim prevodom ter prevodi v pridevnik

(5)

Glagolski prislovi s primernim prevo- dom:

viseći ⇒ viseč, čekajući ⇒ čakajoč,

Glagolski prislovi s prevodom v pri- devnik:

poštujući ⇒ spoštovan, Pravila prenosa

Apertiumov modul strukturnega prenosa (Structural transfer module) uporablja tehnologijo končnih avto- matov za odkrivanje vzorcev fi ksne dolžine leksikalnih enot (kosov besedila ali fraz),¹⁰ ki zahtevajo posebno obdelavo glede na slovnične razlike med jezikoma (na primer: spremembe v spolu, sklonu ali številu za zagotovitev ujemanja v ciljnem jeziku, sprememba vr- stnega reda besed, leksikalne spremembe, kot na primer spremembe v predlogih ...).

Pravila so zgrajena iz dveh delov: končnega števila elementov, ki opisujejo vzorce fi ksne dolžine, in dela, ki omogoča opis akcije, ki je potrebna za spremembo vzorca. Vzorec je predstavljen s sekvenco leksikalnih kategorij izvornega jezika poljubne dolžine, ločenih s presledki (b – blank). Na sliki 8 je vzorec oblike:

pomožni glagol v prihodnjiku in glavni glagol poljubne oblike. Ukrep (action) določa akcije, ki naj se izvedejo nad sekvencami vzorca ter izhodni vzorec leksikalnih kategorij ciljnega jezika, ki naj se zgradi. Po detekciji vzorcev se izvedejo spremembe, ki so opisane v telesu pravila (izhod modula so spremenjene leksikalne enote).

Primer pravila je predstavljen na sliki 8. Pravilo je se- stavljeno iz dveh delov: vzorec (pattern) in ukrep (action).

Opisuje spremembe načina zapisa prihodnjika iz sloven- ščine v hrvaščino. Vzorec je sestavljen iz dveh leksikalnih Slika 7: Primer pravila za strukturni prenos. Pravilo

opisuje spremembe načina zapisa prihodnjika iz sloven- ščine v hrvaščino. Posamezne značke so predstavljene v Tabeli 3.

10 Fraza je v tem primeru del besedila (chunk of text), ki nima nujno zaključenega pomena oziroma drugačne jezikoslovne razlage za razdelitev.

(15)

760

enot: pomožni glagol biti v prihodnjiku in glagol poljubne oblike, ukrep pa spremeni lemo prvega glagola v hteti, obliko prvega glagola v deležnik ter obliko drugega glagola v nedoločnik; v nadaljevanju so v znački <lu> (lexical unit) izpisane leksikalne kategorije za obe besedi.

Posamezne oznake zapisa pravil so predstavljene v Tabeli 3.

Pravila prenosa so skupaj z dvojezičnim slovarjem uporabljena v modulu za strukturni prenos pri dejanskem prevajanju oblikoskladenjsko označenih leksikalnih enot (po navadi besed ali besednih zvez). S pravili poskušamo opisati strukturne razlike med jezikoma, torej potrebne spremembe za pravilne prevode iz izvornega v ciljni jezik. Pravila plitkega prenosa , kot jih uporablja Apertium, naslavljajo le dele besedila končne velikosti; večina pravil naslavlja dele besedila dolžine 1, 2 ali 3 besede. Modul v izvornem besedilu poišče dele besedila, ki jih naslavlja pravilo. Pravilo

na delu besedila, ki ga naslavlja, izvede akcijo in vrne spremenjeno besedilo.

Sama izbira pokritja posameznih izvornih povedi s pravili poteka po principu najdaljšega ujemanja z leve strani (LRLM – Left-to-Right Longest Match). Za poved v izvornem jeziku je izbrana takšna veriga pravil, da je za dele, pri katerih bi lahko uporabili več pravil, izbrano tisto, ki naslavlja daljše besedilo od leve proti desni.

Primer kaže poved »Jutri bom kupil rožo« in njen prevod; del te povedi bom kupil je posebej označen in naslavlja pravilo na sliki 8.

bom kupil

biti-gl pomožni prihod 1os edn kupiti-gl glavni deležnik edn moški

”Jutri bom kupil rožo.” (SLO) ću kupiti

hteti-gl pomožni sedanjik 1os edn kupiti-gl glavni nedoločnik

”Sutra ću kupiti cvijet.” (HR) Oglejmo si še delovanje pravil a na primeru 4. Prva beseda pokritja, pomožni glagol v prihodnjiku, ustreza besedi bom iz primera, druga beseda, glavni glagol, ustreza besedi kupil. Pred izvajanjem samega izpisa pravilo postavi novo lemo prvi besedi hteti in obliko glagola v deležnik. Obliko drugega glagola spremeni v nedoločnik. Pravilo pri samem izpisu za vsako besedo le izpiše že spremenjene lastnosti v vnaprej pripravljenem vrstnem redu, kot je prikazano na primeru (6).

Ročna izdelava pravil

S pomočjo metode za samodejno izdelavo pravil in izbiro najboljših (Vičič, 2012) smo izdelali veliko število pravil, saj metoda pri tem ni uporabljala nobe- nih omejitev. Tako so se pravila med seboj tudi izklju- čevala (kar pomeni, da so delovala na istih vhodnih nizih, sistem bi izbral prvo pravilo, vsa ostala pa bi bila neuporabna).

Metoda bi potrebovala še metriko za vrednotenje pravil, sama uporaba ovrednotenih pravil pa bi zahte- vala tudi arhitekturno spremembo prevajalnega sistema.

Ta del že presega namene tega članka.

Ostala pravila smo izdelali ročno. Pravila strukturnega prenosa so razdeljena v tri nivoje zaradi večje fl eksibilno- sti pri zaznavanju besed ali stavkov. Omejili smo se le na prvi nivo, saj je struktura obeh jezikov jezikovnega para zelo podobna. Opomba: pravila so napisana za prevajanje iz hrvaškega v slovenski jezik, torej je v opisanih primerih hrvaščina izvorni jezik, slovenščina pa ciljni jezik. Oglejmo si primere osnovnih in specifi čnih pravil:

• Osnovna pravila, ki so potrebna za pravilno prevajanje posameznih besed ali skupin besed – usklajevanje oblikoskladenjskih oznak, so bila dodana za naslednje besedne vrste ter naslednje skupine besed: samostalnike, pridevnike, svojilne Tabela 3: Razlaga oznak in atributov zapisa pravil v

formatu Apertium

oznaka Opis

〈rule〉 celotno pravilo

〈pattern〉 vsebuje eno ali več značk (pattern-item), ki defi nirajo

leksikalne oblike, na katere lahko apliciramo pravilo

〈pattern-item〉 del vzorca, leksikalna enota

〈action〉 del pravila, ki opisuje ukrep, spremembo vzorca

〈let〉 sprememba izvornega dela

〈clip〉 izbere del leksikalne enote, ki ustreza atributom

〈lit〉 generira niz črk

〈lit-tag〉 generira niz črk, ki opisujejo jezikovno oznako

〈out〉 vsebuje vse, kar bo pravilo izpisalo

〈lu〉 defi nira vsebino celotne leksikalne enote

〈b〉 (blank), ločilo med leksikalnima enotama, pogosto je presledek

〈call-macro〉 klic makra (programske kode)

atribut Opis

side smer, ki jo naslavlja značka (izvorna/

ciljna)

part ime dela, ki ga naslavlja značka n dejanska vsebina značke ápattern-itemñ v dejanska vsebina značk álitñ in álit-tagñ pos (position), zaporedna številka leksikalne

enote

(16)

zaimke, glagole, glagolske prislove, glagol biti, glagol imeti, glagol hoteti, predloge, veznike, šte- vila, pridevnik + samostalnik ter svojilni zaimek + pridevnik + samostalnik itd.

• Nekaj specifi čnih pravil, ki so potrebna za pravilno prevajanje skupin besed: je + glagol, se + glagol, se + ne biti (preteklik) + glagol, predlog + samostalnik, ne + glagol biti itd.

Dodanih je bilo 31 pravil prenosa.

Tabela 4: Pokritost slovarjev

Slovar Št. slovarskih gesel (lem) Enojezični slovar – SLV 25.923 (1.901 paradigem) Enojezični slovar – HRV 17.330 (1.014 paradigem) Dvojezični slovar 17.330 (slovarski vnosi)

METODOLOGIJA EVALVACIJE

Naslednji podrazdelki predstavljajo in opisujejo osnovne statistike jezikovnih gradiv, ki so bila ustvarjena v sklopu projekta. Podrobneje opisujejo tudi rezultate vrednotenja prevodov sistema.

Pokritost korpusov

Tabela 4 prikazuje število slovarskih gesel, ki jih vsebuje enojezični slovar izvornega jezika – slovenščine,

število slovarskih gesel, ki jih vsebuje enojezični slovar ciljnega jezika – hrvaščine in število vnosov v dvojezič- nem slovarju, natančneje, koliko slovarskih gesel ima primerne prevode v dvojezičnem slovarju. Poleg na- štetih lastnosti tabela prikazuje tudi število vsebovanih paradigem v posameznem enojezičnem slovarju tako izvornega kot ciljnega jezika.

Tabela 5 predstavlja rezultate vrednotenja pokritosti (coverage) korpusov z jezikovnimi gradivi. Metoda je bila izvedena na dveh različnih korpusih, in sicer na korpusu MULTEXT(-East) (Erjavec, 2010a; Dimitrova et al., 1998) ter na delu korpusa OPUS (subs) (Tiedeman, 2012).

Pri korpusu OPUS smo se zaradi časovnih omejitev omejili na del zbirke podnapisov, natančne vrednosti so predstavljene v Tabeli 5. Vsebino omenjenih zbirk smo razdelili na intervale po 10.000 besed in jih posamezno prevedli. Na tak način smo izračunali še povprečje in standardno deviacijo. Ob predpostavki, da uporabljeni korpusi dovolj dobro predstavljajo opazovano jezikov- Tabela 5: Pokrit ost korpusov: korpus je bil razdeljen na manjše dele, za vsakega je bila izračunana pokritost, prikazano je povprečje vseh delov korpusa ter standar- dna deviacija

Korpus Št. besed Povprečje STDEV

MULTEXT-EAST

(Orwell) SL 104.482 94,23 % 0,15 % OPUS (subs) SL 2.562.969 91,72 % 0,21 % OPUS (subs) HR 307.564 77,34 % 0,31 %

Tabela 6: Rezult at testiranja z orodjem testvoc (Smer: hrvaščina – slovenščina)

B. vrsta Skupno Pravilni Z @ Z # %

Pridevniki 1.517.798 1.517.798 0 0 100

Glagoli 1.018.517 1.018.517 0 0 100

Imena 726.576 726.576 0 0 100

Samost. 135.031 135.031 0 0 100

Pom. gl. 35.112 35.112 0 0 100

Zaimki 10.683 10.683 0 0 100

Števniki 10.165 10.165 0 0 100

Prislovi 8.568 8.568 0 0 100

Predlogi 101 101 0 0 100

Kratice 56 56 0 0 100

Medmeti 49 49 0 0 100

Vezniki 71 71 0 0 100

11 Orodje testvoc je del zbirke orodij Apertium: http://wiki.apertium.org/wiki/Testvoc.

(17)

762

no domeno, nam pokritost oceni pričakovani odstotek neznanih besed pri prevodih. Standardna deviacija predstavlja mero razpršenosti podatkov.

Ob izvajanju testiranja korpus MULTEXT-EAST (Orwell) še ni vseboval hrvaškega prevoda romana 1984, tako je bilo preverjanje te prevajalne smeri s korpusom MULTEXT-EAST omejeno na izvorni jezik, slovenščino.

Pokritost slovarjev

Pokritost slovarjev smo testirali z orodjem testvoc.¹¹ O snovna metoda orodja: razširiti enojezični slovar izvornega jezika, nato pa testirati vsako možno besedno obliko izvornega slovarja skozi vse faze prevajalnega sistema. Na tak način ugotovimo, katera analiza besede ima pravilen prevod v enojezičnem slovarju ciljnega jezika, torej brez simbolov za oznako napak # ali @.

Pomen simbolov, ki označujejo napake:

• @ – beseda ne vsebuje prevoda v dvojezičnem slovarju,

• # – beseda se ne prevede pravilno – oblikoskladenjske oznake niso pravilno označene.

V Tabeli 6 so predstavljeni rezultati testiranja eno- jezičnega slovarja ciljnega jezika. Rezultati prikazujejo kakovost prevajanja posameznih besed iz hrvaškega v slovenski jezik.

V Tabeli 7 so predstavljeni rezultati testiranja enoje- zičnega slovarja ciljnega jezika z metodo testvoc (Tyers et al., 2010). Rezultati prikazujejo kakovost prevajanja posameznih besed iz hrvaškega v slovenski jezik.

Razlika med obema smerema obstaja, ker je slovenski slovar večji, tako pokriva vse hrvaške besede, druga smer (hrvaški enojezični slovar) pa v tem projektu ni bil dopolnjen.

Vrednotenje kakovosti prevodov

Predstavljeni sistem še ni dokončan; zaradi časovne stiske smo se morali omejiti samo na prvi nivo pravil prenosa. Kljub temu smo se odločili za prvo testiranje sistema na manjšem testnem vzorcu, ki je bil ročno pripravljen: novica iz korpusa SETIMES (Tyers in Alpe- ren, 2010), ki je bila uporabljena v vseh novih sistemih projekta GSOC2011.

Testni primeri so bili izbrani iz korpusa MULTEXT- -EAST, in sicer dela, ki ni bil uporabljen kot učna mno- žica pri samodejnih metodah. Vključili smo še skupni testni vzorec projekta Apertium Google Summer Of Code 2011 (Google, 2012b): novica iz korpusa SETIMES (Tyers in Alperen, 2010), ki je bila uporabljena v vseh novih sistemih projekta.

Pri vrednotenju prevodov je bila uporabljena metrika Human-targeted TER (HTER) (Snover et al., 2006), ki temelji na uteženi Levenshteinovi razdalji (weighted Leven- shtein edit-distance) (Fu, 1982). Ta predstavlja razširitev osnovne Levenshteinove razdalje (Levenshtein, 1965), ki šteje najmanjše število sprememb, ki jih moramo opraviti med prevodom sistema za strojno prevajanje in referenč- nim prevodom. Število sprememb še utežimo z dolžino povedi. Dovoljene spremembe so vstavitev, brisanje in zamenjava besede. Namesto referenčnih prevodov so bili pri testiranju prevedeni primeri ročno popravljeni, pri po- pravljanju je bilo upoštevano načelo čim manjšega števila sprememb, ki že omogoči popolnoma pravilno poved v ciljnem jeziku, ki popolnoma odraža izvorni pomen.

Vrednost na poseben način uporabljene metrike HTER je: 13,7 %.

Metrika BLEU (Papineni et al., 2001) je najbolj razširjena metrika za vrednotenje sistemov strojnega prevajanja, vendar mnogi avtorji (prim. Callison-Burch Tabela 7: Rezultat testvoc (Smer: slovenščina – hrvaščina)

B. vrsta Skupno Pravilni Z @ Z # %

Pridevniki 749.994 263.260 370.603 116.131 35.2

Glagoli 77.254 58.991 495 17.768 76.4

Imena 437.433 437.433 0 0 100

Samostalniki 72.478 72.478 0 0 100

Pom. glagoli 120 120 0 0 100

Zaimki 3.382 3.382 0 0 100

Števniki 8991 8991 0 0 100

Prislovi 7.388 4.739 1.610 1.039 64.2

Predlogi 84 84 0 0 100

Kratice 56 56 0 0 100

Medmeti 49 49 0 0 100

Vezniki 56 56 0 0 100

(18)

et al., 2006; Labaka et al., 2007), soglašajo, da BLEU sistematično zapostavlja sisteme RBMT in ni primerna za visoko pregibne jezike. Metrike nismo uporabili pri testiranju predstavljenega sistema.

ZAKLJUČEK IN NADALJNJE DELO

Kakovost predstavljenega prevajalnega sistema presega raven eksperimentalnih in poskusnih storitev.

Prevodi predstavljenega sistema že dosegajo kakovost, ki omogoča širšo uporabo kot zgolj le akademsko postavitev v namene preizkusa metod. O tem lahko sklepamo iz vrednotenja z metodo HTER kot tudi iz pričevanja uporabnikov, ki so sistem preizkušali. Jezikovna gradiva so zapisana v (človeku) berljivem formatu, kar omogoča relativno enostaven vnos popravkov in posledično iz- boljšavo kakovosti prevajanja.

Projekt Apertium je odprtokoden. Vsa izdelana gradiva so prosto dostopna z licenco GNU Lesser General Public License (LGPL) (GNU, 2010) na strežniku projek- ta.¹² Izdelan je bil tudi spletni vmesnik do »živega« prevajalnega sistema. Prevajalnik je na voljo na strežniku jezikovnih tehnologij Univerze na Primorskem.¹³

Vsi jezikovni viri bodo dostopni prek slovenske raziskovalne infrastrukture CLARIN.¹⁴

Za slovenščino obstajata še dva enojezična oblikoskladenjsko označena slovarja, in sicer Multext-East (Er- javec, 2010a) in Sloleks (Arhar, 2009). Z relativno majh- nim vložkom bi lahko predvsem slednjega uporabili za širjenje enojezičnega slovarja, ki je bil pripravljen v tem projektu (dodajanje novih lem v primerne paradigme, ustvarjanje novih paradigem). Tehnično bi bilo takšno združevanje leksikonov možno, upoštevati pa moramo neskladne licenčne pogoje gradiv.

Poleg osnovnega namena prevajalnega sistema, prevajanja jezikovnega para, so predstavljena gradiva uporabna tudi pri mnogih drugih jezikoslovnih raziska- vah in aplikacijah. Ne nazadnje lahko del gradiv uporabimo pri gradnji prevajalnega sistema za nov jezikovni par. V načrtu imamo izdelavo prevajalnega sistema za jezikovni par slovenščina – italijanščina ter dolgoročni načrt izdelave prevajalnika za sorodne južnoslovanske jezike (slovenščina, hrvaščina, srbščina, bosanščina, makedonščina).

Gradiva pa niso uporabna le v prevajalnem sistemu, oblikoskladenjsko označeni slovar in dvojezični slovar sta uporabno gradivo za jezikoslovne raziskave in tudi za izdelavo jezikoslovno gnanih aplikacij. Način dostopnosti gradiv omogoča relativno prosto uporabo, stan- dardiziran način označevanja pa enostavno uporabo.

12 Projekt Apertium: http://www.apertium.org/.

13 Strojno prevajanje: http://jt.upr.si/mt_slo.html.

14 CLARIN: http://clarin.si.

(19)

764

LINGUISTIC MATERIALS FOR THE MACHINE TRANSLATION SYSTEMS

Jernej VIČIČ

University of Primorska Andrej Marušič Institute, Muzejski trg 2, 6000 Koper, Slovenia e-mail: jernej.vicic@upr.si

SUMMARY

Rule based machine translation systems require quality language resources, such as morphologically enriched dictionaries, bilingual dictionaries and translation rules. Materials are prepared in a standardized format and are also suited for use in a multitude of applications. The article presents the methods that have been used both to build language resources as well as the extent and quality of the produced material and a fully functional machine translation system.

The paper presents linguistic materials used in a machine translation system for the language pair Slovenian – Croatian. It presents the machine translation system with the associated language materials. The presented methods include: automatic production of monolingual morphologies, bilingual translation dictionaries and translation rules.

The paper also presents the manual cleaning for each language material used in the translation system. The evaluation had two main objectives: evaluation the translation quality of the basic translation system and evaluation of the size and quality of the individual language resources. All materials and the entire translation system are freely available.

Keywords: Machine translation of natural languages, morphosyntactic dictionary, translation rule, paradigm, lemma

LITERATURA

Arhar, Š. (2009): Učni korpus SSJ in leksikon bese- dnih oblik za slovenščino. Jezik in slovstvo, 54, 3–4, 43–56.

Brown, P. F., Della Pietra, S. A., Della Pietra, V. J. &

R. L. Mercer (1993): The mathematics of statistical ma- chine translation: parameter estimation. Computational linguistics, 19, 163–311.

Callison-Burch C., Osborne, M. & P. Koehn (2006):

Re-evaluating the role of BLEU in machine translation research. Proceedings of EACL, Trento, Association for Computational Linguistics, 249–256.

Calzolari, N. & M. Monachini (1996): Synopsis and comparison of morphosyntactic phenomena encoded in lexicons and corpora: a common proposal and applications to European languages. Eagles report.

Corbi-Bellot, A. M., Forcada, M. L. & S. Ortiz-Rojas (2005): An open-source shallow-transfer machine transla- tion engine for the Romance languages of Spain. Procee- dings of the EAMT conference. Budapest, EAMT, 79–86.

Dimitrova, L. et al. (1998): Multext-East: Parallel and Comparable Corpora and Lexicons for Six Central and Eastern European Languages. COLING-ACL, Montréal, Association for Computational Linguistics, 315–319.

Erjavec T., Fišer, D., Krek, S. & N. Ledinek (2010): The JOS Linguistically Tagged Corpus of Slovene. Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10). Malta, ELRA.

Erjavec, T. (2010): MULTEXT-East Version 4: Mul- tilingual Morphosyntactic Specifi cations, Lexicons and Corpora. Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC’10). Malta, ELRA.