• Rezultati Niso Bili Najdeni

Terminologija v računalniški akademski slovenščini

N/A
N/A
Protected

Academic year: 2022

Share "Terminologija v računalniški akademski slovenščini"

Copied!
83
0
0

Celotno besedilo

(1)

UNIVERZA V LJUBLJANI

FILOZOFSKA FAKULTETA ODDELEK ZA PREVAJALSTVO

KLARA EVA KUKOVIČIČ

Terminologija v računalniški akademski slovenščini

Magistrsko delo

Ljubljana, 2021

(2)

UNIVERZA V LJUBLJANI

FILOZOFSKA FAKULTETA ODDELEK ZA PREVAJALSTVO

KLARA EVA KUKOVIČIČ

Terminologija v računalniški akademski slovenščini

Magistrsko delo

Mentorica: izr. prof. dr. Darja Fišer Študijski program: Magistrski Somentor: izr. prof. dr. Tomaž Erjavec študij prevajanja – slovenščina-

angleščina-nemščina

Ljubljana, 2021

(3)

i

Zahvala

Iskreno se zahvaljujem …

… mentorici izr. prof. dr. Darji Fišer in somentorju izr. prof. dr. Tomažu Erjavcu za vse raziskovalne ideje in strokovne napotke pri načrtovanju in pisanju magistrskega dela,

… ekipama iz podjetij Infincube, d. o. o., in Translat, d. o. o., za nesebično pomoč pri jezikovnih in tehničnih zadregah, predvsem pa za prijateljsko podporo,

… Tomažu za potrpežljivost in nesebično pomoč,

… staršem, starim staršem, Matevžu in Rožletu za nenehno spodbudo, razumevanje, pomoč in zaupanje v vseh letih študija.

(4)

ii

Izvleček

V zadnjih desetletjih je bilo izvedenih kar nekaj raziskav, ki se osredotočajo na analizo akademskega diskurza. Akademska slovenščina je nadpomenka za različne žanre, in sicer za strokovno-znanstvena besedila, ki nastajajo v akademskem okolju, torej obsega vse od seminarskih nalog in študentskih poročil do diplomskih in magistrskih nalog ter doktorskih disertacij.

V magistrskem delu raziskujem terminologijo v akademski slovenščini, in sicer se osredotočam na raziskovalno področje računalništva in informatike, kjer na primeru treh doktorskih disertacij preučujem, kako veliko terminologije se pojavlja v disertacijah z izbranega področja in ali je terminologija na določenih delih disertacij bolj zgoščena kot drugje. Prav tako s primerjavo terminov, izluščenih iz obravnavanih doktorskih del, z dostopnimi terminološkimi viri ugotavljam, v kolikšni meri si lahko prevajalci kot uporabniki terminologije v procesu prevajanja pomagamo s prosto dostopnimi dvojezičnimi slovarji ali priročniki, ki pokrivajo področje računalništva.

Pri raziskovanju sem postavila tri vprašanja: Kakšna je povprečna terminološka gostota disertacij? Ali je povprečna terminološka gostota povzetkov večja od povprečne terminološke gostote celega dokumenta? Kolikšen odstotek izluščenih terminov pokrivajo spletni slovarji? Poleg omenjenih vprašanj me je v magistrskem delu zanimalo tudi, kateri besednovrstni vzorci terminov se najpogosteje pojavijo ter kolikšna je povprečna dolžina terminov.

Raziskava je bila sestavljena iz naslednjih korakov: najprej sem termine v disertacijah ročno označila, nato sem izluščila označene termine in analizirala pridobljene sezname terminov iz posamezne disertacije.

Rezultati analize kažejo, da terminološka gostota celotnih dokumentov znaša 25 %, kar je precej visoko in primerljivo s sorodnimi raziskavami. Pri analizi posameznih delov disertacije sem opazila, da je terminološko najgostejši del vseh analiziranih dokumentov povzetek, v katerem je terminološka gostota 30-odstotna. Kar se dolžine terminov tiče, je največ terminov dvobesednih, na drugem mestu so enobesedni termini, tem pa so sledili še tribesedni. Najdaljši termin, ki sem ga

(5)

iii

označila, je bil devetbesedni, povprečna dolžina termina pa znaša 2,67. Izkazalo se je, da spletni priročniki pokrivajo približno 13 odstotkov vseh označenih terminov.

Raziskava je pokazala, da doktorske dizertacije lahko služijo kot odličen vir za upravljanje z (računalniško) terminologijo ter ustvarjanje novih terminoloških priročnikov. Rezultati so namreč pokazali tudi potrebo po novih oziroma obsežnejših slovenskih terminoloških priročnikih za področje računalništva in informatike.

Ključne besede: akademska slovenščina, terminologija, terminološka gostota, luščenje terminologije, terminologija v računalništvu in informatiki

(6)

iv

Abstract

In recent decades, quite a few studies have been conducted focusing on the analysis of academic discourse. Academic Slovene includes various genres, especially professional-scientific texts created in the academic environment, i.e. it includes everything from seminar papers and student reports to diploma and master's theses and doctoral dissertations.

In my master's thesis I analyse terminology in Slovene PhD theses from the field of computer science and informatics, studying how often terms appear in three dissertations in the field of computing and information technology, and determining whether the terminology in certain parts of a dissertation is more condensed than in other parts. Furthermore, by comparing the terms extracted from the selected doctoral theses with the available terminological sources, I determine the extent to which users of terminology can help themselves with freely available bilingual dictionaries or manuals covering the field of computer science.

In the research, I asked three questions: What is the average terminological density of dissertations? Is the average terminology density in abstracts higher than that of the main text? What share of the extracted terms are included in online dictionaries?

In addition to the above-mentioned questions, I was also interested in which word- type patterns of terms occur most often and what the average length of a term is.

The research consisted of the following steps: first, I marked the terms in the dissertations manually, then I extracted the marked terms and analysed the lists of terms from each dissertation.

The results of the analysis show that the terminological density of the entire documents is 25%, which is quite high and comparable to related studies. When analysing individual parts of the dissertation, I noticed that the most terminologically dense part in all documents is the abstract, in which the terminological density is 30%. As far as the length of terms is concerned, most terms are two-word, followed by one-word and three-word terms. The longest identified term comprised nine words, and the average length of the term is 2.67. One-word terms are most frequently written as nouns and two-word term most often occur in the pattern of an

(7)

v

adjective and noun. About 13% of all the extracted terms could be found in online dictionaries and terminology sources for Slovene.

To conclude, the research shows that doctoral dissertations, especially abstracts, in the field of computer science and informatics are a rich source of terminology and can serve as an excellent source for further management of (computer) terminology and creation of new terminological dictionaries. Namely, the research also shows the lack of appropriate Slovenian terminological resources for the field of computer science.

Keywords: term density, academic Slovene, manual term extraction, computer science terminology, academic Slovene terminology

(8)

vi

Kazalo

1 Uvod ...1

1.1 Namen dela ... 3

1.2 Hipoteze ... 3

1.3 Cilji ... 3

2 Teoretični del ...5

2.1 Terminologija ... 5

2.1.1 Razvoj vede ... 5

2.1.2 Teoretski pristopi ... 7

2.1.2.1 Splošna teorija o terminologiji ... 7

2.1.2.2 Novejši pristopi ... 8

2.1.2.3 Pragmatične definicije terminološkosti ... 8

2.1.2.4 Komunikacijska teorija terminologije ... 9

2.1.2.5 Sociokognitivna terminologija ... 9

2.1.2.6 Terminologija shem ...10

2.1.3 Uporabniki terminologije ... 10

2.1.4 Terminologija v slovenskem prostoru ... 11

2.2 Termin ... 12

2.2.1 Definicija termina ... 12

2.2.2 Dolžina terminov ... 13

2.2.3 Terminološke variacije ... 14

2.2.4 Razmerje med terminom in terminološko kolokacijo ... 15

2.2.5 Subjektivno dojemanje terminološkosti ... 15

2.3 Luščenje terminologije ... 17

2.3.1 Samodejno luščenje terminologije ... 17

2.4 Pregled sorodnih raziskav ... 18

3 Raziskovalni del ...20

3.1 Opis uporabljenega gradiva ... 20

3.2 Zasnova raziskave ... 22

3.2.1 Smernice za označevanje terminov ... 23

3.2.2 Označevanje posameznih sklopov doktorskih disertacij ... 27

3.2.3 Ročno označevanje terminov ... 28

3.2.4 Luščenje terminov z uporabo programskega jezika ... 29

(9)

vii

3.2.5 Oblikoslovna analiza enobesednih terminov ... 31

3.2.6 Oblikoslovna analiza dvobesednih terminov ... 33

3.3 Analiza terminološke gostote ... 35

3.3.1 Terminološka gostota doktorskih disertacij ... 35

3.3.2 Terminološka gostota posameznih delov doktorskih disertacij ... 36

3.4 Analiza terminov ... 39

3.4.1 Najpogostejši termini ... 39

3.4.2 Dolžina terminov ... 45

3.4.3 Analiza enobesednih terminov ... 48

3.4.3.1 Analiza glagolov ...48

3.4.4 Analiza dvobesednih terminov ... 52

3.4.5 Analiza terminoloških variacij ... 53

3.5 Pokritost terminov v spletnih priročnikih ... 57

4 Zaključek ...61

5 Summary ...65

6 Viri in literatura ...69

6.1 Primarni viri ... 69

6.2 Literatura ... 69

(10)

viii

Kazalo preglednic

Tabela 1: Besednovrstni vzorci dvobesednih terminov ...34

Tabela 2: Število terminov, pojavitev in besed ...35

Tabela 3: Terminološka gostota posameznih disertacij ...36

Tabela 4: Terminološka gostota v odstotkih za posamezni del disertacije ...37

Tabela 5: Dvajset najpogostejših terminov ...40

Tabela 6: Pojavitve najpogostejših terminov ...41

Tabela 7: Dolžina terminov v odstotkih ...46

Tabela 8: Besedne vrste terminov v odstotkih ...48

Tabela 9: Prevzemanje terminoloških glagolov ...50

Tabela 10: Besednovrstni vzorci dvobesednih terminov glede na število in v odstotkih ....53

Tabela 11: Terminološke variacije terminov v obliki samostalniške zveze ...55

Tabela 12: Terminološke variacije terminov v obliki zveze pridevnika in samostalnika ...56

Tabela 13: Prekrivnost terminov v spletnih priročnikih ...57

Tabela 14: Pokritost vseh terminov, najpogostejših dvajset in deset terminov v odstotkih 58 Tabela 15: Seznam najpogostejših 20 terminov ...59

Kazalo grafov

Graf 1: Terminološka gostota posameznih disertacij v odstotkih ...38

Graf 2: Grafični prikaz dolžine terminov ...47

Kazalo slik

Slika 1: Potek raziskave ...22

Slika 2: Prikaz strukture dokumenta XML ...28

Slika 3: Napačno označeni termini ...32

Slika 4: Najpogostejši termini ...39

Slika 5: Prikaz večbesednih terminov z istim jedrom ...42

Slika 6: Prikaz večbesednih terminov z jedrom delovni tok ...42

Slika 7: Pojavitve najpogostejših desetih terminov v Doktoratu 3 ...43

Slika 8: Pojavitve najpogostejših desetih terminov v Doktoratu 1 ...44

Slika 9: Pojavitve najpogostejših desetih terminov v Doktoratu 2 ...45

Slika 10: Napačno označen termin opravilo ...49

(11)

1

1 Uvod

Konec dvajsetega stoletja so se v angleškem prostoru začele razvijati raziskave o akademskem diskurzu. Gre za analize strokovno-znanstvenih besedil, ki se uporabljajo v akademskem okolju, torej na univerzah, mednarodnih konferencah, v strokovnih publikacijah in člankih, diplomskih in magistrskih nalogah, pa tudi seminarskih nalogah. Tako kot vsak žanr ima tudi akademska angleščina nekatere značilnosti, med katere lahko uvrščamo izogibanje prvi osebi, uporaba trpnika, veliko referenc na druga dela ali druge avtorje, prav tako pa so besedila terminološko gosta (UEfAP 2020).

Tako kot v angleščini lahko govorimo tudi o akademski slovenščini. Za razliko od akademske angleščine, za katero že obstaja kar nekaj priročnikov, med drugim velja omeniti priročnik Academic Writing for Graduate Student: Essential Tasks and Skilss avtorjev J. M. Swalesa in C. B. Feaka (2012) ter priročnik Advanced Grammar: For Academic Writting avtorja R. Stevensona (2010), za akademsko slovenščino še ne obstajajo podobna dela, ki bi natančneje opisovala ali raziskovala strokovno-znanstveno pisanje (Logar in Erjavec 2018, 175). Resolucija o Nacionalnem programu za jezikovno politiko 2014–2018 se dotika teme znanstvene oziroma akademske slovenščine in izpostavlja problem njene neraziskanosti, Resolucija o Nacionalnem programu za jezikovno politiko 2021–2025 pa se poglobljeno osredotoča tudi na področje terminologije ter slovenščine kot jezika znanosti in kot cilj zastavlja izdelavo prosto dostopnih eno- in večjezičnih terminoloških virov in orodij. Leta 2013 je bil vzpostavljen Nacionalni portal odprte znanosti, ki uporabnikom ponuja brezplačen dostop do besedil, ki jih lahko uvrščamo v akademsko slovenščino. Naslednji pomemben mejnik pri raziskovanju akademske slovenščine pa je bila izgradnja Korpusa akademske slovenščine, krajše KAS,1 ki zajema diplomska, magistrska in doktorska dela, ki so na voljo na Nacionalnem portalu odprte znanosti (Erjavec et al. 2019). Omenjeni korpus je nastal v okviru triletnega raziskovalnega projekta »Slovenska znanstvena besedila:

1https://www.clarin.si/noske/run.cgi/corp_info?corpname=kas

(12)

2

viri in opisi«, ki je nastal kot korak k doseganju enega izmed ciljev akcijskega načrta, in sicer izboljšanje položaja slovenščine kot jezika znanosti (Erjavec et al. 2016, 58).

Ker je akademska slovenščina še relativno neraziskano področje, še posebej pa terminologija v akademski slovenščini, sem se odločila, da v magistrskem delu na primerih besedil akademske slovenščine raziščem, kako pogosto se v besedilih pojavljajo termini, kako dolgi so, v kolikšni meri jim lahko najdemo razlago ali prevode terminov v jezikovnih priročnikih in v kakšnih besednovrstnih vzorcih se pojavljajo. V skladu z informacijskim sistemom SICRIS,2 ki ga razvijata Agencija za raziskovalno dejavnost Republike Slovenije in Institut informacijske znanosti v Mariboru, lahko raziskovalna področja razdelimo na sedem ved, vsako izmed ved pa na določen sklop področij in podpodročij. Izmed ved sem se odločila za tisto, pri kateri sem pričakovala relativno visoko stopnjo terminološkosti, in sicer za tehniko, od področij pa sem se odločila za računalništvo in informatiko, ki je terminološko precej dobro podprta (Sicris 2020).

V magistrskem delu predstavim razvoj terminologije kot vede, različna obdobja razvoja terminologije in teoretske pristope, ki so se razvili po svetu, v nadaljevanju pa opišem tudi terminologijo v slovenskem prostoru s poudarkom na uporabnikih terminologije. Sledi poglavje, v katerem raziskujem različne definicije termina, opišem razmerje med terminom in terminološko kolokacijo, del teoretskega dela pa namenim tudi subjektivnemu dojemanju terminologije.

V magistrskem delu predstavim tudi definicijo termina, ki jo kasneje uporabim pri ročnem označevanju terminov na gradivu. V analizi sem preučevala rabo terminologije v treh doktorskih disertacijah iz korpusa KAS, predvsem je bil poudarek na analizi posameznih delov besedila, in sicer na uvodu, pregledu področja, empiričnem delu, povzetku in zaključku. Na podlagi ročno označenih terminov sem izračunala terminološko gostoto posameznih delov besedila, nato pa analizira najpogosteje uporabljenih deset terminov. Zadnji del analize je namenjen preverjanju, koliko izluščenih terminov lahko najdemo v jezikovnih priročnikih v slovenščini. S tem sem želela podati oceno, ali je za prevajalce kot uporabnike terminologije v slovenskem prostoru dovolj enojezičnih ali dvojezičnih priročnikov, ki jih lahko uporabimo v prevajalskem procesu.

2https://www.sicris.si/public/jqm/cris.aspx?lang=slv&opdescr=home&opt=1

(13)

3

V magistrskem delu se osredotočam na raziskovanje terminološkosti znotraj enega raziskovalnega področja, vendar ker je računalniška terminologija v akademski slovenščini relativno neraziskano področje, bi bilo raziskavo smiselno razširiti na ostala raziskovalna področja, ki bi jih nato lahko primerjali med seboj glede na različne faktorje, kot so na primer terminološka gostota, terminološka variantnost in prekrivnost.

1.1 Namen dela

Namen tega magistrskega dela je raziskati rabo terminologije v različnih delih doktorskih disertacij. Namen dela je tudi raziskati zgradbo, oblike in dolžino terminov s področja računalništva in informatike ter preveriti, v kakšni obliki se najpogosteje pojavljajo. Prav tako v okviru magistrskega dela preverim, v kolikšni meri jezikovni priročniki v slovenščini pokrivajo računalniško terminologijo.

1.2 Hipoteze

Postavila sem si naslednje hipoteze:

1. Glede na sorodne študije, opravljene za angleški jezik, bo terminološka gostota bo višja ali enaka 25 odstotkom.

2. Terminološka gostota bo največja v povzetkih doktorskih disertacij.

3. Tako kot je bilo ugotovljeno v nekaterih sorodnih raziskavah, narejenih na področju slovenske terminologije, predpostavljam, da bo med izluščenimi termini največ dvobesednih terminov.

4. Glede na izsledke sorodne raziskave, ki je preverjala vsebnost terminoloških kandidatov v iSlovarju, pričakujem, da bo v slovenskih jezikovnih priročnikih vsaj 40 % vseh izluščenih terminov.

1.3 Cilji

Poleg terminološkega opisa računalniške akademske slovenščine v izbranih doktorskih delih s tega področja je cilj magistrskega dela predstaviti terminologijo kot vedo v slovenskem prostoru, še posebej kar se tiče različnih pristopov določanja terminov. V okviru magistrskega dela so razvite tudi smernice za ročno označevanje

(14)

4

terminov, ki bodo služile kot pripomoček pri nadaljnjih raziskavah terminologije na slovenskem področju. Na podlagi ročno označenih terminov želim prikazati, v kolikšni meri se prevajalci ali drugi uporabniki terminologije lahko oprejo na slovenske terminološke priročnike ali na slovensko-angleške in angleško-slovenske slovarje s področja računalništva in informatike.

Ob tem je treba poudariti, da čeprav je cilj raziskave ponuditi kar se da celovit opis terminologije v akademski slovenščini s področja računalništva, na podlagi rezultatov ne morem podati zaključkov o rabi terminologije v akademski slovenščini na splošno, saj, kot že rečeno, raziskujem določen tip besedil s točno določenega področja, ki je zaradi zamudnega ročnega označevanja terminov obenem omejen na zgolj tri reprezentativna besedila. Ne glede na to pa uporabljene metode in smernice lahko služijo kot podlaga za nadaljnje raziskave terminologije v akademski slovenščini.

(15)

5

2 Teoretični del

2.1 Terminologija

Ko govorimo o terminologiji, imamo lahko v mislih izrazje določenega strokovnega področja ali pa vedo o pojmih in njihovih poimenovanjih v okviru strokovnih jezikov.

Zato razlikujemo med izrazi terminologija (angl. terminology), terminološka veda (angl. terminology science) in terminografija (angl. terminography), pri čemer ISO 10873 definira terminologijo kot niz terminov, ki predstavljajo sistem pojmov določenega področja, terminološko vedo kot znanstveno vedo o pojmih in terminih znotraj specializiranega jezika, terminografijo pa kot zbiranje, obdelavo in predstavitev terminoloških podatkov.

Terminološka veda se torej ukvarja predvsem s specializiranim izrazjem, s termini in terminotvorjem. Tega seveda ne smemo zamenjati z leksikologijo, ki se ukvarja z leksemi in postopki tvorjenja leksikalnih enot v splošnem jeziku (Vintar 2008, 19).

Čeprav se obe vedi ukvarjata z besedami, se razlikujeta predvsem v predmetu preučevanja – torej v (splošnem) leksemu in (specializiranem) terminu.

Arntz in Picht (2014, 4) v svojem delu opišeta osrednje naloge terminologije, ki so preučevanje, zbiranje in obdelava terminologije posameznih strok, preučevanje in usklajevanje poimenovanj, preučevanje pojmov in njihovo poimenovanje s termini ter izdajanje terminoloških priročnikov.

2.1.1 Razvoj vede

Drugo polovico devetnajstega stoletja (1848–1905) je močno zaznamovala druga industrijska revolucija, ki je prinesla mnogo novih odkritij na področju kemije, biologije, fizike, medicine, avtomobilske industrije in komunikacij. V tem času so nastali večji tehnološki izumi, kot so električni generator, transformator in dinamit, prav tako pa je prišlo do odkritja rentgenskih žarkov, radioaktivnega sevanja in nekaterih kemijskih elementov (radija in polonija). K razvoju znanosti sta močno prispevala globalizacija in povezovanje znanstvenikov na mednarodni ravni. Kot

3 ISO - ISO 1087:2019 - Terminology work and terminology science — Vocabulary

(16)

6

posledica hitrega razvoja in internacionalnega sodelovanja se je med znanstveniki in raziskovalci pojavila potreba po poenotenju poimenovanj za določene koncepte.

Prvi, ki so konec 19. stoletja pozvali k poenotenju terminologije na mednarodni ravni, so bili botaniki, zoologi in kemiki, v začetku dvajsetega stoletja pa so se jim pridružili še elektrotehniki (Cabre 1992, 1).

Prvi poskus standardizacije elektrotehničnega izrazoslovja beležimo v letu 1906, ko je bila v Ženevi ustanovljena Mednarodna elektrotehniška komisija (IEC). Dve leti kasneje je bil v okviru IEC ustanovljen Strokovni odbor za elektrotehniško terminologijo, ki se je začel z namenom izdelave slovarja elektrotehniškega izrazja intenzivno ukvarjati s terminologijo (Žagar Karer 2011, 20).

Razvoj terminološke vede, kot jo poznamo danes, pa sega v trideseta leta prejšnjega stoletja. Leta 1931 je Eugen Wüster, ki je bil po izobrazbi elektrotehnik, napisal doktorsko disertacijo, v kateri se je ukvarjal s standardizacijo predvsem elektrotehniškega izrazja (Cabre 1992, 2). Danes je Wüster znan predvsem kot začetnik moderne terminologije in ustanovitelj dunajske terminološke šole, v okviru katere definira osnovna načela tvorjenja terminov, med katerimi poudarja oblikovanje pred poimenovanjem ter sinhrono preučevanje razmerij med konceptom in izrazom (Jemec Tomazin 2010, 166).

V istem desetletju, natančneje leta 1938, IEC izda Mednarodni elektrotehniški slovar (IEV), ki je danes dostopen tudi v spletni obliki na portalu Electropedia (Žagar Karer 2011, 20). Tretji večji premik, ki je prispeval k razvoju terminološke vede, pa je bila ustanovitev Mednarodne zveze za standardizacijo (ISA), ki je leta 1942 prenehala delovati. Leta 1946 se je združenje ponovno organiziralo in se preimenovalo v Mednarodno organizacijo za standardizacijo (ISO), ki deluje še danes (Potokar 2005, 13).

Cabre (1992, 5) opisuje štiri osnovna obdobja razvoja terminološke vede, in sicer:

• začetki (1930–1960),

• strukturiranje področja (1960–1975),

• razcvet (1975–1985),

• širitev (1985–sedanjost).

(17)

7

Prvo obdobje zaznamuje predvsem Wüster, ki v svojih delih opiše metode za sistematično oblikovanje terminov (Cabre 1992, 6). V drugem obdobju beležimo napredke v terminološki vedi, ki so bili posledica razvoja računalništva in tehnik za dokumentacijo. V istem obdobju se pojavijo tudi prvi poskusi standardizacije terminologije znotraj posameznih jezikov (Cabre 1992, 6).

Obdobje razcveta sovpada z začetki razvoja osebnih računalnikov in posledično z drugačnim pristopom k obdelavi podatkov. Terminologija v tem obdobju igra zelo pomembno vlogo pri modernizaciji jezika in družbe. Zadnje obdobje terminologije zaznamuje računalništvo, ki omogoča dostop do orodij in virov za obdelavo jezikovnih podatkov, prav tako pa je to čas, v katerem beležimo razcvet jezikovne industrije, znotraj katere igra terminologija pomembno vlogo (Marza 2009, 86).

2.1.2 Teoretski pristopi

2.1.2.1 Splošna teorija o terminologiji

Splošna teorija o terminologiji (allgemeine Terminologielehre) in njen ustanovitelj Eugen Wüster sta močno zaznamovala terminološko vedo in prakso. Wüsterjeve ideje so navdušile veliko jezikoslovcev in znanstvenikov in tako se je oblikovala dunajska šola terminologije, ki se je ukvarjala predvsem z opisom vsakega pojma (Žagar Karer 2011, 15). Predstavniki splošne teorije o terminologiji so se ukvarjali predvsem z deskriptivno terminologijo, katere namen je bil popisovanje že obstoječe terminologije in njena standardizacija (Fajfar in Žagar Karer 2015, 8).

Felber (1984, 9), predstavnik splošne teorije o terminologiji in Wüstrov najvidnejši naslednik, je v svojem delu Terminology Manual opisal sistematično delo splošne teorije o terminologiji, ki je potekalo v treh stopnjah:

• raziskovanje trenutne rabe terminologije,

• izdelava novega pojmovnega sistema in

• predstavitev novega sistema v obliki standarda ali slovarja.

Felber (1983, 8) prav tako razlikuje med tremi vrstami jezikovnih simbolov, in sicer besedo, terminom in tezavrskim vnosom. Kot ugotavlja, ima beseda lahko veliko nedefiniranih pomenov in pomenskih odtenkov, njen pomen pa je odvisen od

(18)

8

sobesedila. Tezavrski vnos je lahko beseda, termin ali ime in se uporablja za indeksiranje dokumentov, termin pa definira kot jezikovni simbol, ki ga uporabljamo za določen pojem, njegov pomen pa je odvisen od položaja pojma v pojmovnem sistemu.

Znotraj splošne teorije o terminologiji se je tako razvila tradicionalna definicija termina, ki termin označuje kot leksikalno enoto s specializirano referenco na določenem področju, torej kot jezikovni znak za določen pojem.

Čeprav splošna teorija o terminologiji velja za enega najbolj sistematičnih in koherentnih pristopov k terminologiji, je bila z razvojem drugačnih pogledov, predvsem pa besedilnih korpusov, deležna različnih kritik. Kot navaja Žagar Karer (2011, 16), so kritike letele predvsem na opredelitev strokovnega področja, ki je bila poljubna in odvisna od posameznega terminološkega projekta, pojmi pa so bili nenatančno in nejasno definirani.

2.1.2.2 Novejši pristopi

Novejši pristopi k raziskovanju terminologije so nastali kot opozicija splošni teoriji o terminologiji, nanje pa je močno vplival razvoj besedilnih korpusov. Korpusno jezikoslovje ima svoje začetke v sedemdesetih letih, ko so raziskovalci začeli raziskovati naravni jezik na podlagi obsežnega in empiričnega vzorca besedil, ki so nastali v določenem obdobju iz množičnih medijev in so bili zbrani v korpusih. Novi pristopi in metodologije k obravnavi leksike se zato pričakovano pojavijo tudi v terminologiji. Terminologi upoštevajo pri obravnavi terminov tudi kontekst oziroma komunikacijsko situacijo. Za razliko od splošne teorije o terminologiji, ki je bila izrazito perskriptivna, so novejše metode deskriptivne, saj ugotavljajo, da je standardizacija jezika nedosegljiva, saj je jezik živ in se stalno spreminja (Fajfar 2017, 48).

2.1.2.3 Pragmatične definicije terminološkosti

Hoffmann (1985, 126–127) predstavi razlage, ki se dotikajo vprašanja, kaj zajema oziroma kaj je termin. Znotraj strokovnega besedila razlikuje med strokovnim specializiranim izrazjem (Fachwortschatz, subject-specific term), nestrokovnim specializiranim izrazjem (allgemeinwissenschaftlicher Wortschatz, non subject- specific term) in splošnim izrazjem (allgemeiner Wortschatz, general language word). V strokovnem specializiranem izrazju najdemo izraze, ki so uporabljeni zgolj

(19)

9

na enem področju in so enopomenski. Nestrokovno specializirano izrazje zajema izraze, ki so še vedno strokovni, vendar se uporabljajo v več strokah. Pod nestrokovno specializirano izrazje pa sodijo tudi determinologizirani izrazi, ki so bili nekoč zelo ozko specializirani, danes pa so postali že del splošnega izrazja.

2.1.2.4 Komunikacijska teorija terminologije

Glavna predstavnica komunikacijske teorije o terminologiji je Maria Tesera Cabre, ki je osnovne pristope v komunikacijski teoriji o terminologiji predstavila v delu Theories of Terminology - their Description, Prescription and Explanations, objavljenem leta 2003. V njem avtorica opiše komunikacijski pristop k terminologiji, ki je interdisciplinarni pristop in obsega teorijo znanja, komunikacijsko teorijo in teorijo jezika. Glavna značilnost komunikacijske teorije terminologije je raziskovanje znanja in vivo, torej naravnega jezika v realni situaciji, v nasprotju z raziskovanjem znanja in vitro, ki se osredotoča na standardiziran jezik.

Prav tako se komunikacijski pristop osredotoča na komunikacijsko aktivnost, pri kateri termin predstavlja določen pojem, ki je odvisen od situacije (Terminology Coordination 2020). Predmet preučevanja je terminološka enota, ki pa ni zgolj jezikovna, temveč tudi kognitivna enota in enota v družbenem kontekstu.

Raziskovanje terminoloških enot mora biti vedno vezano na specializiran diskurz, saj šele tako določena enota postane terminološka, torej ko se pojavi v določenem diskurzu (Fajfar 2017, 49).

2.1.2.5 Sociokognitivna terminologija

Sociokognitivni pristop k terminologiji se je razvil iz kritike splošne teorije o terminologiji, utemeljila pa ga je Rita Temmerman, ki je analizirala korpus znanstvenih besedil in prišla do ugotovitev, da splošna teorija o terminologiji med drugim ne uspe začrtati jasne meje med terminom in neterminološko enoto (Terminology Coordination 2020). Sociokognitivni pristop ugotavlja, da termini niso omejeni zgolj na eno stroko, temveč da se gibljejo v številnih, največkrat sorodnih disciplinah, ki se lahko po vsebini tudi prekrivajo (Mikolič 2015, 189).

Sociokognitivna teorija v središče preučevanja ne postavlja več termina, temveč enoto razumevanja. “Enota razumevanja je lahko kategorija, ki ima prototipsko strukturo, ali pojem, ki ima logično ali ontološko strukturo” (Fajfar 2017, 50).

(20)

10

Sociokognitivni pristop k terminologiji zagovarja, da pojmov ni mogoče jasno razmejiti v pojmovni sistem, zaradi česar dopušča sopomenskost in večpomenskost terminov (Fajfar 2017, 50).

2.1.2.6 Terminologija shem

Zadnje raziskave s področja nevroznanosti in kognitivne psihologije so pokazale, da pojmi in kognitivne strukture kot tudi priklic in shranjevanje pojmov niso statični, temveč dinamični, fluidni in so odvisni od številnih dejavnikov (Faber 2011, 11). Na ta odkritja se zanaša najsodobnejši pristop k preučevanju terminologije, in sicer terminologija shem. Faber (2011, 13), predstavnica terminologije shem, ugotavlja, da pojmov ne moremo obravnavati ločeno, ampak jih vedno povezujemo z določenimi situacijami in dogodki. Barsalou (2009, 1283) še dodaja, da ko zaznavamo entiteto, hkrati zaznavamo tudi prostor, v katerem je entiteta, ter osebe, predmete in dogodke.

Terminologija shem temelji na teoriji pomenskih shem, ki jo je utemeljil Charles Fillmore (Može 2009, 265). Gre za shematične predstavitve konceptualnih struktur in vzorcev, ki v neki jezikovni skupnosti zagotavljajo temelj pomenskih interakcij (Krek 2008, 38). Za razliko od splošne teorije o terminološkosti, ki zagovarja statično organiziranost pojmov, teorija shem dinamično predstavlja enote znanja posameznega specializiranega področja (Fajfar 2017, 52).

2.1.3 Uporabniki terminologije

Kot ugotavljajo mnogi raziskovalci, ki se ukvarjajo s terminologijo, različni uporabniki na različne načine pristopajo k preučevanju terminologije. Kot primer navedimo prevajalce, ki za razliko od področnih strokovnjakov ne poznajo pojmovnega sistema določenega področja, zato termine poznavajo zgolj na izrazni ravni (Fajfar 2017, 52). Cabre (1992, 11–12) razdeli uporabnike terminologije v dve skupini, in sicer na neposredne in posredne uporabnike. Neposredni uporabniki so strokovnjaki, posredni pa med drugim prevajalci, ki uporabljajo terminologijo, da olajšajo komunikacijo drugim uporabnikom. Tudi Vintar (2008, 46–47) klasificira uporabnike terminologije v nekoliko ožje skupine, in sicer na strokovnjake, dokumentaliste, prevajalce in terminologe, vsaka skupina pa uporablja terminologijo na različne načine.

(21)

11

2.1.4 Terminologija v slovenskem prostoru

V slovenskem prostoru se po podatkih spletne strani Jezikovna Slovenija (b.d.)4 z dne 18. 2. 2019 s terminologijo načrtno ukvarja več ustanov, in sicer Sekcija za terminološke slovarje Inštituta za slovenski jezik Frana Ramovša ZRC SAZU, Center za družboslovnoterminološko in publicistično raziskovanje, Katedra za leksikologijo, terminologijo in jezikovne tehnologije Oddelka za Prevajalstvo UL, Fakulteta za humanistične študije in Slovenski inštitut za standardizacijo. Kot je še navedeno na omenjeni spletni strani, se s terminologijo Evropske unije (v nadaljevanju EU) ukvarjajo prevajalci in terminologi v okviru nacionalnih in evropskih institucij ter številna strokovna društva in združenja.

Med najbolj prepoznavnimi in uporabnimi viri terminologije je zagotovo portal terminološke sekcije Inštituta za slovenski jezik Frana Ramovša ZRC SAZU Terminologišče, ki omogoča dostop do 13 terminoloških slovarjev. Do teh slovarjev je mogoče dostopati tudi prek slovarskega portala Fran.5 Poleg Terminologišča je eno izmed bolj obiskanih terminoloških portalov tudi portal podjetja Amebis Termania.6 Področje informatike pokriva spletni slovar informatike iSlovar,7 ki ga ureja Slovensko društvo Informatika, področje terminologije EU pa pokrivata spletna servisa Evroterm8 in Evrokorpus, na ravni EU pa je slovenska in tuja terminologija zbrana v bazi IATE.9

Od leta 1990 je v Sloveniji izšlo skoraj 300 terminoloških slovarjev, večina od njih pa temelji na pojmovnem pristopu (Fajfar 2017, 64).

4http://www.jezikovna-politika.si/

5http://www.fran.si/

6https://www.termania.net/

7http://www.islovar.org/islovar

8https://evroterm.vlada.si/evroterm

9https://iate.europa.eu/

(22)

12

2.2 Termin

Kot ugotavlja Vintar (2008, 37), je ena izmed ključnih težav pri vsakršnem ukvarjanju s terminologijo ravno odločanje o tem, ali je neko poimenovanje termin ali ne.

2.2.1 Definicija termina

Tradicionalna definicija termina, ki se je oblikovala znotraj splošne teorije o terminologiji, definira termin kot leksikalno enoto s specializirano referenco na določenem področju, kot jezikovni znak za določen pojem. Pearson (1998, 13) ugotavlja, da pod termine določenega strokovnega področja prištevamo tudi tiste termine, ki so bili prvotno del terminologije drugega področja. Avtorica prav tako dodaja, da se termin od ostale leksike loči po tem, da se relativno redko pojavlja v splošnem jeziku ali sporazumevalnem okolju, v katerem je rabljen (Pearson 1998, 27). Poleg tega poudarja pomen ustrezne opredelitve sporazumevalnega okolja, v katerem pričakujemo pojavitev določenega termina, saj lahko na podlagi dobre opredelitve najbolje razlikujemo med terminološkim in neterminološkim izrazjem (Pearson 1998, 35).

Logar in Vintar (2008, 4) opredelita termin kot poimenovanje za specializiran pojem določenega strokovnega področja, ki je pravilno enopomenski, neekspresiven, ustaljen, sistemski in dogovorjen. Fajfar in Žagar Karer (2015, 13) pa še ugotavljata, da so termini primarno lahko del splošnega jezika, vendar imajo tudi specializiran pomen v določeni stroki. Eden takšnih terminov, kot je na primer odziv, ki bi ga v splošnem besedišču lahko definirali kot »glagolnik od odzvati se«, ki je definiran kot

»udeležiti se česa na poziv, povabilo, prošnjo« (Fran b.d.), po drugi strani pa se lahko beseda odziv pojavi kot termin, in sicer gre za »mehanizem, vgrajen za nadzor delovanja, vzdrževanja, razvijanja računalniških sistemov« (iSlovar b.d.) na področju računalništva. Fajfar in Žagar Karer (2015, 13) prav tako dodajata, da so termini velikokrat tujke.

Če torej povzamemo bistvene značilnosti terminov, ki jih izpostavljajo novejši terminološki pristopi in ugotovitve na področju ukvarjanja s terminologijo, lahko zapišemo, da so termini enote razumevanja, ki se pojavijo v določenem specializiranem kontekstu. Praviloma so enopomenski, neekspresivni in dogovorjeni, lahko so primarno del splošnega jezika, vendar imajo v določeni stroki

(23)

13

specializiran pomen, po vsebini pa lahko pokrivajo več sorodnih disciplin. Na vprašanje, ali gre za večbesedni termin ali kolokacijo, pogosto različni uporabniki terminologije presojajo različno – odgovori so prekrivni s štirimi skupinami uporabnikov terminologije, in sicer prevajalci, terminologi, dokumentalisti in strokovnjaki (Vintar 2008, 47).

2.2.2 Dolžina terminov

Vintar (2001) kot eno izmed težav, s katerimi se srečuje terminologija, izpostavlja dolžino terminov, in sicer poda primere predvsem s pravnega jezika, kjer lahko posamezni termin vsebuje več kot deset besed.10 Primer takšnega termina je Svetovalni odbor za delovni program Skupnosti za preprečevanje poškodb v okviru dejavnosti v splošnem zdravstvu. O dolžini terminov v slovenskem prostoru piše tudi Vidovič Muha (2013, 29), ki izpostavlja, da razlikujemo med eno- in večbesednimi termini, med katerimi so najpogostejše besedne zveze s samostalnikom in levim pridevniškim prilastkom, kot na primer oblačno računalništvo. Prav tako avtorji Smernic za označevanje dvojezičnih terminov v korpusu KAS-dr, ki so v obliki navodil za označevanje korpusa, opozarjajo, da naj dolžina termina ne presega sedem besed, saj v tem primeru obstaja le malo možnosti, da gre zares za termin.11

Avtorica Žagar Karer (2018, 241) v svojem prispevku Upoštevanje terminoloških načel v terminografski praksi povzema tri terminološka načela, ki so se razvila v okviru pojmovnega pristopa, in sicer gre za ustaljenost, gospodarnost in jezikovnosistemsko ustreznost. Ravno načelo gospodarnosti se dotika težave dolžine terminov. V grobem bi lahko razlikovali med kratkimi in daljšimi opisnimi termini, ki so manj funkcionalni od krajših. Razlika med krajšimi in daljšimi termini je ne le v njihovi dolžini, ampak tudi v njihovem zapisu in definiciji, ki sta podana v terminoloških slovarjih. Pri daljših, večbesednih terminih se namesto terminološke definicije namreč pogosto pojavi razlaga posameznih ali več besed samega termina.

10 http://www2.arnes.si/~svinta/skripta.htm

11 https://www.clarin.si/repository/xmlui/bitstream/handle/11356/1199/KAS-biterm-smernice- v1.0.pdf?sequence=2&isAllowed=y

(24)

14

Kot dalje ugotavlja Žagar Karer (2018, 242), so opisni, daljši termini manj primerni od krajših, saj se v strokovnih besedilih pojavlja več različic enega termina, kar pomeni več terminoloških variacij in manjša ustaljenost termina.

2.2.3 Terminološke variacije

Pri preučevanju terminologije v besedilih pogosto naletimo na terminološke variacije, torej na variante oziroma različice termina, ki opisujejo določen pojem.

Terminološke variacije na nek način zavračajo tezo, da med pojmom in terminom obstaja enoznačna povezava. Daille et al. (1996, 201) terminološko variacijo definirajo kot pojav, ki je pojmovno in pomensko povezan z izvirnim terminom. Gre torej za preoblikovan osnovni termin ali njegovo sopomenko. Vintar (2008, 45) opozarja, da mora biti uporabnik terminologije posebno previden pri določanju terminoloških variacij, saj včasih termin in variacija ne označujeta istega pojma.

Žagar Karer (2018, 242) dodaja, da so terminološke variacije pri strokovnem sporazumevanju nezaželen pojav.

O terminoloških variacijah je pisal tudi Trebar (2014), ki je v specializiranem korpusu besedil s področja računalništva in informatike opazoval terminološke variacije.

Ugotovil je, da lahko razlikujemo med šestimi tipi terminoloških variacij, in sicer med:

- besedotvornimi variacijami, - sintagmatskimi variacijami, - permutacijami,

- substitucijo, - razširitvijo, - koordinacijo.

Fajfar (2017, 58) opisuje z vidika slovenskega jezika dve skupini terminoloških variacij, ki so transformirane oblike terminov, torej zgolj različice, ki označujejo isti pojem. Kot ugotavlja, je prva skupina teh variacij jezikovnosistemsko predvidljiva, v drugo pa spadajo terminološke variacije, ki so besedilno pogojene. V prvi skupini bi torej našli kratice in variacije, pri katerih pride na primer do pretvorbe levega pridevniškega prilastka v desni samostalniški prilastek, ali variacije terminov s prevzeto in neprevzeto sestavino, v drugi skupini pa na primer terminološke variacije, pri katerih pride do izpusta ene izmed sestavin.

(25)

15

Vsekakor se terminološkim variantam ne da izogniti, posebno ne v primeru daljših večbesednih terminov (Žagar Karer 2018, 242).

2.2.4 Razmerje med terminom in terminološko kolokacijo

Pri preučevanju terminov je treba posebno pozornost nameniti tudi razlikovanju med termini in terminološkimi kolokacijami. Kljub mnogim raziskavam, ki so se osredotočale na terminološke kolokacije, med strokovnjaki še vedno ni sprejetega enotnega razlikovanja med kolokacijami in termini (Cigan 2018, 93). Vrbinc (2001, 51) opredeljuje kolokacije kot opazne zveze dveh ali več besed, ki se pojavljajo v različnih predvidenih slovničnih vzorcih, ki so pomensko motivirane oziroma predvidljive. Jemec Tomazin (2010, 158) pa še opozarja na razlikovanje med stalnimi besednimi zvezami in kolokacijami. Za razliko od stalnih besednih zvez, ki se vedno pojavljajo skupaj, se sestavine kolokacij ne pojavljajo vedno skupaj, ampak je lahko med dvema deloma več besed. Razlikovanje med terminološko kolokacijo in terminom opredeljuje tudi Vintar (2003, 74), ki zapiše, da bi termin sicer lahko opredelili kot besedne zveze, ki v pojmovnem sistemu določenega področja poimenujejo opredeljene pojme in se ne spreminjajo, terminološke kolokacije pa bi definirali kot ustaljene jezikovne povezave med termini oziroma med terminom in neterminološkimi leksemi, vendar v nadaljevanju zapiše še, da se takšna razmejitev ne obnese, saj je preveč splošna.

Vintar (2008, 47) kasneje ugotavlja, da razmerje med terminom in terminološko kolokacijo določa uporabnik terminologije. “Kar je za terminologa ali dokumentalista zgolj kolokacija, je za prevajalca ali tehničnega pisca termin prav na podlagi kriterija, da gre za edini ustaljeni in sprejemljivi način opisa določenega strokovnega dejstva”

(Vintar 2008, 47).

2.2.5 Subjektivno dojemanje terminološkosti

O subjektivnosti dojemanja terminologije je bilo narejenih že več raziskav. Eno obsežnejših je v svoji doktorski disertaciji izvedla Estopà Bagot (1999), ki je ugotavljala, kako različne skupine uporabnikov terminologije dojemajo terminološkost. Ugotovila je, da med prevajalci, dokumentalisti, strokovnjaki in terminologi obstajajo očitne razlike. Terminografi so označili 1052 enot za termine,

(26)

16

strokovnjaki nekoliko manj, in sicer 938 enot, dokumentalisti za pol manj (486), prevajalci pa so najmanj enot označili kot termine.

Podobne raziskave so bile izvedene tudi na slovenskem področju. Logar Berginc (2013, 248) je izvedla raziskavo med študenti prevajalstva ter študenti tržnega komuniciranja in odnosov z javnostmi, ki so morali v besedilu podčrtati termine.

Ugotovila je, da so študentje kot termine dojemali tiste enote, ki so bile relativno nepogoste ali nerazumljive v splošnem jeziku.

Podobno raziskavo sta izvedli Fajfar in Žagar Karer (2015, 28), le da sta raziskovali dojemanje terminološkosti med terminologi in strokovnjaki z določenega področja.

Strokovnjaki so morali v okviru raziskave v bogato terminoloških besedilih podčrtati termine iz svoje stroke, izvenpodročnih terminov pa ne. Nestrokovnjaki, med katerimi so bili terminologi in terminografi, pa so morali podčrtati vse termine.

Rezultati raziskave so pokazali, da so strokovnjaki z določenega področja označili več enot kot terminološke kot pa terminologi. Avtorici ugotavljata, da kljub različnemu mehanizmu prepoznavanja terminologije rezultati obeh skupin v veliki meri sovpadajo (Fajfar in Žagar Karer 2015, 30). Zavedati se torej treba, da obstajajo razlike med posamezniki v dojemanju terminologije.

(27)

17

2.3 Luščenje terminologije

Luščenje terminologije je proces iskanja vseh enot, ki se v določenem specializiranem besedilu nanašajo na točno določen pojem oziroma se njihova raba razlikuje od rabe v nespecializiranih besedilih. Ker je ročno označevanje terminov precej zamudno, se je v zadnjih dveh desetletjih razvilo tako imenovano samodejno prepoznavanje ali luščenje terminološko relevantnih leksikalnih enot.

2.3.1 Samodejno luščenje terminologije

Samodejno luščenje terminologije je raziskovalno področje, ki se je razvilo v sklopu računalniškega in korpusnega jezikoslovja (Vintar 2017, 37). Kot ugotavlja Vintar (2017, 37), sodobni pristopi k luščenju terminologije temeljijo predvsem na porazdelitveni lastnosti terminov, torej merijo pogostost določenega termina v specializiranem korpusu in jo primerjajo s pogostostjo v splošnem korpusu ali pa temeljijo na ustaljenih oblikoskladenjskih vzorcih, na podlagi katerih prepoznavajo termine. Nekateri pristopi za luščenje terminologije kombinirajo obe metodi.

Nekoliko inovativnejši pristopi pa gredo pri luščenju terminologije še korak dlje, ki poleg jezikoslovnih in statističnih lastnosti terminov upoštevajo tudi semantične informacije ter tako odkrivajo semantična razmerja med pojmi (Vintar 2017, 38).

Različni avtorji se posvečajo predvsem luščenju semantičnih relacij iz besedil, pri čemer izračunavajo semantično podobnost med konteksti, v katerih se pojavlja določen termin (Ledinek et al. 2009, 347). Ta pristop imenujemo tudi terminološko vmreževanje.

(28)

18

2.4 Pregled sorodnih raziskav

V poglavju se osredotočam na raziskave, ki so bile že narejene na različnih področjih terminologije v Sloveniji in drugod po svetu. Raziskave razdelim na posamezne sklope, ki sem jih raziskovala ali se jih dotaknila v raziskovalnem delu magistrskega dela.

Na področju terminološke gostote je bilo v Sloveniji narejenih le nekaj raziskav, zato se v poglavju najprej osredotočam na raziskave, narejene v evropskem prostoru.

Prvo raziskavo, ki je predstavljena v nadaljevanju, je izvedla Oivin Andersen z Univerze v Bergnu. V svojem delu (Andersen 1996, 89) je med drugim raziskovala terminološko gostoto in stopnjo specializacije posameznih terminov, ki ju je raziskovala na sklopih besedil z različnih področij, ki so vsebovali približno tisoč besed, in sicer so bila izbrana naslednja področja: proizvodnja, vzdrževanje in vrtanje. Raziskava je pokazala, da je povprečna terminološka gostota, izračunana na vzorcu tisoč besed, za vsa tri področja skupaj 5,9-odstotna.

Ferraresi (2019, 24) v članku z naslovom How specialized (or popularized)?

Terminological density as a clue to text specialization in the domain of food safety, v katerem med drugim raziskuje terminološko gostoto besedil Evropske agencije za varnost hrane, ugotavlja, da je povprečna terminološka gostota specializiranih besedil približno 25-odstotna (24,7 %).

O dolžini terminov pa je bilo v primerjavi s terminološko gostoto narejenih že nekaj raziskav tudi v slovenskem prostoru. Trenutno najbolj aktualna raziskava je bila narejena prav tako na korpusu KAS, in sicer v članku The KAS corpus of Slovenian adacemic writing. Avtorji članka Erjavec, Fišer in Ljubešić (2021) raziskujejo samodejno označevanje terminov z uporabo orodja CollTerm in nadzorovanega strojnega učenja. Kot opisujejo v delu, je program med več kot sto milijonov enot označil kar 67.535 terminoloških kandidatov, ki so se skupno pojavili približno 2.000.000-krat. V raziskavo so avtorji vključili eno-, dvo-, tri- in štiribesedne termine, med katerimi so najbolj zastopani dvobesedni termini, ki prestavljajo približno 44 % vseh terminoloških kandidatov, s 33 % sledijo enobesedni, s 13 % štiribesedni in na koncu z 9 % še tribesedni termini (Erjavec, Fišer in Ljubešić 2021).

(29)

19

Trditve o najpogostejši dolžini terminov potrjujejo tudi podatki iSlovarja iz leta 2008 (Ivan Kanič v elektronskem sporočilu avtorju, 2. 1. 2021). Čeprav se področje računalništva hitro spreminja in hitro sprejema nove termine, jih je veliko vendarle zajetih v iSlovar. Leta 2008 je bilo tako v spletnem slovarju največ dvobesednih gesel, in sicer 2.074, na drugem mestu so bili enobesedni termini (1.744), na tretjem mestu pa tribesedni termini, ki jih je bilo skupaj 599 (Vinar et al. 2008, 67). Najdaljši termin je vseboval devet enot.

Danes so podatki iz iSlovarja (Ivan Kanič v elektronskem sporočilu avtorju, 2. 1. 2021) nekoliko drugačni, in sicer je v slovarju precej več terminov, kljub temu pa so na prvem mestu še vedno dvobesedni termini (3.482), na drugem mestu so enobesedni (2.445), sledijo tribesedni (951), štiri- (294), pet- (69), šest-(14) in sedembesedni (2) ter trije devetbesedni termini. Terminov, daljših od devet besed, ni v iSlovarju.12

V magistrskem delu se osredotočam tudi na število izluščenih terminov, ki jih lahko najdemo v enojezičnih priročnikih. Podobna raziskava je bila narejena leta 2008, ko sta Vintar in Erjavec (2008, 68) raziskovala, kolikšen del terminoloških kandidatov, samodejno izluščenih iz korpusa iKorpus, vsebuje iSlovar. Korpus, iz katerega sta luščila terminološke kandidate, vsebuje dva podkorpusa, in sicer enega s področja računalništva in drugega s področja informatike, zbranih iz zbornikov Dnevi slovenske informatike, revij Monitor, Moj mikro, Connect, PC Mediji, Joker in Računalniške novice. Sistem je samodejno luščil le od dvo- do štiribesedne termine, in sicer je bilo kar 40 % vseh teh vsebovanih tudi v iSlovarju (Vintar et al. 2008, 68).

iSlovar je slovar, ki nastaja sproti, neposredno na spletu, zato so podatki danes precej drugačni.

12 Ivan Kanič, 04.01.2021

(30)

20

3 Raziskovalni del

Temeljni cilj magistrskega dela je raziskati terminologijo v akademski slovenščini s področja računalništva. Osredotočam se predvsem na terminološko gostoto, dolžino in obliko terminov ter pokritost terminov v spletnih priročnikih, kar je za prevajalce kot uporabnike terminologije pomembno vprašanje. Raziskovalni del magistrskega dela je sestavljen iz petih delov. V prvem delu opišem korpus KAS, iz katerega je vzeto gradivo, in natančneje opišem tri doktorska besedila, na katerih je potekala analiza. V nadaljevanju predstavim zasnovo raziskave, nato sledi opis raziskave, kjer so predstavljene smernice za označevanje terminov, postopek ročnega označevanja terminov iz cele disertacije in posameznih delov ter postopek luščenja terminologije, ki sem ga izvedla s pomočjo programskega jezika Python.

Sledijo rezultati raziskave, ki so predstavljeni glede na vsebinske sklope, in sicer rezultati terminološke gostote, analiza (najpogostejših terminov) in na koncu še pokritost terminov v spletnih priročnikih.

3.1 Opis uporabljenega gradiva

Korpus KAS je nastal v okviru nacionalnega projekta J6-7094 »Slovenska znanstvena besedila: viri in opisi« (Erjavec, Fišer in Ljubešić 2021).13 Celoten korpus je razdeljen na tri podkorpuse, in sicer KAS-dr, KAS-mag in KAS-dipl, pri čemer KAS-dipl vsebuje približno 65.000 diplomskih nalog, ki so bile napisane med letoma 2000 in 2018 ter so dostopne na Nacionalnem portalu odprte znanosti.14 KAS-mag je bistveno manjši, in sicer vsebuje približno 16.000 magistrskih nalog, KAS-dr pa je najmanjši izmed vseh treh podkorpusov KAS, saj vsebuje približno 1.600 doktorskih disertacij, ki si bile napisane med letoma 2000 in 2018. Korpusi so oblikoskladenjsko označeni, besede so lematizirane, prav tako so označeni terminološki kandidati (Erjavec, Fišer in Ljubešić 2021). Korpus je v okviru

13 http://nl.ijs.si/kas/projekt-predstavljen-v-reviji-language-resources-evaluation/

14https://www.openscience.si/

(31)

21

nacionalne raziskovalne infrastrukture CLARIN.SI dostopen prek konkordančnika noSketch Engine (Erjavec et al. 2019).15

V korpusu KAS-dr sem izbrala tri doktorske disertacije, ki so del računalniške vede in sodijo na področje računalništva in informatike, natančneje v podpodročje računalniške strukture, sistemi in mreže – programska oprema.

Ko sem izluščila vse doktorske disertacije s tega podpodročja, je kot naslednji odločevalni kriterij sledila letnica objave, in sicer sem izbrala disertacije, ki so bile objavljene v istem letu. Tako sem izbrala tri disertacije, na katerih sem izvedla analizo. Objavljene so bile leta 2014 in v večini obravnavajo računalniške komunikacije in omrežja. Vsaka izbrana disertacija se dotika drugega specifičnega problema znotraj omenjenega podpodročja, h kateremu pristopajo teoretsko:

• Dukarić, Robert. 2014. „Referenčni model integracije infrastrukturnih in platformskih nivojev računalniškega oblaka : doktorska disertacija“. Univerza v Ljubljani, Fakulteta za računalništvo in informatiko.

• Cankar, Matija. 2014. „Povečevanje učinkovitosti izvajanja nalog s sočasnim delnim dodeljevanjem virov v rahlo sklopljenih računalniških strukturah : doktorska disertacija“. Univerza v Ljubljani, Fakulteta za računalništvo in informatiko.

• Polajnar, Matija. 2014. „Statična in dinamična analiza omrežij na podlagi lokalnih vzorcev : doktorska disertacija“. Univerza v Ljubljani, Fakulteta za računalništvo in informatiko.

Iz teh treh disertacij sem nato ustvarila terminološko označen vzorec korpusa KAS, in sicer korpus KAS-Klara, v katerem je skupno približno 100.000 besed, korpus je lematiziran in morfosintaktično označen. Tako kot korpus KAS tudi podkorpus KAS- Klara temelji na morfosinaktičnih oznakah za slovenščino, ki so bile razvite v okviru projekta MULTEXT-East (Erjavec et al. 2012).

Vsaka pojavnica v korpusu ima tako določeno besedno vrsto (samostalnik, glagol, pridevnik …) in podrobnejše informacije o besedni vrsti, kot so na primer spol, število, sklon in živost pri samostalnikih, v skladu s specifikacijami MULTEXT-East (MULTEXT-East Morphosyntactic Specifications 2018).

15https://www.clarin.si/noske/

(32)

22

3.2 Zasnova raziskave

Slika 1 prikazuje potek raziskave, pod sliko pa se nahaja natančnejši opis vsakega posameznega koraka.

Slika 1: Potek raziskave

V prvem delu raziskovalnega dela sem se zanašala na definicijo termina, ki sem jo strnila v teoretičnem delu magistrskega dela, prav tako sem zapisala delovne smernice, s pomočjo katerih sem ugotovila, ali je beseda termin ali ne. V tej fazi sem opravila tudi primerjavo vseh treh besedil, na podlagi katere sem določila pet smiselnih sklopov, na katere lahko razdelimo vse dokumente:

• uvod,

• pregled področja,

(33)

23

• empirični del,

• povzetek,

• zaključek.

Vsak dokument sem nato s pomočjo oznak XML razdelila na teh pet sklopov. Ko sem v dokumentih označila vse posamezne sklope in termine, je sledilo luščenje terminov. Ker je bilo besedilo zapisano v strukturi XML, sem s programsko kodo, napisano v jeziku Python, izluščila vse termine, ne glede na to, v katerem delu disertacije se nahajajo. Nato sem s programsko kodo izluščila tudi termine iz posameznih delov disertacije, tako da sem dobila število vseh skupnih pojavitev in število vseh pojavitev znotraj posameznega sklopa.

Sledila je ročna lematizacija vseh izpisanih terminov, na podlagi katere sem dobila podatek o končnem število vseh terminov, ki se vsaj enkrat pojavijo v besedilu.

Korpus je služil kot pripomoček za primerjavo podatkov, ki sem jih dobila z ročnim pripisovanjem leme oziroma slovarskega gesla. Prav tako je bil korpus KAS v pomoč, kadar je bilo treba preveriti več konteksta pri določenem terminu.

Ko sem dobila sezname vseh terminov in število pojavitev terminov v posameznih sklopih disertacije, je sledil postopek štetja vseh besed, vključno s termini, ki se pojavijo v sklopih besedila. S pomočjo regularnih izrazov sem iz dokumentov odstranila morebitne dvojne presledke, prazne vrstice in druge znake, zaradi katerih bi lahko dobila napačno število besed. Ko je bilo besedilo očiščeno, sem dobila podatek o številu besed v posameznem sklopu. Podatek sem nato uporabila pri računanju terminološke gostote.

Ko sem pridobila vse podatke za posamezen dokument, je sledila primerjava oziroma analiza rezultatov, pridobljenih za vse tri dokumente. Primerjala sem podatke o številu in odstotkih terminološke gostote v posameznih dokumentih in petih sklopih vsake doktorske disertacije.

3.2.1 Smernice za označevanje terminov

Da bi ročno označevanje terminov potekalo konsistentno, je bilo treba pred začetkom dela napisati jasne smernice, kaj je termin in kako ga prepoznati. Poleg teoretičnega dela, v katerem sem strnila novejše definicije termina, sem se opirala tudi na Navodila za ocenjevanje terminoloških kandidatov, ki so jih uporabljali jezikoslovci, ki so sodelovali pri projektu Slovenska znanstvena besedila: viri in

(34)

24

opisi, ki so dostopna na spletni strani projekta Korpus akademske slovenščine.16 Eden izmed ciljev projekta je bil namreč razvoj sistema za avtomatsko luščenje terminologije iz znanstvenih besedil, naloga jezikoslovcev pa je bila, da so pri posameznem primeru označili, ali je določena pojavnica termin ali ne.

V navodilih so bili opisani mejni primeri, pri katerih bi lahko prišlo do dvoumnosti pri določanju terminološkosti. S pomočjo teoretičnega dela magistrskega dela in navodil projekta Slovenska znanstvena besedila sem zapisala svoje smernice, ki sem jih uporabila pri določanju terminološkosti:

1. Beseda ali besedna zveza je termin, če se pojavi v določenem specializiranem kontekstu, v katerem ima specializiran pomen.

Primer: »Tako je <t>infrastruktura računalništva v oblaku</t> lahko namenjena tudi za doseganje več različnih ciljev hkrati, medtem ko je …«

(Cankar 2014, 18)

2. Beseda ali besedna zveza je termin, če ima na strokovnem področju enopomenski, neekspresiven, ustaljeni in sistemski pomen.

Primer: »Pri <t>virtualizaciji</t> velja, da <t>navidezna naprava</t> ne more biti močnejša od <t>gostitelja</t>.« (Cankar 2014, 19)

3. Besedo ali besedno zvezo označimo kot termin, tudi če je termin z drugega področja, torej s področja, ki ni računalništvo in informatika.

Primer: »Povezave med njimi predstavljajo odnose, na katere se pri zadani nalogi osredotočamo: prijateljstva, sodelovanja, podobnosti, <t>kemijske vezi</t> …« (Polajnar 2014, 2)

4. Beseda ali besedna zveza je termin, tudi če se pojavi v zapisu, ki ni v skladu s pravopisnimi pravili, na primer XML element, namesto element XML ali kot

16 http://nl.ijs.si/kas/sklopi-projekta/

(35)

25

prikazuje spodnji primer API klic namesto slovnično ustreznejše oblike klic API.

Primer: »Na podoben način Amazon ponuja rešitev Simple Workìow Service (SWF), ki predstavlja <t>upravljavsko storitev delovnih tokov</t> za izgradnjo

<t>aplikacij za oblak</t> in ponuja preproste <t>API klice</t>.« (Dukarić 2014, 163)

5. Beseda ali besedna zveza je termin, če se nahaja v slovenskih računalniških slovarjih, torej v iSlovarju ali DIS slovarčku, če se pojavi na Wikipediji in ima pripisano oznako, da gre za računalniško področje, ali če pojavnico najdemo na spletnem portalu Fran, kjer je poleg definicije pripisana oznaka, da gre za besedišče z računalniškega področja.

Primer: »<t>Orodjarna</t> GridSim omogoča spreminjanje in

<t>simuliranje</t> različnih entitet vzporednega …« (Cankar 2014, 32)

6. Beseda ali besedna zveza je termin, če je poleg slovenskega poimenovanja zapisan tudi angleški izraz, ki je v angleškem jeziku ustaljen in specifičen znotraj določenega področja. Angleških terminov ne označujemo. Če je angleški zapis naveden med enotami večbesednega slovenskega termina, takšnega slovenskega termina ne označimo.

Primer: »Ta <t>opravila</t> običajno vključujejo <t>premostitev</t> (angl.

Bridging) vmesnikov, spreminjanje <t>pravil pri tabelah IP naslovov</t>

(angl. Ip-tables Rules), samodejno dodeljevanje …« (Dukarić 2014, 59)

Primer: »… <t>kompenzacijski upravljavci</t> dostop do <t>podatkov podprocesa</t> v času njegovega zaključka (tj. <t>posnetek podatkov</t>, angl. Snapshot Data).« (Dukarić 2014, 120)

7. Beseda ali besedna zveza je termin, če je znotraj besedila podana definicija pojma.

(36)

26

Primer: »<t>izjeme</t> so <t>semantične napake</t>, do katerih lahko pride zaradi <t>sistemskih napak</t> ali zaradi nove nepredvidene situacije, ki jo je povzročilo zunanje okolje …« (Dukarić 2014, 119)

8. Označujemo vedno najširši možni termin, notranjih terminov ne označujemo.

Tako npr. v primeru besedne zveze sloj abstrakcije virov kot termin označimo celotno besedno zvezo, ne pa abstrakcija virov. Gnezdenih terminov ne označujemo.

Primer: »Najzgodnejši <t>algoritem za generiranje naključnih grafov</t> je

<t>model Erdös-Rényi</t>, za katerega se je kasneje izkazalo, da ne gradi realističnih <t>grafov</t>.« (Polajnar 2014, 13)

9. Besede ali besedne zveze ne označimo za termin, kadar se v besedilu pojavi določilo besedne zveze brez jedra. Če pa se v besedilu v eliptični obliki pojavi jedro, ki je že samo po sebi termin, potem besedo označimo kot termin.

Spodnji primer prikazuje zapis dvodelnega termina ravninski graf, pri čemer je kot termin označeno samo jedro besedne zveze, in sicer graf. Ker se določilo besedne zveze, torej ravninski, pojavi v obliki osebkovega določila in ni zapisano pred jedrom, besede ne označimo kot termin.

Primer: »<t>Graf</t> je ravninski, če ga lahko narišemo v

<t>dvodimenzionalno ravnino</t> …« (Polajnar 2014, 2)

10. Besede ali besedne zveze ne označimo kot termin, kadar se med določilom in jedrom, ki bi sicer skupaj tvorila termin, pojavi poševnica, beseda in, ter, ali ali katera koli druga beseda, ki ni del termina. Jedro označimo kot termin, če je samo po sebi, brez pripisanega določila, termin. Spodnji primer prikazuje zapis termina tehnična avtomatizacija in termina sistemska avtomatizacija. Ker besedna zveza tehnična avtomatizacija ni izpisana v celoti ter je določilo tehnična ločeno od jedra, ki je avtomatizacija, termina tehnična avtomatizacija ne označimo. Ker pa je za poševnico zapisana druga

(37)

27

besedna zveza z istim jedrom, torej sistemska avtomatizacija, in ker določilo ni ločeno od jedra, besedno zvezo označimo kot termin.

Primer: »Pri tem ne gre samo za tehnično/<t>sistemsko avtomatizacijo</t>, temveč v enaki meri vključuje …« (Dukarić 2014, 46)

11. Besede ali besedne zveze ne označimo kot termin, kadar zapis terminološkega kandidata (običajno prevedenega iz angleščine) vsebuje odvisnik. Kot termin v tem primeru ne označimo najširšega možnega pojma, vendar termine znotraj najširše možne besedne zveze. Primer spodaj prikazuje prevod angleškega termina token-based access control, ki je v slovenščino preveden kot nadzor dostopa, ki temelji na žetonih. Ker termin v slovenščini vsebuje odvisnik, kot termin označimo drugo najširšo možno besedno zvezo, če je ta sama po sebi termin, v spodnjem primeru sta to nadzor dostopa in žeton.

Primer: »<t>Avtentikacija</t> je običajno realizirana preko <t>nadzora dostopa</t>, ki temelji na <t>žetonih</t> (angl. Token-Based Access Control) in uporablja mehanizme …« (Dukarić 2014, 62)

12. Če se termin pojavi znotraj angleškega dela besedila, ga prezremo in ne označimo. Tovrstne primere pričakujemo pri angleških povzetkih, ki niso vključeni v analizo.

3.2.2 Označevanje posameznih sklopov doktorskih disertacij

Ko sem v dokumentih označila vse termine, je sledil del določanja ustreznih delov doktorskih disertacij. Ker je eden izmed ciljev magistrskega dela ugotoviti terminološko gostoto posameznih delov disertacij, je bilo treba določiti smiselne enote, ki se pojavljajo v vseh obravnavanih dokumentih. Glede na vsebino, namen in funkcijo sem vsak dokument razdelila na pet besedilnih sklopov:

(38)

28

- <povzetek>17: v povzetku so avtorji na kratko predstavili področje, problem in pristop, s katerim so se lotili problema, torej kaj in kako se je raziskovalo.

Zaključni del povzetka so ključne besede, s katerimi avtorji bralca seznanijo z najpomembnejšimi pojmi, obravnavanimi v doktorskem delu.

- <uvod>: naslednji del besedila je uvod, v njem so avtorji izpostavili problem, namen, cilje in metode dela.

- <pregled podrocja>: v pregledu področja so teoretično pristopili k obravnavani temi in predstavili ključne raziskave, ugotovitve in tehnologije z obravnavanega področja.

- <empiricni del>: raziskovalni del vsebuje raziskovalni pristop k izpostavljenemu problemu, interpretacijo podatkov oziroma ugotovitev in ključne izsledke, ki so strnjeno predstavljeni v zaključku.

- <zakljucek>: v zaključku avtorji na kratko strnejo vsebino naloge in ugotovitve ter izpostavijo možnosti za nadaljnje raziskovanje. Ta del sem označila z XML značko <zakljucek>.

V analizo nisem vključila nekaterih delov disertacij, ki jih nisem mogla uvrstiti v nobenega izmed opisanih delov. Tako sem izpustila kazalo, kazalo slik, grafov, tabel ter seznam uporabljenih virov in literature. Prav tako v analizo nisem vključila angleških povzetkov in drugih delov, napisanih v angleščini.

3.2.3 Ročno označevanje terminov

Ko so bile smernice za določanje terminološkosti začrtane, sem začela z označevanjem pojavnic v dokumentih XML. Slika 2 prikazuje zgradbo dokumenta in način uporabe začetnih ter končnih značk <t> in </t>.

17 XML-značke, ki sem jih uporabila pri označevanju.

Slika 2: Prikaz strukture dokumenta XML

Reference

POVEZANI DOKUMENTI

Med statističnimi regijami v letu 2018 obstajajo razlike v odstotku kadilcev pri obeh spolih, a med njimi ni takšnih, v katerih bi bil odstotek kadilcev med moškimi ali ženskami

novembra letos večina okužb posledica spolnih odnosov z okuženimi moškimi, sledile so okužbe žensk iz držav z velikim deležem okuženega prebivalstva, okužbe žensk, ki

V slabi petini zavodov ponujajo stalno možnost brezmesnega menija ((lakto-ovo)vegetarijanstvo). Od tega desetina zavodov, ki ponuja stalno možnost brezmesnega menija,

 Glede na pridobljene podatke strokovnega spremljanja šolske prehrane s svetovanjem je bilo v splošnem več odstopanj od smernic zdravega prehranjevanja zaznati v

V zdravstveni regiji Koper so bile hospitalizacije zaradi kemičnih opeklin, katerih vzrok so bili ostali zunanji vzroki, prisotne v posameznih starostnih skupinah, in sicer so

Tabela 1: Seznam območij Natura 2000 (SPA) s številom vseh varovanih vrst ptic in številom varovanih vrst, ki so dovzetne za trke z visokonapetostnimi daljnovodi ...10 Tabela

Če torej za kazalnik produktivnosti vzamemo razmerje med številom hapaxov, ki imajo določeno obrazilo, in številom pojavitev vseh tvorjenk, ki imajo to

Analizirani so tudi končni preizkusi ob zaključku drugostopenjske srednje šole, in sicer vsi maturitetni naslovi iz slovenščine na slovenskih šolah v Italiji od leta 1969 4 do