• Rezultati Niso Bili Najdeni

PRILOŽNOSTI UPORABE ANALITIKE MASOVNIH PODATKOV ZA TRAJNOSTNO UPRAVLJANJE Z VODNIMI VIRI

N/A
N/A
Protected

Academic year: 2022

Share "PRILOŽNOSTI UPORABE ANALITIKE MASOVNIH PODATKOV ZA TRAJNOSTNO UPRAVLJANJE Z VODNIMI VIRI "

Copied!
58
0
0

Celotno besedilo

(1)

UNIVERZA V LJUBLJANI

EKONOMSKA FAKULTETA

MAGISTRSKO DELO

PRILOŽNOSTI UPORABE ANALITIKE MASOVNIH PODATKOV ZA TRAJNOSTNO UPRAVLJANJE Z VODNIMI VIRI

Ljubljana, maj 2021 KLEMEN KOŽELJ

(2)

IZJAVA O AVTORSTVU

Podpisani Klemen Koželj, študent Ekonomske fakultete Univerze v Ljubljani, avtor predloženega dela z naslovom Priložnosti uporabe analitike masovnih podatkov za trajnostno upravljanje z vodnimi viri, pripravljenega v sodelovanju s svetovalcem red. prof. dr. Jurijem Jakličem

I Z J A V L J A M

1. da sem predloženo delo pripravil samostojno;

2. da je tiskana oblika predloženega dela istovetna njegovi elektronski obliki;

3. da je besedilo predloženega dela jezikovno korektno in tehnično pripravljeno v skladu z Navodili za izdelavo zaključnih nalog Ekonomske fakultete Univerze v Ljubljani, kar pomeni, da sem poskrbel, da so dela in mnenja drugih avtorjev oziroma avtoric, ki jih uporabljam oziroma navajam v besedilu, citirana oziroma povzeta v skladu z Navodili za izdelavo zaključnih nalog Ekonomske fakultete Univerze v Ljubljani;

4. da se zavedam, da je plagiatorstvo – predstavljanje tujih del (v pisni ali grafični obliki) kot mojih lastnih – kaznivo po Kazenskem zakoniku Republike Slovenije;

5. da se zavedam posledic, ki bi jih na osnovi predloženega dela dokazano plagiatorstvo lahko predstavljalo za moj status na Ekonomski fakulteti Univerze v Ljubljani v skladu z relevantnim pravilnikom;

6. da sem pridobil vsa potrebna dovoljenja za uporabo podatkov in avtorskih del v predloženem delu in jih v njem jasno označil;

7. da sem pri pripravi predloženega dela ravnal v skladu z etičnimi načeli in, kjer je to potrebno, za raziskavo pridobil soglasje etične komisije;

8. da soglašam, da se elektronska oblika predloženega dela uporabi za preverjanje podobnosti vsebine z drugimi deli s programsko opremo za preverjanje podobnosti vsebine, ki je povezana s študijskim informacijskim sistemom članice;

9. da na Univerzo v Ljubljani neodplačno, neizključno, prostorsko in časovno neomejeno prenašam pravico shranitve predloženega dela v elektronski obliki, pravico reproduciranja ter pravico dajanja predloženega dela na voljo javnosti na svetovnem spletu prek Repozitorija Univerze v Ljubljani;

10. da hkrati z objavo predloženega dela dovoljujem objavo svojih osebnih podatkov, ki so navedeni v njem in v tej izjavi.

V Ljubljani, dne ___________________ Podpis študenta: __________________

(3)

KAZALO

UVOD ... 1

1 UPRAVLJANJE Z VODNIMI VIRI ... 3

1.1 Ukrepi za znižanje potrošnje vode ... 5

1.2 Integrirano upravljanje z vodnimi viri ... 8

1.3 Vodna bilanca ... 9

2 RAZVOJ NAPOVEDOVALNEGA MODELA ... 10

2.1 Analiza podatkov v surovi obliki ... 11

2.2 Priprava primerjalnega modela ... 13

2.3 Priprava podatkov ... 16

2.4 Kratkoročni napovedovalni model ... 18

2.4.1 Beli šum ... 18

2.4.2 Naključni hod in Dickey-Fuller test ... 19

2.4.3 Avtoregresijski model drsečih povprečij ... 20

2.4.4 ARMA-model za napovedovanje gladine jezera Bilancino ... 21

2.5 Dolgoročni napovedovalni model ... 25

2.5.1 Model k najbližjih sosedov ... 26

2.5.2 Regresijski kNN-model za napovedovanje gladine jezera Bilancino ... 27

2.6 Ovrednotenje napovedovalnih modelov ... 28

3 SATELITSKI POSNETKI ... 29

3.1 Satelita Sentinel-2 ... 30

3.2 Pridobivanje satelitskih posnetkov ... 31

3.2.1 Večnivojsko procesiranje satelitskih posnetkov ... 31

3.2.2 Sentinel Hub ... 32

3.3 Pridobivanje informacij s satelitskih posnetkov ... 33

3.3.1 Indeks NDVI ... 34

3.3.2 Indeks NDWI ... 35

3.3.3 Zaznavanje količine vode na satelitskih posnetkih ... 36

3.3.3.1 Povprečen indeks NDWI celotnega satelitskega posnetka ... 36

3.3.3.2 Odstranitev okolice jezera iz algoritma ... 36

3.3.3.3 Odstranitev okolice in središča jezera iz algoritma ... 39

(4)

3.3.4 Zaznavanje vegetacije na satelitskih posnetkih ... 42

3.4 Napovedovalni model iz satelitskih podatkov ... 43

3.4.1 Regresijsko odločitveno drevo ... 43

3.4.2 Regresijsko odločitveno drevo za napovedovanje vodne gladine ... 44

3.5 Večtočkovno opazovanje reke Arno ... 45

3.6 Ovrednotenje satelitskih posnetkov ... 47

SKLEP ... 48

LITERATURA IN VIRI ... 50

KAZALO TABEL

Tabela 1: Parametri jezera Bilancino iz podatkovne zbirke podjetja Acea ... 11

Tabela 2: Napovedovalna točnost 10 najboljših enostavnih primerjalnih modelov ... 14

Tabela 3: Napovedi najboljšega primerjalnega modela za 14 prihodnjih dni ... 15

Tabela 4: Točnost ARMA(3, 3) v različnih intervalih kontinuiranega napovedovanja ... 23

Tabela 5: kNN-točnost pri različnih k ... 27

Tabela 6: Tehnični podatki optičnih senzorjev na satelitu Sentinel-2 ... 30

Tabela 7: Algoritma za zaznavanje vode na treh opazovalnih točkah reke Arno ... 46

KAZALO SLIK

Slika 1: Interno obnovljivi vodni viri na prebivalca na svetu, v Sloveniji in EU ... 4

Slika 2: Bolivijsko jezero Poopo ... 4

Slika 3: Prikaz manjkajočih vrednosti v podatkovni zbirki jezera Bilancino ... 12

Slika 4: Višina gladine jezera Bilancino relativno na nadmorsko višino ... 12

Slika 5: Histogram vrednosti, ki prikazujejo višino gladine jezera Bilancino ... 13

Slika 6: Povprečna letna gladina jezera relativno na nadmorsko višino ... 13

Slika 7: Prikaz povprečnih napak skozi napovedovalne dni za najbolj uspešen model ... 15

Slika 8: Pearsonova korelacija med parametri jezera Bilancino ... 16

Slika 9: Linearni in ciklični prikaz tednov v letu ... 17

Slika 10: Avtokorelacija gladine jezera Bilancino za zadnjih 80 dni ... 19

Slika 11: Parcialna avtokorelacija vodne gladine jezera Bilancino ... 21

Slika 12: ARMA(3, 3) s sedemdnevnim kontinuiranim napovedovanjem ... 23

(5)

Slika 13: ARMA(3,3) napaka MAE in RMAE v primerjavi s primerjalnim modelom ... 24

Slika 14: Gladina jezera Bilancino v primerjavi s preteklim mesecem in letom ... 24

Slika 15: Razdelitev gladine jezera Bilancino in podatkov na učno in testno množico ... 25

Slika 16: Rezultati regresijskega modela kNN pri k = 50 z drsečim povprečjem 10 ... 27

Slika 17: Primerjava točnosti kNN s primerjalnim modelom ... 28

Slika 18: Prikaz opazovanega zemeljskega površja s strani satelita Sentinel-2 ... 30

Slika 19: Prikaz slik Sentinel-2 na ravneh 1B (levo) in 1C (desno) ... 31

Slika 20: Jezero Bilancino z okolico na dan 15. 11. 2016 ... 32

Slika 21: Prikaz delovanja indeksa NDVI na jezeru Bilancino ... 34

Slika 22: Prikaz delovanja indeksa NDWI na jezeru Bilancino ... 35

Slika 23: Indeks NDWI kot povprečje celotne satelitske slike ... 36

Slika 24: Vodna maska jezera Bilancino ... 37

Slika 25: Povprečje NDWI na maski jezera ... 38

Slika 26: Algoritem in umazanija v vodi na dan 23. 2. 2019. ... 39

Slika 27: Izdelava maske, ki pokriva obale jezera ... 40

Slika 28: Maska robov jezera na RGB- in NDWI-sliki ... 40

Slika 29: Rezultat algoritma z obalami jezera ... 41

Slika 30: Prikaz napak na satelitskem posnetku z dne 19. 4. 2018 ... 41

Slika 31: Delovanje algoritma za detekcijo vegetacije ... 42

Slika 32: Primerjava med oceno vegetacije in vodno gladino jezera ... 43

Slika 33: Regresijsko drevo z napako MAE 0,4815 in RMAE 0,3635 ... 44

Slika 34: Shema treh opazovalnih točk na reki Arno ... 45

Slika 35: Delovanje algoritma za oceno vode na drugi opazovalni točki ... 46

Slika 36: Reka Arno in večtočkovno opazovanje ... 47

Slika 37: Nizka, srednja in visoka oblačnost nad Toskano ... 48

SEZNAM KRATIC

angl. – angleško

ADF – (angl. Augmented Dickey-Fuller); dopolnjeni Dickey-Fuller AIC – (angl. Akaike information criterion); Akaike informacijski kriterij AR – (angl. Autoregressive Model); avtoregresijski model

ARMA – (angl. Auto Regressive Moving Average); avtoregresijski model drsečih povprečij

(6)

ARMAX – (angl. Autoregressive Moving Average with exogenous terms); avtoregresijski model drsečih povprečij z eksogenimi spremenljivkami

EEA – (angl. European Environment Agency); Evropska agencija za okolje ESA – (angl. European Space Agency); Evropska vesoljska agencija

EU – (angl. European Union); Evropska unija

EUWI – ( angl. European Union Water Initiative); Vodna iniciativa Evropske unije

IWRM – (angl. Integrated Water Resource Management); integrirano upravljanje z vodnimi viri

kNN – (angl. k nearnest neigbours); k najbližjih sosedov MA – (angl. Moving Average model); model drsnih povprečij

MAE – (angl. Mean Absolute Error); linearna absolutna povprečna napaka

NDVI – (angl. Normalised Difference Vegetation Index); normaliziran vegetacijski indeks NDWI – (angl. Normalised Difference Water Index); normaliziran vodni indeks

PDGS – (angl. Payload Data Ground Segment); segment za procesiranje zemeljskih podatkov

RMAE – (angl. Root Mean Absolute Error); kvadrirana absolutna povprečna napaka SARMA – (angl. Seasonal Auto Regressive Moving Average); sezonski avtoregresijski model drsečih povprečij

(7)

UVOD

Vsak Evropejec naj bi porabil približno 100 litrov pitne vode dnevno. Tudi Evropska agencija za okolje (angl. European Environment Agency, v nadaljevanju EEA) ugotavlja, da je Evropa z vodo bogata celina. Zaskrbljujoča pa je ugotovitev, da se je zaloga obnovljivih virov vode na prebivalca v Evropi od leta 1960 do 2010 v povprečju zmanjšala za več kot 24 %. K temu prispeva več dejavnikov, od povečanja prebivalstva do rasti turizma in drugih gospodarskih dejavnosti. Stanje je najslabše na jugu Evrope, kjer letna sušna obdobja postajajo stalnica, leta 2014 pa je kar 40 % ljudi na območju Sredozemlja živelo s kritično majhno količino vode (European Environment Agency, 2020).

Drugod po svetu je stanje še slabše. Svetovna zdravstvena organizacija (angl. World Health Organization) ocenjuje, da trenutno dve milijardi ljudi po svetu nima dostopa do sveže pitne vode. Hkrati napovedujejo tudi poslabšanje trenutnega stanja in v bližnji prihodnosti leta 2025 bi se ta številka lahko povzpela kar na štiri milijarde oziroma skoraj polovico svetovnega prebivalstva (World Health Organization, 2019).

Upravljanje z vodnimi viri je področje, ki zajema aktivnosti načrtovanja in izgradnje vodne infrastrukture ter nadzor in distribucijo vodnih virov. Evropska unija (angl. European Union, v nadaljevanju EU) se že dolgo zaveda problematike, povezane z vodnimi viri, in se zato z različnimi iniciativami in zakoni že dlje časa zavzema za njihovo učinkovito in trajnostno upravljanje. Leta 2012 je Evropska komisija predstavila načrt za varovanje evropskih vodnih virov, kjer postavlja minimalne standarde za kvantiteto in kakovost voda (Kurrer, 2021).

Ključni del rešitve, ki nam bo pomagala bolje upravljati in nadzirati vodne vire, bo odigrala informacijska tehnologija. To prepoznava tudi italijansko podjetje Acea, ki je vodilni ponudnik vodovodnih storitev v osrednji Italiji. Podjetje od leta 1999 kotira na italijanski borzi in ima trenutno 9 milijonov odjemalcev. Podjetje Acea je decembra 2020 na spletnem portalu Kaggle objavilo izziv, v katerem raziskovalce poziva, da s podatki o njihovih vodnih virih izdelajo napovedovalne modele za količino vode. Z uspešnimi napovednimi modeli bi podjetje lahko bolje preprečevalo poplave ali pa pričelo opozarjati na varčevanje z vodo, še preden njena raven pade pod kritično mejo. O tem, kako pomembna se jim zdi rešitev tega problema, priča tudi dejstvo, da so na izzivu za primerno rešitev ponudili 25.000 USD nagrade (Acea Group, 2020).

Različni raziskovalni programi EU ponujajo še več priložnosti za inovativne in interdisciplinarne rešitve, ki bi pomagale izboljšati upravljanje z vodnimi viri. Evropska vesoljska agencija (angl. European Space Agency, v nadaljevanju ESA) tako recimo v okviru programa Copernicus s kar 30 posebnimi sateliti izvaja slikanje celotne Zemlje, posebno zanimiva sta dva satelita, imenovana Sentinel-2, ki kar s 13 senzorji zajemata različne podatke s površja Zemlje (European Space Agency, 2015). Zbrani podatki programa Copernicus so nato prosto dostopni javnosti v raziskovalne namene.

(8)

Podatki satelitov Sentinel-2 so primarno namenjeni analiziranju zemeljske površine, izjemno pogosto pa se uporabljajo v sinergiji z različnimi algoritmi strojnega učenja. Učinkovitost oziroma zmožnost uporabe različnih algoritmov strojnega učenja na podatkih Sentinel-2 so na primer raziskovali v letu 2020 na švedski univerzi Lund (Abdi, 2020) in ugotovili ogromen potencial. Podobno raziskavo so v istem letu izvajali na Universitat Politècnica de València, kjer so zaznavali manjše vodne površine in zemljišča, ki so ogrožena v primeru poplavljanja (Pena-Regueiro, Sebastiá-Frasquet, Estornell & Aguilar-Maldonado, 2020).

Iz zgoraj navedenih raziskav ugotavljamo, da so sateliti Sentinel-2 odličen vir podatkov za širše opazovanje in različne makroanalize zemeljskega površja. Odprto pa ostaja vprašanje, ali bi podatke lahko uporabili tudi za bolj natančna opazovanja vodnih virov ter tako poskusili z njimi reševati podobne težave, kot jih ima podjetje Acea. Acea trenutno pridobiva podatke o rekah in jezerih iz različnih senzorjev in če bi lahko senzorje oziroma strojno opremo nadomestili zgolj s programsko opremo za procesiranje slik s satelitov, bi to za njih pomenilo ogromne operativne prihranke, hkrati pa bi lahko analizirali veliko širše geografsko področje ter tako dobili bolj celovito analizo stanja na terenu.

Na tej osnovi smo postavili tudi osrednje raziskovalno vprašanje tega magistrskega dela, ali obstajajo možnosti uporabe strojnega učenja in masovnih podatkov, kot so satelitski posnetki, za zagotavljanje trajnostnega upravljanja z vodnimi viri. Opolnomočenje upravljavcev vodnih virov s kakovostnimi napovednimi modeli bi lahko prispevalo k bolj pametni, predvsem pa naravi prijazni in trajnostni izrabi vodnih virov, saj bi odločevalci lahko svoje odločitve sprejemali na osnovi matematičnih modelov in ne subjektivnih mnenj.

Podoben pozitiven učinek bi lahko imelo tudi izkoriščanje prosto dostopnih podatkovnih baz, kot jih na primer ponuja evropski vesoljski program Copernicus. Z uporabo podatkov s satelitov Sentinel-2 bi lahko izboljšali prvotne napovedi in v najboljšem primeru celo nadomestili trenutne senzorje za gladino vode ter tako močno znižali operativne stroške nadzorovanja vodne gladine.

Cilj magistrskega dela je sprva proučiti obstoječe relevantne raziskave na temo strojnega učenja in ugotoviti, kako so drugi raziskovalci uporabljali satelitske posnetke Sentinela-2 za analiziranje vodne gladine na Zemlji, ter tako pridobiti širše razumevanje tega, kako so se podobnih problemov lotili drugi raziskovalci. V drugem delu poskusimo z različnimi tehnikami razviti inovativno programsko rešitev za analiziranje satelitskih slik in napovedovanje količine vode. Celoten razvoj sledi naslednjim korakom:

– analiza podatkov in njihova priprava za strojno učenje,

– razvoj napovednega modela za napovedovanje količine vode iz zgodovinskih podatkov podjetja Acea,

– razvoj programa za pridobivanje satelitskih posnetkov ter iz njih izluščiti uporabne informacije za izboljšavo zgoraj omenjenega napovednega modela,

– izvedba poizkusa in ugotavljanje, ali lahko satelitski posnetki služijo kot alternativa trenutnim senzorjem za izmero vodne gladine.

(9)

Za izhodišče raziskave vzamemo podatkovno zbirko, ki jo je na portalu Kaggle objavil omenjeni italijanski ponudnik vodovodnih storitev Acea. Podatkovna zbirka zajema podatke od leta 1998 do sredine 2020 in vključuje različne tipe vodnih teles, kot so jezera, reke, podzemna zajetja in izviri. Vsako vodno telo je opisano z različnimi atributi o količini vode, priloženi pa so tudi nekateri drugi osnovni podatki, kot je na primer količina padavin.

Za obdelavo podatkov, izgradnjo modelov in vizualizacijo rezultatov uporabimo programski jezik Python 3 z grafičnim vmesnikom Jupyter. Za programski jezik Python smo se odločili, ker ponuja izjemno bogat odprtokodni ekosistem različnih programskih knjižnic in orodij za delo s podatki. Vmesnik Jupyter pa omogoča pisanje programske kode ter njeno interaktivno izvajanje in izpisovanje rezultatov. Vsa uporabljena orodja so prosto dostopna in odprtokodna.

Natančnost vseh modelov in algoritmov ocenimo glede na primerjavo s pravimi vrednostmi, razliko izračunamo z linearno in kvadrirano absolutno povprečno napako, saj je bil tako določen tudi kriterij uspešnosti v objavljenem Kaggle izzivu.

Podatke iz satelitov pridobimo od ponudnika oblačnih storitev Sentinel Hub, ki omogoča dostopanje do podatkov Sentinela-2 prek več spletnih interaktivnih programskih vmesnikov.

Ponudnik omogoča tudi poizvedovanje po času in kraju ter minimalno predhodno procesira podatke, na primer odstrani šum ob stičišču dveh satelitskih slik.

Podobno kot pri podatkih podjetja Acea tudi v primeru satelitskih posnetkov Sentinela-2 analiziramo pridobljene podatke, odstranimo šume in nato poskusimo razviti algoritem za ugotavljanje količine vode v vodnemu telesu. Na koncu analiziramo, kako lahko s pridobljenimi informacijami izboljšamo prvotno izdelani napovedovalni model, ter ocenimo, ali bi razviti algoritem lahko nadomestil strojne senzorje podjetja Acea.

1 UPRAVLJANJE Z VODNIMI VIRI

Upravljanje z vodnimi viri je področje, ki zajema aktivnosti načrtovanja in izgradnje vodne infrastrukture ter nadzor in distribucijo vodnih virov. Voda je eksistenčna dobrina za vsa živa bitja, vendar v vse več predelih sveta postaja vse bolj luksuzna in nedosegljiva. Četudi problematike v Sloveniji ali Evropi ne zaznamo, smo globalno priča drastičnemu upadu količine obnovljivih vodnih virov. Na krčenje in posledično primanjkovanje vodnih virov vpliva mnogo dejavnikov, kot so na primer večanje prebivalstva, porast gospodarskih aktivnosti, turizem, spremembe v prehranjevalnih navadah ljudi, onesnaževanje in globalno segrevanje itd. Slika 1 prikazuje število obnovljivih vodnih virov na prebivalca skozi čas, ki jih je neko geografsko območje zmožno obnoviti v enemu letu. Na globalni ravni (angl.

World) lahko od leta 1962 do 2014 opazimo kar 55 % padec, 24 % padec v državah EU in 3 % padec v Sloveniji (angl. Slovenia) od osamosvojitve (Ritchie & Roser, 2017).

(10)

Slika 1: Interno obnovljivi vodni viri na prebivalca na svetu, v Sloveniji in EU

Vir: Ritchie & Roser (2017).

Če bomo nadaljevali z ignorantsko potrošnjo in netrajnostnim upravljanjem vodnih virov, bomo popolnoma uničili naravne ekosisteme. Včasih drugo največje jezero v Boliviji, imenovano Poopo, je presahnilo leta 2015 zaradi splošnega globalnega segrevanja, suše in prekomernega izčrpavanja vode za potrebe lokalne rudarske industrije. Slika 2 na levi prikazuje jezero leta 2013, desna stran pa leta 2016 (Hansen, 2016).

Slika 2: Bolivijsko jezero Poopo

Vir: NASA (2016).

Teoriji, da imamo na našem planetu dovolj vodnih virov, ki pa so trenutno žal popolnoma neoptimalno iskoriščenim pritrjuje tudi raziskava mednarodnega centra za integrirano upravljanje z gorami (angl. International Centre for Integrated Mountain Development) (Molden, 2020). Trenutno stanje upravljanja z vodnimi viri ni vzdržno in kliče po optimizaciji oziroma drastičnih sistematskih spremembah. Zaradi kroničnega pomankanja vode na globalni ravni in pričakovanega dodatnega poslabšanja v prihodnosti s pojmom

»optimizacija« največkrat naslavljamo vse ukrepe in rešitve, katerih cilj je zmanjševati potrošnjo vode, saj skušamo tako zagotoviti trajnostno ravnanje z vodnimi viri.

(11)

1.1 Ukrepi za znižanje potrošnje vode

Vodna iniciativa Evropske unije (angl. European Union Water Initiative, v nadaljevanju EUWI) predpostavlja, da imajo regulatorji za reševanje problematike oziroma omejevanje potrošnje vode zaradi pomankanja vodnih virov na voljo več ukrepov, ki jih na splošno uvrščamo v štiri krovne kategorije: ekonomski ukrepi, regulatorni ukrepi, ozaveščanje in infrastruktura (Martín-Hurtado, 2012).

S pomočjo ekonomskih ukrepov (angl. economic instruments) finančni regulatorji uporabljajo različne finančne vzvode za omejevanje uporabe vodnih virov. Orodja, ki spadajo v to kategorijo, so obdavčitve, subvencije in kuponi za onesnaževanje vode (angl.

tradable water quantity or quality permits). Pri EUWI verjamejo, da lahko ima dodatna obdavčitev oziroma tako imenovana »ekološka taksa« pozitivne dolgoročne posledice, saj tako prisili vse potrošnike v bolj konservativno uporabo vodnih virov ter na drugi strani spodbuja inovacijo na področju varčevanja z vodo. Glavna ovira pri sprejemanju tovrstnih finančnih inštrumentov pa je pogosto kratkoročni splošni javni odpor do vsake dodatne obdavčitve, zato sprejemanje teh inštrumentov pogosto ni v interesu katerekoli vladajoče politike (Martín-Hurtado, 2012).

Regulatorni ukrepi (angl. regulatory instruments) urejajo različne pravne in zakonodajne vidike ravnanja z vodnimi viri. V to kategorijo sodijo zakoni, ki urejajo postopke, kot so naravovarstvene presoje, možnosti gradnje na vodovarstvenih območjih, ravnanje s kanalizacijo in industrijskimi odpadnimi vodami, podelitev licenc za ravnanje z nevarnimi snovmi itd. Primanjkovanje vodnih virov je podobno kot globalno segrevanje globalni problem, ki pa je na določenih geografskih področjih bolj izrazit kot drugje, težava regulatornih inštrumentov pa je ravno njihova omejenost na specifično državo ali regijo (Martín-Hurtado, 2012).

Z ukrepi ozaveščanja (angl. information-based instruments) regulatorji želijo spodbuditi zanimanje za problematiko pri širši javnosti. Od leta 2002, ko kupimo nov gospodinjski aparat, mora ta v EU obvezno imeti energetsko nalepko, ki potrošniku na enostaven in informativen način signalizira energetsko učinkovitost naprave. Prav tako pri nabavi živil je proizvajalec z zakonom zavezan, da na embalažo jasno zapiše sestavine in v kalorijah zabeleži njihovo energijsko vrednost. Tako označevanje gospodinjskih aparatov in živil imenujemo ekološko označevanje (angl. eco-labeling) in je eden izmed najbolj vidnih inštrumentov ozaveščanja splošne javnosti glede specifične problematike. EUWI zagovarja podobno označevanje izdelkov, kjer bi potrošniki lahko jasno videli, koliko sveže vode je bilo porabljeno za specifični izdelek. Tako bi lahko potrošniki s svojimi ekološkimi nakupovalnimi navadami spodbujali podjetja k bolj trajnostni uporabi vodnih virov. V to kategorijo spada tudi vključitev ekoloških tematik v izobraževalne programe, saj le tako lahko pričakujemo dolgotrajne spremembe človeških navad (Martín-Hurtado, 2012).

(12)

Neposredni nadzor (angl. direct provision) zajema vso infrastrukturo za upravljanje vodnih virov od izgradnje vodovodnih omrežij in čistilnih naprav do nasipov in jezov za omejevanje poplavljanja. V to kategorijo je po definicije EUWI trenutno vključena le fizična infrastruktura, vendar menimo, da bi morali v današnjem svetu, ki vse bolj temelji na informacijski tehnologiji, v to kategorijo vedno vključevati tudi digitalne rešitve. Celotno infrastrukturo bi morali pričeti dojemati kot skupek fizičnega in digitalnega, saj bomo le tako prišli do najbolj optimalnih pametnih rešitev za dosego cilja. Pravzaprav je tudi osredni cilj tega magistrskega dela razviti digitalno rešitev za optimizacijo vodnih virov (Martín- Hurtado, 2012).

EUWI opozarja, da je eden izmed poglavitnih problemov trenutnega vodnega upravljanja tudi njegovo financiranje. Že sedaj namenjamo premalo denarja za prehod na bolj trajnostno upravljanje z vodnimi viri, kar pomeni, da lahko v prihodnje pričakujemo le še poslabšanje stanja. V razvitem svetu financiranje upravljanja z vodnimi viri zagotavljajo končni potrošniki skozi mesečne položnice in financiranje iz državnega proračuna. V manj razvitih državah pa lahko zraven prištejemo še donacije razvitejših držav, dobrodelnih organizacij in podobno. Glavna kritika tega modela je, da končni potrošniki neposredno ne občutijo polnega finančnega bremena upravljanja z vodnimi viri in zato niso ekonomsko stimulirani k varčevanju, saj država posredno subvencionira njihove mesečne položnice (Martín- Hurtado, 2012).

Podobna odprta vprašanja o upravljanju vodnih virov ter o ukrepih za spodbujanje varčevanja vode pogosto obravnava tudi EEA, ki že desetletja aktivno raziskuje različne ukrepe, s katerimi bi lahko izboljšali stanje v EU (European Environment Agency, 2018b).

Leta 2017 so opravili tudi raziskavo, v kateri so primerjali ekonomske in neekonomske ukrepe za znižanje potrošnje vode.

Leta 2017 je EEA v eni izmed večjih raziskav z naslovom »Cenovni in necenovni ukrepi za upravljanje vodne potrošnje v Evropi« (angl. Pricing and non-pricing measures for managing water demand in Europe) ugotavljala, koliko vode lahko Evropejci privarčujemo z različnimi ekonomskimi in neekonomskimi ukrepi. V raziskavi so s svojimi podatkovnimi zbirkami sodelovali nacionalni ponudniki vodovodnih storitev iz osmih članic EU: Ciper, Danska, Francija, Nemčija, Italija, Romunija, Španija in Švedska. Raziskovalci so med seboj primerjali države, njihove regulacije in znotraj njih končne potrošnike glede na njihov socialno-ekonomski status (velikost gospodinjstva, dohodek itd.). Cilj raziskave je bil ugotoviti, kako se potrošniki odzivajo na različne ukrepe, ki naj bi jih spodbudili k bolj preudarni rabi vodnih virov (European Environment Agency, 2017).

Vse vključene države že imajo vzpostavljeno regulativo in mehanizme za obračunavanje vode potrošnikom. Nekatere države vodo zaračunavajo po porabi statično, druge progresivno (angl. rising block tariff), torej več vode kot potrošnik porabi, bolj draga zanj ta postaja. Raziskava hitro zaključuje, da so samostojni ekonomski ukrepi precej neučinkoviti in podražitev vode nima velikega vpliva na njeno potrošnjo ne glede na socialno-ekonomski

(13)

položaj odjemalca, kot je na primer velikost gospodinjstva ali dohodek (European Environment Agency, 2017).

Kot veliko bolj učinkoviti so se izkazali neekonomski ukrepi, saj jih ljudje dojemamo bolj čustveno. Izjemno učinkovita se je na primer izkazala prepoved določenih dejavnosti v sušnem obdobju, a raziskava poudarja, da morajo biti te prepovedi kratkotrajne, sicer pričnejo izgubljati na veljavi. Raziskava v kategorijo neekonomskih ukrepov prišteva tudi infrastrukturne izboljšave na vodovodnem omrežju in ocenjuje, da bi lahko z najbolj optimalnim vodovodnim omrežjem ter posodobljeno infrastrukturo tako pri distributerju kot pri odjemalcih privarčevali tudi do 40 % trenutno porabljene vode (European Environment Agency, 2017).

EEA v raziskavi tudi opozarjajo, da je za dolgoročen uspeh ključna sinergija med ekonomskimi in neekonomskimi ukrepi, ter to ponazori z naslednjim teoretičnim primerom.

Izgradnja in vzdrževanje vodovodne infrastrukture sta izjemno draga. Če bi se voda v državi izjemno podražila in bi povpraševanje po njej padlo, bi to pomenilo tudi močno zmanjšanje dohodkov za vzdrževalce vodovodne infrastrukture oziroma distributerje. Posledično bi morali distributerji zopet povišati cene, da bi si lahko privoščili redno vzdrževanje vodovodnega omrežja, kar bi ponovno znižalo povpraševanje in posledično njihove dohodke. Ta rekurzivni krog dogodkov se bi skozi čas najverjetneje odrazil v slabo vzdrževani infrastrukturi z več defekti, uhajanjem vode iz sistema, slabšimi čistilnimi napravami itd. Zaradi tega je ključno, da so vsi načrtovani ukrepi v močni sinergiji in imajo skupno vizijo, na primer, če se voda podraži, je pomembno, da se višek dobička nameni za izboljšave na infrastrukturi, izobraževalne akcije ali druge promocije, ki imajo nato dolgotrajne pozitivne učinke. Raziskava se prav tako navezuje na izrazito različnost analiziranih držav. Ciper je otok na vzhodu Sredozemskega morja, Danska pa polotok na severu Evrope, kar pomeni, da državi ločuje več kot 2.700 kilometrov zračne razdalje. Tako kot so države različne geografsko, imajo tudi različne vodne vire in trenutne težave, povezane z njihovim upravljanjem zato jih klasificira v pet krovnih kategorij (European Environment Agency, 2017):

– Država doživlja močna sušna obdobja, katerih pojavnost in intenziteta skozi zadnja leta naraščata, kar regulatorje prisili posegati po najbolj restriktivnih ukrepih za omejitev potrošnje vode.

– Država prekomerno izkorišča podzemne vodne vire.

– Država ima težave z nenadno izjemno povečano potrošnjo vode v času, ko vodni viri nimajo polnih kapacitet (na primer poletna turistična sezone) ali pa je povpraševanje po vodi geografsko izjemno skoncentrirano (na primer velika mesta v obalnih predelih).

– Država ima težave z onesnaževanjem podtalnice.

– Država ima težave z učinkovitostjo vodovodnega omrežja, zato izgublja vodo.

Država, kot je Španija, ima na primer težave z zagotavljanjem dovolj vodnih količin v turistični sezoni in ima povsem drugačne izzive kot Romunija, kjer raziskava ugotavlja

(14)

primanjkovanje vode zaradi puščanja in pomanjkljivosti na trenutnem vodovodnem omrežju. Zaradi tega bi bilo povsem nesmiselno iskati enake rešitve za obe državi. Če hočemo maksimizirati učinkovitost, morajo biti ukrepi prirejeni za vsako državo posebej (European Environment Agency, 2017).

Ugotavljamo, da je zagotovitev trajnega upravljanja z vodnimi viri je izjemno kompleksen problem, ki bo zahteval interdisciplinarno rešitev s široko podporo. Več mednarodnih organizacij že dalj časa promovira različne metodologije in pravne okvire, ki bi izboljšali stanje. Eden izmed najbolj priznanih iniciativ se imenuje integrirano upravljanje z vodnimi viri (angl. Integrated Water Resource Management, v nadaljevanju IWRM).

1.2 Integrirano upravljanje z vodnimi viri

Upravljanje z vodnimi viri je večdimenzionalen problem, ki se razteza čez različna nepovezana znanstvena področja, kot so ekonomija, ekologija, energetika, kmetijstvo, geografija itd. Na primer državna subvencija za vodo bi imela najverjetneje pozitiven učinek na kmetijstvo in ekonomijo, vendar bi povečana poraba imela izjemne negativne in neekološke posledice za naravo. Zato hitro opazimo, da pri upravljanju z vodnimi viri lahko delna optimizacija privede do več škode kot koristi, saj so pozitivni učinki vzajemno izključljivi (White, 2013).

IWRM kot sistematski okvir (angl. framework) zato zagovarja integrirano in celovito upravljanje z vodnimi viri, kjer moramo vedno v obzir vzeti širšo perspektivo problematike ter se tako ogniti nepopolnim rešitvam, ki lahko imajo izjemne negativne posledice na drugih področjih. Vsaka država ima različno strukturo vodnih virov, različen ekonomski napredek in kultorološko stanje, zato ni moč sprejeti univerzalnih mednarodnih zakonov, ki bi ustrezali vsem. IWRM zato ni seznam eksplicitno določenih pravil, ampak državam dopušča svobodo pri implementaciji ter služi kot izhodišče zakonodajalcem po svetu pri upravljanju z vodnimi viri, saj promovira dobre prakse in spodbuja kreiranje situacij, ki so vzajemno najboljše za vse deležnike (White, 2013).

IWRM je zasnovala Globalno vodno partnerstvo (angl. Global Water Partnership), ena izmed agencij Organizacije združenih narodov (angl. United Nations), sicer pa okvir dandanes podpira izjemno široka vladna in nevladna koalicija mednarodnih akterjev, kot so Organizacija združenih narodov za izobraževanje, znanost in kulturo (angl. United Nations Educational, Scientific and Cultural Organization), Svetovni program za nadzor voda (angl.

World Water Assessment Programme) in drugi (International Water Association, brez datuma).

IWRM se zaradi kompleksnosti in ambicij po reševanju vodne problematike na globalni ravni izogiba striktno predpisanim normativom in pogojem ter dopušča svobodo pri implementaciji. Države pa morajo za skladnost z IWRM upoštevati in spoštovati devet osnovnih predpisanih načel. Načela se dotikajo mnogih področij od zagotavljanja politične

(15)

zavezanosti k spoštovanju in izboljšavi vodnega upravljanja na vseh vladnih ravneh do različnih investicijskih in finančnih priporočil za zagotavljanje uspešnega trajnostnega financiranja. Področja zbiranja in obdelovanja podatkov pa se dotikajo naslednja tri načela (International Water Association, brez datuma):

Obširno nadzorovanje in ocenjevanje (angl. Comprehensive monitoring and evaluation) je ključno za zagotavljanje učinkovitega upravljanja z vodnimi viri. Zbiranje masovnih podatkov in njihova analiza nam omogočata prepoznati potencialne težave in priložnosti za izboljšave v strategiji upravljanja na lokalni in državni oziroma centralni ravni. Načelo prav tako priporoča posodabljanje tehnološke opreme, saj tako dosežemo bolj natančne meritve in večjo učinkovitost.

Dobro poznavanje naravnih virov v okolju (angl. Good knowledge of the natural resources present in the basin) nam omogoča oblikovanje bolj učinkovitih strategij za upravljanje z vodnimi viri. Za celovito razumevanje celotnega okolja moramo interdisciplinarno sodelovati s strokovnjaki z različnih področij, kot so hidrologi, geologi, biologi, saj le tako dobimo holistične rešitve, ki rešujejo vodno problematiko z vseh zornih kotov.

Sodelovanje in koordinacija, spodbujanje izmenjave informacij in znanja (angl.

Participation an coordination mechanisms, fostering information-sharing and exchange) zagovarja prosto dostopnost zbranih podatkov in opravljenih raziskav širši javnosti.

Dostopnost informacij v javnosti poveča zavedanje in zanimanje za problematiko, deljenje podatkovnih baz pa spodbuja raziskovalne dejavnosti, s katerimi lahko dobimo več inovativnih rešitev.

Zgoraj izpostavljena načela prikazujejo, da IWRM progresivno zagovarja zbiranje masovnih podatkov, njihovo analizo ter posledično deljenje podatkov in opravljanih analiz za doseganje ciljev optimizacije vodnih virov (The International Water Association, brez datuma). IWRM se tako v svoji viziji in namenu popolnoma ujema s cilji tega magistrskega dela.

1.3 Vodna bilanca

Voda na Zemlji stalno kroži in spreminja svoja fizikalna stanja. Poznamo mali in veliki vodni krog. Mali vodni krog ponazarja kroženje vode med oceani ter atmosfero in glede na količino predstavlja glavnino vode. Drugi veliki vodni krog je bolj kompleksen in vključuje še kroženje vode po kopnem, oba kroga sta tesno prepletena.

Če hočemo oceniti, koliko vode se ob določenem času na danem področju nahaja, moramo iz podatkov izdelati vodno bilanco. Vodna bilanca je matematična abstrakcija, s katero ocenjujemo količino vode na določenem širšem geografskem področju ob danem času.

Osnovno enačbo (1), ki opisuje kroženje vode med ozračjem in površjem, zapišemo kot:

𝑃 = 𝑄 + 𝐼 + 𝑑𝑆, (1)

(16)

kjer je:

𝑃 – padavine, Q – odtok, 𝐼 – izhlapevanje, 𝑑𝑠 – sprememba zalog.

Odtok (Q) v zgornji osnovni enačbi (1) ponazarja vse premike vode od pretakanja na površju in podzemlju do pronicanja skozi tla. Če želimo podrobneje izračunati vodno bilanco za bolj specifično geografsko območje, moramo uporabiti razširjeno obliko enačbe (2):

𝑃 + 𝑄! = 𝑄" + 𝐼 + 𝑑𝑆 (2) Razširjena oblika enačbe (2) razcepi odtok (Q) iz enačbe (1) na vodne dotoke (𝑄!) in odtoke (𝑄"). Enačbe so le poenostavljen prikaz realnega stanja, za natančne rezultate in ocenjevanja Svetovna meteorološka organizacija priporoča uporabo podatkov iz daljših časovnih intervalov, na primer 30 let (Bat & Frantar, 2003).

Strokovnjaki podatke za izgradnjo vodne bilance pridobivajo iz konvencionalnih strojnih merilnikov ali različnih približkov, prav tako se bilanca ne uporablja za napovedovanje prihodnjega stanja, temveč bolj za analizo obstoječega. V okviru tega magistrskega dela razviti napovedovalni model bi strokovnjakom tako pomagal pri njihovem odločanju, saj bi v praksi ocenjeval prihajajoče stanje vodne bilance za izbrani vodni vir. Analizirani satelitski posnetki Sentinel-2 pa bi lahko predstavljali povsem nov način pridobivanja podatkov za vodno bilanco in za napovedovalni model. Kot vidimo, med vsemi tremi sklopi obstaja močna sinergija.

2 RAZVOJ NAPOVEDOVALNEGA MODELA

EEA opozarja, da svetovni trendi, kot so rast prebivalstva, globalno segrevanje in pospešena urbanizacija in drugi napovedujejo v prihodnosti še bolj povečano potrebo že po sedaj pomanjkljivih vodnih virih, zato bo optimizirano in bolj preudarno ravnanje z njimi ključno za dobrobit vseh živih bitij (European Environment Agency, 2018a).

Dandanes, ko raven vode pade pod določeno raven, odločevalci navadno pričnejo s preventivnimi varčevalnimi ukrepi, na primer prepovedjo zalivanja trave ali umivanja avtomobilov. Če bi bilo mogoče z napovedovalnim modelom vnaprej predvideti negativne spremembe v rezervah vode, bi lahko pričeli z varčevanjem, še preden raven vode pade pod kritično mejo. Predvidevamo, da bi zaradi zgodnjega preventivnega ukrepanja varčevalni ukrepi lahko trajali manj časa kot sicer ter tako uživali večjo podporo in spoštovanje v splošni populaciji. Sočasno bi lahko v sušnih obdobjih, ko infrastruktura ni maksimalno obremenjena, načrtovali popravila, ko je vode preveč, pa bi nam napovedovalni model z opozarjanjem omogočil boljšo pripravljenost na poplavljanje.

(17)

Razvili smo dva modela za napovedovanje količine vode v vodnem viru. Prvi, kratkoročni model je primeren za kratkotrajne napovedi do približno 30 dni v prihodnost, drugi, dolgoročni model pa je zmožen napovedati trende za leta v prihodnost. Za izhodišče smo vzeli podatke italijanskega ponudnika Acea, objavljene na spletnem portalu Kaggle (Acea Group, 2020). Ker smo v nadaljevanju analizirali vodne vire tudi s satelitskimi posnetki, smo se osredotočili na površinske vodne vire, kot so jezera in reke. V podatkovni bazi najdemo podatke od reke Arno in jezera Bilancino. Podatke slednjega smo tudi uporabili za izdelavo analize in omenjenih modelov. Uspešnost razvitega napovedovalnega modela smo ocenili glede na njegovo točnost v primerjavi z enostavnejšimi modeli. Logiko enostavnejših modelov smo osnovali na različnih trivialnih pravilih, kot je na primer »stanje jutri bo enako današnjemu«. Ker podjetje Acea v izzivu ni določilo nobenega praga uspešnosti, bomo v primeru, da naš model preseže točnost najboljšega enostavnega modela, to šteli kot dokaz, da ima strojno učenje resničen potencial pri reševanju tovrstnih problemov.

Pri izgradnji modelov se vedno poskušamo držati principa Oklamove britve oziroma skopkosti (angl. parsimony). To pomeni, da vedno poskušamo doseči želeni cilj s kar se da enostavnim modelom in se na splošno poskušamo izogibati kompleksnim rešitvam, če ne prinesejo veliko dodane vrednosti ali pa niso nujno potrebne. V praksi spoštovanje tega principa pogosto privede do medsebojnega izključevanja med enostavnostjo in natančnostjo, a zavedati se moramo, da so kompleksni, izjemno natančni modeli pogosto le preprilagojeni na trenutne podatke ter je njihova natančnost v drugih podatkovnih zbirkah lahko v resnici celo slabša kot v enostavnem modelu.

2.1 Analiza podatkov v surovi obliki

Jezero Bilancino je umetno jezero, ki leži 20 kilometrov severno od mesta Firence v Italiji.

Nahaja se na nadmorski višini 252 metrov in ima površino približno šest kvadratnih kilometrov. Podatkovna zbirka podjetja Acea, ki opisuje jezero, zajema dnevne podatke od 3. 6. 2002 do 30. 6. 2020. Stanje jezera je opisano z osmimi numeričnimi atributi, ki so opisani v tabeli 1.

Tabela 1: Parametri jezera Bilancino iz podatkovne zbirke podjetja Acea

Ime spremenljivke Opis spremenljivke

Rainfall_S_Pierro Padavine v kraju Pierro v milimetrih na kvadratni meter Rainfall_Mangona Padavine v kraju Mangona v milimetrih na kvadratni meter Rainfall_S_Agata Padavine v kraju Agata v milimetrih na kvadratni meter Rainfall_Cavallina Padavine v kraju Cavellina v milimetrih na kvadratni meter Rainfall_Le_Croci Padavine v kraju Le Croci v milimetrih na kvadratni meter Temperature_Le_Croci Temperatura zraka v kraju Le Croci v stopinjah Celzija Lake_Level Gladina jezera v metrih glede na nadmorsko višino Flow_Rate Pretočnost jezera v kubičnih metrih na sekundo

Vir: Acea Group (2020).

(18)

Atribut Lake_Level je napovedovana spremenljivka in pri napovedi si ne smemo pomagati s spremenljivko Flow_Rate, saj tako velevajo navodila izziva na portalu Kaggle. Na sliki 3 vidimo s temno sivino prikazane vse vrednosti podatkovne baze. Stolpec z vodno gladino vsebuje vse vrednosti, ostalim stolpcem pa večinoma manjkajo vrednosti za prve dve leti opazovanja. Na splošno je podatkovna zbirka dobro urejena in ima skupaj le 2,8 % manjkajočih vrednosti.

Slika 3: Prikaz manjkajočih vrednosti v podatkovni zbirki jezera Bilancino

Vir: lastno delo.

Z vizualizacijami smo ugotovili, da nobenih vrednosti od vseh osmih parametrov jezera Bilancino ni moč klasificirati kot osamelce, zato obdržimo vse vrednosti. Povprečna vodna gladina relativno na dno jezera je 28,56 metra, na sliki 4 pa opazimo tudi, da skozi mesece gladina jezera močno niha, najmanjša zabeležena vrednost je tako 22,53, največja pa 31,75 metra.

Slika 4: Višina gladine jezera Bilancino relativno na nadmorsko višino

Vir: lastno delo.

(19)

Na sliki 5 vidimo histogram vrednosti vodne gladine razvrščene v 100 podmnožic. Kot je razvno vodna gladina ni porazdeljeno po naravni distribuciji, kot bi mogoče intuitivno pričakovali.

Slika 5: Histogram vrednosti, ki prikazujejo višino gladine jezera Bilancino

Vir: lastno delo.

2.2 Priprava primerjalnega modela

Ker v izzivu ni določene metrike za ocenitev, ali je izdelani napovedovalni model dovolj uspešen za uporabo v realnem svetu, smo jo določili sami. Izdelali smo serijo enostavnih napovedovalnih modelov za napovedovanje vodne gladine jezera Bilancino in izmerili njihovo linearno absolutno povprečno napako (angl. Mean Absolute Error, v nadaljevanju MAE) in kvadrirano absolutno povprečno napako (angl. Square Root Absolute Error, v nadaljevanju RMAE). Najbolj uspešni napovedovalni model je tako določil prag natančnosti, ki ga je moral izdelani prototip premagati, da bi ga smatrali kot dovolj uspešnega za uporabo v realnem svetu.

Slika 6: Povprečna letna gladina jezera relativno na nadmorsko višino

Vir: lastno delo.

(20)

Primerjalni model, ki bi se skliceval na pretekla leta, na primer prihodnji mesec bo enak kot povprečje lanskega meseca, ni primeren, saj gladina jezera skozi leta niha v povprečju za več kot en meter.

Zaradi tega smo izdelali serijo napovedovalnih modelov, kjer bo vsak model napovedoval vodno gladino določeno število dni v prihodnost glede na povprečno vodno gladino iz preteklih dni. Tako bomo kombinatorično zgradili modele, ki v obzir zajemajo do 14 preteklih dni in napovedujejo do 30 dni v prihodnost. S tem smo želeli imitirati človeško intuicijo, ki bi na primer rekla »vodna gladina v naslednjih dveh dneh bo enaka povprečju zadnjih treh dni«. Skupaj tako zgradimo 420 primerjalnih modelov.

Vse modele smo testirali z metodo kontinuiranega napovedovanja (angl. rolling forecast) v celotnem obdobju, ko imamo na voljo podatke. Metoda kontinuiranega napovedovanja deluje tako, da se iterativno in kronološko pomikamo skozi podatke ter sproti učimo model in preverjamo njegovo natančnost, tako dobimo dobro oceno, kako natančen bi bil naš model tudi v realnem svetu oziroma praksi.

V tabeli 2 vidimo 10 najbolj točnih enostavnih modelov. Po pričakovanjih je daleč najbolj uspešna napoved, da bo prihodnje stanje enako današnjemu oziroma zadnjemu znanemu stanju. Iz prve vrstice preberemo, da v 18 letih napovedovanja po pravilu »jutri bo enako kot danes« bi se v povprečju zmotili le za 4,5 centimetra na dan.

Tabela 2: Napovedovalna točnost 10 najboljših enostavnih primerjalnih modelov Število preteklih

dni, zajetih v povprečje

Število prihodnjih

napovedovanih dni MAE v metrih RMAE v metrih

1 1 0,045494 0,010861

1 2 0,066270 0,021829

1 3 0,084400 0,033841

2 1 0,086677 0,031074

2 2 0,105648 0,042438

1 4 0,105736 0,051493

1 5 0,121613 0,062717

2 3 0,124044 0,057923

3 1 0,124920 0,057175

1 6 0,138070 0,079297

Vir: lastno delo.

Tudi ko napovedujemo dlje, na primer 14 dni v prihodnost, je vedno najbolj natančen model, ki le preslika današnje stanje v prihodnost, zato smo dotični model izbrali kot primerjalni in njegovo točnost določili kot prag uspešnosti pri ocenjevanju prototipa. Točnost primerjalnega modela do 14 dni v prihodnost prikazuje spodnja tabela 3.

(21)

Tabela 3: Napovedi najboljšega primerjalnega modela za 14 prihodnjih dni Število dni v

prihodnosti MAE v metrih RMAE v metrih Δ MEA v metrih

1 0,045494 0,010861

2 0,066270 0,021829 0,020776

3 0,084400 0,033841 0,018130

4 0,105736 0,051493 0,021336

5 0,121613 0,062717 0,015877

6 0,138070 0,079297 0,016458

7 0,155688 0,089327 0,017618

8 0,180376 0,126113 0,024688

9 0,187702 0,111876 0,007326

10 0,216666 0,169297 0,028964

11 0,229489 0,161712 0,012823

12 0,243553 0,203844 0,014065

13 0,262454 0,218779 0,018900

14 0,271326 0,235904 0,008873

Povprečje 0,164917 0,112635 0,017372

Vir: lastno delo.

Opazimo tudi, da se pri primerjalnem modelu z vsakim nadaljnjim napovedanim dnem točnost MAE poslabša za približno dva centimetra, tako je naša napaka sedem dni v prihodnosti 15,5 centimetra in pri 14 dneh se zmotimo za 27,1 centimetra. Izračunali smo še napovedi za 45, 60 in 75 dni v prihodnosti in ugotovili, da MAE dotlej narašča relativno linearno, kot je tudi razvidno iz modre premice, ki simbolizira MAE na sliki 7.

Slika 7: Prikaz povprečnih napak skozi napovedovalne dni za najbolj uspešen model

Vir: lastno delo.

(22)

2.3 Priprava podatkov

Pred pričetkom modeliranja napovedovalnega modela smo vse podatke ustrezno pripravili, saj s slabo pripravljenimi podatki v model vnašamo informacijski šum. Pod pripravo podatkov štejemo aktivnosti, kot sta odstranjevanje osamelcev oziroma vrednosti, ki so zaradi človeške ali tehnične napake napačne, in transformacija podatkov iz ljudem prijazne oblike v matematično obliko, ki bolj logično ali pravilno odraža pravo stanje. Prav tako lahko odstranjujemo parametre, ki ne prinašajo želene dodane vrednosti k napovedi, ali pa jih združujemo v nove, bolj optimalne oblike.

V analizi surovih podatkov smo opazili, da se v prvih dveh letih nahajajo vse manjkajoče vrednost, in pri pripravi primerjalnega modela smo ugotovili, da največjo vrednost za uspešno napoved prinese zadnja vrednost, zato smo se odločili, da za lažje nadaljnje delo izbrišemo vse podatke do 1. 1. 2004 ter si tako zagotovimo podatke brez manjkajočih vrednosti.

Podatkovna zbirka o jezeru Bilancino vsebuje kar pet parametrov o padavinah z različnih bližnjih lokacij. S korelacijsko matriko med atributi, ki je vizualno prikazana na sliki 8 smo ugotovili, da so podatki o padavinah med seboj izjemno povezani oziroma celo redundantni.

Najvišjo koreliranost z vodno gladino imajo padavine v bližnji vasici San Piero, ki se nahaja jugovzhodno od jezera, vendar je tudi ta vrednost le –0,034. Podatke o dežju smo brez uspeha poskusili transformirati v drugo obliko, ki bi bolje korelirala z napovedovano ravnjo vodne gladine jezera. Predvidevamo, da bi zato potrebovali geološke podatke tal v okolici jezera, predvsem o vpojnosti in prepustnosti. Tako bi lahko izračunali, koliko deževnice se bo za koliko časa zadržalo na območju jezera ter tako vplivalo na vodno gladino. Ker geoloških podatkov nismo imeli, smo vse podatke o dežju zanemarili.

Slika 8: Pearsonova korelacija med parametri jezera Bilancino

Vir: lastno delo.

(23)

Vodna gladina jezera Bilancino je v surovih podatkih zapisana relativno na nadmorsko višino, kar ni intuitiven zapis, ker poznamo uradno izmerjeno nadmorsko višino, smo podatke preslikali relativno glede na dno jezera.

Iz slike 4, ki prikazuje nihanje vodne gladine skozi celotno časovno obdobje, je razvidna močna sezonska komponenta, kar nam signalizira pomembnost mesecev in letnih časov.

Parametri, kot so ura, tedni, meseci, so ciklični in jih zato nikakor ne smemo le prepisati v model, ampak jih moremo prej ustrezno pretvoriti. Meseci, zapisani linearno od 1 do 12, ne odražajo dejanskega stanja v naravi, saj sta numerično meseca januar in december z evklidsko razdaljo prikazana kot bolj različna od decembra in avgusta. Enako velja pri času v dnevu, kjer modelu signaliziramo ob prehodu iz starega dne v novega ob 23:59 in 00:00, da gre za popolnoma različen del, ko pa v resnici vemo, da so razlike navadno zanemarljive.

Za napovedovanje vodne gladine smo vzeli tedne v letu in jih s spodnjo enačbo (3) pretvorili na krožnico.

𝑡𝑒𝑑𝑒𝑛_𝑐𝑜𝑠 = 𝑐𝑜𝑠(𝑡 – 1) × (2

p

÷ 53) (3) 𝑡𝑒𝑑𝑒𝑛_𝑠𝑖𝑛 = 𝑠𝑖𝑛(𝑡 – 1) × (2

p

÷ 53),

kjer je:

t – teden v letu, zapisan s številom od 1 do 53.

Na spodnji sliki 9 vidimo z zeleno napačen linearni zapis parametra tedna v letu z vrednostmi od 1 do 53 ter nato pravilen ciklični zapis s cosinus in sinus parametroma, ki smo ju pridobili z enačbo 3.

Slika 9: Linearni in ciklični prikaz tednov v letu

Vir: lastno delo.

(24)

2.4 Kratkoročni napovedovalni model

V primerjalnem modulu je bilo moč opaziti izjemno pomembnost zadnje znane vrednosti za napovedovanje prihodnosti. Spomnimo, v vseh primerih napovedovanja je bila vedno najboljša napoved tista, ki je predvidevala, da bo prihodnost enaka zadnjemu znanemu dne.

Zato smo se odločili, da bomo primerjalni model izboljšali s pomočjo časovnih vrst (angl.

time series).

En sam podatek nam nudi statično perspektivo o pojavu, če imamo niz istovrstnih podatkov, zajetih v enakem časovnem obdobju, pa lahko iz njih izluščimo dinamiko pojava. Osnovni namen časovnih vrst je opazovati dinamike pojavov in iskati zakonitosti v gibanju, da lahko kasneje sami napovedujemo nadaljnji razvoj. Zaradi tega je izjemno pomembno, da so podatki vedno v pravilnem kronološkem zaporedju. Podatkov torej ne smemo poljubno mešati med učno in testno množico, kot smo tega vajeni pri drugih napovedovalnih tehnikah.

Časovne vrste delimo na dve podvrsti, trenutne in intervalne. Pri trenutnih časovnih vrstah so podatki oziroma meritve opravljene v točno določenem časovnem intervalu (raven vode ob meritvi), pri intervalnih vrstah pa so podatki agregirani glede na časovni interval (povprečje vodne gladine v tednu). Navadno na dinamiko časovnih vrst vpliva več dejavnikov, ki pa jih glede na sorodni vpliv združujemo v štiri vrste:

– trend ali osnova, ki kaže smer razvoja časovne vrste (npr. globalno segrevanje), – ciklična nihanja iz dolgotrajnih dejavnikov,

– periodična nihanja iz dejavnikov, ki se pojavljajo v stalnih razmikih (npr. letni časi), – iregularne spremembe oziroma posamični vplivi, ki jih ni moč pojasniti ali napovedati.

V splošnem pa lahko poljubni člen časovne vrste zapišemo kot aditivni ali multiplikativni rezultat omenjenih dejavnikov (Černe Korenjak, brez datuma). Pred pričetkom napovedovanja na časovni vrsti pa moramo obvezno preveriti, ali lahko opazovano časovno vrsto klasificiramo kot tip beli šum ali naključni hod.

2.4.1 Beli šum

S terminom »beli šum« (angl. white noise) označujemo časovna vrsto, v kateri so vse spremenljivke popolnoma naključne in med seboj neodvisne. Posledično iz njih ni moč izdelati kakršnihkoli napovedi. Časovna vrsta izpolnjuje pogoje, da jo označimo kot beli šum, če izpolnjuje tri pogoje:

– skozi čas ima enakomerno povprečje 0, – skozi čas ima enakomerni standardni odklon,

– vrednosti v časovni vrsti nimajo nobene avtokorelacije.

Z izrisanim avtokorelacijskim grafom za zadnjih 80 dni vodne gladine na sliki 10 nemudoma opazimo pozitivno korelacijo, ki s časom izgublja na moči. S tem dokažemo, da časovna

(25)

vrsta z vodno gladino jezera ni tipa beli šum in na njej verjetno lahko uspešno izvajamo napovedi.

Slika 10: Avtokorelacija gladine jezera Bilancino za zadnjih 80 dni

Vir: lastno delo.

2.4.2 Naključni hod in Dickey-Fuller test

S pojmom »naključni hod« (angl. random walk) označujemo časovne vrste, kjer imamo lahko korelacijo med členi, vendar z iregularno spremembo, ki ima lastnosti belega šuma, kot označuje enačba:

𝑥#= 𝑥#$%+ 𝜀#; 𝜀#~𝑊𝑁(𝜇, 𝜎&), (4) kjer je:

𝑥# – trenutna vrednost, 𝑥#$% – predhodna vrednost,

𝜀# – iregularna sprememba tipa beli šum z normalno porazdelitvijo.

Ker ima iregularna sprememba lastnosti belega šuma, vemo, da je ta vrednost pri vseh členih neodvisna in naključna. Posledično bo najboljša napoved prihodnje vrednosti vedno zadnja znana vrednost. Prav tako element belega šuma v časovni vrsti povzroči nestacionarnost.

Stacionarnost je lastnost časovne vrste, ki pomeni, da ima časovna vrsta skozi čas vedno enako povprečje in standardni odklon. Če ima časovna vrsta lastnost stacionarnosti, pomeni, da ni tipa naključni hod in na njej lahko verjetno uspešno izvajamo napovedi. Stacionarnost časovne vrste preverimo z dopolnjenim Dickey-Fuller statističnim testom (angl. Augmented Dickey-Fuller, v nadaljevanju ADF).

ADF-test sta leta 1979 razvila znana ameriška statistika Dickey in Fuller. Od tedaj je ADF prepoznan kot formalni statistični test za preverjanje domneve o stacionarnosti časovne vrste. Test poskuša zavreči hipotezo o prisotnosti trenda nasproti hipotezi, da je časovna vrsta stacionarna. Ničta hipoteza torej trdi, da je časovna vrsta nestacionarna. Če test zavrže to hipotezo, vemo, da je stacionarna in ni mogoče, da bi bila tipa naključni hod (Sivec, 2009).

(26)

Na časovni vrsti vodne gladine jezera Bilancino izvedemo ADF-test s 5 % stopnjo značilnosti. Rezultat testa je ADF-vrednost –6,8818, ki je manjši od kritične 1 % meje – 3,4313 pri p-vrednosti 0,0. S tem rezultatom lahko brez dvoma zavrnemo ničto hipotezo in sprejmemo alternativno, ki trdi, da je časovna vrsta o vodni gladini jezera Bilancino stacionarna.

Z ADF-testom smo tako dokazali, da naša časovna vrsta ni tipa naključni hod, saj iregularna sprememba ne vsebuje belega šuma in je na njej verjetno mogoče uspešno izvajati napovedi.

2.4.3 Avtoregresijski model drsečih povprečij

Avtoregresijski model drsečih povprečij (angl. Auto Regressive Moving Average, v nadaljevanju ARMA) je statistični model za analizo stacionarne časovne vrste in potencialno napovedovanje prihodnjih vrednosti. ARMA je sestavljena iz dveh enostavnejših modelov.

Prvi model je avtoregresijski (angl. Autoregressive model, v nadaljevanju AR). AR je linearni model, katerega rezultat je seštevek preteklih vrednosti iz časovne vrste, pomnožen z numeričnim faktorjem. Enačbo modela zapišemo kot:

𝑥# = 𝐶 + ∑(')%

j

'𝑥#$'+ 𝜀#, (5) kjer je:

𝑝 – število predhodnih vrednosti, zajetih v izračun, 𝑥# – trenutna vrednost,

C – konstanta,

j – numerični faktor navadno med –1 in 1, 𝑥#$' – predhodna vrednost z zamikom i, 𝜀# – iregularna sprememba.

Drugi model je model drsnih povprečij (angl. Moving Average model, v nadaljevanju MA).

Je prav tako linearni model, katerega rezultat je seštevek preteklih odstopanj iz časovne vrste, pomnožen z numeričnim faktorjem:

𝑥# = 𝜇 + 𝜀#+ ∑*')%𝜃'𝜀#$', (6) kjer je:

𝑞 – število predhodnih vrednosti, zajetih v izračun, 𝑥# – trenutna vrednost,

𝜇 – konstanta,

θ – numerični faktor navadno med –1 in 1, 𝜀#$' – predhodna iregularna sprememba, 𝜀# – trenutna iregularna sprememba.

(27)

Ko združimo opisana modela oziroma polinoma AR in MA v skupno enačbo, dobimo model ARMA, katerega enačbo zapišemo kot:

𝑥# = 𝐶 + ∑(')%

j

'𝑥#$'+ ∑*')%𝜃'𝜀#$'+ 𝜀# (7) Glavna prednost modela ARMA je boljša odpornost na nenadne spremembe v časovni vrsti.

Model ARMA definiramo s spremenljivkama p in q. S p definiramo število preteklih vrednosti, zajetih v AR-polinomu, in s q število zajetih napak v MA-polinomu, skupaj pa model zapišemo z notacijo oklepajev ARMA(p, q). Če je eden izmed parametrov enak 0, to pomeni izključitev tega dela polinoma iz modela, kar efektivno pomeni, da uporabljamo le model AR ali MA, na primer ARMA(2,0) je popolnoma enak modelu AR(2) (Zhang, 2018).

2.4.4 ARMA-model za napovedovanje gladine jezera Bilancino

Glavni izziv pri modeliranju modela ARMA je določitev pravilnih parametrov p in q oziroma AR- in MA-delov modela. Obstaja več načinov izbire omenjenih parametrov, vizualno si lahko pomagamo z grafom avtokorelacije in parcialne avtokorelacije vodne gladine.

Graf parcialne korelacija nam lahko pomaga določiti število preteklih členov, ki nosijo vrednost za AR-model oziroma parameter p, in graf avtokorelacije za MA in parameter q.

Na sliki 11 lahko vizualno ocenimo, da trije pretekli členi korelirajo s trenutno vrednostjo, zato pričakujemo, da primeren parameter p ne bo večji od 3.

Slika 11: Parcialna avtokorelacija vodne gladine jezera Bilancino

Vir: lastno delo.

Na sliki 10, ki prikazuje avtokorelacijski graf vodne gladine jezera Bilancino, opazimo, da avtokorelacija upada mnogo počasneje in ima še 80. člen več kot 20 % korelacijo s trenutno vrednostjo ter je prav tako statistično značilen. Vključitev tolikšnega števila členov bi model ARMA povsem preprilagodil na učno množico.

Zaradi tega smo za določitev parametrov uporabili programsko knjižnico »pmdarima«.

Knjižnica vsebuje funkcijo »autoarima«, ki v predpisanih omejitvah s surovo močjo (angl.

brute force) preveri celoten nabor možnih parametrov p in q in po Akaike informacijskem

(28)

kriteriju (angl. Akaike information criterion, v nadaljevanju AIC) izbere najbolj ustrezna parametra (Smith, 2020).

AIC je kriterij za primerjavo modelov, ki ovrednoti model glede na število uporabljenih parametrov in prileganje modela podatkom. Enačbo AIC zapišemo kot:

𝐴𝐼𝐶 = 2𝑘 − 2𝐿, (8)

kjer je:

k – število parametrov v modelu,

L – logaritemska funkcija verjetja (angl. log likelihood function).

Logaritemska funkcija verjetja nam nakazuje, kako dobro se model prilega danim podatkom, zapišemo jo kot:

𝐿 = 𝑙𝑜𝑔 ∏+')%𝑓(𝑥'|𝜃) = ∑+')%𝑙𝑜𝑔 𝑓(𝑥'|𝜃), (9) kjer je:

𝜃 – verjetnost oziroma distribucija, 𝑥' – vrednost v množici.

Čim manjša vrednost AIC signalizira na splošno kakovosten model. AIC pri svoji oceni hkrati promovira skopskost in enostavnost modela, saj kaznuje veliko število uporabljenih parametrov ter na drugi strani od modela zahteva, da se čim bolje prilagaja danim podatkom (Chen, 2019).

Zavedati se moramo, da preverjanje celotnega nabora možnosti po metodi surove moči ni najbolj elegantna rešitev, predvsem če delamo z ogromnimi podatkovnimi zbirkami ali pa imamo mnogo potencialnih parametrov, saj kombinatorični prostor, ki ga mora algoritem preveriti, narašča eksponentno. V našem primeru smo zaradi informacij iz grafa parcialne avtokorelacije število parametrov že ročno močno omejili ter algoritmu tako olajšali delo.

Z autoarima smo tako preverili nabor vseh kombinacij, kjer sta parametra med 0 in 5, torej posebej modela AR, MA in skupaj v ARMA. Po kriteriju AIC se je kot najbolj primeren izkazal model ARMA(3,3), zato smo ga z različnimi intervali kontinuiranega napovedovanja testirali na celotnih podatkih jezera Bilancino.

V vseh 6 testiranih scenarijih, ki jih prikazuje tabela 4 smo ugotovili, da ARMA(3,3) vselej premaguje primerjalni model. Pri sedemdnevnem kontinuiranem napovedovanju ima povprečno napako 12,88 centimetra. V tabeli 3, ki vsebuje rezultate primerjalnega modela, vidimo, da ima ta pod enakimi pogoji povprečno napako 15,56, torej za 2,68 centimetra ali 17,2 % slabše od izdelanega ARMA(3,3).

(29)

Tabela 4: Točnost ARMA(3, 3) v različnih intervalih kontinuiranega napovedovanja Število dni v

prihodnosti MAE v metrih RMAE v metrih

3 0,076542 0,158498

7 0,128813 0,079920

15 0,238121 0,198258

20 0,308806 0,292431

25 0,351564 0,368343

30 0,440683 0,541751

Vir: lastno delo.

Slika 12 z rdečo črto prikazuje napovedi ARMA(3,3) ter z modro prave vrednosti iz strojnih merilcev podjetja Acea. Opazimo lahko, da se rdeča črta v veliki večini dobro prilega modri, kar tudi vizualno sporoča točnost izdelanega napovedovalnega modela.

Slika 12: ARMA(3, 3) s sedemdnevnim kontinuiranim napovedovanjem

Vir: lastno delo.

Uspešnost modela ARMA(3,3) prikažemo tudi na spodnji sliki 13, kjer opazimo, da je MAE modela, začrtan z rdečimi pikami, vedno manjši od praga, ki smo ga določili s primerjalnim modelom, zato lahko smatramo, da je model ARMA(3,3) dovolj natančen za praktično uporabo.

(30)

Slika 13: ARMA(3,3) napaka MAE in RMAE v primerjavi s primerjalnim modelom

Vir: lastno delo.

Rezultate modela ARMA(3,3) smo neuspešno poskusili izboljšati tudi z bolj naprednimi variacijami modela, kot sta SARMA (angl. Seasonal Autoregressive Moving Average, v nadaljevanju SARMA) in ARMAX (angl. Autoregressive Moving Average with exogenous terms, v nadaljevanju ARMAX).

V okrajšavi SARMA »S« označuje sezonskost, saj nam ta nadgradnja osnovnega modela ARMA omogoča, da pri kalkulaciji poleg zadnjih vrednosti upoštevamo tudi časovno zakasnele člene p in q, na primer iz prejšnjega meseca ali lanskega leta. Že na sliki 6 smo videli, da so med leti ogromne razlike v povprečni gladini, na sliki 14 pa vidimo, da enako velja tudi za mesece, kjer je med novembrom in decembrom leta 2005 razlika v vodni gladini več kot dva metra.

Slika 14: Gladina jezera Bilancino v primerjavi s preteklim mesecem in letom

Vir: lastno delo.

(31)

V model pa smo poskusili vpeljati tudi zunanje oziroma eksogene (angl. exogenous) spremenljivke, kar nam omogoča ARMAX variacija modela. Že pri pripravi podatkov smo opazili, da vse pripadajoče spremenljivke (na primer padavine) nimajo večje pozitivne ali negativne korelacije z vodno gladino, kar signalizira, da ne nosijo dodatnih informacij.

Oba modela, SARMA in ARMAX, sta dosegla slabše rezultate kot ARMA(3,3), zato z njihovim razvojem nismo nadaljevali. Modela bi v napovedi vnesla tudi mnogo večjo kompleksnost, zato tudi če bi nam vrnila enak ali le malce izboljšan rezultat, se bi po načelu skopskosti odločili za bolj enostaven primer ARMA(3,3).

2.5 Dolgoročni napovedovalni model

ARMA(3,3) se je izkazal kot učinkovit model za kratkoročno napovedovanje vodne gladine jezera Bilancino, a zavedati se moramo tudi pomanjkljivosti modela, zato smo poskusili razviti tudi alternativni dolgoročni model. Pri analiziranju časovnih vrste je nujno, da imamo podatke vedno zajete ob isti frekvenci, zato si ne moremo privoščiti manjkajočih vrednosti.

V prihodnje, ko imamo namen analizirati satelitske posnetke, enake frekvence zajema podatkov zagotovo ne bo mogoče zagotoviti zaradi oblakov in drugih šumov. Prav tako ARMA zaradi svoje enostavnosti ni primerna za dolgoročne napovedi na primer leta v prihodnost, saj se pri izračunih opira le na zadnje vrednosti, ki pa sčasoma izgubijo svojo pomembnost.

Zaradi tega smo želeli izdelati še alternativni bolj robusten model, s katerim bo možno napovedovati leta v prihodnost. Podatke smo razdelili na učno in testno množico, in sicer podatke pred 1. 1. 2016 smo uvrstili v učno, preostale pa v testno množico, kot prikazuje spodnja slika 15.

Slika 15: Razdelitev gladine jezera Bilancino in podatkov na učno in testno množico

Vir: lastno delo.

(32)

2.5.1 Model k najbližjih sosedov

Model k najbližjih sosedov (angl. k nearest neighbors, v nadaljevanju kNN) sodi v skupino numeričnih metod. Poznamo klasifikacijsko in regresijsko različico modela. Pri numeričnih metodah moramo imeti vedno shranjeno celotno podatkovno zbirko, nato na njej za vsako odločitev ali iteracijo izvajamo matematične operacije, na podlagi katerih dobimo rezultat.

Ob vsakem novem vnosu v podatkih poiščemo podmnožico k podobnih primerov in jih uporabimo za napoved nove vrednosti. Pri klasifikaciji izberemo razred, ki mu pripada največ sosedov iz izbrane podmnožice, pri regresiji pa je to navadno povprečje podmnožice, izračunano po enačbi:

𝑟, = -%-')%𝑟('), (10)

kjer je:

𝑘 – velikost podmnožice podatkov, izbrane s funkcijo razdalje, 𝑟(') – vrednost i-tega člena iz izbrane podmnožice.

Z večanjem parametra k v obzir izračuna vzamemo več primerov, kar pomeni, da rezultat posplošujemo. Optimalna velikost parametra je odvisna od gostote podatkov in ga po navadi ugotovimo s testiranjem. Pri klasifikacijski različici algoritma število k nastavimo na liho število ter se tako izognemo neodločeni klasifikaciji predvsem pri binarnih problemih.

Atributom primerov lahko pripišemo tudi uteži ter tako dodatno vplivamo na njihovo pomembnost, v vsakem primeru pa je priporočljivo, da vse zvezne podatke normaliziramo na interval od 0 do 1 ter tako poskrbimo, da podatkom z naravno večjimi vrednostmi ne pripišemo večje pomembnosti v modelu.

Ključna je tudi izbira funkcije za merjenje razdalje med primeri. Najbolj pogosto uporabljena je funkcija evklidske razdalje, ki jo lahko interpretiramo kot zračno razdaljo v n dimenzionalnem prostoru. Enačba evklidske razdalje je zapisana kot:

𝑑(𝑞, 𝑝) = U∑ (𝑝+')% ' − 𝑞')&, (11) kjer so:

𝑞, 𝑝 – primera, za katera ocenjujemo razdaljo, 𝑛 – število dimenzij oziroma atributov.

Glavna slabost numeričnih metod je to, da lahko postanejo računsko potratne za izjemno velike podatkovne zbirke, saj moramo računati razdalje med vsemi elementi (Kononenko &

Šikonja, 2010).

Reference

POVEZANI DOKUMENTI

izjemno pomembna tudi v zdravstvu, kjer bodo komunikacijski sistemi za arhiviranje slik (PACS) omogočili obdelavo, skladišče- nje in upravljanje medicinskih posnetkov, kot je

Do aplikacije za upravljanje vsebine lahko dostopamo preko spletne strani, lahko pa jo imamo nameščeno na svojem računalniku in potem preko orodja za prenos podatkov (FTP)

% (w/V) NaCl), pri različnih temperaturah (15-43 °C) in v minimalnem gojišču z različnimi viri ogljika ter z različnimi koncentracijami glukoze (1-50 g/L). Spremljali smo

Glede na nizko stopnjo uporabe storitev e- uprave je na področju razvoja, z vidika dostopnosti storitev državljanom, še veliko možnosti za razvoj, predvsem v državah, kjer

Zato so se za pripravo metodološkega pristopa, ki bi omogočil izdelavo kakovostnih strokovnih podlag za potre- be prostorskega načrtovanja in trajnostnega upravljanja z vodnimi viri,

Povzamemo lahko, da se pri uveljavljanju različnih oblik turizma na kmetiji države z različnih delov sveta soočajo z nekaterimi zelo sorodnimi problemi: sobivanje tradi- cionalnih

Z vidika odtočnih razmer, rečnega režima in vodnih virov so pomembne značilnosti porečja: površina porečja, razvodnica, razvodje, oblika porečja, simetrija porečja,

najobsežnejši poglavji sta prvo, ki obravnava mitološko oziroma folklorno izročilo z različnih delov sveta, ter zadnje poglavje »Življenje živali skozi književnost«, ki