Segmentacijavideoposnetkovvodnihscenspomoˇcjodelnonadzorovanegauˇcenja BlaˇzˇCesnik

(1)

Univerza v Ljubljani

Fakulteta za raˇ cunalniˇ stvo in informatiko

Blaˇz ˇ Cesnik

Segmentacija videoposnetkov vodnih scen s pomoˇ cjo delno nadzorovanega

uˇ cenja

MAGISTRSKO DELO

MAGISTRSKI ˇSTUDIJSKI PROGRAM DRUGE STOPNJE RA ˇCUNALNIˇSTVO IN INFORMATIKA

Mentor : izr. prof. dr. Matej Kristan

Ljubljana, 2021

(2)

(3)

Avtorske pravice. Rezultati magistrskega dela so intelektualna lastnina avtorja in Fakultete za raˇcunalniˇstvo in informatiko Univerze v Ljubljani. Za objavljanje ali izkoriˇsˇcanje rezultatov magistrskega dela je potrebno pisno soglasje avtorja, Fakultete za raˇcunalniˇstvo in informatiko ter mentorja.

(4)

(5)

Zahvala

Zahvaljujem se mentorju izr. prof. dr. Mateju Kristanu za vse odliˇcne napotke, hitro odzivnost in pomoˇc pri izdelavi magistrskega dela. Hvala tudi mag. Borji Bovconu ter mag. Lojzetu ˇZustu za priskrbljeno gradivo, uporabljeno pri izdelavi magistrskega dela. Zahvalil bi se tudi vsem svojim bliˇznjim za veˇcno podporo in spodbudo.

Blaˇz ˇCesnik, 2021

(6)

(7)

”Whether you think you can or you can’t, you are right.”

— Henry Ford

(8)

(9)

Kazalo

Povzetek Abstract

1 Uvod 1

1.1 Motivacija in cilji . . . 1

1.2 Prispevki . . . 2

1.3 Struktura naloge . . . 3

2 Sorodna dela 5 3 Metode 11 3.1 Notranja domenska adaptacija . . . 11

3.2 Adaptacija z manipulacijo spektra . . . 14

3.3 Metoda s prileganjem instanc . . . 18

3.4 Dvosmerno uˇcenje . . . 22

3.5 Segmentacijska mreˇza WaSR . . . 27

4 Eksperimentalna evalvacija 35 4.1 Implementacijske podrobnosti . . . 36

4.2 Analiza z reducirano mreˇzo WaSR . . . 43

4.3 Analiza s popolno mreˇzo WaSR . . . 48

4.4 Kvalitativna analiza . . . 50

(10)

KAZALO

5 Sklepne ugotovitve 57

5.1 Nadaljnje delo . . . 58

(11)

Seznam uporabljenih kratic

kratica angleˇsko slovensko

FFT fast Fourier transform hitra Fouriereva transformacija DFT discrete Fourier transform diskretna Fouriereva transformacija TP true positive pravilno oznaˇceni pozitivni primeri FP false positive nepravilno oznaˇceni pozitivni primeri FN false negative nepravilno oznaˇceni negativni primeri GAN generative adversarial network generativna nasprotniˇska mreˇza IMU inertial measurement unit inercijska merilna enota

WS water separation loˇcevanje vode

DCNN deep convolutional neural network globoke konvolucijske nevronske mreˇze SMD Singapore maritime dataset pomorska zbirka Singapore

(12)

(13)

Povzetek

Zaznavanje ovir je kljuˇcnega pomena za avtonomna plovila, saj lahko ob ne- pravilni detekciji pride do trka plovila ali nepotrebnega izogibanja objektov, ki ne obstajajo. Temu se lahko izognemo z uporabo natanˇcnejˇsih modelov za detekcijo takˇsnih ovir. Ker so avtonomna plovila dokaj neraziskano podroˇcje v primerjavi z avtonomnimi vozili, je poslediˇcno na voljo tudi manj anotiranih semantiˇcno segmentacijskih zbirk vodne domene, s katerimi bi lahko uˇcili mreˇzo. Ker je roˇcna anotacija za generiranje takˇsnih zbirk draga in vzame veliko ˇcasa, je uporaba slik brez anotacij uporabna alternativa. V magistrskem delu se posvetimo evalvaciji metod, namenjenim nenadzorovani domenski adaptaciji, ki za uˇcenje uporabljajo anotirane slike iz izvorne zbirke, ter slike brez anotacij iz ciljne zbirke. V ta namen preizkusimo adaptacijske metode notranje domenske adaptacije [1], adaptacijo z manipulacijo spektra [2], metodo s prileganjem instanc [3] ter dvosmerno uˇcenje [4]. Analizo izvajamo na referenˇcni mreˇzi WaSR [5], ki je trenutno najuspeˇsnejˇsa na podroˇcju segmentacije na vodni domeni, analiziramo pa tudi adaptacijo na reducirani verziji mreˇze WaSR, pri kateri ne upoˇstevamo dodatnih regularizacij uporabljenih v popolni referenˇcni mreˇzi. Analiza je pokazala, da ob adaptaciji reducirane mreˇze WaSR, dosega najboljˇse rezultate metoda adaptacije z manipulacijo spektra, ki za pribliˇzno 6% izboljˇsa F-mero popolne referenˇcne mreˇze, pri adaptaciji popolne mreˇze je metoda za pribliˇzno 7% slabˇsa, z uporabo re- ferenˇcne mreˇze WaSR s sklopljeno izgubno funkcijo loˇcevanja vode pa za pribliˇzno 3% boljˇsa kot popolna mreˇza WaSR.

Naslov: Segmentacija videoposnetkov vodnih scen s pomoˇcjo delno nadzo-

(14)

rovanega uˇcenja

Kljuˇ cne besede

raˇcunalniˇski vid, delno nadzorovano uˇcenje, video segmentacija, nenadzoro- vana domenska adaptacija

(15)

Abstract

Obstacle detection is a crucial component in unmanned surface vehicles for collision prevention and unnecessary stopping at false detections. Au- tonomous vessels are a rather unexplored area compared to autonomous ground vehicles, thus there are much fewer annotated datasets for training modern obstacle detectors. Since manual acquisition of ground truth segmentation data is time consuming and expensive, a viable alternative is training with low supervision. In the master’s thesis, we focus on evaluation of unsupervised domain adaptation methods, which use an annotated source dataset and a target dataset without annotation. We test four modern adaptation methods: Intra doman adaptation [1], Fourier domain adaptation [2], Instance matching [3] and Bidirectional learning [4]. We perform analysis on complete WaSR [5] method, which is currently state-of-the-art in the field of semantic segmentation on water domain, and on a reduced WaSR method version, without additional regularizations. Our analysis shows, that on reduced WaSR, Fourier domain adaptation gets the best F-measure, which outperforms original WaSR trained without adaptation by over 6%. We then test the same adaptation method on original WaSR and discover, that the Fourier method underperforms the complete reference network for approximately 7% F-measure, and outperforms for approximately 3% if we use WaSR method with only IMU.

Title: Video segmentation of water scenes using semi supervised learning

(16)

Keywords

computer vision, semi supervised learning, video segmentation, unsupervised domain adaptation

(17)

Poglavje 1 Uvod

1.1 Motivacija in cilji

Metode za detekcijo s pomoˇcjo globokih nevronskih mreˇz in semantiˇcne segmentacije dosegajo odliˇcne rezultate na domeni avtonomnih vozil [6, 7, 8, 9].

Vendar pa teh metod ne moremo direktno aplicirati na domeno vodnih scen, kjer nam s konstantno spreminjajoˇcimi vzorci predstavlja velik problem valo- vanje vode in odboj svetlobe od nje. V Laboratoriju za umetne vizualne spo- znavne sisteme so v sklopu projekta ViAMaRo[7] razvili metodo WaSR[8] za detekcijo objektov v vodni domeni, ki temelji na semantiˇcni segmentaciji slik z uporabo nadzorovanega uˇcenja konvolucijskih nevronskih mreˇz. Metoda WaSR uporablja napredne regularizacije kot so odˇcitki inercijskega senzorja (angl. Inertial Measurement Unit - IMU), namenjeni ocenitvi poloˇzaja vodne gladine ter izgubno funkcijo loˇcevanja vode (angl. Water Separation - WS).

Rezultati metode kaˇzejo na bistvene izboljˇsave v primerjavi s sorodnimi deli.

Segmentacijske konvolucijske nevronske mreˇze kot vhod vzamejo sliko in kot izhod vrnejo segmentacijsko masko tako kot je vidno na Sliki 1.1. Ma- ska oznaˇcuje vrednosti razreda za vsak piksel posebej - na primer ”voda”,

”nebo”ali ”ovira”. Vsak algoritem strojnega uˇcenja za svoje delovanje potrebuje podatke, iz katerih se lahko uˇci. Pri nadzorovanem uˇcenju segmentacijske mreˇze je za efektivno uˇcenje potrebno veliko ˇstevilo anotiranih slik.

1

(18)

2 POGLAVJE 1. UVOD

Slika 1.1: Pristop segmentacijske nevronske mreˇze za vhod vzame sliko (levo) in na izhodu vrne segmentacijsko masko (desno).

V primeru, da nam le-teh primankuje, je za izdelavo takˇsnih zbirk potrebna roˇcna segmentacija slik, ki je zelo zamudna in draga. Za nadzorovano uˇcenje na domeni vodnih scen primankuje takih zbirk, s katerimi bi lahko trenirali mreˇze in jih uporabili za preuˇcevanje te domene [10]. Alternativa temu je uporaba delno nadzorovanega uˇcenja, s katerim lahko zniˇzamo ˇstevilo roˇcno anotiranih slik in tako prihranimo dodatno delo ter stroˇske. V naˇsi nalogi smo se osredotoˇcili na adaptacijske metode, ki poskuˇsajo pribliˇzati distribucijski zamik izvorne domene z zamikom ciljne domene. Naˇs cilj je bil analizirati moderne metode za adaptacijo med domenami na problemu detekcije ovir v vodnem okolju. Osredotoˇcili smo se na najperspektivnejˇse, ki so bile v zadnjem ˇcasu objavljene na glavnih konferencah raˇcunalniˇskega vida.

1.2 Prispevki

V magistrskem delu se posvetimo eksperimentalni analizi trenutno najaktu- alnejˇsih metod nenadzorovane domenske adaptacije. Za uˇcenje uporabimo zbirki anotiranih [10] slik iz vodne domene ter zbirko slik vodnih scen brez anotacij [11]. Z uporabo takih podatkov naˇsa naloga spada v kategorijo uˇcenja delno nadzorovanih segmentacijskih nevronskih mreˇz. Te metode evalviramo na ciljni zbirki vodne domene in poslediˇcno uporabimo mreˇzo

(19)

1.3. STRUKTURA NALOGE 3

WaSR [5], katera je namenjena ravno semantiˇcni segmentaciji takˇsnih scen.

1.3 Struktura naloge

V Poglavju 2 najprej predstavimo sorodna dela, kot so metode za nenadzorovano domensko adaptacijo, ki za uˇcnje uporabljajo anotirane podatke in podatke brez anotacij. V tretjem poglavju opiˇsemo segmentacijsko mreˇzo WaSR ter vse metode, ki smo v sklopu magisterskega dela testirali. V ˇcetrtem poglavju predstavimo implementacijske podrobnosti, kot so uporabljene podatkovne zbirke, evalvacijske mere ter parametre, uporabljene za uˇcenje metod. Opravimo tudi kvantitativno in kvalitativno analizo z uporabo mreˇze WaSR [5] brez maske IMU in izgubne funkcije WS ter metode, ki so dosegle najboljˇse rezultate evalviramo z uporabo maske IMU in izgubne funkcije WS.

Vpliv izgubne funkcije WS nato primerjamo tako, da ga pri uˇcenju ne uporabimo in uporabimo le podatek o maski IMU. Na koncu med seboj primerjamo rezultate ter prikaˇzemo ˇse nekaj inferenc.

(20)

4 POGLAVJE 1. UVOD

(21)

Poglavje 2 Sorodna dela

Detekcija objektov na slikah je zaradi ˇstevilnih moˇznosti uporabe zelo popu- larno raziskovalno podroˇcje. Tu je glavna naloga identifikacija in lokalizacija razliˇcnih objektov, katero lahko doseˇzemo s pomoˇcjo interesne regije ali uporabe segmentacije. Chapelle et al. so v knjigi [12] predstavili celovit pregled podroˇcja uporabe neanotiranih podatkov v strojnem uˇcenju in v sklopu tega opisali najsodobnejˇse algoritme, ki so bili aktualni v ˇcasu pisanja knjige. Te so med seboj tudi primerjali in podali nekaj smernic za nadaljne raziskave.

Veliko poskusov je bilo narejenih na adaptaciji klasiˇcnih, delno nadzorovanih metod v namene globokega uˇcenja, kot je psevdo anotiranje [13], metode, ki temeljijo na grafih [14, 15] ter entropijska minimizacija [16]. Podroˇcje domenske adaptacije v namene klasifikacije je ˇsiroko raziskano podroˇcje [17].

Pri adaptaciji semantiˇcne segmentacije je to teˇzja naloga, saj je potrebno napovedati razred vsakega piksla.

V zadnjem ˇcasu je veliko raziskav na temo uˇcenja nevronskih mreˇz in vkljuˇcitve neanotiranih podatkov s ciljom izboljˇsanja konˇcnega rezultata. To je vidno tudi iz sodobnih ˇclankov, kjer raziskovalci poskuˇsajo odkriti nove metode, ki za uˇcenje uporabljajo anotirane in neanotirane podatke [18, 19, 20, 21]. Kljub temu, da je bilo v zadnjem ˇcasu precej raziskav narejenih na segmentaciji vodne domene s pomoˇcjo konvolucijskih nevronskih mreˇz [22, 23, 5], pa uporabe delno nadzorovanega uˇcenja nismo zasledili.

5

(22)

6 POGLAVJE 2. SORODNA DELA

Veliko semantiˇcno segmentacijskih adapcijskih metod v svojih poskusih uporablja sintetiˇcno pridobljene podatkovne zbirke. Dve zelo znani zbirki sta GTA5 [24] ter SYNTHIA [25], ki sta tudi najbolj uporabljeni pri evalvaciji metod, namenjenim nenadzorovani domenski adaptaciji. Za takˇsne zbirke roˇcno anotiranje ni potrebno, saj se natanˇcno ve, kateri 3D objekt je preslikan na doloˇcen piksel. To omogoˇci hitrejˇso, cenejˇso ter natanˇcnejˇso anotacijo, kot ˇce bi anotirali roˇcno. Na primer roˇcna semantiˇcna segmentacija ene slike podatkovne zbirke Cityscape [26] vzame pribliˇzno 90 minut, kar je zelo veliko, v nasprotju z nekaj milisekundno uporabo raˇcunalniˇske moˇci. Vendar take zbirke lahko le poskuˇsajo posnemati realni svet ter so tako le njena replika.

V sintetiˇcnih zbirkah je pomanjkanje znaˇcilnih izstopajoˇcih vzorcev realnega sveta, kateri so vˇcasih pomembnejˇsi kot osnovni vzorci za zaznavo objektov.

Raziskovalci vsako leto predstavijo veliko zanimivih metod, namenjenim segmentacijski adaptaciji. V naslednjih odstavkih na kratko opiˇsemo ˇstiri moderne adaptacijske metode, ki uporabljajo delno nadzorovano uˇcenje in predstavljajo glavne trende na podroˇcju adaptacijskih metod. Za vsako od metod na kratko predstavimo postopek uˇcenja in omenimo razliˇcne zanimive principe, ki jih uporabijo pri adaptaciji.

Nekatere raziskave se posveˇcajo uporabi napovedovanja dodatne informacije. Pri metodi zavedanja globine (angl. Depth-Aware Domain Adaptation - DADA) [27] se za uˇcenje mreˇze poleg segmentacijskege izgubne funkcije uporabi tudi informacijo o globini slik iz izvorne zbirke. Z informacijo o globini se lahko tako zgradi dodatne globinske predikcije pomoˇznih spremenjlivk (angl. auxilary), ki nam pomagajo pri zaznavi globine slike iz ciljne domene.

S to informacijo se lahko laˇzje doloˇci rob objekta, kar izboljˇsa loˇcevanje med segmentacijskimi komponentami. Metode ni mogoˇce uˇciti brez anotacij glo- binskih mask izvorne zbirke in tako je za generiranje zbirke potrebna uporaba naprednejˇsih senzorjev. Segmentacijski mreˇzi je dodan ˇse pomoˇzni residualni blok(angl. deep residual auxilary block) [28] za predikcijo monukularne globine. Ta se nato zdruˇzi z glavnim tokom, kjer se ga s produktom na nivoju elementov spoji z znaˇcilkami (angl. feature fusion). Metoda kot izhod vrne

(23)

7

mehko segmentacijsko masko (angl. soft-segmentation map) P_x, ter globin- sko masko (angl. depth map) Z_x. Arhitektura metode je vidna na zgornji polovici Slike 2.1.

Slika 2.1: Slika prikazuje proces uˇcenja metode zavedanja globine. Slika povzeta po [27].

Metoda adaptacije na podlagi omejitev in nasprotniˇskega uˇcenja (angl.

adversarial and constraint-based adaptation) [29] za adaptacijo med domenama uporablja globalne in kategoriˇcno specifiˇcne adaptacijske tehnike. Za globalno poravnavo je uporabljena mreˇza GAN, ki med izvorno in ciljno domeno poravna bogate znaˇcilke generirane s pomoˇcjo kodirnika. Za dodatno pribliˇzanje distribucije med domenama, je predstavljena izgubna funkcija, ki je zgrajena s pomoˇcjo statistike kategorij izvorne zbirke. Za vse slike iz izvorne domene se izraˇcuna statistiko pojavitve segmentacijskih razredov. ˇCe slika vsebuje doloˇcen razred, se izraˇcuna deleˇz pikslov na sliki, ki mu pripadajo. S to informacijo se lahko nato zgradi histogram in oznaˇci spodnji vmesni ter zgornji deleˇz. Informacija je uporabljena za informiranje ciljne domene o postavitvi scene in statistiki segementacijskih razredov izvorne do-

(24)

mene. S tem se omeji pojavitev doloˇcenega razreda v predikciji ciljnih slik.

Arhitektura metode je vidna na Sliki 2.2.

Slika 2.2: Slika prikazuje proces uˇcenja metode adaptacije na podlagi omejitev in nasprotovanj. Slika povzeta po [29].

Avtorji metode uˇcenja invariantnih teksturnih reprezentacij (angl. Le- arning Texture Invariant Representation) [30] poskuˇsajo odpraviti problem tekstur na sintetiˇcni zbirki, zato predlagajo metodo, ki izboljˇsa uporabo sin- tetiˇcnih podatkov in tako zmanjˇsa razmak med izvorno sintetiˇcno domeno ter ciljno domeno slik realnega sveta. Pri metodi uˇcenja invariantnih teksturnih reprezentacij se za uˇcenje mreˇze uporabi dve zbirki, generirani iz izvorne zbirke, ter ciljno zbirko. Prva generirana zbirka je stilizirana zbirka, ki doda sintetiˇcnim slikam raznolikost tekstur. Za kreiranje stiliziranih slik je uporabljena metoda StyleSwap [31]. Takˇsna zbirka doda teksturno raznolikost in prepreˇci segmentacijskemu modelu prekomerno prileganje (angl. overfit- ting) sintetiˇcni teksturi. Druga generirana zbirka je prenosna zbirka, katera je ustvarjena s pomoˇcjo metode CycleGAN [32]. Ta pribliˇza sintetiˇcno zbirko ciljni tako, da zmanjˇsa vidni razmak med njima. Primera stilizirane slike in

(25)

9

prevedene slike sta vidna na Sliki 2.3, kjer je levo zgoraj prikazan primer stilizirane slike, pod njim pa prevedene slike. V prvi fazi se poskuˇsa segmentacijsko mreˇzo nauˇciti razpoznavanja invariantnih teksturnih reprezentacij.

Uporabi se obe generirani zbirki, kateri vsebujeta veliko raznolikih tekstur.

V vsaki iteraciji uˇcenja se kot prehod naprej (angl. feed-forward) simultano izmenjuje med stilizirano in prenosno zbirko. S tem postopkom nauˇcimo model razpoznavanja razliˇcnih tekstur, preslikanih na sintetiˇcno zbirko. Po- stopek uˇcenja celotne prve faze je upodobljen na Sliki 2.3. V drugi fazi se najprej s pomoˇcjo modela, dobljenega v prvi fazi, generira zbirko s psevdo oznakami (angl. pseudo labels). Nato z dobljenimi psevdo oznakami in prenosno zbirko uglaˇsujemo (angl. fine-tuning) model ter tako dobimo nauˇcen model s teksturo ciljne zbirke. Drugo fazo se nato ponavlja do najboljˇsega dobljenega evalvacijskega rezultata.

Slika 2.3: Slika prikazuje proces uˇcenja invariantnih teksturnih reprezentacij - prva faza metode. Slika povzeta po [30].

Metoda instanˇcnega adaptivnega samouˇcenja (angl. Instance Adaptive Self-Training - IAST) [33] temelji na instanˇcnemu adaptivnem selektorju, s katerim je mogoˇce prilagojeno generirati psevdo oznake za vsako instanco

(26)

posebej ter regijsko vodeni regularizaciji, pri kateri se izvede regularizacija za ignorirano regijo ter regijo psevdo oznak, kjer verjetnost dosega doloˇcen prag. Metodo se lahko uporabi tudi kot dekorater za druge metode nenadzorovane domenske adaptacije. Na Sliki 2.4 je prikazan postopek uˇcenja metode. Zgornji del slike prikazuje prvi korak (levo), kjer s slikami iz izvorne zbirke uˇcimo mreˇzo ter nato s pomoˇcjo instanˇcnega adaptivnega selektorja generiramo psevdo oznake (desno). Spodnji del Slike 2.4 prikazuje samonadzorovano uˇcenje, kjer s psevdo oznakami ciljne zbirke uˇcimo mreˇzo in ob enem uporabimo dve razliˇcni regularizaciji za ignorirano regijo ter samoza- vestno regijo. Za uˇcenje mreˇze v zadnjem koraku se minimizira vsoto kriˇzne entropije in regularizacije. Instanˇcni adaptivni selektor pri generiranju praga za vsako segmentacijsko komponento na sliki posebej uporablja eksponentno drseˇce povpreˇcje, ki lahko z informacijo o zgodovini vrednosti praga zgladi prag vsake instance.

Slika 2.4: Na sliki je prikazan postopek uˇcenja metode instanˇcnega adaptivnega samouˇcenja. Slika povzeta po [33].

(27)

Poglavje 3 Metode

V poglavju najprej opiˇsemo metode za nenadzorovano domensko adaptacijo, uporabljene v analizi, kot so notranja domenska adaptacija [1] (Poglavje 3.1), adaptacija z manipulacijo spektra [2] (Poglavje 3.2), metoda s prileganjem instanc [3] (Poglavje 3.3) ter dvosmerno uˇcenje [4] (Poglavje 3.4). V Poglavju 3.5 opiˇsemo ˇse uporabljeno segmentacijsko metodo WaSR [5], ki trenutno dosega najboljˇse segmentacijske rezultate na vodni domeni.

Za uˇcenje segmentacijskih metod predstavljenih v nadaljevanju, definiramo izvorno zbirko kotS ={(ISi,YSi)}^N_i=1^S, kjer jeISi ∈R^H×W^×3i-ta barvna slika z zlatim standardom YSi ∈ R^H×W^×C, ter ciljno zbirko T = {ITi}^N_i=1^T , kjer je ITi ∈R^H^×W×3 i-ta barvna slika za katero nimamo doloˇcenega zlatega standarda.

3.1 Notranja domenska adaptacija

Avtorji metode notranje domenske adaptacije (angl. Intra domain adaptation - IntraDA) [1] ugotavljajo, da predhodna dela naslavljajo problem zmanjˇsevanja distribucijske vrzeli med dvema domenama(angl. inter-domain), ne ukvarjajo se pa z zmanjˇsanjem distribucijske vrzeli znotraj ciljne domene.

Uˇcenje metode je razdeljeno na dve fazi. Najprej se zmanjˇsuje vrzel med izvorno in ciljno domeno, nato se z dobljeno mreˇzo in entropijskim ocenje-

11

(28)

12 POGLAVJE 3. METODE

vanjem generira lahko in teˇzko mnoˇzico ter na koncu se dobljeni mnoˇzici uporabi za zmanjˇsanje distribucijske vrzeli znotraj ciljne zbirke s pomoˇcjo samonadzorovanega uˇcenja. Za meddomensko adaptacijo avtorji uporabijo metodo ADVENT [1], katera temelji na uporabi generativne nasprotniˇske mreˇze.

Slika 3.1: Prikaz postopka uˇcenja metode Notranje domenske adaptacije.

Slika povzeta iz [1].

3.1.1 Meddomenska adaptacija

Cilj meddomenske adaptacije je zmanjˇsanje distribucijske vrzeli med izvorno zbirko S in ciljno zbirko T. Za uˇcenje generativne mreˇze G_inter uporabimo kriˇzno entropijo definirano z enaˇcbo

`^seg_inter(IS,YS) = −X

h,w

X

c

Y^(h,w,c)_S log

P^(h,w,c)_S

, (3.1)

kjer je P_S =G_inter(I_S) predikcijska matrika vhodne slikeI_S iz ciljne zbirke.

Predpostavka avtorjev [34] pravi, da nauˇceni modeli ponavadi proizvajajo preveˇc negotove predikcije za slike iz izvorne domene ter nesamozavestne predikcije za slike iz ciljne domene, zato se za zmanjˇsanje distribucijskega zamika

(29)

3.1. NOTRANJA DOMENSKA ADAPTACIJA 13

znaˇcilk uporabi entropijsko masko(angl. entropy map)E. Entropijska maska za sliko iz ciljne domene T je definirana kot

E^(h,w)_T =X

c

−P^(h,w,c)_T log

P^(h,w,c)_T

. (3.2)

Pri uˇcenju diskriminatorne mreˇzeD_inter mreˇzo uˇcimo razlikovati med en- tropijskimi maskami izvorne in ciljne domene, medtem ko je generatorG_inter namenjen zavajanju diskriminatorja. Izgubna funkcija generativne naspro- tniˇske mreˇze je definirana kot

`^adv_inter(S,T) =X

h,w

log( 1−D_inter

E^(h,w)_T + log

D_inter

E^(h,w)_S ,

(3.3)

kjer je E^(h,w)_S entropijska maska slike iz izvorne domene.

3.1.2 Entropijsko rangiranje

Ko je mreˇzaG_inter nauˇcena, sledi izraˇcun entropijskih mask za vse slike izT. Iz dobljenih entropijskih mask se za vsako sliko izraˇcuna rang R, definiran kot

R(IT) = 1 HW

X

h,w

E^(h,w)_T . (3.4)

Vrednosti entropijskih mask se nato razvrsti po velikosti. Dobljeni urejen seznam se razdeli na dva dela, kjer se zλuteˇzi deleˇz lahke mnoˇzice in z 1−λ deleˇz teˇzke mnoˇzice. Za lahko mnoˇzicoT_ese generira psevdo oznake, medtem ko teˇzka mnoˇzica T_h ostane brez anotacij.

3.1.3 Adaptacija znotraj domene

Ker T nima zlatega standarda in tako nadzorovano uˇcenje s ciljno zbirko ni mogoˇce, je za uˇcenje generativne mreˇze G_intra uporabljena mnoˇzica T_e z

(30)

generiranimi psevdo oznakami. Izgubna funkcija je definirana kot

`^seg_intra(ITe) = −P

h,w

P

cP_T^(h,w,c)_e log

G_intra(ITe)^(h,w,c)

, (3.5)

kjer jeITeslika iz lahke mnoˇziceT_e,PTepa je predkcijska segmentacijska maska oznaˇcena z eniˇcnim vektorjem(angl. one-hot vector), dobljena iz ohlapne segmentacijske maske (angl. soft-segmentation mask) PTe. Za zmanjˇsanje distribucijske vrzeli znotraj ciljne domene se z diskriminatorno mreˇzoD_intra poravna entropijske maske lahke mnoˇzice E_T_e in teˇzke mnoˇzice E_T_h.

`^adv_intra(ITe,ITh) =P

h,wlog

1−D_intra

E^(h,w)_T_h + log

D_intra

E^(h,w)_T_e

. (3.6)

Konˇcna izgubna funkcija je definirana kot

`=λ^seg_inter`^seg_inter+λâdv_inter`âdv_inter+λ^seg_intra`^seg_intra+λâdv_intra`âdv_intra, (3.7) je seˇstevek vseh izgubnih funkcij z razliˇcnimi uteˇzitvami.

3.2 Adaptacija z manipulacijo spektra

Metoda adaptacije z manipulacijo spektra(angl. Fourier Domain Adaptation - FDA)[2] za prenos sloga med izvorno in ciljno domeno ne potrebuje dodatne mreˇze ter ne vsebuje nasprotniˇske mreˇze, kar izrazito pospeˇsi uˇcenje celotne metode. Prenos sloga med izvorno ter ciljno zbirko je izveden s pomoˇcjo Fouriereve transformacije. Za izraˇcun diskretne Fouriereve transformacije (angl. discrete Fourier transform - DFT) je uporabljen uˇcinkovit algoritem hitre Fouriereve transformacije (angl. fast Fourier transform - FFT).

Najprej se z uporabo FFT izraˇcuna matriki faznih in amplitudnih vrednosti, nato se zamenja amplitude nizkih frekvenc med slikama izvorne in ciljne zbirke. Na koncu pa je uporabljen ˇse inverzni algoritem FFT, kateri iz faznih in amplitudnih signalov sprocesira konˇcno transformirano sliko. Na Sliki 3.2 lahko vidimo koncept adaptacije z manipulacijo spektra.

(31)

3.2. ADAPTACIJA Z MANIPULACIJO SPEKTRA 15

Slika 3.2: Na sliki je prikazan koncept adaptacije z manipulacijo spektra.

Slika vzeta iz [2].

Pri uporabi algoritma FFT dobimo informacijo o amplitudi in fazi slike.

V fazni matriki je kodirana semantiˇcna informacija slike, medtem ko ampli- tudna matrika hrani domensko informacijo in globalni prikaz slike. Zato se med slikami zamenja samo amplitudni del nizkih frekvenc.

3.2.1 Prenos sloga

S pomoˇcjo algoritma FFT, oznaˇcenega zF lahko izraˇcunamo amplitudno in fazno komponento slike v RGB prostoru, kateri definiramo z F^A : R^H×W^×3 inF^P :R^H^×W×3. Za enokanalno sliko I, lahko FFT definiramo z

F(I)(m, n) = X

h,w

I(h, w)e^−j2π(H^hm+_W^wn), j² =−1. (3.8) Za zamenjavo amplitudne komponente med zbirkama je potrebno doloˇciti uporabljeno podroˇcje nizkih frekvenc. Naj bo maska za oznaˇcitev podroˇcja definirana z A_β, kjer je povsod vrednost niˇc, razen pri vrednostih znotraj

(32)

centralne regije, kjer β ∈(0,1). Masko A_β lahko opiˇsemo z enaˇcbo

A_β(h, w) =1(h,w)∈[−βH:βH,−βW:βW], (3.9) in predpostavimo, da je center na koordinatah (0,0).

Ko imamo komponentiF^AinF^P s podroˇcno maskoA_β, lahko z inverzom FFTF⁻¹ zgeneriramo slikoIS→T katera ima isto vsebino kot slikaIS s slogom slike IT. Manipulacijo spektra definiramo z

I_S→T =F⁻¹

A_β ◦ F^A(I_T) + (1−A_β)◦ F^A(I_S),F^P(I_S)

, (3.10) kjer pri zdruˇzevanju med zbirkama komponenta F^P ostane nespremenjena, medtem ko je centralni del F^A(IT), kjer se nahajajo nizke frekvence, po- mnoˇzen z A_β ter priˇstet delu F^A(IS), kateri je pomnoˇzen z obrnjenimi vrednostmi maske A_β. Slika 3.3 prikazuje, kakˇsen je izhod pri prenosu sloga, ˇce pri zamenjavi amplitudnega dela uporabimo razliˇcne vrednosti parametra β.

3.2.2 Uˇ cenje segmentacijske mreˇ ze

Z novo dobljeno zbirko S⁰, katero generiramo z zamenjavo sloga, predstavljeno v Poglavju 3.2.1, uˇcimo segmentacijsko mreˇzo M. Za uˇcenje uporabimo zlati standard izvorne zbirke YS. Izgubna funkcija za sliko iz nove zbirke I⁰_S, je predstavljena z enaˇcbo

`_seg =`_ce(M(S⁰),YS) +λ_ent`_ent(M(T)), (3.11) kjer je`_cevrednost kriˇzne entropije ter`_entvrednost entropije predikcije ciljne slike P_T. Kriˇzna entropija je definirana kot

`_ce(M(S⁰),YS) =− 1 HW

X

h,w C

X

c=1

Y^hwc_S logP^hwc_S⁰ , (3.12)

(33)

3.2. ADAPTACIJA Z MANIPULACIJO SPEKTRA 17

Slika 3.3: Na sliki je prikazana uporaba razliˇcnih β vrednosti.

kjer PS⁰ = M(IS⁰), H in W pa predstavljata njeno viˇsino in ˇsirino. Kot del izgubne funkcije je uporabljena tudi minimizacija entropije predikcije slik iz ciljne domene, definirana kot

`_ent (M(T)) = 1 HW

X

h,w

1 log(C)

C

X

c=1

p(−(P^hwc_T logP^hwc_T )), (3.13)

(34)

kjer je dodatno uporabljena tudi Charbonnierjeva funkcija napake p(x) = (x²+0.001²)^η[35], za veˇcjo obteˇzitev viˇsjih entropijskih predikcij ter manjˇso za niˇzje entropijske predikcije zaη >0.5, C pa oznaˇcuje ˇstevilo segmentacijskih komponent.

3.2.3 Samonadzorovano uˇ cenje

Samonadzorovano uˇcenje je postopek, kjer se za uˇcenje mreˇze uporabi podatke brez anotacij, katerim se zgenerira psevdo oznake. Podatke brez anotacij se lahko tako nadzoruje s psevdo oznakami in se jih pri uˇcenju uporabi kot podatke z anotacijami. Za regularizacijo samonadzorovanega uˇcenja mreˇze je uporabljenih veˇc izhodov mreˇze M z razliˇcnimi vrednostmi parametra β = {βb}_[b=1:B]. Z njimi lahko izraˇcunamo predikcijo slike iz ciljne domene YˆTi po enaˇcbi

YˆTi = arg max

k∈K

1 B

X

b

M_β_b(ITi)^(k)

!

, (3.14)

kjer je B ˇstevilo razliˇcnih β vrednosti. Za vsako β vrednost se mreˇzo uˇci od zaˇcetka. Kot izhodne vrednosti mehkih predikcijskih mask se nato seˇsteje in povpreˇci. Z B modeli se nato zgenerira psevdo oznake, katere se uporabi za izboljˇsanje mreˇzeMβ z uporabo izgubne funkcije

`sst

M;S⁰,Tˆ

=`ce(M(S⁰)) +λent`ent(M(T)) +`ce

M( ˆT)

, (3.15) kjer je ˆT zbirka T z generiraimi psevdo oznakami ˆYT.

3.3 Metoda s prileganjem instanc

Pri metodi s prileganjem instanc(angl. stuff instance matching - DADT)[3]

se segmentacijske kategorije loˇci v dve skupini:

• kategorije, ki imajo med razliˇcnimi domenami podoben izgled (angl.

stuff matching - SM),

(35)

3.3. METODA S PRILEGANJEM INSTANC 19

• kategorije, ki se med razliˇcnimi domenami bolj razlikujejo (angl. instance matching - IM).

Z loˇcevanjem kategorij se lahko natanˇcneje adaptira znaˇcilke iz izvorne zbirke v ciljno zbirko. Za SM se generira reprezentativne znaˇcilke za vsak razred in izvede poravnavo iz ciljne domene v izvorno domeno, medtem ko se za IM generira reprezentativne znaˇcilke za vsako individualno instanco razreda. Vsako instanco iz ciljne domene se nato poravna z najbolj podobno iz izvorne domene. V metodi je uporabljena tudi generativna nasprotniˇska mreˇza, ki je namenjena poravnavi entropijskih mask med izvorno in ciljno zbirko. Metoda je sestavljena iz dveh korakov. V prvem koraku se najprej izvede kategoriˇcno ujemanje SM (Poglavje 3.3.1) in kategoriˇcno ujemanje IM (Poglavje 3.3.2). Z nauˇcenim modelom se nato generira psevdo oznake, ki se jih uporabi za samonadzorovano uˇcenje s kategoriˇcnim ujemanjem (Poglavje 3.3.3). Na Sliki 3.4 je prikazan postopek uˇcenja metode s prileganjem instanc.

Slika 3.4: Na sliki je prikazan postopek uˇcenja metode s prileganjem instanc.

Slika vzeta iz [3].

(36)

3.3.1 Kategoriˇ cno ujemanje SM

Najprej se izvede ujemanje med segmentacijskimi kategorijami razredov iz ozadja oziroma tistih kategorij, ki zajemajo veˇcji del slike in se ne tako vidno razlikujejo. Za takˇsne kategorije se povpreˇci znaˇcilke ˇcez celotno viˇsino in ˇsirino slike. S tem dobimo reprezentativne znaˇcilke na nivoju slike za vsako kategorijo posebej. To lahko doseˇzemo z enaˇcbo

A^b(L,f) =

P

h,wδ(^L^(h,w)^−b)^f^(h,w)

max(^,^Ph,wδ(^L^(h,w)^−b)) S^b_j =A^b Q_S_i,f^s_i

kjer j =imodw if A^b Q_S

i,f^s_i 6= 0,

(3.16)

kjer jeS^b_j j-ti vzorec znaˇcilk izvorne zbirke za razred b∈B (razredi ozadja), ter i ∈1..|S|. Dirakova porazdelitvena funkcija je predstavljena z δ, ˇstevilo vzorcev shranjenih znaˇcilk pa z w. Vrednost je majhno pozitivno ˇstevilo, ki prepreˇcuje, da bi bil ulomek deljen z niˇclo, f^S_i pa mehka segmentacijska maska. Pravilno klasificirana predikcijska matrika Q_S

i je definirana kot Q_S_i =YS_i ∩PS_i

PS_i = argmax

k∈N

C f^S_i (k)

, (3.17)

kjer jePS_i predikcijska matrika slike iz izvorne zbirke,YS_i pa zlati standard slike.

Za vse slike iz ciljne domene minimiziramo razdaljo med kategorijami ozadja SM ter najbliˇzjim vzorcem znaˇcilk izvorne zbirke. Reprezentativne znaˇcilke generiramo s pomoˇcjo mehke segmentacijske maske f^t_i ter predikcij- sko matriko slike iz ciljne zbirke P_T_i. Postopek pribliˇzevanja kategorij SM ciljne domene je definiran z izgubno funkcijo

`_smf =X

i

X

b

minj

A^b PT_i,f^t_i

−S^b_j

1

1, (3.18)

kjer je i ∈ 1..|T | in b ∈ PT_i ∩B, operator minimizacije pa skrbi za izbiro najbljiˇzjega vzorca znaˇcilk izvorne zbirke.

(37)

3.3. METODA S PRILEGANJEM INSTANC 21

3.3.2 Kategoriˇ cno ujemanje IM

Pri kategoriˇcnem IM ujemanju primerjamo kategorije, katere so v ospredju in se med seboj bolj razlikujejo. Z iskanjem nepovezanih regij maske lahko doloˇcimo maske za razliˇcne instance kategorij, ki so v ospredju. Tako dobi ena slika veˇc reprezentativnih znaˇcilk za doloˇcene instance. Ujemanje znaˇcilk je definirano z

R_k={r_k₁,r_k₂, . . . ,r_k_m}=U(L, k) I(r,f) =

P

h,wr^(h,w)f^(h,w) max

,P

h,wr^(h,w), (3.19)

kjer jer_k_i i-ta (i∈1, .., m) binarna maska razredak,k∈K(kategorije IM),U je funkcija za iskanje razliˇcnih nepovezanih regij maskeL,Ipa je operacija za generiranje reprezentativnih znaˇcilk IM. ˇCe minimiziramo izgubno funkcijo

`_im=X

i

X

k∈K

1 R^t_k

X

r^t∈R^t_k

minj

I r^t,f^t_i

−S^k_j

1

1, (3.20)

kjer je i = 1, ..,|T | in R^t_k = U(L^t_P

i, k), lahko tako pribliˇzamo kategorije IM ciljne domene, reprezentativnim znaˇcilkam IM izvorne domene.

3.3.3 Samonadzorovano kategoriˇ cno ujemanje

V metodi se pri drugem koraku uporabi samonadzorovano uˇcenje. Zato se generira psevdo oznake za vse slike iz ciljne zbirke. Z nauˇcenim modelom iz prvega koraka se lahko tako generira mehke segmentacijske maske in upoˇsteva le tiste predikcije, ki imajo visoko verjetnost. S psevdo oznakami lahko tako z izgubno funkcijo izraˇcunamo segmentacijsko napako in naredimo produkt vsote z vsemi ostalimi napakami. Enaˇcba za generiranje psevdo oznake slike iz ciljne domene je definirana z

ˆ

y^t_i = argmax

k∈N

1

sf t(^C(^f^ti))^(k)^>yt^k

C f^t_i(k)

, (3.21)

(38)

kjer 1 predstavlja funkcijo, ki ob izpolnjenem pogoju vrne vhod pogoja, v nasprotnem primeru pa vrednost, ki oznaˇcuje piksel z vrednostjo pod pragom kategorije. ˇStevilo segmentacijskih razredov je oznaˇceno zN, vrednost praga za razred k pa z y_t^k. Funkcija ohlapnega maksimuma je oznaˇcena s sf t, C oznaˇcuje klasifikacijsko glavo, f_i^t pa mehko segmentacijsko masko.

3.3.4 Postopek uˇ cenja

V prvem koraku se model trenira brez uporabe samonadzorovanega uˇcenja.

Minimizira se izgubno funkcijo, definirano z minG,D `_{step 1} = min

G λ_seg`^S_seg+λ_adv`_adv+ λ_ci(`_sm+`_im)) + min

D λ_D`_D,

(3.22) kjerλ_seg predstavlja uteˇz segmentacijske izgubne funkcije`^S_seg ,λ_adv oznaˇcuje uteˇz izgubne funkcije nasprotniˇske mreˇze `_adv pri uˇcenju generativne mreˇze, λ_ci je uteˇz za izgubni funkciji kategoriˇcnega SM ujemanja`_sm in instanˇcnega IM ujemanja `_im, λ_D pa uteˇz izgubne funkcije `_D pri uˇcenju nasprotniˇske mreˇzeD. Po nauˇcenem modelu iz prvega koraka se zgenerira psevdo oznake in jih uporabi pri samonadzorovanem uˇcenju drugega koraka. Izgubna funkcija za drugi korak je definirana z

min

G,D `_{step 2}= min

G λ_seg(`^S_seg+`^T_seg) +λ_adv`_adv+ λ_ci

`˜_sm+ ˜`_im

+ min

D λ_D`_D,

(3.23) kjer sta ˜`_sm in ˜`_im izraˇcunani s pomoˇcjo psevdo oznake ˆy^t_i.

3.4 Dvosmerno uˇ cenje

Metoda dvosmernega uˇcenja domenske adaptacije(angl. Bidirectional Lear- ning for Domain Adaptation) [4] bazira na uporabi prenosne ter segmentacijske mreˇze. S prenosno mreˇzo se lahko pribliˇza izvorno zbirko ciljni tako, da se zmanjˇsa vidni razmak med njima. S tem dobimo sliko iz izvorne zbrike v stilu

(39)

3.4. DVOSMERNO U ˇCENJE 23

slike iz ciljne zbirke. Ideja je povezati mreˇzi tako, da si med uˇcenjem ena drugi pomagata. Pri osnovnem enosmernem principu uˇcimo prenosno mreˇzo in jo po koncu uˇcenja ne nadgrajujemo s pomoˇcjo segmentacijske mreˇze. S tem onemogoˇcimo prenosni mreˇzi uporabo koristnih uˇcnih podatkov, generiranih s strani segmentacijske mreˇze. Na Sliki 3.5 je na levi strani viden osnovni enosmerni princip, kjerF predstavlja prenosno mreˇzo z izgubno funkcijo `_F, M pa segmentacijsko mreˇzo z izgubno funckijo `_M. Na desni strani slike je vidna ideja dvosmernega uˇcenja, opisana v Poglavju 3.4.

Slika 3.5: Na levi strani je prikazano enosmerno uˇcenje, na desni strani pa dvosmerno uˇcenje. Slika vzeta iz [4].

Ker ciljna zbirka nima anotacij, si pomagamo z generiranjem nove zbirke.

Za generiranje uporabimo prenosno mreˇzoF(S) in tako slike iz izvorne zbirke S prevedemo s pomoˇcjo slik iz ciljne zbirke T. Dobimo novo generirano zbirkoS⁰ =F(S), katera uporablja enak zlati standard kot izvorna zbirkaS, oznaˇcen z YS.

Metoda je sestavljena iz uˇcenja v dve smeri. Najprej se uporabi uˇcenje v smeri naprej (F → M), kjer za uˇcenje mreˇze M uporabimo zbirko S⁰ z zlatim standardomYS ter zbirkoT. Izgubna funkcija za uˇcenje mreˇzeMje definirana z enaˇcbo

`_M =λ_adv`_adv(M(S⁰),M(T)) +`_seg(M(S⁰),YS), (3.24) kjer`_adv predstavlja vrednost nasprotniˇske izgubne funkcije, katera je namenjena poravnavi entropijskih mask med generirano zbirko S⁰ in ciljno zbirko T. Vrednost izgubne funkcije semantiˇcne segmentacije pa je definirana z vrednostjo `_seg. Na Sliki 3.6 je prikazan postopek uˇcenja metode dvosmernega uˇcenja.

(40)

Slika 3.6: Slika prikazuje arhitekturo mreˇze ter postopek uˇcenja mreˇze.

Slika vzeta iz [4].

Sledi uˇcenje v smeri nazaj (M → F), kjer s pomoˇcjo mreˇze M iz- boljˇsujemo prenosno mreˇzo F. Za uˇcenje je uporabljena zaznavna izgubna funkcija(angl. perceptual loss) `_per , zdruˇzena z izgubno funkcijo generativne nasprotniˇske mreˇze `_GAN ter vrednost izgubne funkcije slikovne rekonstrukcije `_recon. Definicija izgubne funkcije `_F je predstavljena z enaˇcbo

`F =λGAN [`GAN(S⁰,T) +`GAN(S,T⁰)]

+λ_recon

`_recon S,F⁻¹(S⁰)

+`_recon(T,F(T⁰)]

+`_per(M(S),M(S⁰)) +`_per(M(T),M(T⁰)).

(3.25)

Izgubna funkcija generativne nasprotniˇske mreˇze `GAN je definirana z

`_GAN (S⁰,T) = E_I_T_∼T [D_F(I_T)] +E_I_S_∼S[1−D_F((I⁰_S))], (3.26) kjer IS predstavlja sliko iz zbirke S, IT sliko iz zbirke T, I⁰_S pa sliko zgene- rirane iz strani mreˇze F. D_F predstavlja diskriminatorno mreˇzo, namenjeno zmanjˇsevanju predikcijske distribucijske vrzeli med slikamaI⁰_T inI⁰_S. Enaˇcbo, ki definira rekonstrukcijsko izgubno funkcijo`_recon, lahko opiˇsemo z

`_recon S,F⁻¹(S⁰)

=E_I_S∼S

F⁻¹((I⁰_S))−IS

1

, (3.27)

kjer je za cikliˇcno konsistenˇcnost uporabljena L₁ norma medIS inF⁻¹. F⁻¹ predstavlja obratno funkcijo F, s katero lahko generirano sliko rekonstrui- ramo v izvorno sliko. Predstavljeni Enaˇcbi (3.26) in (3.27), sta podobno definirani tudi v drugi smeri, za izraˇcun `GAN (S,T⁰) ter `recon(T,F⁻¹(T⁰))

(41)

3.4. DVOSMERNO U ˇCENJE 25

Slika 3.7: Prikaz procesa samonadzorovanega uˇcenja. Slika vzeta iz [4].

Za izraˇcun`F je zaradi konsistentnosti prevoda iz slike v sliko upoˇstevana simetrija,S → T terT → S. Tako se upoˇsteva kakovost prevoda v obe smeri.

`_GAN je namenjena zbliˇzanju predikcijske porazdelitveS⁰terT, medtem ko je

`_recon vrednost izgubne funkcije postopka rekonstrukcije slike nazaj v prvotno stanje iz S⁰ v S. Sledi ˇse vrednost `_per, katero se uporabi za ohranjanje semantiˇcne konsistence med S in S⁰ ali pa T inT⁰.

V metodo je vkljuˇcena tudi uporaba samonadzorovanega uˇcenja, kar pomeni, da za vse slike v zbirki T zgeneriramo psevdo oznake ˆYT, upoˇstevani pa so samo tisti piksli slike, kjer je verjetnost za doloˇceno predikcijo zelo visoka (nad doloˇcenim pragom). Postopek se izvede po prvem uˇcenju mreˇze M, nato pa se ga uporabi ob vsaki novi iteraciji. Izgubna funkcija `_M je definirana z enaˇcbo

`M=λadv`adv(M(S⁰),M(T)) +`seg(M(S⁰),YS) +`seg

M(Tssl),YbT

, (3.28) kjer je T_SSL ⊂ T podmnoˇzica ciljne zbirke, v kateri imajo piksli psevdo oznake ˆYT. Prikaz procesa samonadzorovanega uˇcenja je viden na Sliki 3.7.

Pri zaznavni izgubni funkciji poleg upoˇstevanja konsistence med IS in njenega prevedenega rezultata I⁰_S upoˇstevamo ˇse konsistenco med I_S in re- konstrukcijskim rezultatomF⁻¹(I⁰_S), katerega uteˇzimo z vrednostjoλper recon. Zaznavna izgubna funkcija je definirana z enaˇcbo

`_per(M(S),M(S⁰)) =λ_perE_I_S∼SkM(IS)−M((I⁰_S))k₁+

λ_{per recon}E_I_S∼S[kM(F⁻¹((I⁰_S)))−M(IS)k₁], (3.29)

(42)

kjer je prikazan le izraˇcun za`_per(M(S),M(S⁰)), vendar je`_per(M(T),M(T⁰)) zaradi simetrije definirana na podoben naˇcin.

Za uˇcenje segmentacijske mreˇze sta uporabljeni izgubni funkciji `adv in

`_seg vidni na enaˇcbi 3.24. Za zmanjˇsanje razlik izvornih in ciljnih verjetnosti je v `_adv ˇse dodatno uporabljena nasprotniˇska mreˇza D_M. Izgubna funkcija

`_adv je definirana z enaˇcbo

`_adv(M(S⁰),M(T)) =EIτ∼T [D_M(M(IT))] +E_I_S∼S[1−D_M(M(I⁰_S))]. (3.30) Za izraˇcun izgubne funkcije segmentacijske mreˇze`seg zaIS je uporabljena kriˇzna entropija, ki je definirana z enaˇcbo

`_seg(M(S⁰),YS) = − 1 HW

X

H,W C

X

c=1

1[^c=yS^hw] logP^hwc_S , (3.31)

kjer C predstavlja ˇstevilo razredov, medtem ko H inW predstavljata viˇsino ter ˇsirino izhodne verjetnostne matrike. ZY_S je oznaˇcen zlati standard slike IS, PS pa oznaˇcuje dobljeno verjetnostno matriko s strani segmentacijskega modela, ki je definirana zPS =M(I⁰_S).

Za generiranje psevdo oznak yb_T ciljne slike I_T je uporabljena metoda maksimalne verjetnostne meje (angl. max probability threshold), kjer se uporabi samo tiste piksle, ki so nad doloˇceno mejo. by_T je definirana kot by_T = arg maxM(IT), maska by_T pa kot mT =1_[argmax_M(I_T_)>threshold ]. Defi- nicija izgubne funkcje za sliko IT je predstavljena z enaˇcbo

`_seg

M(T_ssl),Yb_T

=− 1 HW

X

H,W

m^hw_T

C

X

c=1

1[^c=y^hwT ] logP^hwc_T . (3.32)

Metoda je povzeta v Algoritmu 1.

(43)

3.5. SEGMENTACIJSKA MRE ˇZA WASR 27

Algorithm 1 Algoritem postopka uˇcenja metode BDL Input: (S,YS),(T,T_ssl= 0/),M⁽⁰⁾

Output: M^(K)_N (F^(K)) for k ←1 to K do

// Dvosmerno uˇcenje treniraj F^(k) z enaˇcbo 3.25

treniraj M^(k)₀ z enaˇcbo 3.24 for i←1 to N do

// SSL posodobi T_ssl z M^(k)_i−1

ponovno treniraj M^(k)_i z enaˇcbo 3.28 end

end

3.5 Segmentacijska mreˇ za WaSR

Avtorji metode WaSR(angl. Water-Obstacle Separation and Refinement Ne- twork) [5] ugotavljajo, da se trenutne metode globoke semantiˇcne segmentacije v namene detekcije ovir slabo obnesejo na vodni domeni, saj teˇzko ocenijo poloˇzaj vodne gladine zaradi vizualne nejasnosti, slabe detekcije majˇsih ovir ter generirajo veliko laˇzno pozitivnih primerov (angl. false positives) [10].

Ti nastanejo zaradi valovanja vode in odboja svetlobe od nje. Za izboljˇsanje tega problema in izboljˇsanja lokalizacije vode, v sliko projecirajo horizont, ki se izraˇcuna iz meritev inercijskega senzorja (angl. Inertial Measurement Unit - IMU). Predstavili so tudi izgubno funkcijo loˇcevanja vode, namenjeno loˇcevanju znaˇcilk segmentacijskih komponent, ki uporablja znaˇcilke, pridobljene ˇze v zgodnji fazi znotraj kodirnika.

Metoda temelji na arhitekturi kodirnik-dekoder (angl. Encoder - De- coder), kjer se pot konvolucijske mreˇze najprej skrˇci (kodirnik), nato pa razˇsiri (dekoder). Kodirnik nam generira visoko-dimenzionalen vektor bo-

(44)

gatih znaˇcilk, dekoder pa iz njega zgradi semantiˇcno segmentacijsko masko.

Arhitektura mreˇze WaSR je vidna na Sliki 3.8.

Slika 3.8: Arhitektura konvolucijske segmentacijske metode WaSR. Slika povzeta iz [5].

3.5.1 Kodirnik

Kodirni del bazira na ogrodju arhitekture popularne mreˇze ResNet-101 [36]

z dodatkom prostorskih konvolucij (angl. atrous convolutions) [37], saj je analiza [10] DCNN segmentacijskih metod na vodni domeni, pokazala, da najboljˇse rezultate dosega mreˇza DeepLab2 [9], ki kot ogrodje uporablja adaptirano verzijo ResNet-101 arhitekture.

Residualna mreˇza(angl. residual network) ali krajˇse ResNet v svoji arhitekturi vsebuje residualne bloke. Njihov koncept je viden na Sliki 3.9. Upo- raba takih blokov je odgovor na problem vse globjih mreˇz z vedno veˇcjim ˇstevilom nivojev, ki se jih je zaˇcelo uporabljati zaradi moˇznosti modelira- nja kompleksnejˇsih funkcij. Tako pride do problema izginjajoˇcega gradi-

(45)

enta(angl. vanishing gradient problem), ki lahko nastane pri vzvratnem pre- hodu (angl. backpropagation) DCNN zaradi zanemarlive koliˇcine posodobi- tve uteˇzi pri uporabi parcialnega odvoda. Sprememba postane tako majhna, da se uˇcenje po doloˇcenem ˇcasu zaustavi. Za izraˇcun izhoda y, se uporabi enaˇcba 3.33, kjer x predstavlja preskoˇcno povezavo oziroma identiteto vhodne matrike, F(x), pa residualno vrednost ali vrednost spremembe bloka.

S takˇsno arhitekturo lahko ohranimo nemoten gradientni tok skozi celotno globino omreˇzja in tako reˇsimo problem izginjajoˇcega gradienta, ob enem pa omogoˇci laˇzje in hitrejˇse uˇcenje mreˇze.

y =F(x) +x. (3.33)

Slika 3.9: Na sliki je prikazan koncept residualnega bloka.

Metoda WaSR vsebuje DeepLab2 [9] adaptirano verzijo ResNet-101. Ta sestoji iz ˇstirih residualnih konvolucijskih blokov, med seboj povezanih z maksimalnim zdruˇzevanjem (angl. max pooling). Maksimalno zdruˇzevanje zgradi tenzor znaˇcilk tako, da iz jedra(angl. kernel) izbere najveˇcjo vrednost. Zdruˇzevanje je namenjeno podvzorˇcenju (angl. downsampling), kar nam zmanjˇsa dimenzijo tenzorja. Za izboljˇsanje dojemanja okolice ter shra- njevanja lokalnega konteksta v globoke znaˇcilke so v zadnja dva bloka imple- mentirane tudi hibridne razˇsirjene konvolucije (angl. hybrid atrous convolutions) [37]. Te reˇsujejo mreˇzni problem (angl. gridding) osnovnega principa razˇsirjenih konvolucij[38], kateri se pojavi zaradi pomankljivosti pokritosti

(46)

znaˇcilk. Primerjava je vidna na Sliki 3.10, kjer zgorni del slike (a) prikazuje osnovni princip, spodnji del pa hibridni princip.

Slika 3.10: Slika prikazuje razˇsirjeno konvolucijo (a), ter hibridno razˇsirjeno konvolucijo (b). Slika povzeta po [37].

3.5.2 Dekoder

Primarna naloga dekoderja je generiranje segmentacijske maske. To doseˇze z uporabo bogatih znaˇcilk, ustvarjenih iz strani kodirnika. Pri metodi WaSR so za boljˇso segmentacijo uporabljeni tudi odˇcitki inercijskega senzorja, namenjeni ocenitvi poloˇzaja vodne gladine. Za konstrukcijo binarne maske uporabijo kamera-IMU projekcijo [39]. Ta zamaskira vse, kar je nad horizon- talno linijo, kar se nato lahko uporabi kot podatek o verjetnost lokalizacije vode.

WaSR dekoder je sestavljen iz kombiniranja razliˇcnih modulov:

• modul za izboljˇsanje pozornosti(angl. attention refinement module - ARM) [6]. Namenjen je izboljˇsavi znaˇcilk na vsakem bloku. Za zajem globalnega konteksta je uporabljeno globalno povpreˇcno zdruˇzevanje.

Sledi izraˇcun vektorja pozornosti, ki sluˇzi kot pomoˇc za uˇcenje znaˇcilk.

(47)

Izhod modula je produkt vektorja pozornosti in vhodnega vektorja znaˇcilk. ARM ne vsebuje operacij razˇsiritve (angl. upsampling), kar pomeni, da je raˇcunska kompleksnost zanemarljiva.

• modul spojevanja znaˇcilk (angl. feature fusion module - FFM) [6].

Uporabljen je za zdruˇzevanje nizkonivojskih prostorskih znaˇcilk, katere predstavljajo bogate detajlne informacije ter visokonivojskih znaˇcilk konteksta.

• modul za zajem konteksta na razliˇcnih skalah(angl. atrous spa- tial pyramid pooling - ASPP) [9]. Kot je ˇze iz imena modula razbrano, ta uporablja filtre na razliˇcnih stopnjah vzorˇcenja, kar omogoˇca zajem konteksta. Raziskava [10] je pokazala, da uporaba modula izrazito iz- boljˇsa segmentacijo manjˇsih objektov in ob tem ne povzroˇci prevelike raˇcunske kompleksnosti.

Arhitektura modulov je vidna na Sliki 3.11.

Slika 3.11: Na sliki je prikazana arhitektura modulov uporabljenih v deko- derju, kjer E in D predstavljata znaˇcilke kodirnika in dekoderja iz prejˇsnjega nivoja, H pa znaˇcilke horizonta. Slika povzeta po [5].

Dekoder mreˇze WaSR sestoji iz dveh modulov za izboljˇsanje pozornosti, imenovanih ARM1 in ARM2, dveh modulov za spojevanje znaˇcilk, imenovanih FFM in FFM1, ter dveh modulov za zajem konteksta na razliˇcnih skalah,

(48)

imenovanih ASPP1 in ASPP. Modul ASPP kot vhod vzame znaˇcilke, pridobljene v zadnjem nivoju kodirnika, enako naredi tudi modul ARM1, z razliko tega, da dodatno znaˇcilke zdruˇzi z informacijo o podvzorˇceni maski horizonta. Dobljen rezultat izhoda modula ARM1 in ASPP1 sta nato zdruˇzena v modulu za spojevanje znaˇcilk FFM1, kateri proizvede1024 kanalov znaˇcilk.

Te so nato zdruˇzene v modulu ARM2 z masko horizonta in znaˇcilkami, dobljenimi na izhodu drugega residualnega bloka. Sledi drugi modul FFM, kateri zdruˇzi pridobljene znaˇcilke iz modula ARM2, znaˇcilk maske horizonta in znaˇcilkami, dobljenimi na izhodu prvega residualnega bloka. V zadnjem bloku dekoderja je dodan ˇse modul za zajem konteksta na razliˇcnih skalah ASPP, kateremu sledi sloj z ohlapnim maksimumom (angl. softmax layer).

Celoten postopek je viden na desni strani slike 3.8.

3.5.3 Izgubna funkcija loˇ cevanja vode

Avtorji metode WaSR po raziskavi [10] ugotavljajo, da svetleˇci odboji sonca od vode povzroˇcijo velik izziv pri segmentaciji objektov na vodi, saj lahko slabo loˇcevanje med oviro in vodo povzroˇci veliko nepravilno oznaˇcenih pozitivnih primerov (angl. false positive - FP) in nepravilno oznaˇcenih nega- tivnih primerov (angl. false negative - FN), kar lahko pripelje do pogostih laˇznih alarmov ali celo trka avtonomnega plovila. V svojem delu predstavijo izgubno funkcijo za loˇcevanje vode, ki za izraˇcun uporablja znaˇcilke, proizve- dene v kodirniku. Izgubna funkcija pomaga pri uˇcenju izgleda vodne komponente. ˇZe v zgodnji fazi uˇcenja poskuˇsajo zdruˇziti razliˇcne prezentacije vode v gruˇco znaˇcilk in jih ˇcim bolj oddaljiti od znaˇcilk ovir. Naj bodo {x^c_j}_j∈W in {x^c_j}_j∈O znaˇcilke kanala c, ki pripadajo pikslom vodne komponenteW in komponente ovir O. Za uveljavljanje gruˇcenja znaˇcilk W lahko aproksimi- ramo njihovo distribucijo z Gaussom. Uporabimo srednje vrednosti, loˇcene po kanalih {µ^c}_c∈N

c in varjance {σ^c2}_c∈N

c, kjer je N_c ˇstevilo kanalov. Po- dobnost pikslov, ki pripadajo semantiˇcnem razredu O, lahko izmerimo kot

(49)

skupno porazdelitev Gaussa, predstavljeno z p

{x_j}_j∈W

∝ Y

j∈W c=1:Nc

exp

−0.5 x^c_j−µ^c2

/σ^c2

. (3.34)

Enaˇcbo dodatno razˇsirijo tako, da vkljuˇcijo obe komponenti W in O, uporabijo naravni logaritem, spremenijo predznak ter uporabijo inverz. Iz tega nastane izgubna funkcija, definirana kot

`_ws = NO

N_CN_W

Nc

X

c

P

i∈W (x^c_i −µ^c)² P

j∈O x^c_j −µ^c2, (3.35) kjer je cilj z gruˇcenjem komponente W oddaliti semantiˇcno komponento O.

Konˇcna izgubna funkcija je uteˇzena vsota posameznih izgubnih funkcij, definirana kot

`_w =λ_ws`_ws+λ_ce`_ce, (3.36) kjer `_ce predstavlja izgubno funkcijo kriˇzne entropije, λ_ce njeno uteˇz, λ_ws pa uteˇz izgubne funkcije loˇcevanja vode `_ws.

(50)

(51)

Poglavje 4

Eksperimentalna evalvacija

V tem poglavju analiziramo adaptacijske metode, opisane v Poglavju 3. V Poglavju 4.1 najprej opiˇsemo podatkovne zbirke, nato predstavimo uporabljene metode evalvacije ter predstavimo parametre uˇcenja, uporabljene v eksperimentih. Ker mreˇza WaSR [5] vsebuje napredne metode regularizacije, smo najprej ˇzeleli ugotoviti, kako se adaptacijske metode odnesejo brez dodatnih regularizacij. Z najboljˇso adaptacijsko metodo smo nato analizirali vpliv metode z uporabo vseh naprednih regularizacij in s tem istoˇcasno analizirali robustnost metode za regularizacijo. Tako v Poglavju 4.2 najprej analiziramo metode adaptacije z mreˇzo WaSR brez maske IMU in izgubne funkcije WS, ki jo naslavljamo kot reducirano mreˇzo WaSR, oznaˇceno z WaSR_red. Nato pa v Poglavju 4.3 analiziramo metode adaptacije z uporabo referenˇcne mreˇze WaSR z masko IMU in izgubno funkcijo WS, naslovljeno kot popolna mreˇza WaSR, oznaˇceno z WaSR. Za obe analizi je v Poglavju 4.4 prikazana kvalitativna analiza, kjer primerjamo dobljene grafiˇcne rezultate vseh evalviranih metod za adaptacijo. Za uˇcenje adaptacijskih metod uporabimo parametre, ki so dosegli najboljˇse rezultate in so predstavljeni v ˇclankih. V nadaljevanju tega poglavja predstavimo tudi uporabljene hiperparametre za vse adaptacijske metode.

35

(52)

36 POGLAVJE 4. EKSPERIMENTALNA EVALVACIJA

4.1 Implementacijske podrobnosti

Vsi eksperimenti so izvedeni znotraj Docker instance na Vicos FRI, laborato- rijskem streˇzniku z dvema Intel(R) Xeon(R) Silver 4114 @ 2.20GHz procesor- jema (10 jeder/2 niti na procesor), 93GB delovnega pomnilnika ter grafiˇcni kartici GeForce RTX 2080 Ti z 11GB video spomina. Vsa implementacija metod je bila opravljena s programskim jezikom Python verzije 3.8 [40] v ogrodju PyTorch [41] in knjiˇznico CUDA verzije 10 (angl. Compute Uni- fied Device Architecture) za operacije na grafiˇcni kartici [42]. Evalvacija dobljenih segmentacijskih mask sekvenc je bila opravljena v MatLabu [43] ter OpenCV [44] s prirejeno kodo, pridobljeno iz ¹ [10, 39].

Vse evalvirane metode v svoji implementaciji v osnovi uporabljajo segmentacijsko mreˇzo DeepLab [9]. Za referenˇcno mreˇzo v eksperimentih smo izbrali mreˇzo WaSR, saj glede na ˇclanek, ki analizira segmentacijo v vodnem okolju [5], dosega najboljˇse rezultate. Za potrebe paketne normalizacije je v implementaciji vseh metod uporabljen paket, ki vsebuje 2 primera zaradi omejitve velikosti pomnilnika na grafiˇcni kartici. Vsem vhodnim slikam smo nastavili resolucijo na 512×384 ter jim odˇsteli povpreˇcno vrednost vseh RGB barvnih kanalov zbirke Imagenet [45], saj je kodirnik metode WaSR predtre- niran na tej zbirki. Metode smo trenirali na 100000 uˇcnih iteracijah z dvema slikama v skupini(angl. batch). Med uˇcenjem smo shranjevali vmesna stanja uteˇzi (angl. weights checkpoints). Za izbiro konˇcnih uteˇzi smo na obmoˇcju, kjer se vrednost izgube umiri, primerjali vizualne rezultate na eni sekvenci testne mnoˇzice in izbrali tisti model, ki proizvede najboljˇsi rezultat.

V Poglavju (4.1.1) najprej predstavimo podatkovne zbirke, uporabljene pri naˇsi analizi, nato v Poglavju (4.1.2) predstavimo metodo evalvacije in uporabljene performanˇcne mere. Sledijo poglavja, kjer predstavimo posebnosti ter konkretne vrednosti parametrov, uporabljenih pri uˇcenju za referenˇcno mreˇzo (Poglavje 4.1.3) ter adaptacijske metode FDA (Poglavje 4.1.4), In- traDA (Poglavje 4.1.5), DADT (Poglavje 4.1.6) ter BDL (Poglavje 4.1.7).

1https://github.com/bborja/modd