• Rezultati Niso Bili Najdeni

Segmentacijavideoposnetkovvodnihscenspomoˇcjodelnonadzorovanegauˇcenja BlaˇzˇCesnik

N/A
N/A
Protected

Academic year: 2022

Share "Segmentacijavideoposnetkovvodnihscenspomoˇcjodelnonadzorovanegauˇcenja BlaˇzˇCesnik"

Copied!
81
0
0

Celotno besedilo

(1)

Univerza v Ljubljani

Fakulteta za raˇ cunalniˇ stvo in informatiko

Blaˇz ˇ Cesnik

Segmentacija videoposnetkov vodnih scen s pomoˇ cjo delno nadzorovanega

uˇ cenja

MAGISTRSKO DELO

MAGISTRSKI ˇSTUDIJSKI PROGRAM DRUGE STOPNJE RA ˇCUNALNIˇSTVO IN INFORMATIKA

Mentor : izr. prof. dr. Matej Kristan

Ljubljana, 2021

(2)
(3)

Avtorske pravice. Rezultati magistrskega dela so intelektualna lastnina avtorja in Fakultete za raˇcunalniˇstvo in informatiko Univerze v Ljubljani. Za objavljanje ali izkoriˇcanje rezultatov magistrskega dela je potrebno pisno soglasje avtorja, Fakultete za raˇcunalniˇstvo in informatiko ter mentorja.

©2021 Blaˇz ˇCesnik

(4)
(5)

Zahvala

Zahvaljujem se mentorju izr. prof. dr. Mateju Kristanu za vse odliˇcne napotke, hitro odzivnost in pomoˇc pri izdelavi magistrskega dela. Hvala tudi mag. Borji Bovconu ter mag. Lojzetu ˇZustu za priskrbljeno gradivo, uporabljeno pri izdelavi magistrskega dela. Zahvalil bi se tudi vsem svojim bliˇznjim za veˇcno podporo in spodbudo.

Blaˇz ˇCesnik, 2021

(6)
(7)

”Whether you think you can or you can’t, you are right.”

— Henry Ford

(8)
(9)

Kazalo

Povzetek Abstract

1 Uvod 1

1.1 Motivacija in cilji . . . 1

1.2 Prispevki . . . 2

1.3 Struktura naloge . . . 3

2 Sorodna dela 5 3 Metode 11 3.1 Notranja domenska adaptacija . . . 11

3.2 Adaptacija z manipulacijo spektra . . . 14

3.3 Metoda s prileganjem instanc . . . 18

3.4 Dvosmerno uˇcenje . . . 22

3.5 Segmentacijska mreˇza WaSR . . . 27

4 Eksperimentalna evalvacija 35 4.1 Implementacijske podrobnosti . . . 36

4.2 Analiza z reducirano mreˇzo WaSR . . . 43

4.3 Analiza s popolno mreˇzo WaSR . . . 48

4.4 Kvalitativna analiza . . . 50

(10)

KAZALO

5 Sklepne ugotovitve 57

5.1 Nadaljnje delo . . . 58

(11)

Seznam uporabljenih kratic

kratica angleˇsko slovensko

FFT fast Fourier transform hitra Fouriereva transformacija DFT discrete Fourier transform diskretna Fouriereva transformacija TP true positive pravilno oznaˇceni pozitivni primeri FP false positive nepravilno oznaˇceni pozitivni primeri FN false negative nepravilno oznaˇceni negativni primeri GAN generative adversarial network generativna nasprotniˇska mreˇza IMU inertial measurement unit inercijska merilna enota

WS water separation loˇcevanje vode

DCNN deep convolutional neural network globoke konvolucijske nevronske mreˇze SMD Singapore maritime dataset pomorska zbirka Singapore

(12)
(13)

Povzetek

Zaznavanje ovir je kljuˇcnega pomena za avtonomna plovila, saj lahko ob ne- pravilni detekciji pride do trka plovila ali nepotrebnega izogibanja objektov, ki ne obstajajo. Temu se lahko izognemo z uporabo natanˇcnejˇsih modelov za detekcijo takˇsnih ovir. Ker so avtonomna plovila dokaj neraziskano podroˇcje v primerjavi z avtonomnimi vozili, je poslediˇcno na voljo tudi manj anotira- nih semantiˇcno segmentacijskih zbirk vodne domene, s katerimi bi lahko uˇcili mreˇzo. Ker je roˇcna anotacija za generiranje takˇsnih zbirk draga in vzame ve- liko ˇcasa, je uporaba slik brez anotacij uporabna alternativa. V magistrskem delu se posvetimo evalvaciji metod, namenjenim nenadzorovani domenski adaptaciji, ki za uˇcenje uporabljajo anotirane slike iz izvorne zbirke, ter slike brez anotacij iz ciljne zbirke. V ta namen preizkusimo adaptacijske metode notranje domenske adaptacije [1], adaptacijo z manipulacijo spektra [2], me- todo s prileganjem instanc [3] ter dvosmerno uˇcenje [4]. Analizo izvajamo na referenˇcni mreˇzi WaSR [5], ki je trenutno najuspeˇsnejˇsa na podroˇcju segmen- tacije na vodni domeni, analiziramo pa tudi adaptacijo na reducirani verziji mreˇze WaSR, pri kateri ne upoˇstevamo dodatnih regularizacij uporabljenih v popolni referenˇcni mreˇzi. Analiza je pokazala, da ob adaptaciji reducirane mreˇze WaSR, dosega najboljˇse rezultate metoda adaptacije z manipulacijo spektra, ki za pribliˇzno 6% izboljˇsa F-mero popolne referenˇcne mreˇze, pri adaptaciji popolne mreˇze je metoda za pribliˇzno 7% slabˇsa, z uporabo re- ferenˇcne mreˇze WaSR s sklopljeno izgubno funkcijo loˇcevanja vode pa za pribliˇzno 3% boljˇsa kot popolna mreˇza WaSR.

Naslov: Segmentacija videoposnetkov vodnih scen s pomoˇcjo delno nadzo-

(14)

rovanega uˇcenja

Kljuˇ cne besede

raˇcunalniˇski vid, delno nadzorovano uˇcenje, video segmentacija, nenadzoro- vana domenska adaptacija

(15)

Abstract

Obstacle detection is a crucial component in unmanned surface vehicles for collision prevention and unnecessary stopping at false detections. Au- tonomous vessels are a rather unexplored area compared to autonomous ground vehicles, thus there are much fewer annotated datasets for train- ing modern obstacle detectors. Since manual acquisition of ground truth segmentation data is time consuming and expensive, a viable alternative is training with low supervision. In the master’s thesis, we focus on evaluation of unsupervised domain adaptation methods, which use an annotated source dataset and a target dataset without annotation. We test four modern adap- tation methods: Intra doman adaptation [1], Fourier domain adaptation [2], Instance matching [3] and Bidirectional learning [4]. We perform analysis on complete WaSR [5] method, which is currently state-of-the-art in the field of semantic segmentation on water domain, and on a reduced WaSR method version, without additional regularizations. Our analysis shows, that on re- duced WaSR, Fourier domain adaptation gets the best F-measure, which outperforms original WaSR trained without adaptation by over 6%. We then test the same adaptation method on original WaSR and discover, that the Fourier method underperforms the complete reference network for ap- proximately 7% F-measure, and outperforms for approximately 3% if we use WaSR method with only IMU.

Title: Video segmentation of water scenes using semi supervised learning

(16)

Keywords

computer vision, semi supervised learning, video segmentation, unsupervised domain adaptation

(17)

Poglavje 1 Uvod

1.1 Motivacija in cilji

Metode za detekcijo s pomoˇcjo globokih nevronskih mreˇz in semantiˇcne se- gmentacije dosegajo odliˇcne rezultate na domeni avtonomnih vozil [6, 7, 8, 9].

Vendar pa teh metod ne moremo direktno aplicirati na domeno vodnih scen, kjer nam s konstantno spreminjajoˇcimi vzorci predstavlja velik problem valo- vanje vode in odboj svetlobe od nje. V Laboratoriju za umetne vizualne spo- znavne sisteme so v sklopu projekta ViAMaRo[7] razvili metodo WaSR[8] za detekcijo objektov v vodni domeni, ki temelji na semantiˇcni segmentaciji slik z uporabo nadzorovanega uˇcenja konvolucijskih nevronskih mreˇz. Metoda WaSR uporablja napredne regularizacije kot so odˇcitki inercijskega senzorja (angl. Inertial Measurement Unit - IMU), namenjeni ocenitvi poloˇzaja vodne gladine ter izgubno funkcijo loˇcevanja vode (angl. Water Separation - WS).

Rezultati metode kaˇzejo na bistvene izboljˇsave v primerjavi s sorodnimi deli.

Segmentacijske konvolucijske nevronske mreˇze kot vhod vzamejo sliko in kot izhod vrnejo segmentacijsko masko tako kot je vidno na Sliki 1.1. Ma- ska oznaˇcuje vrednosti razreda za vsak piksel posebej - na primer ”voda”,

”nebo”ali ”ovira”. Vsak algoritem strojnega uˇcenja za svoje delovanje po- trebuje podatke, iz katerih se lahko uˇci. Pri nadzorovanem uˇcenju segmen- tacijske mreˇze je za efektivno uˇcenje potrebno veliko ˇstevilo anotiranih slik.

1

(18)

2 POGLAVJE 1. UVOD

Slika 1.1: Pristop segmentacijske nevronske mreˇze za vhod vzame sliko (levo) in na izhodu vrne segmentacijsko masko (desno).

V primeru, da nam le-teh primankuje, je za izdelavo takˇsnih zbirk potrebna roˇcna segmentacija slik, ki je zelo zamudna in draga. Za nadzorovano uˇcenje na domeni vodnih scen primankuje takih zbirk, s katerimi bi lahko trenirali mreˇze in jih uporabili za preuˇcevanje te domene [10]. Alternativa temu je uporaba delno nadzorovanega uˇcenja, s katerim lahko zniˇzamo ˇstevilo roˇcno anotiranih slik in tako prihranimo dodatno delo ter stroˇske. V naˇsi nalogi smo se osredotoˇcili na adaptacijske metode, ki poskuˇsajo pribliˇzati distribucijski zamik izvorne domene z zamikom ciljne domene. Naˇs cilj je bil analizirati moderne metode za adaptacijo med domenami na problemu detekcije ovir v vodnem okolju. Osredotoˇcili smo se na najperspektivnejˇse, ki so bile v zadnjem ˇcasu objavljene na glavnih konferencah raˇcunalniˇskega vida.

1.2 Prispevki

V magistrskem delu se posvetimo eksperimentalni analizi trenutno najaktu- alnejˇsih metod nenadzorovane domenske adaptacije. Za uˇcenje uporabimo zbirki anotiranih [10] slik iz vodne domene ter zbirko slik vodnih scen brez anotacij [11]. Z uporabo takih podatkov naˇsa naloga spada v kategorijo uˇcenja delno nadzorovanih segmentacijskih nevronskih mreˇz. Te metode evalviramo na ciljni zbirki vodne domene in poslediˇcno uporabimo mreˇzo

(19)

1.3. STRUKTURA NALOGE 3

WaSR [5], katera je namenjena ravno semantiˇcni segmentaciji takˇsnih scen.

1.3 Struktura naloge

V Poglavju 2 najprej predstavimo sorodna dela, kot so metode za nenad- zorovano domensko adaptacijo, ki za uˇcnje uporabljajo anotirane podatke in podatke brez anotacij. V tretjem poglavju opiˇsemo segmentacijsko mreˇzo WaSR ter vse metode, ki smo v sklopu magisterskega dela testirali. V ˇcetrtem poglavju predstavimo implementacijske podrobnosti, kot so uporabljene po- datkovne zbirke, evalvacijske mere ter parametre, uporabljene za uˇcenje me- tod. Opravimo tudi kvantitativno in kvalitativno analizo z uporabo mreˇze WaSR [5] brez maske IMU in izgubne funkcije WS ter metode, ki so dosegle najboljˇse rezultate evalviramo z uporabo maske IMU in izgubne funkcije WS.

Vpliv izgubne funkcije WS nato primerjamo tako, da ga pri uˇcenju ne upora- bimo in uporabimo le podatek o maski IMU. Na koncu med seboj primerjamo rezultate ter prikaˇzemo ˇse nekaj inferenc.

(20)

4 POGLAVJE 1. UVOD

(21)

Poglavje 2 Sorodna dela

Detekcija objektov na slikah je zaradi ˇstevilnih moˇznosti uporabe zelo popu- larno raziskovalno podroˇcje. Tu je glavna naloga identifikacija in lokalizacija razliˇcnih objektov, katero lahko doseˇzemo s pomoˇcjo interesne regije ali upo- rabe segmentacije. Chapelle et al. so v knjigi [12] predstavili celovit pregled podroˇcja uporabe neanotiranih podatkov v strojnem uˇcenju in v sklopu tega opisali najsodobnejˇse algoritme, ki so bili aktualni v ˇcasu pisanja knjige. Te so med seboj tudi primerjali in podali nekaj smernic za nadaljne raziskave.

Veliko poskusov je bilo narejenih na adaptaciji klasiˇcnih, delno nadzorovanih metod v namene globokega uˇcenja, kot je psevdo anotiranje [13], metode, ki temeljijo na grafih [14, 15] ter entropijska minimizacija [16]. Podroˇcje do- menske adaptacije v namene klasifikacije je ˇsiroko raziskano podroˇcje [17].

Pri adaptaciji semantiˇcne segmentacije je to teˇzja naloga, saj je potrebno napovedati razred vsakega piksla.

V zadnjem ˇcasu je veliko raziskav na temo uˇcenja nevronskih mreˇz in vkljuˇcitve neanotiranih podatkov s ciljom izboljˇsanja konˇcnega rezultata. To je vidno tudi iz sodobnih ˇclankov, kjer raziskovalci poskuˇsajo odkriti nove metode, ki za uˇcenje uporabljajo anotirane in neanotirane podatke [18, 19, 20, 21]. Kljub temu, da je bilo v zadnjem ˇcasu precej raziskav narejenih na segmentaciji vodne domene s pomoˇcjo konvolucijskih nevronskih mreˇz [22, 23, 5], pa uporabe delno nadzorovanega uˇcenja nismo zasledili.

5

(22)

6 POGLAVJE 2. SORODNA DELA

Veliko semantiˇcno segmentacijskih adapcijskih metod v svojih poskusih uporablja sintetiˇcno pridobljene podatkovne zbirke. Dve zelo znani zbirki sta GTA5 [24] ter SYNTHIA [25], ki sta tudi najbolj uporabljeni pri evalvaciji metod, namenjenim nenadzorovani domenski adaptaciji. Za takˇsne zbirke roˇcno anotiranje ni potrebno, saj se natanˇcno ve, kateri 3D objekt je preslikan na doloˇcen piksel. To omogoˇci hitrejˇso, cenejˇso ter natanˇcnejˇso anotacijo, kot ˇce bi anotirali roˇcno. Na primer roˇcna semantiˇcna segmentacija ene slike podatkovne zbirke Cityscape [26] vzame pribliˇzno 90 minut, kar je zelo veliko, v nasprotju z nekaj milisekundno uporabo raˇcunalniˇske moˇci. Vendar take zbirke lahko le poskuˇsajo posnemati realni svet ter so tako le njena replika.

V sintetiˇcnih zbirkah je pomanjkanje znaˇcilnih izstopajoˇcih vzorcev realnega sveta, kateri so vˇcasih pomembnejˇsi kot osnovni vzorci za zaznavo objektov.

Raziskovalci vsako leto predstavijo veliko zanimivih metod, namenjenim segmentacijski adaptaciji. V naslednjih odstavkih na kratko opiˇsemo ˇstiri moderne adaptacijske metode, ki uporabljajo delno nadzorovano uˇcenje in predstavljajo glavne trende na podroˇcju adaptacijskih metod. Za vsako od metod na kratko predstavimo postopek uˇcenja in omenimo razliˇcne zanimive principe, ki jih uporabijo pri adaptaciji.

Nekatere raziskave se posveˇcajo uporabi napovedovanja dodatne informa- cije. Pri metodi zavedanja globine (angl. Depth-Aware Domain Adaptation - DADA) [27] se za uˇcenje mreˇze poleg segmentacijskege izgubne funkcije uporabi tudi informacijo o globini slik iz izvorne zbirke. Z informacijo o glo- bini se lahko tako zgradi dodatne globinske predikcije pomoˇznih spremenjlivk (angl. auxilary), ki nam pomagajo pri zaznavi globine slike iz ciljne domene.

S to informacijo se lahko laˇzje doloˇci rob objekta, kar izboljˇsa loˇcevanje med segmentacijskimi komponentami. Metode ni mogoˇce uˇciti brez anotacij glo- binskih mask izvorne zbirke in tako je za generiranje zbirke potrebna uporaba naprednejˇsih senzorjev. Segmentacijski mreˇzi je dodan ˇse pomoˇzni residualni blok(angl. deep residual auxilary block) [28] za predikcijo monukularne glo- bine. Ta se nato zdruˇzi z glavnim tokom, kjer se ga s produktom na nivoju elementov spoji z znaˇcilkami (angl. feature fusion). Metoda kot izhod vrne

(23)

7

mehko segmentacijsko masko (angl. soft-segmentation map) Px, ter globin- sko masko (angl. depth map) Zx. Arhitektura metode je vidna na zgornji polovici Slike 2.1.

Slika 2.1: Slika prikazuje proces uˇcenja metode zavedanja globine. Slika povzeta po [27].

Metoda adaptacije na podlagi omejitev in nasprotniˇskega uˇcenja (angl.

adversarial and constraint-based adaptation) [29] za adaptacijo med dome- nama uporablja globalne in kategoriˇcno specifiˇcne adaptacijske tehnike. Za globalno poravnavo je uporabljena mreˇza GAN, ki med izvorno in ciljno do- meno poravna bogate znaˇcilke generirane s pomoˇcjo kodirnika. Za dodatno pribliˇzanje distribucije med domenama, je predstavljena izgubna funkcija, ki je zgrajena s pomoˇcjo statistike kategorij izvorne zbirke. Za vse slike iz iz- vorne domene se izraˇcuna statistiko pojavitve segmentacijskih razredov. ˇCe slika vsebuje doloˇcen razred, se izraˇcuna deleˇz pikslov na sliki, ki mu pri- padajo. S to informacijo se lahko nato zgradi histogram in oznaˇci spodnji vmesni ter zgornji deleˇz. Informacija je uporabljena za informiranje ciljne domene o postavitvi scene in statistiki segementacijskih razredov izvorne do-

(24)

8 POGLAVJE 2. SORODNA DELA

mene. S tem se omeji pojavitev doloˇcenega razreda v predikciji ciljnih slik.

Arhitektura metode je vidna na Sliki 2.2.

Slika 2.2: Slika prikazuje proces uˇcenja metode adaptacije na podlagi ome- jitev in nasprotovanj. Slika povzeta po [29].

Avtorji metode uˇcenja invariantnih teksturnih reprezentacij (angl. Le- arning Texture Invariant Representation) [30] poskuˇsajo odpraviti problem tekstur na sintetiˇcni zbirki, zato predlagajo metodo, ki izboljˇsa uporabo sin- tetiˇcnih podatkov in tako zmanjˇsa razmak med izvorno sintetiˇcno domeno ter ciljno domeno slik realnega sveta. Pri metodi uˇcenja invariantnih tekstur- nih reprezentacij se za uˇcenje mreˇze uporabi dve zbirki, generirani iz izvorne zbirke, ter ciljno zbirko. Prva generirana zbirka je stilizirana zbirka, ki doda sintetiˇcnim slikam raznolikost tekstur. Za kreiranje stiliziranih slik je upo- rabljena metoda StyleSwap [31]. Takˇsna zbirka doda teksturno raznolikost in prepreˇci segmentacijskemu modelu prekomerno prileganje (angl. overfit- ting) sintetiˇcni teksturi. Druga generirana zbirka je prenosna zbirka, katera je ustvarjena s pomoˇcjo metode CycleGAN [32]. Ta pribliˇza sintetiˇcno zbirko ciljni tako, da zmanjˇsa vidni razmak med njima. Primera stilizirane slike in

(25)

9

prevedene slike sta vidna na Sliki 2.3, kjer je levo zgoraj prikazan primer stilizirane slike, pod njim pa prevedene slike. V prvi fazi se poskuˇsa segmen- tacijsko mreˇzo nauˇciti razpoznavanja invariantnih teksturnih reprezentacij.

Uporabi se obe generirani zbirki, kateri vsebujeta veliko raznolikih tekstur.

V vsaki iteraciji uˇcenja se kot prehod naprej (angl. feed-forward) simultano izmenjuje med stilizirano in prenosno zbirko. S tem postopkom nauˇcimo model razpoznavanja razliˇcnih tekstur, preslikanih na sintetiˇcno zbirko. Po- stopek uˇcenja celotne prve faze je upodobljen na Sliki 2.3. V drugi fazi se najprej s pomoˇcjo modela, dobljenega v prvi fazi, generira zbirko s psevdo oznakami (angl. pseudo labels). Nato z dobljenimi psevdo oznakami in pre- nosno zbirko uglaˇsujemo (angl. fine-tuning) model ter tako dobimo nauˇcen model s teksturo ciljne zbirke. Drugo fazo se nato ponavlja do najboljˇsega dobljenega evalvacijskega rezultata.

Slika 2.3: Slika prikazuje proces uˇcenja invariantnih teksturnih reprezentacij - prva faza metode. Slika povzeta po [30].

Metoda instanˇcnega adaptivnega samouˇcenja (angl. Instance Adaptive Self-Training - IAST) [33] temelji na instanˇcnemu adaptivnem selektorju, s katerim je mogoˇce prilagojeno generirati psevdo oznake za vsako instanco

(26)

10 POGLAVJE 2. SORODNA DELA

posebej ter regijsko vodeni regularizaciji, pri kateri se izvede regularizacija za ignorirano regijo ter regijo psevdo oznak, kjer verjetnost dosega doloˇcen prag. Metodo se lahko uporabi tudi kot dekorater za druge metode nenad- zorovane domenske adaptacije. Na Sliki 2.4 je prikazan postopek uˇcenja metode. Zgornji del slike prikazuje prvi korak (levo), kjer s slikami iz izvorne zbirke uˇcimo mreˇzo ter nato s pomoˇcjo instanˇcnega adaptivnega selektorja generiramo psevdo oznake (desno). Spodnji del Slike 2.4 prikazuje samo- nadzorovano uˇcenje, kjer s psevdo oznakami ciljne zbirke uˇcimo mreˇzo in ob enem uporabimo dve razliˇcni regularizaciji za ignorirano regijo ter samoza- vestno regijo. Za uˇcenje mreˇze v zadnjem koraku se minimizira vsoto kriˇzne entropije in regularizacije. Instanˇcni adaptivni selektor pri generiranju praga za vsako segmentacijsko komponento na sliki posebej uporablja eksponentno drseˇce povpreˇcje, ki lahko z informacijo o zgodovini vrednosti praga zgladi prag vsake instance.

Slika 2.4: Na sliki je prikazan postopek uˇcenja metode instanˇcnega adap- tivnega samouˇcenja. Slika povzeta po [33].

(27)

Poglavje 3 Metode

V poglavju najprej opiˇsemo metode za nenadzorovano domensko adapta- cijo, uporabljene v analizi, kot so notranja domenska adaptacija [1] (Poglavje 3.1), adaptacija z manipulacijo spektra [2] (Poglavje 3.2), metoda s prilega- njem instanc [3] (Poglavje 3.3) ter dvosmerno uˇcenje [4] (Poglavje 3.4). V Poglavju 3.5 opiˇsemo ˇse uporabljeno segmentacijsko metodo WaSR [5], ki trenutno dosega najboljˇse segmentacijske rezultate na vodni domeni.

Za uˇcenje segmentacijskih metod predstavljenih v nadaljevanju, defini- ramo izvorno zbirko kotS ={(ISi,YSi)}Ni=1S, kjer jeISiRH×W×3i-ta barvna slika z zlatim standardom YSiRH×W×C, ter ciljno zbirko T = {ITi}Ni=1T , kjer je ITiRH×W×3 i-ta barvna slika za katero nimamo doloˇcenega zlatega standarda.

3.1 Notranja domenska adaptacija

Avtorji metode notranje domenske adaptacije (angl. Intra domain adap- tation - IntraDA) [1] ugotavljajo, da predhodna dela naslavljajo problem zmanjˇsevanja distribucijske vrzeli med dvema domenama(angl. inter-domain), ne ukvarjajo se pa z zmanjˇsanjem distribucijske vrzeli znotraj ciljne domene.

Uˇcenje metode je razdeljeno na dve fazi. Najprej se zmanjˇsuje vrzel med izvorno in ciljno domeno, nato se z dobljeno mreˇzo in entropijskim ocenje-

11

(28)

12 POGLAVJE 3. METODE

vanjem generira lahko in teˇzko mnoˇzico ter na koncu se dobljeni mnoˇzici uporabi za zmanjˇsanje distribucijske vrzeli znotraj ciljne zbirke s pomoˇcjo samonadzorovanega uˇcenja. Za meddomensko adaptacijo avtorji uporabijo metodo ADVENT [1], katera temelji na uporabi generativne nasprotniˇske mreˇze.

Slika 3.1: Prikaz postopka uˇcenja metode Notranje domenske adaptacije.

Slika povzeta iz [1].

3.1.1 Meddomenska adaptacija

Cilj meddomenske adaptacije je zmanjˇsanje distribucijske vrzeli med izvorno zbirko S in ciljno zbirko T. Za uˇcenje generativne mreˇze Ginter uporabimo kriˇzno entropijo definirano z enaˇcbo

`seginter(IS,YS) = −X

h,w

X

c

Y(h,w,c)S log

P(h,w,c)S

, (3.1)

kjer je PS =Ginter(IS) predikcijska matrika vhodne slikeIS iz ciljne zbirke.

Predpostavka avtorjev [34] pravi, da nauˇceni modeli ponavadi proizvajajo preveˇc negotove predikcije za slike iz izvorne domene ter nesamozavestne pre- dikcije za slike iz ciljne domene, zato se za zmanjˇsanje distribucijskega zamika

(29)

3.1. NOTRANJA DOMENSKA ADAPTACIJA 13

znaˇcilk uporabi entropijsko masko(angl. entropy map)E. Entropijska maska za sliko iz ciljne domene T je definirana kot

E(h,w)T =X

c

−P(h,w,c)T log

P(h,w,c)T

. (3.2)

Pri uˇcenju diskriminatorne mreˇzeDinter mreˇzo uˇcimo razlikovati med en- tropijskimi maskami izvorne in ciljne domene, medtem ko je generatorGinter namenjen zavajanju diskriminatorja. Izgubna funkcija generativne naspro- tniˇske mreˇze je definirana kot

`advinter(S,T) =X

h,w

log( 1−Dinter

E(h,w)T + log

Dinter

E(h,w)S ,

(3.3)

kjer je E(h,w)S entropijska maska slike iz izvorne domene.

3.1.2 Entropijsko rangiranje

Ko je mreˇzaGinter nauˇcena, sledi izraˇcun entropijskih mask za vse slike izT. Iz dobljenih entropijskih mask se za vsako sliko izraˇcuna rang R, definiran kot

R(IT) = 1 HW

X

h,w

E(h,w)T . (3.4)

Vrednosti entropijskih mask se nato razvrsti po velikosti. Dobljeni urejen seznam se razdeli na dva dela, kjer se zλuteˇzi deleˇz lahke mnoˇzice in z 1−λ deleˇz teˇzke mnoˇzice. Za lahko mnoˇzicoTese generira psevdo oznake, medtem ko teˇzka mnoˇzica Th ostane brez anotacij.

3.1.3 Adaptacija znotraj domene

Ker T nima zlatega standarda in tako nadzorovano uˇcenje s ciljno zbirko ni mogoˇce, je za uˇcenje generativne mreˇze Gintra uporabljena mnoˇzica Te z

(30)

14 POGLAVJE 3. METODE

generiranimi psevdo oznakami. Izgubna funkcija je definirana kot

`segintra(ITe) = −P

h,w

P

cPT(h,w,c)e log

Gintra(ITe)(h,w,c)

, (3.5)

kjer jeITeslika iz lahke mnoˇziceTe,PTepa je predkcijska segmentacijska ma- ska oznaˇcena z eniˇcnim vektorjem(angl. one-hot vector), dobljena iz ohlapne segmentacijske maske (angl. soft-segmentation mask) PTe. Za zmanjˇsanje distribucijske vrzeli znotraj ciljne domene se z diskriminatorno mreˇzoDintra poravna entropijske maske lahke mnoˇzice ETe in teˇzke mnoˇzice ETh.

`advintra(ITe,ITh) =P

h,wlog

1−Dintra

E(h,w)Th + log

Dintra

E(h,w)Te

. (3.6)

Konˇcna izgubna funkcija je definirana kot

`=λseginter`seginteradvinter`advintersegintra`segintraadvintra`advintra, (3.7) je seˇstevek vseh izgubnih funkcij z razliˇcnimi uteˇzitvami.

3.2 Adaptacija z manipulacijo spektra

Metoda adaptacije z manipulacijo spektra(angl. Fourier Domain Adaptation - FDA)[2] za prenos sloga med izvorno in ciljno domeno ne potrebuje dodatne mreˇze ter ne vsebuje nasprotniˇske mreˇze, kar izrazito pospeˇsi uˇcenje celotne metode. Prenos sloga med izvorno ter ciljno zbirko je izveden s pomoˇcjo Fouriereve transformacije. Za izraˇcun diskretne Fouriereve transformacije (angl. discrete Fourier transform - DFT) je uporabljen uˇcinkovit algoritem hitre Fouriereve transformacije (angl. fast Fourier transform - FFT).

Najprej se z uporabo FFT izraˇcuna matriki faznih in amplitudnih vre- dnosti, nato se zamenja amplitude nizkih frekvenc med slikama izvorne in ciljne zbirke. Na koncu pa je uporabljen ˇse inverzni algoritem FFT, kateri iz faznih in amplitudnih signalov sprocesira konˇcno transformirano sliko. Na Sliki 3.2 lahko vidimo koncept adaptacije z manipulacijo spektra.

(31)

3.2. ADAPTACIJA Z MANIPULACIJO SPEKTRA 15

Slika 3.2: Na sliki je prikazan koncept adaptacije z manipulacijo spektra.

Slika vzeta iz [2].

Pri uporabi algoritma FFT dobimo informacijo o amplitudi in fazi slike.

V fazni matriki je kodirana semantiˇcna informacija slike, medtem ko ampli- tudna matrika hrani domensko informacijo in globalni prikaz slike. Zato se med slikami zamenja samo amplitudni del nizkih frekvenc.

3.2.1 Prenos sloga

S pomoˇcjo algoritma FFT, oznaˇcenega zF lahko izraˇcunamo amplitudno in fazno komponento slike v RGB prostoru, kateri definiramo z FA : RH×W×3 inFP :RH×W×3. Za enokanalno sliko I, lahko FFT definiramo z

F(I)(m, n) = X

h,w

I(h, w)e−j2π(Hhm+Wwn), j2 =−1. (3.8) Za zamenjavo amplitudne komponente med zbirkama je potrebno doloˇciti uporabljeno podroˇcje nizkih frekvenc. Naj bo maska za oznaˇcitev podroˇcja definirana z Aβ, kjer je povsod vrednost niˇc, razen pri vrednostih znotraj

(32)

16 POGLAVJE 3. METODE

centralne regije, kjer β ∈(0,1). Masko Aβ lahko opiˇsemo z enaˇcbo

Aβ(h, w) =1(h,w)∈[−βH:βH,−βW:βW], (3.9) in predpostavimo, da je center na koordinatah (0,0).

Ko imamo komponentiFAinFP s podroˇcno maskoAβ, lahko z inverzom FFTF−1 zgeneriramo slikoIS→T katera ima isto vsebino kot slikaIS s slogom slike IT. Manipulacijo spektra definiramo z

IS→T =F−1

Aβ ◦ FA(IT) + (1−Aβ)◦ FA(IS),FP(IS)

, (3.10) kjer pri zdruˇzevanju med zbirkama komponenta FP ostane nespremenjena, medtem ko je centralni del FA(IT), kjer se nahajajo nizke frekvence, po- mnoˇzen z Aβ ter priˇstet delu FA(IS), kateri je pomnoˇzen z obrnjenimi vre- dnostmi maske Aβ. Slika 3.3 prikazuje, kakˇsen je izhod pri prenosu sloga, ˇce pri zamenjavi amplitudnega dela uporabimo razliˇcne vrednosti parametra β.

3.2.2 Uˇ cenje segmentacijske mreˇ ze

Z novo dobljeno zbirko S0, katero generiramo z zamenjavo sloga, predsta- vljeno v Poglavju 3.2.1, uˇcimo segmentacijsko mreˇzo M. Za uˇcenje upo- rabimo zlati standard izvorne zbirke YS. Izgubna funkcija za sliko iz nove zbirke I0S, je predstavljena z enaˇcbo

`seg =`ce(M(S0),YS) +λent`ent(M(T)), (3.11) kjer je`cevrednost kriˇzne entropije ter`entvrednost entropije predikcije ciljne slike PT. Kriˇzna entropija je definirana kot

`ce(M(S0),YS) =− 1 HW

X

h,w C

X

c=1

YhwcS logPhwcS0 , (3.12)

(33)

3.2. ADAPTACIJA Z MANIPULACIJO SPEKTRA 17

Slika 3.3: Na sliki je prikazana uporaba razliˇcnih β vrednosti.

kjer PS0 = M(IS0), H in W pa predstavljata njeno viˇsino in ˇsirino. Kot del izgubne funkcije je uporabljena tudi minimizacija entropije predikcije slik iz ciljne domene, definirana kot

`ent (M(T)) = 1 HW

X

h,w

1 log(C)

C

X

c=1

p(−(PhwcT logPhwcT )), (3.13)

(34)

18 POGLAVJE 3. METODE

kjer je dodatno uporabljena tudi Charbonnierjeva funkcija napake p(x) = (x2+0.0012)η[35], za veˇcjo obteˇzitev viˇsjih entropijskih predikcij ter manjˇso za niˇzje entropijske predikcije zaη >0.5, C pa oznaˇcuje ˇstevilo segmentacijskih komponent.

3.2.3 Samonadzorovano uˇ cenje

Samonadzorovano uˇcenje je postopek, kjer se za uˇcenje mreˇze uporabi po- datke brez anotacij, katerim se zgenerira psevdo oznake. Podatke brez anota- cij se lahko tako nadzoruje s psevdo oznakami in se jih pri uˇcenju uporabi kot podatke z anotacijami. Za regularizacijo samonadzorovanega uˇcenja mreˇze je uporabljenih veˇc izhodov mreˇze M z razliˇcnimi vrednostmi parametra β = {βb}[b=1:B]. Z njimi lahko izraˇcunamo predikcijo slike iz ciljne domene YˆTi po enaˇcbi

Ti = arg max

k∈K

1 B

X

b

Mβb(ITi)(k)

!

, (3.14)

kjer je B ˇstevilo razliˇcnih β vrednosti. Za vsako β vrednost se mreˇzo uˇci od zaˇcetka. Kot izhodne vrednosti mehkih predikcijskih mask se nato seˇsteje in povpreˇci. Z B modeli se nato zgenerira psevdo oznake, katere se uporabi za izboljˇsanje mreˇzeMβ z uporabo izgubne funkcije

`sst

M;S0,Tˆ

=`ce(M(S0)) +λent`ent(M(T)) +`ce

M( ˆT)

, (3.15) kjer je ˆT zbirka T z generiraimi psevdo oznakami ˆYT.

3.3 Metoda s prileganjem instanc

Pri metodi s prileganjem instanc(angl. stuff instance matching - DADT)[3]

se segmentacijske kategorije loˇci v dve skupini:

• kategorije, ki imajo med razliˇcnimi domenami podoben izgled (angl.

stuff matching - SM),

(35)

3.3. METODA S PRILEGANJEM INSTANC 19

• kategorije, ki se med razliˇcnimi domenami bolj razlikujejo (angl. in- stance matching - IM).

Z loˇcevanjem kategorij se lahko natanˇcneje adaptira znaˇcilke iz izvorne zbirke v ciljno zbirko. Za SM se generira reprezentativne znaˇcilke za vsak razred in izvede poravnavo iz ciljne domene v izvorno domeno, medtem ko se za IM generira reprezentativne znaˇcilke za vsako individualno instanco razreda. Vsako instanco iz ciljne domene se nato poravna z najbolj podobno iz izvorne domene. V metodi je uporabljena tudi generativna nasprotniˇska mreˇza, ki je namenjena poravnavi entropijskih mask med izvorno in ciljno zbirko. Metoda je sestavljena iz dveh korakov. V prvem koraku se najprej izvede kategoriˇcno ujemanje SM (Poglavje 3.3.1) in kategoriˇcno ujemanje IM (Poglavje 3.3.2). Z nauˇcenim modelom se nato generira psevdo oznake, ki se jih uporabi za samonadzorovano uˇcenje s kategoriˇcnim ujemanjem (Poglavje 3.3.3). Na Sliki 3.4 je prikazan postopek uˇcenja metode s prileganjem in- stanc.

Slika 3.4: Na sliki je prikazan postopek uˇcenja metode s prileganjem instanc.

Slika vzeta iz [3].

(36)

20 POGLAVJE 3. METODE

3.3.1 Kategoriˇ cno ujemanje SM

Najprej se izvede ujemanje med segmentacijskimi kategorijami razredov iz ozadja oziroma tistih kategorij, ki zajemajo veˇcji del slike in se ne tako vidno razlikujejo. Za takˇsne kategorije se povpreˇci znaˇcilke ˇcez celotno viˇsino in ˇsirino slike. S tem dobimo reprezentativne znaˇcilke na nivoju slike za vsako kategorijo posebej. To lahko doseˇzemo z enaˇcbo

Ab(L,f) =

P

h,wδ(L(h,w)−b)f(h,w)

max(,Ph,wδ(L(h,w)−b)) Sbj =Ab QSi,fsi

kjer j =imodw if Ab QS

i,fsi 6= 0,

(3.16)

kjer jeSbj j-ti vzorec znaˇcilk izvorne zbirke za razred b∈B (razredi ozadja), ter i ∈1..|S|. Dirakova porazdelitvena funkcija je predstavljena z δ, ˇstevilo vzorcev shranjenih znaˇcilk pa z w. Vrednost je majhno pozitivno ˇstevilo, ki prepreˇcuje, da bi bil ulomek deljen z niˇclo, fSi pa mehka segmentacijska maska. Pravilno klasificirana predikcijska matrika QS

i je definirana kot QSi =YSi ∩PSi

PSi = argmax

k∈N

C fSi (k)

, (3.17)

kjer jePSi predikcijska matrika slike iz izvorne zbirke,YSi pa zlati standard slike.

Za vse slike iz ciljne domene minimiziramo razdaljo med kategorijami ozadja SM ter najbliˇzjim vzorcem znaˇcilk izvorne zbirke. Reprezentativne znaˇcilke generiramo s pomoˇcjo mehke segmentacijske maske fti ter predikcij- sko matriko slike iz ciljne zbirke PTi. Postopek pribliˇzevanja kategorij SM ciljne domene je definiran z izgubno funkcijo

`smf =X

i

X

b

minj

Ab PTi,fti

−Sbj

1

1, (3.18)

kjer je i ∈ 1..|T | in b ∈ PTi ∩B, operator minimizacije pa skrbi za izbiro najbljiˇzjega vzorca znaˇcilk izvorne zbirke.

(37)

3.3. METODA S PRILEGANJEM INSTANC 21

3.3.2 Kategoriˇ cno ujemanje IM

Pri kategoriˇcnem IM ujemanju primerjamo kategorije, katere so v ospredju in se med seboj bolj razlikujejo. Z iskanjem nepovezanih regij maske lahko doloˇcimo maske za razliˇcne instance kategorij, ki so v ospredju. Tako dobi ena slika veˇc reprezentativnih znaˇcilk za doloˇcene instance. Ujemanje znaˇcilk je definirano z

Rk={rk1,rk2, . . . ,rkm}=U(L, k) I(r,f) =

P

h,wr(h,w)f(h,w) max

,P

h,wr(h,w), (3.19)

kjer jerki i-ta (i∈1, .., m) binarna maska razredak,k∈K(kategorije IM),U je funkcija za iskanje razliˇcnih nepovezanih regij maskeL,Ipa je operacija za generiranje reprezentativnih znaˇcilk IM. ˇCe minimiziramo izgubno funkcijo

`im=X

i

X

k∈K

1 Rtk

X

rt∈Rtk

minj

I rt,fti

−Skj

1

1, (3.20)

kjer je i = 1, ..,|T | in Rtk = U(LtP

i, k), lahko tako pribliˇzamo kategorije IM ciljne domene, reprezentativnim znaˇcilkam IM izvorne domene.

3.3.3 Samonadzorovano kategoriˇ cno ujemanje

V metodi se pri drugem koraku uporabi samonadzorovano uˇcenje. Zato se generira psevdo oznake za vse slike iz ciljne zbirke. Z nauˇcenim modelom iz prvega koraka se lahko tako generira mehke segmentacijske maske in upoˇsteva le tiste predikcije, ki imajo visoko verjetnost. S psevdo oznakami lahko tako z izgubno funkcijo izraˇcunamo segmentacijsko napako in naredimo produkt vsote z vsemi ostalimi napakami. Enaˇcba za generiranje psevdo oznake slike iz ciljne domene je definirana z

ˆ

yti = argmax

k∈N

1

sf t(C(fti))(k)>ytk

C fti(k)

, (3.21)

(38)

22 POGLAVJE 3. METODE

kjer 1 predstavlja funkcijo, ki ob izpolnjenem pogoju vrne vhod pogoja, v nasprotnem primeru pa vrednost, ki oznaˇcuje piksel z vrednostjo pod pragom kategorije. ˇStevilo segmentacijskih razredov je oznaˇceno zN, vrednost praga za razred k pa z ytk. Funkcija ohlapnega maksimuma je oznaˇcena s sf t, C oznaˇcuje klasifikacijsko glavo, fit pa mehko segmentacijsko masko.

3.3.4 Postopek uˇ cenja

V prvem koraku se model trenira brez uporabe samonadzorovanega uˇcenja.

Minimizira se izgubno funkcijo, definirano z minG,D `step 1 = min

G λseg`Ssegadv`adv+ λci(`sm+`im)) + min

D λD`D,

(3.22) kjerλseg predstavlja uteˇz segmentacijske izgubne funkcije`Ssegadv oznaˇcuje uteˇz izgubne funkcije nasprotniˇske mreˇze `adv pri uˇcenju generativne mreˇze, λci je uteˇz za izgubni funkciji kategoriˇcnega SM ujemanja`sm in instanˇcnega IM ujemanja `im, λD pa uteˇz izgubne funkcije `D pri uˇcenju nasprotniˇske mreˇzeD. Po nauˇcenem modelu iz prvega koraka se zgenerira psevdo oznake in jih uporabi pri samonadzorovanem uˇcenju drugega koraka. Izgubna funk- cija za drugi korak je definirana z

min

G,D `step 2= min

G λseg(`Sseg+`Tseg) +λadv`adv+ λci

sm+ ˜`im

+ min

D λD`D,

(3.23) kjer sta ˜`sm in ˜`im izraˇcunani s pomoˇcjo psevdo oznake ˆyti.

3.4 Dvosmerno uˇ cenje

Metoda dvosmernega uˇcenja domenske adaptacije(angl. Bidirectional Lear- ning for Domain Adaptation) [4] bazira na uporabi prenosne ter segmentacij- ske mreˇze. S prenosno mreˇzo se lahko pribliˇza izvorno zbirko ciljni tako, da se zmanjˇsa vidni razmak med njima. S tem dobimo sliko iz izvorne zbrike v stilu

(39)

3.4. DVOSMERNO U ˇCENJE 23

slike iz ciljne zbirke. Ideja je povezati mreˇzi tako, da si med uˇcenjem ena drugi pomagata. Pri osnovnem enosmernem principu uˇcimo prenosno mreˇzo in jo po koncu uˇcenja ne nadgrajujemo s pomoˇcjo segmentacijske mreˇze. S tem onemogoˇcimo prenosni mreˇzi uporabo koristnih uˇcnih podatkov, generiranih s strani segmentacijske mreˇze. Na Sliki 3.5 je na levi strani viden osnovni enosmerni princip, kjerF predstavlja prenosno mreˇzo z izgubno funkcijo `F, M pa segmentacijsko mreˇzo z izgubno funckijo `M. Na desni strani slike je vidna ideja dvosmernega uˇcenja, opisana v Poglavju 3.4.

Slika 3.5: Na levi strani je prikazano enosmerno uˇcenje, na desni strani pa dvosmerno uˇcenje. Slika vzeta iz [4].

Ker ciljna zbirka nima anotacij, si pomagamo z generiranjem nove zbirke.

Za generiranje uporabimo prenosno mreˇzoF(S) in tako slike iz izvorne zbirke S prevedemo s pomoˇcjo slik iz ciljne zbirke T. Dobimo novo generirano zbirkoS0 =F(S), katera uporablja enak zlati standard kot izvorna zbirkaS, oznaˇcen z YS.

Metoda je sestavljena iz uˇcenja v dve smeri. Najprej se uporabi uˇcenje v smeri naprej (F → M), kjer za uˇcenje mreˇze M uporabimo zbirko S0 z zlatim standardomYS ter zbirkoT. Izgubna funkcija za uˇcenje mreˇzeMje definirana z enaˇcbo

`Madv`adv(M(S0),M(T)) +`seg(M(S0),YS), (3.24) kjer`adv predstavlja vrednost nasprotniˇske izgubne funkcije, katera je name- njena poravnavi entropijskih mask med generirano zbirko S0 in ciljno zbirko T. Vrednost izgubne funkcije semantiˇcne segmentacije pa je definirana z vre- dnostjo `seg. Na Sliki 3.6 je prikazan postopek uˇcenja metode dvosmernega uˇcenja.

(40)

24 POGLAVJE 3. METODE

Slika 3.6: Slika prikazuje arhitekturo mreˇze ter postopek uˇcenja mreˇze.

Slika vzeta iz [4].

Sledi uˇcenje v smeri nazaj (M → F), kjer s pomoˇcjo mreˇze M iz- boljˇsujemo prenosno mreˇzo F. Za uˇcenje je uporabljena zaznavna izgubna funkcija(angl. perceptual loss) `per , zdruˇzena z izgubno funkcijo generativne nasprotniˇske mreˇze `GAN ter vrednost izgubne funkcije slikovne rekonstruk- cije `recon. Definicija izgubne funkcije `F je predstavljena z enaˇcbo

`FGAN [`GAN(S0,T) +`GAN(S,T0)]

recon

`recon S,F−1(S0)

+`recon(T,F(T0)]

+`per(M(S),M(S0)) +`per(M(T),M(T0)).

(3.25)

Izgubna funkcija generativne nasprotniˇske mreˇze `GAN je definirana z

`GAN (S0,T) = EIT∼T [DF(IT)] +EIS∼S[1−DF((I0S))], (3.26) kjer IS predstavlja sliko iz zbirke S, IT sliko iz zbirke T, I0S pa sliko zgene- rirane iz strani mreˇze F. DF predstavlja diskriminatorno mreˇzo, namenjeno zmanjˇsevanju predikcijske distribucijske vrzeli med slikamaI0T inI0S. Enaˇcbo, ki definira rekonstrukcijsko izgubno funkcijo`recon, lahko opiˇsemo z

`recon S,F−1(S0)

=EIS∼S

F−1((I0S))−IS

1

, (3.27)

kjer je za cikliˇcno konsistenˇcnost uporabljena L1 norma medIS inF−1. F−1 predstavlja obratno funkcijo F, s katero lahko generirano sliko rekonstrui- ramo v izvorno sliko. Predstavljeni Enaˇcbi (3.26) in (3.27), sta podobno definirani tudi v drugi smeri, za izraˇcun `GAN (S,T0) ter `recon(T,F−1(T0))

(41)

3.4. DVOSMERNO U ˇCENJE 25

Slika 3.7: Prikaz procesa samonadzorovanega uˇcenja. Slika vzeta iz [4].

Za izraˇcun`F je zaradi konsistentnosti prevoda iz slike v sliko upoˇstevana simetrija,S → T terT → S. Tako se upoˇsteva kakovost prevoda v obe smeri.

`GAN je namenjena zbliˇzanju predikcijske porazdelitveS0terT, medtem ko je

`recon vrednost izgubne funkcije postopka rekonstrukcije slike nazaj v prvotno stanje iz S0 v S. Sledi ˇse vrednost `per, katero se uporabi za ohranjanje semantiˇcne konsistence med S in S0 ali pa T inT0.

V metodo je vkljuˇcena tudi uporaba samonadzorovanega uˇcenja, kar po- meni, da za vse slike v zbirki T zgeneriramo psevdo oznake ˆYT, upoˇstevani pa so samo tisti piksli slike, kjer je verjetnost za doloˇceno predikcijo zelo visoka (nad doloˇcenim pragom). Postopek se izvede po prvem uˇcenju mreˇze M, nato pa se ga uporabi ob vsaki novi iteraciji. Izgubna funkcija `M je definirana z enaˇcbo

`Madv`adv(M(S0),M(T)) +`seg(M(S0),YS) +`seg

M(Tssl),YbT

, (3.28) kjer je TSSL ⊂ T podmnoˇzica ciljne zbirke, v kateri imajo piksli psevdo oznake ˆYT. Prikaz procesa samonadzorovanega uˇcenja je viden na Sliki 3.7.

Pri zaznavni izgubni funkciji poleg upoˇstevanja konsistence med IS in njenega prevedenega rezultata I0S upoˇstevamo ˇse konsistenco med IS in re- konstrukcijskim rezultatomF−1(I0S), katerega uteˇzimo z vrednostjoλper recon. Zaznavna izgubna funkcija je definirana z enaˇcbo

`per(M(S),M(S0)) =λperEIS∼SkM(IS)−M((I0S))k1+

λper reconEIS∼S[kM(F−1((I0S)))−M(IS)k1], (3.29)

(42)

26 POGLAVJE 3. METODE

kjer je prikazan le izraˇcun za`per(M(S),M(S0)), vendar je`per(M(T),M(T0)) zaradi simetrije definirana na podoben naˇcin.

Za uˇcenje segmentacijske mreˇze sta uporabljeni izgubni funkciji `adv in

`seg vidni na enaˇcbi 3.24. Za zmanjˇsanje razlik izvornih in ciljnih verjetnosti je v `adv ˇse dodatno uporabljena nasprotniˇska mreˇza DM. Izgubna funkcija

`adv je definirana z enaˇcbo

`adv(M(S0),M(T)) =EIτ∼T [DM(M(IT))] +EIS∼S[1−DM(M(I0S))]. (3.30) Za izraˇcun izgubne funkcije segmentacijske mreˇze`seg zaIS je uporabljena kriˇzna entropija, ki je definirana z enaˇcbo

`seg(M(S0),YS) = − 1 HW

X

H,W C

X

c=1

1[c=yShw] logPhwcS , (3.31)

kjer C predstavlja ˇstevilo razredov, medtem ko H inW predstavljata viˇsino ter ˇsirino izhodne verjetnostne matrike. ZYS je oznaˇcen zlati standard slike IS, PS pa oznaˇcuje dobljeno verjetnostno matriko s strani segmentacijskega modela, ki je definirana zPS =M(I0S).

Za generiranje psevdo oznak ybT ciljne slike IT je uporabljena metoda maksimalne verjetnostne meje (angl. max probability threshold), kjer se uporabi samo tiste piksle, ki so nad doloˇceno mejo. byT je definirana kot byT = arg maxM(IT), maska byT pa kot mT =1[argmaxM(IT)>threshold ]. Defi- nicija izgubne funkcje za sliko IT je predstavljena z enaˇcbo

`seg

M(Tssl),YbT

=− 1 HW

X

H,W

mhwT

C

X

c=1

1[c=yhwT ] logPhwcT . (3.32)

Metoda je povzeta v Algoritmu 1.

(43)

3.5. SEGMENTACIJSKA MRE ˇZA WASR 27

Algorithm 1 Algoritem postopka uˇcenja metode BDL Input: (S,YS),(T,Tssl= 0/),M(0)

Output: M(K)N (F(K)) for k ←1 to K do

// Dvosmerno uˇcenje treniraj F(k) z enaˇcbo 3.25

treniraj M(k)0 z enaˇcbo 3.24 for i←1 to N do

// SSL posodobi Tssl z M(k)i−1

ponovno treniraj M(k)i z enaˇcbo 3.28 end

end

3.5 Segmentacijska mreˇ za WaSR

Avtorji metode WaSR(angl. Water-Obstacle Separation and Refinement Ne- twork) [5] ugotavljajo, da se trenutne metode globoke semantiˇcne segmenta- cije v namene detekcije ovir slabo obnesejo na vodni domeni, saj teˇzko ocenijo poloˇzaj vodne gladine zaradi vizualne nejasnosti, slabe detekcije majˇsih ovir ter generirajo veliko laˇzno pozitivnih primerov (angl. false positives) [10].

Ti nastanejo zaradi valovanja vode in odboja svetlobe od nje. Za izboljˇsanje tega problema in izboljˇsanja lokalizacije vode, v sliko projecirajo horizont, ki se izraˇcuna iz meritev inercijskega senzorja (angl. Inertial Measurement Unit - IMU). Predstavili so tudi izgubno funkcijo loˇcevanja vode, namenjeno loˇcevanju znaˇcilk segmentacijskih komponent, ki uporablja znaˇcilke, prido- bljene ˇze v zgodnji fazi znotraj kodirnika.

Metoda temelji na arhitekturi kodirnik-dekoder (angl. Encoder - De- coder), kjer se pot konvolucijske mreˇze najprej skrˇci (kodirnik), nato pa razˇsiri (dekoder). Kodirnik nam generira visoko-dimenzionalen vektor bo-

(44)

28 POGLAVJE 3. METODE

gatih znaˇcilk, dekoder pa iz njega zgradi semantiˇcno segmentacijsko masko.

Arhitektura mreˇze WaSR je vidna na Sliki 3.8.

Slika 3.8: Arhitektura konvolucijske segmentacijske metode WaSR. Slika povzeta iz [5].

3.5.1 Kodirnik

Kodirni del bazira na ogrodju arhitekture popularne mreˇze ResNet-101 [36]

z dodatkom prostorskih konvolucij (angl. atrous convolutions) [37], saj je analiza [10] DCNN segmentacijskih metod na vodni domeni, pokazala, da najboljˇse rezultate dosega mreˇza DeepLab2 [9], ki kot ogrodje uporablja adaptirano verzijo ResNet-101 arhitekture.

Residualna mreˇza(angl. residual network) ali krajˇse ResNet v svoji arhi- tekturi vsebuje residualne bloke. Njihov koncept je viden na Sliki 3.9. Upo- raba takih blokov je odgovor na problem vse globjih mreˇz z vedno veˇcjim ˇstevilom nivojev, ki se jih je zaˇcelo uporabljati zaradi moˇznosti modelira- nja kompleksnejˇsih funkcij. Tako pride do problema izginjajoˇcega gradi-

(45)

3.5. SEGMENTACIJSKA MRE ˇZA WASR 29

enta(angl. vanishing gradient problem), ki lahko nastane pri vzvratnem pre- hodu (angl. backpropagation) DCNN zaradi zanemarlive koliˇcine posodobi- tve uteˇzi pri uporabi parcialnega odvoda. Sprememba postane tako majhna, da se uˇcenje po doloˇcenem ˇcasu zaustavi. Za izraˇcun izhoda y, se uporabi enaˇcba 3.33, kjer x predstavlja preskoˇcno povezavo oziroma identiteto vho- dne matrike, F(x), pa residualno vrednost ali vrednost spremembe bloka.

S takˇsno arhitekturo lahko ohranimo nemoten gradientni tok skozi celotno globino omreˇzja in tako reˇsimo problem izginjajoˇcega gradienta, ob enem pa omogoˇci laˇzje in hitrejˇse uˇcenje mreˇze.

y =F(x) +x. (3.33)

Slika 3.9: Na sliki je prikazan koncept residualnega bloka.

Metoda WaSR vsebuje DeepLab2 [9] adaptirano verzijo ResNet-101. Ta sestoji iz ˇstirih residualnih konvolucijskih blokov, med seboj povezanih z maksimalnim zdruˇzevanjem (angl. max pooling). Maksimalno zdruˇzevanje zgradi tenzor znaˇcilk tako, da iz jedra(angl. kernel) izbere najveˇcjo vre- dnost. Zdruˇzevanje je namenjeno podvzorˇcenju (angl. downsampling), kar nam zmanjˇsa dimenzijo tenzorja. Za izboljˇsanje dojemanja okolice ter shra- njevanja lokalnega konteksta v globoke znaˇcilke so v zadnja dva bloka imple- mentirane tudi hibridne razˇsirjene konvolucije (angl. hybrid atrous convolu- tions) [37]. Te reˇsujejo mreˇzni problem (angl. gridding) osnovnega principa razˇsirjenih konvolucij[38], kateri se pojavi zaradi pomankljivosti pokritosti

(46)

30 POGLAVJE 3. METODE

znaˇcilk. Primerjava je vidna na Sliki 3.10, kjer zgorni del slike (a) prikazuje osnovni princip, spodnji del pa hibridni princip.

Slika 3.10: Slika prikazuje razˇsirjeno konvolucijo (a), ter hibridno razˇsirjeno konvolucijo (b). Slika povzeta po [37].

3.5.2 Dekoder

Primarna naloga dekoderja je generiranje segmentacijske maske. To doseˇze z uporabo bogatih znaˇcilk, ustvarjenih iz strani kodirnika. Pri metodi WaSR so za boljˇso segmentacijo uporabljeni tudi odˇcitki inercijskega senzorja, na- menjeni ocenitvi poloˇzaja vodne gladine. Za konstrukcijo binarne maske uporabijo kamera-IMU projekcijo [39]. Ta zamaskira vse, kar je nad horizon- talno linijo, kar se nato lahko uporabi kot podatek o verjetnost lokalizacije vode.

WaSR dekoder je sestavljen iz kombiniranja razliˇcnih modulov:

• modul za izboljˇsanje pozornosti(angl. attention refinement module - ARM) [6]. Namenjen je izboljˇsavi znaˇcilk na vsakem bloku. Za zajem globalnega konteksta je uporabljeno globalno povpreˇcno zdruˇzevanje.

Sledi izraˇcun vektorja pozornosti, ki sluˇzi kot pomoˇc za uˇcenje znaˇcilk.

(47)

3.5. SEGMENTACIJSKA MRE ˇZA WASR 31

Izhod modula je produkt vektorja pozornosti in vhodnega vektorja znaˇcilk. ARM ne vsebuje operacij razˇsiritve (angl. upsampling), kar pomeni, da je raˇcunska kompleksnost zanemarljiva.

• modul spojevanja znaˇcilk (angl. feature fusion module - FFM) [6].

Uporabljen je za zdruˇzevanje nizkonivojskih prostorskih znaˇcilk, katere predstavljajo bogate detajlne informacije ter visokonivojskih znaˇcilk konteksta.

• modul za zajem konteksta na razliˇcnih skalah(angl. atrous spa- tial pyramid pooling - ASPP) [9]. Kot je ˇze iz imena modula razbrano, ta uporablja filtre na razliˇcnih stopnjah vzorˇcenja, kar omogoˇca zajem konteksta. Raziskava [10] je pokazala, da uporaba modula izrazito iz- boljˇsa segmentacijo manjˇsih objektov in ob tem ne povzroˇci prevelike raˇcunske kompleksnosti.

Arhitektura modulov je vidna na Sliki 3.11.

Slika 3.11: Na sliki je prikazana arhitektura modulov uporabljenih v deko- derju, kjer E in D predstavljata znaˇcilke kodirnika in dekoderja iz prejˇsnjega nivoja, H pa znaˇcilke horizonta. Slika povzeta po [5].

Dekoder mreˇze WaSR sestoji iz dveh modulov za izboljˇsanje pozornosti, imenovanih ARM1 in ARM2, dveh modulov za spojevanje znaˇcilk, imenova- nih FFM in FFM1, ter dveh modulov za zajem konteksta na razliˇcnih skalah,

(48)

32 POGLAVJE 3. METODE

imenovanih ASPP1 in ASPP. Modul ASPP kot vhod vzame znaˇcilke, prido- bljene v zadnjem nivoju kodirnika, enako naredi tudi modul ARM1, z razliko tega, da dodatno znaˇcilke zdruˇzi z informacijo o podvzorˇceni maski hori- zonta. Dobljen rezultat izhoda modula ARM1 in ASPP1 sta nato zdruˇzena v modulu za spojevanje znaˇcilk FFM1, kateri proizvede1024 kanalov znaˇcilk.

Te so nato zdruˇzene v modulu ARM2 z masko horizonta in znaˇcilkami, do- bljenimi na izhodu drugega residualnega bloka. Sledi drugi modul FFM, kateri zdruˇzi pridobljene znaˇcilke iz modula ARM2, znaˇcilk maske horizonta in znaˇcilkami, dobljenimi na izhodu prvega residualnega bloka. V zadnjem bloku dekoderja je dodan ˇse modul za zajem konteksta na razliˇcnih skalah ASPP, kateremu sledi sloj z ohlapnim maksimumom (angl. softmax layer).

Celoten postopek je viden na desni strani slike 3.8.

3.5.3 Izgubna funkcija loˇ cevanja vode

Avtorji metode WaSR po raziskavi [10] ugotavljajo, da svetleˇci odboji sonca od vode povzroˇcijo velik izziv pri segmentaciji objektov na vodi, saj lahko slabo loˇcevanje med oviro in vodo povzroˇci veliko nepravilno oznaˇcenih po- zitivnih primerov (angl. false positive - FP) in nepravilno oznaˇcenih nega- tivnih primerov (angl. false negative - FN), kar lahko pripelje do pogostih laˇznih alarmov ali celo trka avtonomnega plovila. V svojem delu predstavijo izgubno funkcijo za loˇcevanje vode, ki za izraˇcun uporablja znaˇcilke, proizve- dene v kodirniku. Izgubna funkcija pomaga pri uˇcenju izgleda vodne kompo- nente. ˇZe v zgodnji fazi uˇcenja poskuˇsajo zdruˇziti razliˇcne prezentacije vode v gruˇco znaˇcilk in jih ˇcim bolj oddaljiti od znaˇcilk ovir. Naj bodo {xcj}j∈W in {xcj}j∈O znaˇcilke kanala c, ki pripadajo pikslom vodne komponenteW in komponente ovir O. Za uveljavljanje gruˇcenja znaˇcilk W lahko aproksimi- ramo njihovo distribucijo z Gaussom. Uporabimo srednje vrednosti, loˇcene po kanalih {µc}c∈N

c in varjance {σc2}c∈N

c, kjer je Nc ˇstevilo kanalov. Po- dobnost pikslov, ki pripadajo semantiˇcnem razredu O, lahko izmerimo kot

(49)

3.5. SEGMENTACIJSKA MRE ˇZA WASR 33

skupno porazdelitev Gaussa, predstavljeno z p

{xj}j∈W

∝ Y

j∈W c=1:Nc

exp

−0.5 xcj−µc2

c2

. (3.34)

Enaˇcbo dodatno razˇsirijo tako, da vkljuˇcijo obe komponenti W in O, uporabijo naravni logaritem, spremenijo predznak ter uporabijo inverz. Iz tega nastane izgubna funkcija, definirana kot

`ws = NO

NCNW

Nc

X

c

P

i∈W (xci −µc)2 P

j∈O xcj −µc2, (3.35) kjer je cilj z gruˇcenjem komponente W oddaliti semantiˇcno komponento O.

Konˇcna izgubna funkcija je uteˇzena vsota posameznih izgubnih funkcij, de- finirana kot

`wws`wsce`ce, (3.36) kjer `ce predstavlja izgubno funkcijo kriˇzne entropije, λce njeno uteˇz, λws pa uteˇz izgubne funkcije loˇcevanja vode `ws.

(50)

34 POGLAVJE 3. METODE

(51)

Poglavje 4

Eksperimentalna evalvacija

V tem poglavju analiziramo adaptacijske metode, opisane v Poglavju 3. V Poglavju 4.1 najprej opiˇsemo podatkovne zbirke, nato predstavimo upora- bljene metode evalvacije ter predstavimo parametre uˇcenja, uporabljene v eksperimentih. Ker mreˇza WaSR [5] vsebuje napredne metode regularizacije, smo najprej ˇzeleli ugotoviti, kako se adaptacijske metode odnesejo brez doda- tnih regularizacij. Z najboljˇso adaptacijsko metodo smo nato analizirali vpliv metode z uporabo vseh naprednih regularizacij in s tem istoˇcasno analizirali robustnost metode za regularizacijo. Tako v Poglavju 4.2 najprej analizi- ramo metode adaptacije z mreˇzo WaSR brez maske IMU in izgubne funkcije WS, ki jo naslavljamo kot reducirano mreˇzo WaSR, oznaˇceno z WaSRred. Nato pa v Poglavju 4.3 analiziramo metode adaptacije z uporabo referenˇcne mreˇze WaSR z masko IMU in izgubno funkcijo WS, naslovljeno kot popolna mreˇza WaSR, oznaˇceno z WaSR. Za obe analizi je v Poglavju 4.4 prika- zana kvalitativna analiza, kjer primerjamo dobljene grafiˇcne rezultate vseh evalviranih metod za adaptacijo. Za uˇcenje adaptacijskih metod uporabimo parametre, ki so dosegli najboljˇse rezultate in so predstavljeni v ˇclankih. V nadaljevanju tega poglavja predstavimo tudi uporabljene hiperparametre za vse adaptacijske metode.

35

(52)

36 POGLAVJE 4. EKSPERIMENTALNA EVALVACIJA

4.1 Implementacijske podrobnosti

Vsi eksperimenti so izvedeni znotraj Docker instance na Vicos FRI, laborato- rijskem streˇzniku z dvema Intel(R) Xeon(R) Silver 4114 @ 2.20GHz procesor- jema (10 jeder/2 niti na procesor), 93GB delovnega pomnilnika ter grafiˇcni kartici GeForce RTX 2080 Ti z 11GB video spomina. Vsa implementacija metod je bila opravljena s programskim jezikom Python verzije 3.8 [40] v ogrodju PyTorch [41] in knjiˇznico CUDA verzije 10 (angl. Compute Uni- fied Device Architecture) za operacije na grafiˇcni kartici [42]. Evalvacija do- bljenih segmentacijskih mask sekvenc je bila opravljena v MatLabu [43] ter OpenCV [44] s prirejeno kodo, pridobljeno iz 1 [10, 39].

Vse evalvirane metode v svoji implementaciji v osnovi uporabljajo se- gmentacijsko mreˇzo DeepLab [9]. Za referenˇcno mreˇzo v eksperimentih smo izbrali mreˇzo WaSR, saj glede na ˇclanek, ki analizira segmentacijo v vodnem okolju [5], dosega najboljˇse rezultate. Za potrebe paketne normalizacije je v implementaciji vseh metod uporabljen paket, ki vsebuje 2 primera zaradi omejitve velikosti pomnilnika na grafiˇcni kartici. Vsem vhodnim slikam smo nastavili resolucijo na 512×384 ter jim odˇsteli povpreˇcno vrednost vseh RGB barvnih kanalov zbirke Imagenet [45], saj je kodirnik metode WaSR predtre- niran na tej zbirki. Metode smo trenirali na 100000 uˇcnih iteracijah z dvema slikama v skupini(angl. batch). Med uˇcenjem smo shranjevali vmesna stanja uteˇzi (angl. weights checkpoints). Za izbiro konˇcnih uteˇzi smo na obmoˇcju, kjer se vrednost izgube umiri, primerjali vizualne rezultate na eni sekvenci testne mnoˇzice in izbrali tisti model, ki proizvede najboljˇsi rezultat.

V Poglavju (4.1.1) najprej predstavimo podatkovne zbirke, uporabljene pri naˇsi analizi, nato v Poglavju (4.1.2) predstavimo metodo evalvacije in upo- rabljene performanˇcne mere. Sledijo poglavja, kjer predstavimo posebnosti ter konkretne vrednosti parametrov, uporabljenih pri uˇcenju za referenˇcno mreˇzo (Poglavje 4.1.3) ter adaptacijske metode FDA (Poglavje 4.1.4), In- traDA (Poglavje 4.1.5), DADT (Poglavje 4.1.6) ter BDL (Poglavje 4.1.7).

1https://github.com/bborja/modd

Reference

POVEZANI DOKUMENTI

Primeri tega so večnamenske obrazne maske, maske za vsakodnevno uporabo iz LSR, nazadnje pa je zasnoval novo masko s filtrom za enkratno uporabo, ki ga je mogoče enostavno

Vsakemu izmed njih lahko doloˇ cimo razliˇ cne lastnosti (pozicija, ve- likost, barva), poleg tega pa lahko na gradnike veˇ zemo ˇse akcije (dogodki ob interakciji, npr. klik na

Ker so študentke iz dežel z različnimi kulturnimi in drugimi posebnostmi, razen tega pa se razlikujejo med seboj tudi po različnih pokl~cnih izkušnjah, se v enem delu programa

Ulomka, ki se razlikujeta v števcu in imenovalcu, primerjamo med seboj tako, da ju najprej razširimo na skupni imenovalec, nato pa ju primerjamo kot ulomka z

To v centralistično urejenih skupnostih, ki so potrjevale večnost monarhije, ni bilo mogoče (Ennoscia idr., 2000). Med zelo pomembno afriško plastiko spadajo tudi maske. Lahko

Hipotezi sem preverjala potem, ko so si dijaki izdelali maske in sem jim ob slikovnem gradivu predstavila maske primitivnih ljudstev ter maske starogrške tragedije. Poskušala

Če med seboj primerjamo odgovore anketiranih posameznikov na vprašanje, katere storitve jim nudi osebni bančnik, ter podatke, pridobljene s strani bank, bi lahko storitev

Moč maske v literaturi: Arthur Schnitzler in Rainer Maria Rilke Ključne besede: maska, fin de siècle, Sanjska novela, Zapiski Malteja Lauridsa Brigge- ja, identiteta. V navezavi