• Rezultati Niso Bili Najdeni

Ljubljana,2022 Virtualnopomerjanjefrizurzuporabogenerativnihnevronskihmodelov AndraˇzPuc UniverzavLjubljani

N/A
N/A
Protected

Academic year: 2022

Share "Ljubljana,2022 Virtualnopomerjanjefrizurzuporabogenerativnihnevronskihmodelov AndraˇzPuc UniverzavLjubljani"

Copied!
118
0
0

Celotno besedilo

(1)

Univerza v Ljubljani

Fakulteta za elektrotehniko

Andraˇz Puc

Virtualno pomerjanje frizur z uporabo generativnih nevronskih

modelov

Magistrsko delo

Magistrski ˇstudijski program druge stopnje Elektrotehnika

Mentor: izr. prof. dr. Vitomir ˇ Struc

Ljubljana, 2022

(2)
(3)

Zahvala

Za strokovno podporo in redno vodenje skozi proces izdelave zakljuˇcnega dela se najprej zahvaljujem mentorju izr. prof. dr. Vitomirju ˇStrucu. Zahvale mlademu raziskovalcu mag. Martinu Pernuˇsu in asistentki mag. Mariji Ivanovski, ki sta mi pomagala s hitrimi nasveti, deljenjem gradiva in tehniˇcno pomoˇcjo med iz- vajanjem projekta. Zahvala gre tudi vsem, s katerimi smo skupaj sodelovali pri projektu DeepBeauty, za vse ideje in razprave na naˇsih sestankih.

Iskreno se zahvaljujem druˇzini in prijateljem, predvsem starˇsem in sestri za pomoˇc in moralno podporo v stresnih trenutkih.

iii

(4)
(5)

Povzetek

Generativna nasprotniˇska omreˇzja (angl. Generative Adversarial Networks - GAN) so v zadnjih letih ena izmed najatraktivnejˇsih globokih modelov za ge- neriranje semantiˇcnih podatkov, tudi na podroˇcju biometrije. Koncept dveh mo- dulov, generatorja in diskriminatorja, ki si med uˇcenjem nasprotujeta, se izkaˇze za izredno moˇcno metodo postavitve omreˇzne arhitekture. V teoriji pride med uˇcenjem modelov GAN do tekme med obema moduloma. Izkaˇze se, da je v praksi teˇzko uspeˇsno nauˇciti tovrsten sistem, ki je stabilen, a uporaba razliˇcnih metod in pristopov omogoˇca uspeˇsno uˇcenje takih modelov.

Generativna narava omreˇzij GAN z dobro nauˇcenim modelom praktiˇcno omogoˇca neomejene moˇznosti uporabe podatkov, ustvarjenih na tak naˇcin. Raz- iskovalcem je v zadnjih letih zanimanje vzbudilo predvsem podroˇcje generiranja in manipulacije slik ˇclovekovega obraza. Najboljˇse rezultate na tem podroˇcju do- segata modela StyleGAN in njegov naslednik StyleGAN2, ki sta ustvarjena prav z namenom generiranja hiperrealistiˇcnih (angl. hyper-realistic) slik ˇclovekovih obrazov z moˇznostjo dodatnega spreminjanja ustvarjenih slik.

V priˇcujoˇcem delu opiˇsemo razvoj modela za manipulacijo frizure na sliki ˇ

clovekovega obraza v visoki loˇcljivosti in pri tem uporabimo razliˇcne metode sli- kovnega procesiranja. Naˇsi pristopi v osnovi temeljijo na uporabi razvozlanega oz. razpletenega latentnega prostora generatorja StyleGAN2, v katerem lahko predstavimo poljubno resniˇcno sliko z zapisom v latentni vektor. Pri postopku neposredne manipulacije latentnih projekcij slik uporabimo pristop pogojenega premika ˇcez hiperravnine (angl. hyperplane), ki jih poiˇsˇcemo z uˇcenjem kla- sifikatorja SVM (angl. Support Vector Machine - SVM) podpornih vektorjev na oznaˇceni podatkovni zbirki. Model dodatno omogoˇca neposredno preslikavo celotne frizure osebe z referenˇcne slike na vhodno sliko, kjer uporabimo raznovr- v

(6)

stne klasiˇcne metode slikovnih tehnologij v kombinaciji z novodobnimi procesi, ki jih omogoˇca izredna moˇc generatorja StyleGAN2. Poudarimo tudi problema- tiko ohranjanja obrazne identitete pri uporabljenih procesih in za slednje doda- tno poskrbimo z uporabo opisanih postkorekcijskih postopkov konˇcnega kodiranja (angl. encoding) in preslikave kljuˇcnih obraznih karakteristik. Predstavimo rezul- tate naˇsega pristopa in dodatno analiziramo kljuˇcne elemente modela, ki vplivajo na uspeˇsnost tovrstnih manipulacij. Izvedemo tudi primerjalno ˇstudijo, v kateri pridobljene rezultate primerjamo z nekaterimi trenutno najnaprednejˇsimi (angl.

state-of-the-art) modeli, ki prav tako specifiˇcno omogoˇcajo manipulacijo frizure na sliki ˇclovekovega obraza.

Kljuˇcne besede: umetna inteligenca, globoki model, generativno nasprotniˇsko omreˇzje, StyleGAN2, latentni vektor, manipulacija slike, stil frizure

(7)

Abstract

Generative Adversarial Networks – GANs have in recent years shown to be one of the most ground-breaking approaches for deep models used in generating seman- tic data. This is also true in the field of biometrics. The concept of two modules, generator and discriminator, that oppose each other during the training process, seems to be an incredibly powerful idea when designing a neural network archi- tecture. In theory, it leads to an adversarial game between the two actors. This appears to be troublesome in practice, when training such systems in a stable manner, however, different methods and approaches enable successful training of such models.

Generative nature of GAN networks, that are successfully trained, practically allows us to use this kind of generated data in unlimited ways. Researchers have in recent years especially shown interest in generating and manipulating images of human faces. The best results on this field are achieved by models StyleGAN and its successor StyleGAN2, which are created specifically for generating hyper- realistic images of human faces with possibilities of additional manipulations of the generated images.

In this work we describe the development of our model for hairstyle manipula- tion on high resolution images of human faces, where we use different methods of image processing. Our approaches are based on usage of the disentangled latent space of the StyleGAN2 generator in which we first reconstruct an arbitrary real image. In our process of direct manipulation of the latent image projections, we use a conditional manipulation approach using hyperplanes, that we determine when training an SVM (Support Vector Machine) classificator on a labelled data- base. The model additionally allows for complete hairstyle transformation from a reference image onto the input image. We use different classical methods of vii

(8)

imaging technologies in combination with modern approaches, that are mainly enabled by the powerful StyleGAN2 generator. Additionally, we emphasize the importance of face identity preservation when employing described methods. The latter is dealt with by using specific post correction processes of final encoding and the transformation of key facial characteristics. Lastly, we present our results and additionally analyse key elements of the model, that affect the success of our manipulations. We perform an ablation study, where we compare found results with some other models, that specifically allow for hairstyle manipulation on an image of a human face.

Key words: artificial intelligence, deep model, generative adversarial network, StyleGAN2, latent vector, image manipulation, hairstyle

(9)

Vsebina

1 Uvod 1

1.1 Opis problema . . . 2

1.2 Cilji zakljuˇcnega dela . . . 2

1.3 Struktura zakljuˇcnega dela . . . 3

2 Sorodna dela 5 2.1 Zaˇcetek in razvoj generativnih nasprotniˇskih omreˇzij . . . 5

2.2 Prihod modelov StyleGAN in StyleGAN2 . . . 9

2.3 Manipulacija las in drugih detajlov ˇclovekovega obraza . . . 12

2.4 Raziskovanje in razumevanje latentnega prostora . . . 16

3 Teoretiˇcno ozadje 19 3.1 Arhitektura StyleGAN . . . 19

3.2 Novosti arhitekture StyleGAN2 . . . 23

3.3 Nadaljnja dela avtorjev modelov StyleGAN . . . 27

4 Metodologija 31

ix

(10)

4.1 Pregled celotnega modela . . . 31

4.2 Zapis slike v latentni prostor . . . 33

4.2.1 Implementacija po predlagani metodi avtorjev StyleGAN2 35 4.2.2 Model encoder4editing . . . 37

4.3 Sprememba z neposredno manipulacijo latentnih vektorjev . . . . 39

4.3.1 Iskanje hiperravnin v latentnem prostoru . . . 40

4.3.2 Manipulacija latentnega vektorja . . . 44

4.3.3 Pogojena manipulacija latentnega vektorja . . . 47

4.4 Prenos oblike in stila frizure . . . 49

4.4.1 Segmentacija . . . 49

4.4.2 Prenos referenˇcne frizure na vhodni obraz . . . 50

4.4.3 Model za vslikavanje manjkajoˇcih obmoˇcij . . . 54

4.4.4 Izboljˇsanje rezultatov z manipulacijo rotacije referenˇcne slike 57 4.4.5 Izboljˇsanje rezultatov z uporabo Shepardove distorzije . . . 58

4.5 Postkorekcija izhodne slike . . . 62

4.5.1 Izhodno kodiranje . . . 62

4.5.2 Ohranjanje identitete . . . 63

4.5.3 Implementacija . . . 65

4.5.3.1 Implementacijski detajli . . . 65

4.5.3.2 Nastavljeni parametri v modelu . . . 67

(11)

Vsebina xi

5 Rezultati in razprava 69

5.1 Podatkovne zbirke . . . 69 5.1.1 Podatkovna zbirka CelebA HQ . . . 69 5.1.2 Podatkovna zbirka FFHQ . . . 70 5.1.3 Podrobnejˇsa analiza podatkovne zbirke CelebA HQ . . . . 71 5.2 Rezultati neposredne in pogojene manipulacije . . . 75 5.3 Rezultati metode za preslikavo z referenˇcne slike . . . 79 5.4 Primerjalna ˇstudija . . . 82

6 Zakljuˇcek 87

Literatura 89

(12)
(13)

Seznam slik

2.1 Primeri umetno ustvarjenih slik modela GAN. . . 6

2.2 Arhitektura modela ProGAN . . . 8

2.3 Prenos stila. . . 9

2.4 Primer s strani www.whichfaceisreal.com . . . 11

2.5 Rezultati meˇsanja stila dveh slik. . . 14

2.6 Primeri pridobljenih pomenskih smeri modela GANalyze z upo- rabo omreˇzja MemNet. . . 17

3.1 Primerjava tradicionalne in nove arhitekture StyleGAN. . . 20

3.2 Vpliv ˇsuma v StyleGAN. . . 23

3.3 Novosti arhitekture StyleGAN. . . 25

3.4 Primerjava notranje omreˇzne predstavitve StyleGAN2 in Alias- Free GAN. . . 28

4.1 Shema modela HAIR-GAN. . . 32

4.2 Zapisovanje vhodne slike v latentni vektor. . . 33

4.3 Rezultat procesa GAN inverzije. . . 36 xiii

(14)

4.4 Primeri latentnih zapisov slik CelebA HQ. . . 38

4.5 Ponazoritev linearne meje v 2D in 3D prostoru. . . 40

4.6 Povpreˇcne uspeˇsnosti nauˇcenega klasifikatorja SVM. . . 46

4.7 Prikaz rezultatov procesa latentnih manipulacij. . . 48

4.8 Shematski prikaz postopka in rezultatov procesa loˇcevanja pomen- skih regij. . . 50

4.9 Rezultati procesa loˇcevanja pomenskih regij. . . 51

4.10 Primeri uporabljenih in pridobljenih slik procesa neposredne pre- slikave frizure. . . 53

4.11 Kombinirana slika . . . 54

4.12 Shematski prikaz vslikavanja in rezultatov z BRGM . . . 55

4.13 Primeri uporabljenih in pridobljenih slik pri procesu vslikavanja. . 56

4.14 Primer preslikave oz. meˇsanja rotacije na latentnih zapisih. . . 58

4.15 Primer detekcije oblike obraza na poljubno izbrani sliki. . . 60

4.16 Rezultati Shepardove distorzije. . . 61

4.17 Zaznava kljuˇcnih regij za prenos pri ohranjanju identitete. . . 64

4.18 Primeri uporabljenih in pridobljenih slik pri opisanih postkorekcij- skih procesih. . . 65

5.1 Primeri slik iz CelebA HQ in FFHQ. . . 71

5.2 Porazdelitev ras v podatkovni zbirki CelebA HQ. . . 73

5.3 Barva las glede na raso v podatkovni zbirki CelebA HQ. . . 74

(15)

Seznam slik xv

5.4 Primerjava deleˇzev razredov, pogojenih s soodvisnimi razredi v CelebA HQ. . . 75 5.5 Primeri rezultatov neposredne in pogojene manipulacije. . . 76 5.6 Prikazani rezultati latentne manipulacije v razliˇcnih smereh. . . . 77 5.7 Rezultati latentne manipulacije z ohranjanjem identitete. . . 78 5.8 Primer vhodnih, referenˇcnih in rezultirajoˇcih slik. . . 80 5.9 Matrika vhodnih, referenˇcnih in rezultirajoˇcih slik. . . 81 5.10 Primeri manipulacij z modelom HAIR-GAN in drugimi modeli. . 85

(16)
(17)

Seznam tabel

3.1 Primerjava postopno izboljˇsanih rezultatov FID v izvirnih ˇclankih StyleGAN in StyleGAN2. . . 24 4.1 Celoten nabor anotacij v podatkovni zbirki CelebA HQ. . . 42 4.2 Nabor izbranih anotacij v podatkovni zbirki CelebA HQ. . . 43 4.3 Slabˇse definirane karakteristike v dobljenih latentnih smereh. . . . 48 5.1 Rezultati FID modela HAIR-GAN in ostalih modelov s katerimi

ga primerjamo. . . 84

xvii

(18)
(19)

Seznam uporabljenih kratic

V priˇcujoˇcem zakljuˇcnem delu so uporabljene naslednje kratice:

Kratica Slovensko Angleˇsko

GAN Generativno nasprotniˇsko

omreˇzje

Generative Adversarial Network

HAIR-GAN GAN za spreminjanje fri- zure z ohranjanjem identi- tete

Hair Alteration with Iden- tity Retention GAN

SVM Metoda podpornih vektor-

jev

Support Vector Machine StyleGAN Stilno generativno naspro-

tniˇsko omreˇzje

Style Generative Adversa- rial Network

WGAN Generativno nasprotniˇsko omreˇzje Wasserstein

Wasserstein Generative Adversarial Network

WGAN-GP WGAN z gradientno ka-

znijo

WGAN with Gradient Pe- nalty

CGAN Pogojeno generativno na-

sprotniˇsko omreˇzje

Conditional Generative Adversarial Network DCGAN Konvolucijsko generativno

nasprotniˇsko omreˇzje

Deep Convolutional Ge- nerative Adversarial Ne- twork

ProGAN Postopno generativno na- sprotniˇsko omreˇzje

Progressive Generative Adversarial Network AdaIN Adaptivna instanˇcna nor-

malizacija

Adaptive Instance Norma- lization

xix

(20)

Kratica Slovensko Angleˇsko FID Fr´echetova incepcijska raz-

dalja

Fr´echet Inception Distance PPL Dolˇzina zaznavne poti Perceptual Path Length

CNN Konvolucijsko nevronsko

omreˇzje

Convolutional Neural Ne- twork

RSAGN Generativno nasprotniˇsko omreˇzje z loˇcevanjem regij

Region Separative Genera- tive Adversarial Network LOHO Latentna optimizacija fri-

zure z ortogonalizacijo

Latent Optimization of Hairstyles via Orthogona- lization

CLIP Jezikovno-slikovno pred-

uˇcenje

Contrastive Language- Image Pretraining

ResNet Omreˇzje z ostankom Residual Network StyleGAN2-ADA StyleGAN2 z dodatkom

adaptivnega poveˇcevanja diskriminatorja

StyleGAN2 with Adaptive Discriminator Augmenta- tion

e4e Kodirnik za urejanje Encoder4editing

LEC Konsistenca latentnega

urejanja

Latent Editing Consi- stency

RBF Radialna bazna funkcija Radial Basis Function

(21)

1 Uvod

Generiranje ˇcloveku realistiˇcnih slik z uporabo generativnih globokih modelov ponuja vrsto razliˇcnih praktiˇcnih aplikacij, kot so sinteza unikatne slike, super- resolucija, manipulacija in meˇsanje slik, vslikavanje (angl. inpainting), interak- tivno generiranje slike, estimacija in manipulacija poze, ter ˇstevilne druge naˇcine manipulacije po volji [1, 2, 3, 4, 5]. S poljubnim spreminjanjem parametrov sintetizirane slike imamo praktiˇcno neomejene moˇznosti v spreminjanju atribu- tov predmeta na sliki. Specifiˇcno, generiranje in manipulacija slike ˇclovekovega obraza sta s prodorom novih, moˇcnejˇsih generativnih modelov v zadnjih letih dosegla rezultate, ki bi lahko pomenili revolucionarne spremembe predvsem na podroˇcju zabavne industrije in umetnosti. V omenjenih panogah industrije bi to pomenilo nove pristope v ustvarjanju in produkciji vsebin [6]. Obveˇsˇcenemu bralcu ni veˇc nepredstavljivo, da bi lahko v nekaj letih v kinodvoranah gledali filme brez igralcev in po radiu posluˇsali glasbo, ki je niso ustvarili glasbeniki.

Obrazi so za ˇcloveka eden najpomembnejˇsih vizualnih draˇzljajev, ki jih zazna- vamo v vsakodnevnem ˇzivljenju [7]. Posebnost procesiranja ˇclovekovega obraza je znan problem na podroˇcju umetne inteligence. Nevroloˇske ˇstudije ˇclovekovih moˇzganov nakazujejo evolucijski razvoj posebnih ˇzivˇcnih centrov, ki so namenjeni izkljuˇcno vizualni zaznavi in obdelavi ˇclovekovega obraza. Zaradi tega smo ljudje sposobni ˇze samo v hitrem trenutku z obraza razbrati identiteto osebe in glavne atribute, kot so rasa, spol, starost ipd. Seveda to pomeni tudi veˇcjo sposobnost zaznave neskladij. Prav zaradi tega so raziskovalci na podroˇcju biometrije potre- bovali veˇc ˇcasa za razvoj modelov, ki proizvedejo kakovostne rezultate v visoki loˇcljivosti na tak naˇcin, da jih ˇclovek teˇzko ali pa sploh ne more veˇc razbrati kot umetno ustvarjene podatkovne vzorce.

1

(22)

1.1 Opis problema

Trenutno najnovejˇsi modeli [8, 9, 10, 11] omogoˇcajo uporabo naprednih tehnik in orodij ter s tem razvoj aplikacij, ki dovoljujejo uporabniku realistiˇcno spremi- njanje atributov slik ˇclovekovega obraza. Sem spadata tudi sprememba in prenos frizure. Razvoj aplikacije za realistiˇcen prenos in manipulacijo frizure na sliki ˇ

clovekove glave je torej po naˇsem mnenju mogoˇc cilj in primerna toˇcka za po- drobnejˇsi vpogled v najmodernejˇse metode, ki jih v delu uporabimo za doseganje poroˇcanih rezultatov razvitega modela.

Model uporabniku aplikacije za virtualno pomerjanje frizure dovoljuje mani- pulacijo frizure na vhodni sliki. V komercialnem smislu lahko tak model nudi storitev, s katero stranki svetuje ali nakazuje primerno izbiro novega stila frizure.

V naˇsem modelu poleg glavne vhodne slike uporabnik lahko doda ˇse referenˇcno sliko, s katere ˇzeli frizuro pomeriti oz. preslikati. Omogoˇcena je torej tako direk- tna manipulacija kot tudi preslikava definiranega stila iz referenˇcne informacije.

Uporabnik pri direktni manipulaciji karakteristik frizure vhodne slike lahko upra- vlja veˇc parametrov, ki jih opiˇsemo v nadaljevanju. Model omogoˇca manipulacijo vrsto razliˇcnih karakteristik frizure in stila. Prav tako je omogoˇcena skupna ma- nipulacija, pri kateri uporabnik lahko najprej preslika referenˇcno frizuro in nato dodatno manipulira izbrane parametre preslikane frizure.

1.2 Cilji zakljuˇ cnega dela

V okviru priˇcujoˇcega dela ˇzelimo preuˇciti podroˇcje manipulacij karakteristik na slikah ˇclovekovega obraza. Obravnavamo trenutno najnovejˇse modele GAN, zla- sti StyleGAN2, ki dosegajo najboljˇse rezultate na podroˇcju. Specifiˇcno se osre- dotoˇcimo na raziskovanje in razvoj modela za manipulacijo las. V sklopu magi- strskega dela postavimo naslednje poglavitne cilje:

• Prvi in glavni cilj, ki si ga zastavimo, je uspeˇsen razvoj aplikacije za mani- pulacijo stila frizure na poljubni sliki ˇclovekovega obraza v visoki loˇcljivosti.

Razviti ˇzelimo celovit algoritem s poudarkom na doseganju ˇcim boljˇsih re- zultatov pri manipulaciji toˇcno doloˇcenih karakteristik frizure na vhodnih

(23)

1.3 Struktura zakljuˇcnega dela 3

slikah. Pri razvoju modela ˇzelimo uporabiti najnovejˇse in najuspeˇsnejˇse teh- nologije na podroˇcju generativne umetne inteligence v biometriji. Uspeˇsnost opisanega lahko ponudi zanimive ugotovitve glede trenutne moˇznosti upo- rabe takih modelov v komercialne namene.

• Raziskava zmogljivosti latentnega prostora StyleGAN2. S poudarkom na modelu StyleGAN2 se dodatno osredotoˇcimo na generatorjev latentni pro- stor. Ta je v zadnjih letih na podroˇcju povzroˇcil val zanimanja in je tematika mnogih del, ki se ukvarjajo s tovrstno raziskavo [12, 13, 14]. S preuˇcevanjem in uporabo raznovrstnih pristopov pri neposredni manipulaciji latentnih za- pisov ˇzelimo doseˇci zadovoljive in primerljive rezultate z drugimi deli, v naˇsem primeru specifiˇcno za manipulacijo stila frizure. Z raziskovanjem latentnega prostora ˇzelimo globlji vpogled v moˇznosti, ki nam jih prostor modela StyleGAN2 ponuja za potrebe manipulacije karakteristik frizure.

• Moˇznost realistiˇcne preslikave frizure s poljubne referenˇcne slike. Poleg neposrednih manipulacij ˇzelimo ustvariti robusten in kakovosten model za prenos kateregakoli poljubno definiranega stila frizure, podanega na neki referenˇcni sliki. Uspeˇsnost naˇsega modela med naˇcrtovanjem izvedbe do- datno pogojujemo z nudeno raznolikostjo v njegovi aplikativnosti. Narava problema slikovne manipulacije frizure po naˇsem mnenju zahteva usmerja- nje pozornosti tudi na omenjeno problematiko.

• Analizirati uspeˇsnost razvitega modela kot celote in ga primerjati z ne- katerimi drugimi modeli, ki nudijo zmoˇznost manipulacije las. Uspeˇsnost modela ˇzelimo ocenjevati predvsem po predpostavki, da mora biti izgled manipuliranih slik realistiˇcen in prepriˇcljiv. S preuˇcevanjem in primerjavo pridobljenih rezultatov ˇzelimo demonstrirati uspeˇsnost uporabljenih pristo- pov.

1.3 Struktura zakljuˇ cnega dela

Magistrsko delo razdelimo na veˇc poglavij. V prvem poglavju predstavimo moti- vacijo za delo, zastavljene cilje in strukturo.

(24)

V drugem poglavju predstavimo sorodna dela. Najprej opiˇsemo osnovni kon- cept in zaˇcetke omreˇzij GAN ter nadaljujemo v kronoloˇskem redu in se ustavimo pri vsakem od pomembnejˇsih del, ki na podroˇcju pomenijo veˇcji korak proti ra- zvoju obravnavanih tehnologij StyleGAN in StyleGAN2. Modela tudi natanˇcneje opiˇsemo. Nadaljujemo s podrobnejˇsim vpogledom v podroˇcje manipulacije ka- rakteristik ˇclovekovega obraza na slikah. Na koncu poglavja povzamemo tudi nekatere ˇstudije, ki se ukvarjajo z razumevanjem latentnega prostora generator- jev modelov GAN.

Sledi tretje poglavje, v katerem predstavimo teoretiˇcno ozadje omenjenih mo- delov in pobliˇze spoznamo arhitekturo tako modela StyleGAN kot tudi njegovega naslednika StyleGAN2. Za vpogled v relevantnost opisanih modelov v grobem predstavimo tudi najnovejˇsa udejstvovanja avtorjev StyleGAN, ki svoje delo na- daljujejo v smer razvoja arhitekture StyleGAN.

Cetrto poglavje sluˇˇ zi za predstavitev uporabljenih metodologij, v njem naˇse delo opiˇsemo kot celoto in nadaljujemo v smiselnih sklopih, v katerih podrobneje predstavimo gradnike modela. Poglavje loˇcujemo na tri glavne sklope, v katerih natanˇcneje predstavimo pristope pri razvoju konˇcnega izdelka. To so pogojena manipulacija latentnih zapisov, neposreden prenos oblike in stila frizure z refe- renˇcne slike ter uporabljeni postkorekcijski pristopi.

V petem poglavju opiˇsemo uporabljeni podatkovni zbirki in ponudimo vpo- gled v njune glavne znaˇcilnosti. Podrobneje analiziramo in izpostavimo nekatere lastnosti uporabljene zbirke CelebA HQ. Predstavimo rezultate, ki jih tudi ko- mentiramo v razpravi. Nazadnje jih v primerjalni ˇstudiji primerjamo z nekaterimi drugimi deli na podroˇcju manipulacije slik ˇclovekovih obrazov s poudarkom na manipulaciji las in frizure.

S ˇsestim poglavjem delo zakljuˇcimo in ˇse enkrat povzamemo kljuˇcne toˇcke, dognanja in glavne zakljuˇcke celotnega magistrskega dela.

(25)

2 Sorodna dela

2.1 Zaˇ cetek in razvoj generativnih nasprotniˇ skih omreˇ zij

Generativno nasprotniˇsko omreˇzje GAN je model v strojnem uˇcenju, ki je v rela- tivno kratkem ˇcasu ponesel generativno strojno uˇcenje v nove vrhove rezultatov umetne inteligence. Goodfellow in sodelavci so leta 2014 [15] predstavili v osnovi preprost koncept zdruˇzitve dveh nevronskih omreˇzij, generatorja in diskrimina- torja oz. nasprotnika.

Takratni odmevni rezultati (slika 2.1) nasprotniˇskih omreˇzij (angl. adversa- rial networks) z uporabo priljubljenih algoritmov vzvratnega razˇsirjanja (angl.

backpropagation) in metode nakljuˇcnega izpusta nevronov (angl. dropout) av- torjem vzbudijo ˇzeljo po izboljˇsanju generativnih modelov, ki so tedaj zaradi nujnosti uporabe neobvladljivih matematiˇcnih pristopov proizvajali nezadovoljive rezultate. Z modeli GAN so popolnoma obˇsli omenjene teˇzavnosti generatorjev in razvili povsem nov tip globokih modelov. Modeli GAN so v zadnjih letih pri- nesli ogromno zanimanja in razvoja na celotnem znanstvenem podroˇcju strojnega uˇcenja, ukvarjajoˇc se z vsemi glavnimi biometriˇcnimi podatkovnimi tipi, kot so naravne slike, zvoˇcni signali govora in razliˇcni drugi simboli ˇcloveˇske komunika- cije [16]. V osnovi se v predlaganem modelu generator pomeri proti nasprotniku, diskriminativnemu modelu. Slednji se uˇci doloˇcati, kam trenutni vzorec spada: v mnoˇzico distribucije generativnega modela ali mnoˇzico distribucije uˇcnih podat- kov. Generator se hkrati uˇci preslikati ˇsum nakljuˇcnih podatkov v informacijo, ki se ujema z distribucijo resniˇcnih podatkov. Avtorji v ˇclanku generator primerjajo s ponarejevalcem denarja, ˇcigar cilj je imitirati in uporabiti denarno valuto, ne da bi ga razkrinkala policija, diskriminator. Ta poskuˇsa razpoznati ponarejen 5

(26)

Slika 2.1: Primeri umetno ustvarjenih slik, prikazanih kot rezultat v ˇclanku prvega modela GAN. Vir slike: [15].

denar. V taki igri medsebojno tekmovanje obeh akterjev privede do izboljˇsanja obeh strani pri svojih nalogah. V praktiˇcnem pomenu je cilj opisanega procesa sˇcasoma generirati vzorce, ki jih ˇclovek ne more loˇciti od resniˇcnih vzorcev.

V modelih GAN se pojavi izraz skrite oz. latentne spremenljivke, ki se uve- ljavi ˇze v mnogih drugih predhodnih modelih. Pojem oznaˇcuje reprezentacije podatkov, do katerih je med uˇcenjem modela nemogoˇce dostopati in jih spremi- njati. Latentni prostor je v grobem le predstavitev podatkovnih toˇck, v katerem so podobne podatkovne toˇcke bliˇzje skupaj. Predstavljamo si lahko primer, ko opazujemo in razberemo ravnanje osebe v neki situaciji, vendar nimamo nepo- srednega vpogleda v njeno miˇsljenje. Nadaljnja raziskovanja so nakazala neka- tere veˇcje izzive uspeˇsnega uˇcenja takih modelov. Modeli GAN so se izkazali za delikatne sisteme, pri katerih je zelo pomembna stabilnost obeh glavnih de- lov arhitekture. Poleg dveh glavnih struktur sta pomemben del modela tudi

(27)

2.1 Zaˇcetek in razvoj generativnih nasprotniˇskih omreˇzij 7

generatorjeva in diskriminatorjeva izgubna funkcija (angl. loss function) ter opti- mizacijski algoritem, katerega naloga je najti globalno ravnoteˇzje obeh akterjev.

Selekcija primernih pristopov do implementacije omenjenih gradnikov je bistve- nega pomena, ˇce ˇzelimo zagotoviti napredek v zmogljivosti tako generatorja kot diskriminatorja. V nasprotnem primeru pride do pogubnih pojavov, kot so ko- laps predikcije (angl. mode collapse), neuspeh konvergence ali oscilatornost in zaustavljanje uˇcenja, ki se kaˇze v pojavu izginjajoˇcega gradienta (angl. vanishing gradient) [17].

Z mnogimi predlaganimi variacijami modelov GAN so je postopoma ra- zreˇsevalo temeljne probleme uˇcenja in se hkrati usmerjalo v razliˇcna podroˇcja umetne inteligence. Wasserstein GAN (WGAN) [18] z vpeljavo Wassersteinove razdalje spremeni pristop predajanja informacije od diksriminatorja do genera- torja, kar za uˇcenje modelov GAN pomeni veˇcjo stabilnost. WGAN z gradientno kaznijo WGAN-GP (angl. WGAN with Gradient Penalty) [19] doda novost gra- dientne kazni diskriminatorjeve izgubne funkcije, kar naknadno stabilizira uˇcni proces in drastiˇcno zmanjˇsa potrebo po dodatnem nastavljanju hiperparame- trov. Pogojeno generativno nasprotniˇsko omreˇzje CGAN (Conditional Generative Adversarial Network - CGAN) vkljuˇcuje v uˇcenje dodatno informacijo o uˇcnih podatkih, ki pogojuje tako generator kot diskriminator. Poslediˇcno je mogoˇce nadzirati generatorjev izhod, poleg tega pa med uˇcenjem hitreje pride do konver- gence [20]. Absoluten prodor globokih modelov GAN na podroˇcju generiranja slik sproˇzi razvoj globokih konvolucijskih generativnih nasprotniˇskih omreˇzij DCGAN (Deep Convolutional Generative Adversarial Network - DCGAN), ki tedaj upo- rabljeno standardno nevronsko omreˇzje, veˇcslojni perceptron (angl. multilayer perceptron), nadomesti s transponiranim konvolucijskim slojem, imenovanim de- konvolucijski sloj (angl. Deconvolution layer) [21]. Konvolucijske operacije so hitro postale temelj modernih arhitektur GAN. Pomembno prelomnico v gene- riranju fotorealistiˇcnih slik v visoki loˇcljivosti predstavlja postopno generativno nasprotniˇsko omreˇzje ProGAN (angl. Progressive GAN). Karras in skupina raz- vijalcev pri podjetju NVIDIA [22] razvijejo novo metodologijo uˇcenja za modele GAN, s katero tako generator kot diskriminator uˇcijo postopno, z zaˇcetkom pri niˇzji resoluciji in stopnjevanjem do vseh veˇcjih detajlov (slika 2.2). S postopnim dodajanjem slojev viˇsje resolucije doseˇzejo veˇcjo stabilnost in hitrost uˇcnega pro- cesa. Generator in diskriminator z dodajanjem slojev sinhrono rasteta. Poroˇcajo

(28)

o takrat izjemnih rezultatih generiranih slik v loˇcljivosti 1024×1024 slikovnih toˇck.

Latentnivektor Latentnivektor Latentnivektor

Napredovanje učenja

Slika 2.2: Prikazana je arhitektura modela ProGAN, ki postopno generira rezul- tate v vse veˇcji slikovni loˇcljivosti. Vir slike: [22].

Uporaba modelov GAN se v zadnjih letih ˇsiri tudi na druga podroˇcja indu- strije. V medicini na podroˇcju histologije in radiologije poroˇcajo o njihovi uspeˇsni uporabi modelov GAN za analizo slik. Manipulacija in analiza tovrstnih gene- riranih slik lahko pripomore k hitrejˇsemu zaznavanju vzorcev, odkrivanju novih indikatorjev in razkrivanju morebitnih ˇclovekovih pristranskosti [23]. V modni panogi uporabljajo sintetiˇcno ustvarjene slike pri analizi potroˇsnikovih reakcij na doloˇcene spremembe ali novosti pri izdelkih, ki bi lahko priˇsli na trg [24]. Finanˇcna industrija arhitekture GAN lahko uporablja kot pomoˇc za generiranje ˇcasovnih vrst in drugih statistiˇcnih podatkovnih tipov, ki se pojavljajo v finanˇcni analizi [25]. Zaradi vse veˇcje senzoriˇcne pokritosti industrijskih obratov modeli GAN predstavljajo morebitno reˇsitev tudi pri razliˇcnih optimizacijskih in detekcijskih procesih v avtomatiki [26]. Uˇcenje kakovostnih modelov, ki zaznavajo napake v kontinuirnih industrijskih procesih, veˇckrat prepreˇcuje pomanjkanje kakovostnih podatkov, ki predstavljajo poˇskodovane oz. nepravilne izdelke [27]. Generativna narava modelov GAN lahko torej zapolni luknjo manjkajoˇcih podatkovnih baz v mnogih primerih, kjer se ta problem pojavlja.

(29)

2.2 Prihod modelov StyleGAN in StyleGAN2 9

2.2 Prihod modelov StyleGAN in StyleGAN2

Karras in sodelavci nadaljujejo v smeri razvoja modelov GAN in decembra 2018 predstavijo nov model, stilno generativno nasprotniˇsko omreˇzje StyleGAN (angl. Style-Based Generative Adversarial Network – StyleGAN) [9]. Z uporabo razliˇcnih kompleksnih metodologij, ki so se razvile od prvih zaˇcetkov modelov GAN, jim uspe ustvariti hiperrealistiˇcne in visoko loˇcljivostne slike poljubnih vsebin s poudarkom na ˇclovekovih obrazih.

StyleGAN gradi na predhodni arhitekturi ProGAN in dodatno preoblikuje model generatorja na naˇcin, ki omogoˇca veˇcji nadzor nad sintezo slik v visoki loˇcljivosti. Hkrati je izboljˇsana stabilnost samega uˇcenja. Nov model generatorja v modelu StyleGAN temelji zgolj na spreminjanju zaˇcetnega vzorca in izvaja manjˇse modifikacije stila vhodnega podatka, torej slike, na vsakem konvolucijskem sloju omreˇzja. V osnovi generator najprej ustvari sliko v loˇcljivosti 4×4. Kadar je generativni proces uspeˇsen oz. generator in diskriminator konvergirata, generator ustvari sliko v loˇcljivosti 8×8. Postopno se proces nadaljuje do loˇcljivosti 1024× 1024.

Stilni del modela StyleGAN temelji na uporabi optimizacijskega algoritma nevronskega stilnega prenosa (angl. neural style transfer). Omenjena metoda je v osnovi iterativni proces preslikave, pri katerem se lahko vsebina prve vhodne slike zdruˇzi s stilom druge vhodne slike. To rezultira v konˇcni zdruˇzeni izhodni sliki, ki je po obliki preobraˇzena prva vhodna slika in se ujema s stilom druge vhodne slike (slika 2.3).

. . .

Slika 2.3: Prenos stila. Vir slike: [28].

(30)

Obstaja vrsta razliˇcnih metod stilnega prenosa. Izvorno predstavljen algori- tem [29] je kasneje dodatno izboljˇsan, zlasti nadgrajen s pohitrenimi aproksimaci- jami z uporabo usmerjenih (angl. feed-forward) nevronskih omreˇzij. To obˇcutno pohitri optimizacijski proces in razˇsirja moˇznosti uporabe v praksi. Ustvarjalci modela StyleGAN v njegovi konˇcni razliˇcici uporabijo adaptivno instanˇcno nor- malizacijo AdaIN (angl. Adaptive Instance Normalization - AdaIN) [30]. Model AdaIN izpusti optimizacijski proces in ga nadomesti zgolj z uporabo normali- zacijskih statistik na vsakem od 18 slojev. Tako lahko zanesljivo prenaˇsa stil v realnem ˇcasu ter brez omejevanja na prej definirano mnoˇzico stilov.

StyleGAN predstavlja inovativno nadgradnjo modela generatorja, ki dovo- ljuje uporabo nenakljuˇcnega vhodnega podatka in proces sestavljanja preobrazi v proces neposrednega spreminjanja. Pristop veˇcplastnega vstavljanja stilnega vek- torja omogoˇca kontroliranje razliˇcnih atributov vhodnega podatka, ki se v primeru slike obraza odraˇza v spremembi mnogovrstnih stilnih karakteristik. Metoda se izkaˇze za izredno uˇcinkovito v ustvarjanju realistiˇcnih slik obrazov, poleg tega pa omogoˇca meˇsanje in manipuliranje stilov, iskanje zapisov resniˇcnih slik in veˇc.

Februarja 2020 Karras in sodelavci objavijo novo delo [10], v katerem na- tanˇcneje analizirajo zmogljivost modela StyleGAN in predstavijo posodobljeno razliˇcico. Nova, izboljˇsana verzija modela StyleGAN, StyleGAN2, prinaˇsa novo- sti tako v arhitekturi kot postopku uˇcenja modela. Poslediˇcno model generira ˇse boljˇse rezultate, take, ki jih svet poprej ˇse ni videl.

Rezultati prvega modela StyleGAN so izredno dobri, ampak se na generiranih slikah ˇse vedno pojavijo razliˇcni artefakti (slika 2.4). V objavljenem ˇclanku av- torji izpostavijo in analizirajo nekatera znaˇcilna odstopanja s ciljem razreˇsitve v novi verziji. Med znane pojave spadajo uˇcinki, kot so popaˇcenje ozadja, razliˇcne nesomernosti, npr. specifiˇcna asimetrija oˇcal, nenaravni pojavi na teksturi las, nenaravni zobje, pojavljanje fluorescentnih barv in znaˇcilen uˇcinek vodne kapljice (angl. water droplets) [31]. Uˇcinek mehurˇckaste oblike oznaˇcijo kot sistemsko na- pako, ki se pojavi na vseh StyleGAN generiranih slikah, tudi ˇce ni neposredno opazen na konˇcni sliki. Fenomen, ki se najprej pojavi okoli resolucije 64×64 in se progresivno ojaˇcuje z viˇsanjem loˇcljivosti, pripisujejo uporabljeni normalizaciji AdaIN. Generator naj bi skrivoma zanalaˇsˇc ustvarjal moˇcna, lokalna odstopanja, ki prevladujejo med procesom normalizacijske statistike in lahko poljubno spre-

(31)

2.2 Prihod modelov StyleGAN in StyleGAN2 11

Slika 2.4: Prikazan je primer s spletne strani www.whichfaceisreal.com [31]. Igra, ki poda eno sliko resniˇcne osebe in eno StyleGAN ustvarjeno sliko. Uporabnik je izzvan, da ugotovi, katera je katera.

minja signal na drugih toˇckah. V ˇclanku ni pojasnjeno, zakaj diskriminator ne zazna tega dogajanja, ampak odstranitev oz. sprememba implementacije modula AdaIN uˇcinek vodne kapljice popolnoma odpravi.

Model StyleGAN2 izboljˇsa tudi kakovost generiranih slik oz. predmetov na sliki. Avtorji izpostavijo ˇze uporabljene evalvacijske metrike, kot nezadostne za vrednotenje same kakovosti slike. Tu omenijo tudi Fr´echetovo incepcijsko razdaljo FID (angl. Fr´echet inception distance - FID) ter toˇcnost in odpoklic (angl. Preci- sion and Recall), ki so sicer zelo dobra merila za uˇcenje generatorja, a ne zajamejo vseh karakteristik. Predpostavljeno je, da se teˇzava pojavi zaradi implementacije omenjenih metrik, ki pri kalkulacijah na slikah povzroˇci veˇcji poudarek na stilu in ne obliki, medtem ko se ljudje pri tovrstnih zaznavah osredotoˇcijo primarno na obliko [32]. V modelu StyleGAN avtorji ˇze predlagajo posebno metodo merje- nja kakovosti interpolacij v latentnem prostoru, tako imenovano dolˇzino zaznavne poti PPL (angl. perceptual path length - PPL). V novem ˇclanku je predlagana

(32)

uporaba metrike PPL na nov naˇcin. Izkaˇze se, da metoda doseˇze visoko korela- cijo s ˇclovekovo zaznavo same kakovosti generirane slike. Dolˇzina PPL je zaradi tega vkljuˇcena v posodobljen proces skupne normalizacije (angl. term normaliza- tion), postopka, ki vkljuˇcuje veˇc razliˇcnih metrik v eno skupno domeno. Dodatek regularizacije dolˇzine poti poslediˇcno uveljavi enakomernejˇse interpolacije laten- tnega prostora. Vpeljava regularizacije vodi do robustnejˇsega modela, ki ga je laˇzje spreminjati in preuˇcevati. Dovoljuje tudi laˇzjo inverzijo generatorja, ki je potrebna pri iskanju latentnega zapisa nekega realnega vhodnega podatka. Prav ta proces je kljuˇcen pri reˇsevanju problema manipulacije resniˇcnih slik.

Se en izpostavljen problem je moˇˇ cno nagnjenje do doloˇcenih pozicij obraznih detajlov, kot so usta ali oˇci, in poslediˇcno nenaravni poloˇzaji obraznih delov ob spreminjanju pozicije ali rotacije obraza. Pojav je pripisan uporabljenemu po- stopku postopnega generiranja od niˇzje proti viˇsji resoluciji, pri katerem vsaka re- solucija za trenutek sluˇzi kot izhodna resolucija. Zaradi tega avtorji ponovno raz- mislijo o alternativnih naˇcinih implementacije postopnega generiranja in poseˇzejo globlje v arhitekturo modela generatorja.

2.3 Manipulacija las in drugih detajlov ˇ clovekovega obraza

Manipulacija in sintetiziranje karakteristik ˇclovekovega obraza na podroˇcju ume- tne inteligence ni nov koncept. Z razvojem sistemov za detekcijo in razpoznavanje obrazov se je hkrati krepila tudi ˇzelja po poruˇsenju tovrstnih aplikacij, ki je za- gotovo pripomogla k razvijanju v to smer. Modele v literaturi lahko v grobem delimo na dela, ki neposredno manipulirajo z izvirnimi slikami obrazov, ter dela, ki generirajo umetne slike obrazov in jih kasneje dodatno urejajo.

Nekatera odmevnejˇsa dela vkljuˇcujejo razliˇcne pristope do omenjenega pro- blema. Persch in sodelavci (2017) spremenijo barvo koˇze obraza z meˇsanjem deskriptorjev teksture iz referenˇcne slike. Korshunova in sodelavci (2017) pred- stavijo razliˇcico konvolucijskega nevronskega omreˇzja CNN (angl. Convolutional Neural Network) za zamenjavo obraza dveh oseb. Modernejˇsi pristopi, ki ne vkljuˇcujejo uporabe arhitektur GAN, navadno uporabljajo arhitekturo kodirnik-

(33)

2.3 Manipulacija las in drugih detajlov ˇclovekovega obraza 13

dekodirnik (angl. encoder-decoder). Te sicer dovoljujejo raˇcunsko manj zahtevne in hitrejˇse algoritme, ampak navadno ne proizvajajo rezultatov z visoko resolu- cijo. Lample in sodelavci (2017) razvijejo model kodirnik-dekodirnik, ki lahko manipulira z vrsto atributov, kot so starost, spol, oˇci in oˇcala ter odpiranje ust [33, str. 2]. Naloga algoritmov za manipulacijo s specifiˇcnimi karakteristikami obraza se z izboljˇsanjem rezultatov dodatno preobrazi ˇse v problem ohranjanja identitete. Z razvojem omreˇzij GAN se raziskovalci na podroˇcju hitro usmerijo v uporabo tovrstnih modelov prav zaradi moˇznosti bolj kontroliranih sprememb.

Choi in sodelavci (2018) razvijejo model StarGAN, ki uspeˇsno uporabi arhitek- turo GAN za spreminjanje barve las, starosti, spola, odtenka koˇze in izraza na obrazu [34], vendar se ˇse vedno sreˇcajo s problemom ohranjanja identitete. Delo se osredotoˇci le na barvo las, in v stil frizure ne posega, ˇceprav sama zasnova modela v teoriji omogoˇca veˇc moˇznosti.

Natsume in sodelavci leta 2018 predstavijo generativno nasprotniˇsko omreˇzje z loˇcevanjem regij RSGAN (angl. Region Separative Generative Adversarial Ne- twork), celosten sistem za avtomatsko generiranje in spreminjanje ˇcloveˇskih obra- zov po principih zamenjave obraza, preoblikovanja posamiˇcnih atributov in sin- teze novih delov obraza [35]. Omreˇzje obravnava latentne predstavitve slik loˇceno in tako loˇcuje podroˇcje obraza in podroˇcje las. V osnovi njihov pristop preslikavo obraza doseˇze z menjavo latentne reprezentacije obmoˇcja obraza in nadaljnjo re- konstrukcijo celotne slike.

Model MichiGAN preslikavo frizure doseˇze z veˇcvhodnim pogojenim pristo- pom. Tan in sodelavci [36] v svojem delu izpostavijo kompleksnost preslikave frizure, ki jo povzroˇca variiranje geometrije in izgleda posameznikovih las. Pro- blem razbijejo na veˇc podkategorij in v celotnem cevovodu zdruˇzijo ˇstiri razdelke, ki se delijo glede na definirane glavne karakteristike. To so oblika frizure, zgradba las, izgled las in ozadje. Algoritem zdruˇzuje razliˇcne pristope za podajanje refe- renˇcnih vhodnih informacij, kot so binarne maske za obliko, nakazane narisane poteze ali celotne referenˇcne fotografije.

Shen in sodelavci [12] z modelom InterFaceGAN uporabijo naˇcin manipulacije latentnih vektorjev, ki je lahko uporabljen za katerokoli karakteristiko obraza, ki je zapisana v latentnem prostoru uporabljenega generatorja. Pristop temelji na konceptu postopnega meˇsanja dveh vektorjev (slika 2.5), pri ˇcemer se izhodna

(34)

slika z vsakim korakom linearno spreminja iz prve slike v drugo. Avtorji zamisel nadgradijo z iskanjem posploˇsenih smeri specifiˇcnih karakteristik. Z dodatkom metode pogojene manipulacije latentnih vektorjev doseˇzejo veˇcjo toˇcnost in ohra- njanje identitete pri spremembi ˇzeljene karakteristike. V delu je tudi eksplicitno izpostavljen problem interpretacije latentnega prostora in pomanjkanja razume- vanja, kako modeli GAN prehajajo iz latentnih podatkov v ˇcloveku realistiˇcne slike.

Vhodna slika Referena slika

Slika 2.5: Rezultati meˇsanja stila dveh slik. Vhodni sliki se prenese stil iz referenˇcne slike. Vir slike: [37].

Sodobnejˇsa dela dosegajo zavidljive rezultate prav z uporabo generatorjev no- vejˇsih modelov GAN, med katerimi prevladuje StyleGAN2. S kombinacijo drugih izpopolnjenih metod raziskovalci v nekaj letih poroˇcajo o precejˇsnem napredku v rezultatih. Problem ohranjanja identitete postaja tudi vse bolj reˇsljiv s spo- znavanjem latentnega prostora. Rohit in sodelavci [38] predstavijo model LOHO, latentno optimizacijo frizure z ortogonalizacijo (angl. Latent Optimization of Ha- irstyles via Orthogonalization). Celotna struktura problematiko manipulacije las razdeli na tri atribute, kamor spadajo stil, videz in zaznana struktura. Z uporabo dvostopenjske optimizacije in gradientne ortogonalizacije omogoˇcajo uporabniku kontrolirano manipulacijo atributov obraza. Izpostavljeno je, da algoritmi za spreminjanje specifiˇcnih karakteristik, kot so lasje, lahko dosegajo realistiˇcne re- zultate z uporabo ˇze nauˇcenih modelov pri podatkih za sploˇsnejˇse namene, brez uˇcenja na specifiˇcnih podatkovnih bazah.

(35)

2.3 Manipulacija las in drugih detajlov ˇclovekovega obraza 15

Model StyleCLIP zdruˇzuje robustne generativne zmoˇznosti modela StyleGAN z novejˇsim konceptom kontrastnega jezikovno-slikovnega preduˇcenja CLIP (angl.

Contrastive Language-Image Pre-training - CLIP). Patashnik in sodelavci [39]

demonstrirajo nov naˇcin manipulacije, s katerim se izognejo dolgotrajnemu po- stopku oznaˇcevanja uˇcnih podatkov. Model, ki temelji na tekstovnem vmesniku, spremeni latentne podatke glede na uporabnikove tekstovne ukaze. Pristop do- voljuje hitre in stabilne manipulacije karakteristik obraza, tudi frizure.

Pernuˇs in sodelavci [40] razvijejo model MaskFaceGAN, s katerim se med drugim osredotoˇcijo tudi na problematiko omogoˇcanja finih manipulacij, s ciljem ohranjanja ˇclovekove identitete. S svojim pristopom neposredno manipulirajo z latentno reprezentacijo slike in hkrati v optimizacijskem procesu uporabijo veˇc drugih orodij, ki spremembe atributa ohranijo lokalne. Glaven je razˇclenjevalnik obraznih regij, saj sliko razdeli na regije, ki jih je treba ohraniti, in regije, s kate- rimi algoritem manipulira. Izhodna slika je rezultat vhodne slike in manipulirane razliˇcice, ki jo pridobijo s konˇcnim postopkom kombiniranja oz. meˇsanja.

Abdal in sodelavci predstavijo model StyleFlow [8]. V delu raziskujejo tako problematiko generiranja sintetiˇcnih slik s pogojenimi karakteristikami kot tudi manipulacijo specifiˇcnih karakteristik na poljubni sliki. Algoritem StyleFlow je zasnovan kot robustna reˇsitev za omenjeni problematiki, ki uporablja nadzorovano raziskovanje v latentnem prostoru v obliki pogojenih nepretrganih standardizira- nih tokov (angl. normalized flows). Z iskanjem nelinearnih poti v latentnem prostoru jim uspe izvajati manipulacijo z ohranjanjem identitete in zaporednim urejanjem veˇc karakteristik. Zaporedna manipulacija lahko zelo dobro prikaˇze stanje kakovosti modela, saj se manjˇse zaporedne napake v konˇcnem rezultatu hitro nakopiˇcijo in se izhodna slika izrodi. Z metodo doseˇzejo izredno realistiˇcne rezultate v manipulaciji poze, izraza na obrazu, spola, starosti in brade. Izposta- vljeno je tudi, da se uˇcenje manipulacije veˇc karakteristik hkrati v predstavljenem pristopu bolje odnese pri ohranjanju identitete.

(36)

2.4 Raziskovanje in razumevanje latentnega prostora

Pomembna toˇcka v razvoju modelov za manipulacijo obraznih karakteristik osebe je razumevanje latentne reprezentacije poljubne slike in samega latentnega pro- stora. Na podroˇcju se ˇze od zaˇcetka modelov GAN pojavlja izraz zapleteni laten- tni prostor (angl. entangled latent space), ki opisuje ˇze omenjeno problematiko nepoznavanja, kako toˇcno so same karakteristike slike zapisane in kako so med se- boj soodvisne oz. prepletene. Latentni prostor je pomembna toˇcka tudi v izvirnih ˇ

clankih StyleGAN in StyleGAN2, v katerih avtorji posegajo v samo arhitekturo z namenom reˇsevanja problema zapletenosti. Napredek v dojemanju tega kon- cepta omogoˇca izboljˇsanje vrste postopkov, med drugim tudi inverznega procesa generatorja, ki omogoˇca iskanje latentne upodobitve ˇze znanega podatka. Ta je seveda kljuˇcnega pomena za manipulacijo karakteristike obraza resniˇcne osebe, katerega upodobitev je treba najprej poiskati v latentnem prostoru [41].

Engel in sodelavci [42] iˇsˇcejo primerno metodo za pogojeno generiranje iz- hodnih podatkov, pri katerem ni veˇc potrebno ponovno uˇcenje modela. Pre- dlagano post hoc iskanje latentnih omejitev identificira doloˇceno obmoˇcje po- ljubnega latentnega prostora, v katerem so zapisane doloˇcene karakteristike iz- hodnega podatka. Iskanje te povezave omogoˇca kontrolirano spreminjanje, kar avtorji doseˇzejo ˇse z dodatkom predlagane uporabe sploˇsne omejitvene funkcije za realizem.

Voynov in sodelavci [43] izpostavijo problematiko iskanja pomenskih smeri v obiˇcajno kompleksnih latentnih prostorih in predlagajo samonadzorovan pristop, ki ne zahteva teˇzko pridobljenih podatkovnih baz z anotacijami. Cilj metode je odpraviti izpostavljeno omejitev procesa raziskovanja latentnih smeri. Metoda je uspeˇsna pri iskanju smiselnih smeri in omogoˇca nova odkritja, neodvisna od anotacij podatkovnih baz. Taka je smer latentnega prostora za brisanje ozadja na sliki, ki jo avtorjem uspe jasno definirati z uporabo predlaganega naˇcina.

Zanimiv vpogled v latentni prostor modelov GAN prikaˇzejo tudi Goetschalckx in sodelavci [44] s svojim delom GANalyze. V ˇclanku prikaˇzejo latentne manipu- lacije z linearnimi operacijami na latentnih podatkih, ki so lahko pridobljeni iz razliˇcnih arhitektur GAN. V procesu uporabijo omreˇzje MemNet kot ocenjevalno omreˇzje (angl. assessor network) za iskanje raznolikih pomenskih smeri. Tako

(37)

2.4 Raziskovanje in razumevanje latentnega prostora 17

avtorji najdejo smer, ki sliko vizualno transformira, tako da si jo ˇclovek bolj za- pomni, kar se odraˇza v veˇc vizualnih spremembah predmeta na sliki. Izpostavijo celo smeri za viˇsanje ˇcustvene navezanosti na prikazan predmet in smer za veˇcjo estetskost slike (slika 2.6) .

Manjša navezanost Večja navezanost Manj estetsko Bolj estetsko Težje zapomnimo

Težje zapomnimo

Lažje zapomnimo

Lažje zapomnimo

Slika 2.6: Primeri pridobljenih pomenskih smeri modela GANalyze z uporabo omreˇzja MemNet. Vir slike: [44].

Prehod iz slikovnega prostora v latentni prostor je, kot omenjeno, pomemben zaˇcetni del manipuliranja resniˇcnih slik. Arhitekture GAN navadno ne ponujajo preprostega pristopa za ta proces. En naˇcin do reˇsitve ponuja inverzni postopek generatorja, s katerim lahko projiciramo slikovne podatke z uporabo ˇze nauˇcenega generatorja. Nova dognanja na tem podroˇcju omogoˇcajo opustitev pristopov, ki uporabljajo namenski model kodirnika za doseganje latentnega zapisa ˇzeljenih podatkov [45]. Abdal in sodelavci [46] razvijejo model Image2StyleGAN, s ka- terim dosegajo kakovostne rezultate pri zapisu slik v latentni prostor. Mnogo prejˇsnjih poskusov propade prav zaradi nezadostne zmogljivosti uporabljenih modelov GAN. Avtorji uporabijo model StyleGAN, ki omogoˇca slike v visoki loˇcljivosti in je nauˇcen na sodobnejˇsi podatkovni bazi z veˇcjo variabilnostjo po- datkov. Zmoˇznost ˇze nauˇcenega modela StyleGAN je prav tako znatno izboljˇsana z uporabo razˇsirjenega latentnega prostora [47]. Kot posledica omenjenih pristo- pov predstavljen algoritem omogoˇca latentni zapis slik visokih loˇcljivosti, prav tako pa presenetljivo dobro zapisuje tudi slike, ki se pomensko sploh ne nanaˇsajo na podatke, s katerimi je bil generator uˇcen. Tako lahko avtorji v latentni pro- stor zanesljivo zapisujejo slike avtomobilov z generatorjem, ki je bil nauˇcen na

(38)

podatkovni bazi ˇcloveˇskih obrazov. Prikazano je, da je z novim pristopom vek- torje relativno lahko spreminjati z metodami linearne interpolacije, preseka in dodajanjem normiranega diferenˇcnega vektorja. Omenjene metode se v izhodnih slikah kaˇzejo kot zdruˇzevanje obrazov, prenos stila in prenos izraza na obrazu.

Svoje doseˇzke Abdal in sodelavci potencirajo v posodobljeni razliˇcici modela Image2StyleGAN++ [48]. Kot dopolnilo uporabe razˇsirjenega latentnega pro- stora StyleGAN je v nov model vkljuˇcen postopek optimizacije ˇsuma med generi- ranjem latentnega zapisa. Novost dovoljuje zapis visokofrekvenˇcnih karakteristik in tako dodatno izboljˇsa kakovost rezultatov. Izboljˇsano ni samo globalno zapi- sovanje v razˇsirjeni latentni prostor. Nov model dodatno omogoˇca lokalne zapise in v kombinaciji s spreminjanjem aktivacijskih tenzorjev avtorji prikaˇzejo kakovo- stne lokalne manipulacije vnaprej doloˇcenih karakteristik. Predstavljeni so mnogi naˇcini urejanja slik, ki jih dovoljuje tovrstno brskanje po latentnem prostoru. Sem spadajo postopki slikovne rekonstrukcije, slikovnega vrisovanja, lokalnih stilnih prenosov, roˇcno urejanje slik s ˇceˇckanjem in prenos lokalnih obraznih karakteristik [49].

Model StyleGAN2 je nauˇcen eksplicitno s ciljem po ustvarjanju jasnih in toˇcnih pomenskih smeri v latentnem prostoru. Viazovetskyi in sodelavci [50] gra- dijo na tem dejstvu in predstavijo pristop, ki opusti vzvratno razˇsirjanje (angl.

backpropagation), ki ga uporabijo druga dela. Predlagano reˇsitev doseˇzejo z upo- rabo tako imenovanega omreˇzja slika-v-sliko (angl. image-to-image network), ki ga uˇcijo na sintetiˇcno ustvarjeni podatkovni bazi parnih slik za translacijo obra- znih karakteristik na osebi. Z uporabo modela StyleGAN2 tako na primer ustva- rijo slike iste osebe ˇzenskega in moˇskega spola in jih uporabijo pri nadaljnjem uˇcenju predlaganega translacijskega omreˇzja.

(39)

3 Teoretiˇ cno ozadje

3.1 Arhitektura StyleGAN

Model StyleGAN je osnovan na klasiˇcni postopni arhitekturi GAN z nekaterimi spremembami, predvsem v generatorjevi sestavi. Arhitektura diskriminatorja je pravzaprav zasnovana na povsem enak naˇcin kot v tradicionalni arhitekturi posto- pnega modela [51]. Tudi izgubna funkcija ostane praktiˇcno ista. S ciljem izboljˇsati nadzor nad izhodnimi podatki nova arhitektura vkljuˇcuje predvsem spremembe generatorja, v katerem se med drugimi novostmi lahko nastavlja razliˇcne hiperpa- rametre omreˇzja. Avtorjem uspe preseˇci omejitve prejˇsnjih modelov, s katerimi nadzor nad posameznimi izhodnimi karakteristikami, kot so razliˇcni obrazni atri- buti, ni bil omogoˇcen oz. je bil zelo teˇzek. Dodatno, zaradi vkljuˇcevanja stilov h generirani sliki na vsakem konvolucijskem sloju nov pristop omogoˇca veˇcjo varia- bilnost v izgledu izhodnih slik. Vse to je moˇzno tudi zaradi doseˇzene veˇcje uˇcne stabilnosti (slika 3.1).

Postopno naravo generiranja slike v vse viˇsji loˇcljivosti StyleGAN posvoji od predhodnika, modela ProGAN. V postopni arhitekturi GAN je glavna pred- nost spreminjanja viˇsjenivojskih stilnih znaˇcilnosti v zaˇcetnih slojih zmoˇznost toˇcnejˇsega spreminjanja manjˇsih detajlov v konˇcnih slojih [52]. Avtorji v modelu StyleGAN delijo 18 uporabljenih konvolucijskih slojev v tri glavne kategorije, ki odraˇzajo obseg generiranih stilnih znaˇcilnosti konˇcnega rezultata. Od loˇcljivosti 4×4 do 8×8 definirajo grob sloj karakteristik, srednji sloj se nahaja od loˇcljivosti 16×16 do 32×32 in fin sloj od 64×64 do 1024×1024. Spremembe v grobem sloju tako v primeru ˇclovekovega obraza vplivajo na samo obliko obraza, las ali pozo obraza, v srednjem sloju se spreminjajo karakteristike obraza kot so usta, 19

(40)

Povezanost

Norm. Norm.

Omrežje za mapiranje

Stil

Stil Stil

Stil

Omrežje sinteze g Šum

(a) (b)

Slika 3.1: Primerjava tradicionalne postavitve arhitekture omreˇzja z novim pri- stopom, predstavljenim v StyleGAN [9]. Prikazane so: a) tradicionalna arhitek- tura; b) arhitektura z dodatkom stilov. Vir slike: [9].

oˇci, uˇsesa ipd. ˇCe se v zaˇcetnih slojih spremembe odraˇzajo v sami obliki predme- tov na sliki, prihaja v viˇsjih slojih do stilnih oz. barvnih sprememb. Poseganje v finem sloju vpliva na manjˇse detajle, kot je na primer barva oˇci.

Novost modela StyleGAN je uporaba postopka regularizacije z meˇsanjem (angl. mixing regularization). To je metoda, pri kateri je med uˇcenjem doloˇcen deleˇz izhodnih slik generiran z uporabo dveh latentnih vektorjev namesto enega.

Generator kot rezultat vrne sliko, ki ima doloˇcen deleˇz karakteristik ene slike in doloˇcen deleˇz druge. Zaradi meˇsanja stilov iz dveh izhodiˇsˇc omreˇzje ne more veˇc predvidevati, da sta sosednja stila soodvisna. Avtorji z uporabo tega regresij- skega procesa torej ne prepreˇcijo zgolj pretiranega prileganja na uˇcno podatkovno bazo, ampak tudi spodbudijo lokalizacijo oz. medsebojno loˇcevanje stilov. Z dru- gimi besedami, dodajanje te metode je izhodiˇsˇce za eno kljuˇcnih lastnosti modela StyleGAN, tj. razpleteni latentni prostor. V klasiˇcnem konceptu modela GAN

(41)

3.1 Arhitektura StyleGAN 21

generator iz nakljuˇcnega latentnega vektorja ustvari novo razporeditev podatkov- nih vzorcev, ki imajo neko pomensko vsebino. V model StyleGAN avtorji dodajo posebno osemslojno omreˇzje za mapiranje (angl. mapping network) zaˇcetnih po- datkov in s tem pravzaprav ustvarijo nov latentni prostor. Naloga omreˇzja je, da zaˇcetni latentni vektor (vektor z) 512 toˇck preslika v vmesni latentni vektor (vektor w) iste velikosti. Prav ta vmesni postopek omogoˇca boljˇsi nadzor nad konˇcno izhodno sliko, saj se linearne spremembe vmesnega latentnega vektorja neposredno odraˇzajo v spremenjenih vizualnih karakteristikah rezultata. Dodano omreˇzje omogoˇca natanˇcnejˇso manipulacijo konˇcnih rezultatov in ustvari latentni prostor, ki ni veˇc nujno navezan na porazdelitev uˇcnih podatkov. Prav ta doda- tek vmesnega omreˇzja omogoˇca spreminjanje posamiˇcne karakteristike izhodne slike brez vpliva na druge in je ena glavnih inovacij modela StyleGAN. Z upo- rabo omreˇzja za mapiranje avtorji uresniˇcijo znan koncept pridodanih latentnih prostorov [53, 54]. StyleGAN ima moˇznost vstavljanja veˇc razliˇcnih latentnih prostorov. V delu so predstavljeni rezultati iz razliˇcnih variacij le-teh v kombina- ciji z drugimi novostmi modela. Eden izmed ciljev iskanja optimalne kombinacije je izboljˇsava sposobnosti modela pri zapisu resniˇcne slike v svoj latentni prostor.

Zaˇcetni latentni prostor, prostor Z, s svojimi omejitvami ne omogoˇca zado- stne podobnosti pri poustvarjeni izhodni sliki. Veliko boljˇse rezultate daje vmesni prostor W, vendar avtorji [48] stopijo korak dlje z definiranjem razˇsirjenega la- tentnega prostora W+. Zapisovanje celotnih slik v zaˇcetnih slojih ne omogoˇca dovolj podrobnosti v izhodni sliki. Zaradi tega avtorji dodatno prilagodijo laten- tni prostor W tako, da izkoristijo postopno arhitekturo generatorja. Razˇsirjeni latentni prostor W+ je skupek 18 razliˇcnih 512 dimenzionalnih latentnih vektor- jev w. Vsaka od 18 dimenzij predstavlja en omreˇzni sloj arhitekture. Ideja je torej manipulirati z vsakim od vhodov v posamiˇcen sloj. Tako globoko poseganje v vhod omreˇzja do neke mere omogoˇca zapis poljubne slike kar z nakljuˇcnimi uteˇzmi v omreˇzju, vendar je za kakovostne rezultate ˇse vedno potrebno uˇcenje na primerni podatkovni bazi. O najboljˇsih rezultatih zapisovanja slik ˇclovekovega obraza poroˇcajo prav z uporabo razˇsirjenega latentnega prostoraW+ v kombina- ciji z nauˇcenim generatorjem in drugimi opisanimi novostmi v tem poglavju.

Za latentne predstavitve slik ˇcloveˇskih obrazov avtorji prikaˇzejo razliˇcne pri- mere manipulacij karakteristik. Uporaba razˇsirjenega prostora W+ omogoˇca re- lativno preproste linearne postopke na latentnih vektorjih, ki se odraˇzajo v po-

(42)

menskih spremembah na sliki. Treba je poudariti, da je predstavljen latentni prostor namenjen predvsem ˇcloveˇskim obrazom. Slednje se odraˇza v primerih manipulacij latentnih zapisov slik, ki niso ˇcloveˇski obrazi, kar izpostavijo tudi av- torji. V teh primerih lahko latentni zapis po izgledu izhodne slike deluje povsem realistiˇcen, vendar prej omenjene spremembe na vektorjih spodletijo. Predvsem pri spremembah viˇsjenivojskih karakteristik se na slikah zaˇcnejo oblikovati vidne obrazne poteze, kar kaˇze na pristranskost latentnega prostora do obrazov.

Model StyleGAN na vsakem od svojih 18 konvolucijskih slojev vkljuˇcuje kom- ponento AdaIN. Izhod omreˇzja za kartiranje je prek afine transformacije vektorja podan v stilno omreˇzje AdaIN. Dodan modul AdaIN podano informacijo iz la- tentnega vektorja preslika v stilni zapis konˇcne slike. Pri tem se vektor spremeni v usmeritveni in skalarni element, ki neposredno vplivata na vsak izhodni konvo- lucijski kanal. Komponenta AdaIN in omreˇzje za kartiranje sta glavni spremembi arhitekture modela StyleGAN, ki omogoˇcata laˇzje manipulacije karakteristik ge- nerirane slike.

Zanimivo je tudi opuˇsˇcanje pristopa uporabe nakljuˇcnega vektorja kot vho- dnega podatka. Namesto nakljuˇcne toˇcke v latentnem prostoru kot vhod genera- tor StyleGAN uporablja konstantno vhodno vrednost dimenzij 4×4×512. Proces sinteze oz. generiranja slike se torej vedno zaˇcne pri omenjeni konstanti. Slednja novost, kot je poroˇcano, ˇse izboljˇsa konˇcni rezultat. Tak pristop je najverjetneje mogoˇc ravno zaradi medsebojnih neodvisnosti stilnih karakteristik izhoda genera- torja, kar omogoˇcajo druge novosti modela. Pomemben faktor celotnega sistema je tudi dodajanje ˇsuma po vsakem konvolucijskem sloju, ki doda stohastiˇcno variabilnost (angl. stochastic variation) generiranih rezultatov. Stohastiˇcni ali nakljuˇcni detajli se v portretih ˇcloveˇskih obrazov kaˇzejo v drobnih spremembah, kot je pozicija posameznih las, koˇzne pore, gube ter manjˇse pege. ˇSum predsta- vlja preprosto enokanalno sliko neodvisnega Gausovega ˇsuma. Dodajanje ˇsuma je kljuˇcnega pomena za realistiˇcne rezultate v viˇsji loˇcljivosti, saj doda potrebne detajle, da konˇcna slika ne izgleda nenaravno zglajena oz. naslikana (slika 3.2) .

(43)

3.2 Novosti arhitekture StyleGAN2 23

Slika 3.2: Vpliv ˇsuma, ki doda stohastiˇcno variabilnost k slikam [9]. V prikazani primerjavi je polovica slike generirana s ˇsumom in polovica brez njega. Opazen je efekt zglajenosti. Vir slike: [9].

3.2 Novosti arhitekture StyleGAN2

V poglavju 2.2 lahko spoznamo, zakaj StyleGAN2 na podroˇcju predstavlja iz- boljˇsano razliˇcico prvega modela StyleGAN. S podrobno analizo originalnega mo- dela avtorji najdejo nove pristope do izpostavljenih problemov, ki se pojavljajo v rezultatih generatorja. Nastane model StyleGAN2, ki je kot celotna struk- tura v nekaterih pogledih precej predrugaˇcen. V delu so predstavljene ˇstevilne konfiguracije novega modela in avtorji vse spremembe v delu utemeljijo z ekspe- rimentalnimi rezultati, ki kaˇzejo na znatne izboljˇsave (tabela 3.1).

StyleGAN2 predstavi novo zasnovan model (slika 3.3) s ciljem reˇsevanja pro- blemov, ki jih pripiˇsejo tudi postopni naravi generatorja. Ceprav so posto-ˇ pni temelji prve razliˇcice modela nujni za generiranje kakovostnih slik v visoki loˇcljivosti, avtorji po vnoviˇcni analizi opustijo prej uporabljen pristop. V iska- nju alternativnih naˇcinov, ki bi omogoˇcali robusten in velik model z zadostno stabilnostjo med uˇcenjem, iˇsˇcejo navdih pri drugih delih. Privlaˇcen pristop po- nuja arhitektura omreˇzja z ostankom ResNet (angl. Residual Network - ResNet) [55]. Tovrstna omreˇzja implementirajo koncept bliˇznjic oz. skokov ˇcez omreˇzne

(44)

Model Metoda FID Tradicionalni postopni GAN (ProGAN) 8.04 + Nastavljanje hiperparametrov 5.25 StyleGAN + Dodano omreˇzje za mapiranje in AdaIN

metode

4.85 + Odstranjen tradicionalni nakljuˇcni vhodni vektor

4.88

+ Dodan ˇsum 4.42

+ Regularizacija z meˇsanjem 4.40

+ Demodulacija uteˇzi 4.39

+ Lena regularizacija 4.38

StyleGAN2 + Regularizacija dolˇzine poti 4.34 + Opuˇsˇcanje postopne arhitekture 3.31

+ Veliko omreˇzje 2.84

Tabela 3.1: Primerjava postopno izboljˇsanih rezultatov FID v izvirnih ˇclankih z dodajanjem poroˇcanih sprememb, ki jih avtorji dodajo za modela StyleGAN in StyleGAN2. Rezultati so v obeh primerih pridobljeni na podatkovni bazi FFHQ v loˇcljivosti 1024×1024.

sloje, kar omogoˇca izgradnjo ogromnih omreˇzij [56] in s tem izboljˇsanje rezulta- tov. Arhitektura se izkaˇze za velik napredek predvsem na podroˇcju modelov za klasifikacijo. Omreˇzje ResNet je sestavljeno iz posebnih gradnikov, ki vsebujejo tako imenovane povezave za preskok (angl. skip connections) in prepreˇcujejo pro- blematiko izginjajoˇcega gradienta v velikih omreˇzjih. Koncept se pojavlja tudi pri arhitekturah GAN. Tak je model MSG-GAN [57], pri katerem se uporabijo omenjene povezave za preskok med diskriminatorjem in generatorjem. Generator StyleGAN2 uporabi povezave za preskok za povezavo med sloji niˇzje loˇcljivosti in konˇcno generirano sliko. Avtorji po vzoru arhitekture ResNet posodobijo tudi diskriminator, ki je po strukturi pravzaprav precej podoben arhitekturi klasifika- torja, in so zaradi tega spremembe smiselne tudi v tem pogledu.

Z opisanimi spremembami avtorji raziˇsˇcejo ˇse vpliv same velikosti omreˇzja ge- neratorja na vsakem sloju. Prikazano je, da se celotni prispevki posameznih slo- jev k skupku konˇcne izhodne slike razlikujejo. To velja predvsem za viˇsjenivojske

(45)

3.2 Novosti arhitekture StyleGAN2 25

Stilni blokStilni blokStilni blok

(a) (b) (c)

Slika 3.3: Novosti arhitekture StyleGAN, prikazane so: a) prvoten StyleGAN;

b) prenovljena arhitektura; c) StyleGAN2 z dodatkom demodulacije uteˇzi. Vir slike: [9].

sloje, specifiˇcno sloj loˇcljivosti 1024×1024, ki nima priˇcakovanega deleˇza vpliva v primerjavi z drugimi sloji. Konˇcna izhodna slika v loˇcljivosti 1024×1024 je zaradi tega bolj ali manj zgolj izostrena izhodna slika iz sloja 512×512. Domneva se, da je kriva manjˇsa kapaciteta viˇsjenivojskih slojev in zaradi tega pride do nepro- porcionalnega vpliva. Z veˇcanjem omreˇzja 1024×1024 se veˇca tudi sam vpliv na konˇcno izhodno sliko. Avtorji podvojijo omenjeni sloj omreˇzja, kar povzroˇci dvig vpliva tega sloja in s tem veˇcjo variabilnost viˇsjenivojskih detajlov v generiranih slikah.

Avtorji se po opisanih viˇsjenivojskih spremembah arhitekture osredotoˇcijo ˇse na druge gradnike. Z analizo razliˇcnih eksperimentalnih pristopov poroˇcajo o veˇc manjˇsih spremembah, ki ena za drugo izboljˇsajo zmogljivost modela. Tako od- stranijo uporabo srednje vrednosti pri postopku normalizacije znaˇcilk. Do neke mere poenostavijo proces definiranja zaˇcetnega vhodnega podatka. Spremenijo tudi postopek vstavljanja ˇsuma, pri ˇcemer modul za ˇsum loˇcijo in premaknejo izven sloja za stil AdaIN, saj naj bi sloja v zdruˇzeni obliki do neke mere imela nasprotujoˇce si uˇcinke. Loˇcevanje teh slojev dodatno omogoˇca uporabo metode

(46)

demodulacije uteˇzi (angl. weight demodulation). Sloj AdaIN je v novem modelu tako ˇse dodatno prenovljen. Pristop z demodulacijo premakne parametre skalira- nja in premika uteˇzi izven prejˇsnje sekvenˇcne postavitve v gradniku AdaIN in jih postavi paralelno ob konvolucijski sloj. Novost izboljˇsa kakovost izhodnih slik in rezultate manipuliranja latentnih vektorjev. Poleg tega opisan premik parame- trov omogoˇca vzporedne izraˇcune, kar znatno pohitri proces uˇcenja. Poroˇca se o 40-odstotni izboljˇsavi hitrosti.

Spremenjen je tudi postopek regularizacije. Dodana je metoda regularizacije z dolˇzino poti (angl. path length regularization), ki izboljˇsa robustnost modela. V osnovi dodatek tega procesa poskrbi, da se linearna interpolacija toˇck v latentnem prostoru odraˇza v izhodnem slikovnem prostoru v enaki razseˇznosti. Majhna spre- memba v latentnem vektorju tako pomeni tudi temu primerno manjˇso spremembo v izhodni sliki. Poleg tega avtorji spremenijo ˇse sam naˇcin uporabe celotnega po- stopka regularizacije in vpeljejo koncept lene regularizacije (angl. lazy regulariza- tion). Eksperimentalno testiranje razliˇcnih pristopov pokaˇze, da je v kombinaciji z drugimi izboljˇsavami povsem smotrno do neke mere omejiti pogostost regulari- zacije. Med raˇcunanjem glavne izgubne funkcije oz. na celotni podatkovni bazi tako imenovane cenilne funkcije (angl. cost function) se izkaˇze, da so regulari- zacijski pogoji potrebni v manjˇsi meri in jih lahko model v procesu upoˇsteva le vsake toliko. Regularizacija je med uˇcenjem tako izvedena le na vsakih 16 korakov posamiˇcnega uˇcnega procesa. Z loˇcevanjem postopkov izraˇcuna cenilne funkcije in regularizacije doseˇzejo znatno izboljˇsanje v ˇcasovni poˇzreˇsnosti raˇcunalniˇskega procesiranja med uˇcenjem modela.

Nova razliˇcica modela je v praktiˇcnem pomenu zelo velika izpopolnitev ori- ginalnega modela StyleGAN. Sami rezultati izhodnih slik doseˇzejo velike kva- litativne izboljˇsave. Kot je poroˇcano v rezultatih ˇclanka, demodulacija uteˇzi skupaj z vpeljavo lene regularizacije in drugimi manjˇsimi optimizacijami celotne kode vpliva na izboljˇsanje robustnosti in same hitrosti uˇcenja modela. Avtorji v delu izpostavijo tudi problematiko potrebe po obˇsirnih podatkovnih bazah, ki so za uˇcenje StyleGAN2 nujne. Narava modela StyleGAN omogoˇca razvoj vrsto razliˇcnih aplikacij na razliˇcnih podroˇcjih, vendar so velikokrat glavna prepreka prav ustrezni uˇcni podatki. V razpravi rezultatov ˇze omenijo potrebo po iskanju novih poti za zmanjˇsanje potrebe po uˇcnih podatkih in tako dodatno izboljˇsanje procesa uˇcenja.

(47)

3.3 Nadaljnja dela avtorjev modelov StyleGAN 27

3.3 Nadaljnja dela avtorjev modelov StyleGAN

Na kratko omenimo ˇse novosti, ki jih v nadaljnjih letih raziskav modela Style- GAN2 Karras in ekipa inˇzenirjev pri podjetju NVIDIA predstavijo kot dodatne izboljˇsave. Omejitve modela pri postopku uˇcenja, ki so do neke mere izposta- vljene ˇze v izvirnem ˇclanku za model StyleGAN2, avtorji dodatno analizirajo in jih skuˇsajo odpraviti.

Predstavljen je StyleGAN2 z dodatkom adaptivnega poveˇcevanja diskrimi- natorja (angl. StyleGAN2 with Adaptive Discriminator Augmentation) ali StyleGAN2-ADA. Nov pristop uˇcenja je razvit z glavnim ciljem zmanjˇsanja po- trebe po ogromnih uˇcnih podatkovnih bazah in lahko proizvaja zelo dobre rezul- tate z uporabo tudi veˇc desetkrat manjˇsih uˇcnih podatkovnih baz. ADA je v osnovi le nov uˇcni pristop z idejo po umetnem veˇcanju uˇcnih podatkov z uporabo nakljuˇcnih distorzij. Metoda je v teoriji relativno preprosta in je lahko upora- bljena na praktiˇcno vseh arhitekturah GAN. Omejeno ˇstevilo uˇcnih slik lahko z uveljavitvijo metode ADA poveˇcamo z uporabo razliˇcnih postopkov, denimo rota- cijo, translacijo ali raznimi barvnimi spremembami slik. Model zaradi tega nikoli ne vidi istega uˇcnega podatka dvakrat. Seveda postopek ni povsem direkten, saj bi naiven pristop neposrednih sprememb uˇcnih podatkov pomenil le rezultate, ki vsebujejo uporabljene distorzije. V izogib tako imenovanemu puˇsˇcanju distorzij so predstavljene metode novega uˇcnega procesa, ki omogoˇcajo efektivno zmanjˇsanje uˇcnih podatkov. Postopek deluje samo v primerih, ko so uporabljene reverzibilne transformacije slik. Diskriminator je v novem pristopu adaptivno omejen, saj so mu prikazane samo spremenjene slike, generator pa je uˇcen za generiranje ˇcistih slik. Lahko bi rekli, da diskriminatorju metoda ADA nadene posebna oˇcala, ki mu dodatno oteˇzujejo delo. Te spremembe omogoˇcajo doseganje zelo dobrih re- zultatov z uporab veliko manj uˇcnih podatkov v primerjavi s klasiˇcno arhitekturo StyleGAN2. Z viˇsanjem ˇstevila uˇcnih podatkov se razlika v zmogljivosti mode- lov manjˇsa, dokler ne pridemo do toˇcke, kjer razlike veˇc ni. Rezultati modela StyleGAN2-ADA tedaj ne presegajo rezultatov StyleGAN2, kot je prikazano v primerjalni analizi obeh modelov [58].

Karras in sodelavci leta 2021 predstavijo ˇse eno novost v razvoju arhitekture StyleGAN. GAN brez stopniˇcenja (angl. Alias-Free GAN) ali tudi StyleGAN3

(48)

[59] je model, ki predstavlja majhne, a pomembne spremembe arhitekture mo- dela z namenom reˇsevanja pojava pritrjevanja teksture (angl. texture sticking).

Pojem opisuje problem, ki se pojavi ob manipulacijah slike v latentnem pro- storu, kjer se doloˇcene teksture in karakteristike ne premikajo oz. spreminjajo na priˇcakovan naˇcin. Pojav je pripisan napakam pri vzorˇcenju v generatorju, ki povzroˇcijo nenamerne zapise informacij o poziciji karakteristik. Sicer manjˇse napake se skozi omreˇzje postopno poveˇcujejo in na koncu kaˇzejo v tem pojavu.

V primeru spreminjanja poze obraza doloˇceni detajli in teksture, kot so lahko lasje ali brada, stojijo na istem mestu, kljub temu da se obraz pod njimi premika.

Avtorji reˇsitev najdejo v manjˇsih, a toˇcnih popravkih arhitekture generatorja. Po vzoru znanih metod na podroˇcju procesiranja digitalnih signalov uporabijo me- todo ekvivariantnega (angl. equivariant) filtriranja. V novem modelu se manjˇsi detajli viˇsjenivojskih slojev premikajo skupno s celotno obrazno strukturo. Nova znaˇcilnost modela Alias-Free GAN se pokaˇze tudi v povsem drugaˇcni notranji predstavitvi generirane slike. Omreˇzje si interpretira poseben koordinatni sistem karakteristik slike, ki omogoˇca toˇcnejˇse lokalizacije obraznih karakteristik (slika 3.4) .

Latentna interpolacija Notranja predstava

Vhod Generirana slika

Slika 3.4: Primerjava notranje omreˇzne predstavitve v modelu StyleGAN2 in verzijah modela Alias-Free GAN. Opazna je ustvarjena lokalizacija doloˇcenih ka- rakteristik. Vir slike: [59].

Problem pritrjevanja teksture pravzaprav ni tako izrazit ali moteˇc pri opazo- vanju posamiˇcnih primerov manipulacij slik, ampak predstavlja velike probleme

Reference

POVEZANI DOKUMENTI

Raˇ cunalniˇstvo v oblaku spreminja podroˇ cje IT in poslovnim organizacijam prinaˇsa ˇstevilne prednosti in priloˇ znosti, ki lahko prispevajo k bolj uˇ cinkovi- temu

V sodobnem svetu se opravljajo meritve tudi pri nogometnih tekmah, zato smo se odloˇ cili, da to podroˇ cje podrobneje raziˇsˇ cemo in analiziramo s pomoˇ cjo analize omreˇ zij

Zakljuˇ cimo, da je pristope razloˇ cevanja entitet, ki temeljijo na primer- javi atributov, moˇ zno uporabiti tudi pri naˇsem problemu zdruˇ zevanja omreˇ zij.. Vendar pa bi z

Primeri Osnovni pojmi Opisi omreˇ zij Vrste omreˇ zij Mnoˇ zenje omreˇ zij JSON Opis omreˇ zij v JSONu Naˇ crti Prikazi omreˇ zij Pajek Viri.. Vrste in opis

Izhodiˇ sˇ ca Omreˇ zja Opis omreˇ zij v JSONu Naˇ crti Viri.. JSON in analiza

Oblike zapisa podatkov JSON JSONske storitve JSON in Python JSON in R JSON, D3.js in prikazi omreˇ zij Prikazovalnik Viri.. JSON in analiza

V tem delu predstavimo novo metodo za naˇcrtovanje najboljˇsega naslednjega pogleda, ki temelji na novi meri za oceno kakovosti 3D-modela.. Na ta naˇcin uporabnik dobi namig, iz

• Poglobiti znanje iz statistike, ki je osnova za posamezne znanstvene discipline (v primeru biomedicine gre za poglavja iz medicinske statistike kot sta analiza

zno elipsoid in natanˇ cneje geoid (ˇ se natanˇ cneje: ima gorovja, njena oblika plimuje, niha z lastnimi naˇ cini), da je treba za toˇ cno merjenje zraˇ cnega tlaka z ˇ

Primož. Tebi, draga Nara, pa hvala za vso potrpežljivost.. V magistrskem delu primerjamo namizne didaktične in računalniške didaktične igre kot metodi utrjevanja znanja

Ena izmed lokalnih lastnosti, ki sluˇ zi za primerjanje podobnosti dveh omreˇ zij je RGF-razdalja (RGF-distance), ki se meri med dvema omreˇ zjema. RGF-razdalja primerja

Med statističnimi regijami v letu 2018 obstajajo razlike v odstotku kadilcev pri obeh spolih, a med njimi ni takšnih, v katerih bi bil odstotek kadilcev med moškimi ali ženskami

Glede na delovni staž so udeleženci izobraževanj pri večini vsebin izrazili, da so več novih stvari slišali tisti s krajšim delovnim stažem, razen pri izobraževanju o

ANKETNI VPRAŠALNIK O PORABI IN POSLEDICAH PREKOMERNE RABE ZDRAVIL V magistrskem delu z naslovom Pregled najpogosteje uporabljenih zdravil v Sloveniji in izdelava modela

Po izredno pomembnem terenskem delu, ki ga je v 60. letih prejšnjega stoletja opravil Milko Matičetov, stanju ustnega izročila Rezijanske doline v Italiji v zadnjih desetletjih

Izraza kratično ime in kratično poimenovanje sta v aktualnih pravopisnih pra- vilih, že prej pa v Načrtu pravil za novi slovenski pravopis, rabljena bodisi kot sopomenki

Pojem hibridni v tem primeru pomeni, da je v sicer deterministiˇ cni pristop vpeljana tudi stohastiˇ cnost izraˇ zanja genov v obliki nihanja koliˇ cine proizvedenih molekul mRNA

V diplomskem delu je bilo preuˇ ceno podroˇ cje sistemov za trˇ zenje, pregledana obstojeˇ ca literatura o modelih za ocenjevanje informacijskih sistemov, izdelan model za

Iz diagrama lahko vidimo, da bo PID regulator za vrednosti zdrsa, ki so veˇ cje od referenˇ cnega, na izhod dajal negativno vrednost, ki je normirana. To normirano vrednost pomnoˇ

Kot je ˇ ze bilo omenjeno, sporoˇ cila CAN ne naslavljajo direktno, ampak jih od- dajajo razprˇseno na vodilo. Vsak sprejemnik pa se potem na podlagi identifika- torja odloˇ ci,

Relacijske teorije poudarjajo, da sta tudi otrokov čut za Boga in intrapsihična podoba Boga na zelo kompleksen način povezana z otrokovimi starši, zato smo v magistrskem

V poglavju 2.1 bomo predstavili podroˇ cje, ki ga pokriva robotika roja. Opisane bodo njene karakteristike, izvor, prednosti in slabosti. V 2.2 je pregled in primerjava

V magistrskem delu je predstavljen sistem za spremljanje in nadzor eksperimentov v testnem omreˇ zju, s katerim je uporabniku omogoˇ cen pregled nad stanjem vozliˇsˇ cnih naprav