• Rezultati Niso Bili Najdeni

Hifi-GAN [25] je zasnovan na generativnih nasprotniˇskih mreˇzah. Dosega veˇcjo raˇcunsko uˇcinkovitost in kakovost vzorcev kot avtoregresivni modeli.

Visoko kakovost sinteze govora dosega z diskriminatorjem veˇc manjˇsih disk-triminatorjev, kjer se vsak osredotoˇca le na majhen periodiˇcen del zvoˇcnih valov.

20 Tom ˇSabanov Hifi-GAN sestavlja en generator in dva diskriminatorja, veˇcperiodiˇcni (ang. multi-period - MPD) ter veˇcobseˇzni (ang. multi-scale - MPS). Ge-nerator in diskriminatorji se uˇcijo nasprotno, skupaj z dvema dodatnima funkcijama izgub za izboljˇsanje stabilnosti uˇcenja in uspeˇsnosti modela.

Generator je konvolucijska nevronska mreˇza. Kot vhod uporablja mel-spektrogram, ki ga vzorˇci skozi transponirane konvolucije, dokler se dolˇzina izhodnega zaporedja ne ujema s ˇcasovno loˇcljivostjo surovih valovnih oblik.

Vsaki transponirani konvoluciji sledi zlitje veˇczaznavnih polj (ang. multi-receptive field fusion - MRF) modul.

Modul MRF vzporedno opazuje vzorce razliˇcnih dolˇzin. Natanˇcneje, mo-dul MRF vrne vsoto izhodov iz veˇc rezidualnih blokov. Za vsak rezidualni blok so izbrane razliˇcne velikosti jeder in hitrosti ˇsirjenja, da tvorijo razliˇcne vzorce receptorskega polja. V generatorju imamo nekaj nastavljivih parame-trov, ki jih lahko reguliramo tako, da najdemo kompromis med uˇcinkovitostjo sinteze in kakovostjo sintetiziranega govora.

Naloga MPD je identificirati razliˇcne periodiˇcne vzorce, na katerih teme-ljijo zvoˇcni podatki. Sestavlja ga veˇc manjˇsih diskriminatorjev, od katerih vsak obravnava del periodiˇcnih signalov vhodnega zvoka. Vsak manjˇsi diskri-minator sprejema le enakomerno razporejene vzorce vhodnega zvoka in ostale zavraˇca. Zasnovani so tako, da med opazovanjem razliˇcnih delov vhodnega zvoka zajamejo razliˇcne implicitne strukture zvoka. Vsak manjˇsi diskrimina-tor je sestavljen iz sklada konvolucijskih slojev z ReLu aktivacijo.

Za zajem zaporednih vzorcev in dolgoroˇcnih odvisnosti uporabljamo veˇ c-obseˇzni diskriminator oziroma MSD, prviˇc predlagan v MelGAN [26], ki za-poredno ovrednoti zvoˇcne vzorce na razliˇcnih ravneh. Ker diskriminatorji v MPD sprejemajo in vrednotijo le loˇcene vzorce zvoˇcnega signala, se MSD uporablja za zaporedno ovrednotenje zvoˇcnega signala. MSD je meˇsanica treh delujoˇcih diskriminatorjev, ki delajo na razliˇcnih velikostih vhodov. Vsi so sestavljeni iz sklada konvolucijskih slojev z aktivacijo ReLu.

Cilj uˇcenja generatorja in diskriminatorjev je zmanjˇsevanje funkcij izgub [28]. Hifi-GAN vsebuje ˇstiri funckije izgub, in sicer funkcijo izgube GAN

Diplomska naloga 21 (ang. GAN loss), izgube mel-spektrogramov (ang. Mel-Spectrogram loss), izgube ujemanja znaˇcilk (ang. Feature matching loss) in konˇcno izgubo (ang.

Final loss).

Pri funkciji izgube GAN diskriminator klasificira originalne vzorce po-snetkov na 1 in sintetizirane vzorce generatorja na 0. Generator se tako uˇci pretentati diskriminator s posodabljanjem kakovosti generiranih zvoˇcnih vzorcev. Cilj je generirati zvoˇcne vzorce, ki bodo klasificirani ˇcim bliˇzje vre-dnosti 1.

Funkcija izgube mel-spektrogramov pomaga pri izboljˇsanju uˇcinkovitosti uˇcenja generatorja in kakovosti reprodukcije zvoˇcnega signala. Funkcija iz-gube se raˇcuna s pomoˇcjo L1 oz. z manhatansko razdaljo med mel-spektro-gramom, ki ga je generator sintetiziral, in originalnih zvoˇcnim posnetkom.

Izguba mel-spektrograma pomaga generatorju sintetizirati realistiˇcno obliko zvoˇcnih valov, ki ustrezajo originalnim zvoˇcnim posnetkom, prav tako pa stabilizira proces nasprotniˇskega uˇcenja.

Funkcija izgube ujemanja znaˇcilk meri podobnost nauˇcenih znaˇcilk dis-kriminatorja tako, da meri razliko med originalnim zvoˇcnim posnetkom in sintetiziranim zvoˇcnim posnetkom z uporabo teh znaˇcilk. Iz diskriminatorja izvleˇcemo znaˇcilke, na podlagi katerih sintetiziramo nov zvoˇcni vzorec. Nato izraˇcunamo manhatonsko razdaljo med generiranim vzorcem in originalnim zvoˇcnim posnetkom tako kot pri funkciji izgube mel-spektrogramov.

Funkcija konˇcne izgube je vsota prejˇsnjih treh izgub. Konˇcni cilj genera-torja je, da ˇcim bolj zmanjˇsa konˇcno izgubo in tako pretenta diskriminatorje.

22 Tom ˇSabanov

Poglavje 4

Podatkovne mnoˇ zice

Za uˇcenje nevronskih mreˇz Tacotron, DeepVoice in FastSpeech je potrebno pripraviti uˇcno mnoˇzico v specifiˇcne oblike. V delu smo 30 ur slovenskega govora ˇstirih moˇskih pretvorili v obliko podatkovne mnoˇzice LJ Speech [23].

Govorni posnetki vsebujejo pozdrave, vzklike, ˇstevilke in fonetiˇcno bogate stavke. Izbrani govorci so profesionalni govorci starosti od 40 do 60 let, ki delajo kot radijski napovedovalci, igralci in pevci.

Govorni posnetki so bili posneti s frekvenco vzorˇcenja 44100 Hz in bitno globino 16 bitov. Vse zvoˇcne posnetke smo pretvorili v posnetke z vzorˇcno frekvenco 22050 Hz, tiˇsino na zaˇcetku in koncu posnetkov pa smo odrezali.

Besedila zvoˇcnih posnetkov vsebujejo ˇstevilke od 0 do 9, vse znake iz slovenske abecede ter loˇcila{. , ? ! - : ; ( )}. Pri normalizaciji besedila smo vse ˇstevilke ter okrajˇsave zamenjali s polnimi besedami.

Ustvarili smo ˇsest podatkovnih mnoˇzic, ki smo jih uporabili za uˇcenje nevronskih mreˇz. Posnetke, ki so daljˇsi od petnajst sekund, smo zavrgli.

Tabela 4.1 vsebuje ˇstevilo posnetkov, ˇstevilo besed, dolˇzino posnetkov, pov-preˇcno dolˇzino posnetkov, minimalno in maksimalno dolˇzino posnetkov ter ˇstevilo unikatnih besed.

Podatkovna mnoˇzica PM1 vsebuje zvoˇcne posnetke vseh govorcev. PM2 vsebuje zvoˇcne posnetke prvih treh govorcev, PM3 pa vsebuje zvoˇcne po-snetke zadnjega govorca. Podatkovne mnoˇzice PM4, PM5 in PM6 vsebujejo

23

24 Tom ˇSabanov 120, 60 in 30 minut zvoˇcnih posnetkov zadnjega govorca.

Lastnosti PM1 PM2 PM3 PM4 PM5 PM6

ˇStevilo posnetkov 25.1k 17.4k 7.8k 0.5k 0.91k 1.6k

ˇStevilo besed 493k 325k 172k 9.3k 18.6k 37.5k

Dolˇzina posnetkov 30h 20.5h 9.5h 0.5h 1h 2h

Povpreˇcna dolˇzina posnetka 4.5s 4.71s 4.93s 3.49s 3.96s 4.5s Minimalna dolˇzina posnetka 0.1s 0.09s 0.08s 0.16s 0.12s 0.12s Maksimalna dolˇzina posnetka 15s 14.97s 15s 14.72s 14.84s 14.98s Povpreˇcno ˇstevilo besed na posnetek 19.64 18.67 22.05 18.02 20.4 23.43

ˇStevilo unikatnih besed 89k 65k 32k 2.7k 4.8k 8.5k

Tabela 4.1: Lastnosti ustvarjenih podatkovnih mnoˇzic

Ustvarjena podatkovna mnoˇzica PM1 je v primerjavi z najbolj pogosto uporabljeno podatkovno mnoˇzico za angleˇski jezik LJSpeech [23] veˇcja, ven-dar je sestavljena iz ˇstirih govorcev. Za kakovostno sintezo govora se upo-rabljajo podatkovne mnoˇzice enega govorca. LJSpeech vsebuje 24h govora enega govorca in je zaradi tega bolj primerna za sintezo kot podatkovna mnoˇzica PM1. Iz tega razloga smo ustvarili podatkovno mnoˇzico PM3, ki jo sestavlja 9.5h govora enega govorca.

Za pripravo podatkovnih mnoˇzic smo potrebovali okoli 80h. Veˇcino dela je bilo namenjenu poravnavi besedil in zvoˇcnih posnetkov. Za poravnavo je bilo potrebno podatke tudi obdelati. Besedila smo razdelili na stavke in povedi, zvoˇcne posnetke pa smo morali razdeliti na manjˇse dele ter odstraniti tiˇsino na zaˇcetku in koncu posnetkov. Ustvarili smo programsko skripto, ki je olajˇsala delo poravnave tako, da je napovedovala dolˇzino izgovorjave stavkov iz besedila in avtomatiˇcno poskuˇsala poravnati podatke.

Ustvarili smo tudi evalvacijsko mnoˇzico iz podatkovne mnoˇzice PM3. Iz nje smo vzeli 40 parov zvoˇcnih posnetkov in pripadajoˇcih besedil, ki smo jih sintetizirali in predvajali ocenjevalcem.

Poglavje 5

Eksperimenti in rezultati

V diplomskem delu smo za generiranje mel-spektrogramov uporabili imple-mentacijo ForwardTacotron [1], ki generira mel-spektrograme v enem samem prehodu skozi komponente arhitekture. To stori s pomoˇcjo napovedalca dolˇzine, ki poravna besedilo in generirane mel-spektrograme. Arhitektura omogoˇca kontroliranje hitrosti in intenzitete govora. Razlika med Forward-Tacotron in Forward-Tacotron 2 je, da ForwardForward-Tacotron ne uporablja sloja pozornosti.

Zaradi tega laˇzje generira daljˇse stavke, za katere bi drugaˇce potrebovali veˇc pomnilnika. Za pretvorbo mel-spektrogramov v zvoˇcne posnetke smo upora-bili originalno implementacijo Hifi-GAN [2].

Pri uˇcenju ForwardTacotron in Hifi-GAN modela smo uporabljali veˇcinoma privzete parametre. Za laˇzje testiranje modelov na razliˇcnih podatkovnih mnoˇzicah smo minimalno spremenili izvorno kodo arhitektur.