Generiranje slovenskega govora na podlagi uˇcnih mnoˇzic veˇc govorcev

(1)

Univerza v Ljubljani

Fakulteta za raˇ cunalniˇ stvo in informatiko

Tom ˇ Sabanov

Generiranje slovenskega govora na podlagi uˇ cnih mnoˇ zic veˇ c govorcev

DIPLOMSKO DELO

UNIVERZITETNI ˇSTUDIJSKI PROGRAM PRVE STOPNJE

RA ˇCUNALNIˇSTVO IN INFORMATIKA

Mentor : prof. dr. Marko Robnik ˇ Sikonja

Ljubljana, 2021

(2)

Copyright. To delo je licencirano pod licenco Creative Commons Priznanje avtorstva-Deljenje pod enakimi pogoji 4.0 Mednarodna. Kopija licence se nahaja na sledeˇci povezavi: http://creativecommons.org/licenses/by-sa/4.0/, lahko pa jo dobite tudi, ˇce poˇsljite pismo na naslov Creative Commons, PO Box 1866, Mountain View, CA 94042, USA.

Besedilo je oblikovano z urejevalnikom besedil L^ATEX.

(3)

Kandidat: Tom ˇSabanov

Naslov: Generiranje slovenskega govora na podlagi uˇcnih mnoˇzic veˇc govorcev

Vrsta naloge: Diplomska naloga na univerzitetnem programu prve stopnje Raˇcunalniˇstvo in informatika

Mentor: prof. dr. Marko Robnik ˇSikonja

Opis:

Pretvorba besedil v govor je koristna v ˇstevilnih aplikacijah. Veˇcina nevronskih pristopov k sintezi govora zahteva precej velike uˇcne mnoˇzice, kar je teˇzava za jezike z manj razpoloˇzljivimi viri, kot je slovenˇsˇcina. V zadnjem ˇcasu se je pojavilo nekaj pristopov, ki teˇzijo k zmanjˇsanju te koliˇcine in omogoˇcajo solidno kakovost sinteze tudi z malo uˇcnimi podatki. Analizi- rajte te pristope in enega od njih prilagodite za slovenˇsˇcino. Implementirani pristop empiriˇcno ovrednotite.

(4)

(5)

Zahvaljujem se druˇzini in prijateljem, ki so me tekom ˇstudija ves ˇcas spod- bujali.

(6)

(7)

Kazalo

Povzetek Abstract

1 Uvod 1

2 Pregled podroˇcja 3

2.1 Naˇcini tvorjenja umetnega govora . . . 4

2.1.1 Artikulatorna sinteza . . . 4

2.1.2 Formantna sinteza . . . 4

2.1.3 Sinteza z zdruˇzevanjem . . . 5

2.1.4 Parametriˇcna sinteza . . . 7

2.1.5 Sinteza z globokim uˇcenjem . . . 7

2.2 Evalvacija sintetizatorjev govora . . . 9

2.3 Sintetizatorji slovenskega govora . . . 9

3 Nevronski pristopi k sintezi govora 11 3.1 Mel-spektrogram . . . 12

3.2 Tacotron 2 . . . 15

3.3 Griffin-Lim algoritem . . . 19

3.4 Hifi-GAN . . . 19

4 Podatkovne mnoˇzice 23

(8)

5 Eksperimenti in rezultati 25

5.1 Eksperimenti . . . 25

5.1.1 Modeli Hifi-GAN . . . 26

5.1.2 Modeli ForwardTacotron . . . 27

5.2 Evalvacija . . . 28

5.3 Rezultati . . . 29

6 Zakljuˇcek 33

Literatura 35

(9)

Seznam uporabljenih kratic

kratica angleˇsko slovensko

TTS text to speech pretvorba besedila v govor IPA International Phonetic Alpha-

bet

internacionalna fonetiˇcna abeceda

PMM hidden Markov models prikriti markovski modeli DNN deep neural networks globoke nevronske mreˇze POM mean opinion score povpreˇcna ocena mnenj HNM harmonic plus modulation harmoniˇcna plus modulacija STFT short term Fourier transforma-

tion

kratka ˇcasovna Fourierova transformacija

CNN convolutional neural networks konvolucijske nevronske mreˇze ReLu rectified linear activation func-

tion

popravljena linearna aktivacijska funkcija

LSTM long short term memory dolgi kratkoroˇcni spomin GAN generative adversarial ne-

tworks

generativne nasprotniˇske mreˇze

AR autoregressive avtoregresivno

MRF multi-receptive field veˇczaznavna polja

(10)

(11)

Povzetek

Naslov: Generiranje slovenskega govora na podlagi uˇcnih mnoˇzic veˇc govorcev

Avtor: Tom ˇSabanov

V diplomskem delu smo naslovili problem sinteze slovenskega govora na podlagi sorazmerno majhne uˇcne mnoˇzice. Opisali smo starejˇse pristope sinteze govora, kot sta artikularna in formantna sinteza, ter sodobne pristope sinteze z zdruˇzevanjem enot in sinteze govora s pomoˇcjo globokih nevronskih mreˇz.

Ustvarili smo razliˇcne podatkovne mnoˇzice iz 30 ur govora ˇstirih govorcev, ki smo jih uporabili za sintezo govora. Uporabili smo arhitekturi Forward- Tacotron za generiranje mel-spektrogramov ter Hifi-GAN za pretvorbo teh spektrogramov v zvoˇcne signale. Ustvarili smo sploˇsni model za moˇski govor, ki ga je moˇzno prilagoditi na nove govorce. Najboljˇsi ustvarjeni sistem dosega dobro povpreˇcno oceno posluˇsalcev (4.07 na lestvici od 1-5) in daje vtis naravnega govora.

Kljuˇcne besede: sinteza slovenskega govora, globoke nevronske mreˇze, model Tacotron.

(12)

(13)

Abstract

Title: Generating Slovene speech with multi-speaker datasets Author: Tom ˇSabanov

In the thesis, we addressed the problem of Slovene speech synthesis based on relatively small data set. We described older approaches to speech synthesis like articular and formant synthesis, and more modern approaches like unit selection and speech synthesis with deep neural networks. We created a dataset consisting 30 hours of speech from four speakers for use with speech synthesis. We used ForwardTacotron architecture for generating mel- spectrograms and Hifi-GAN architecture for generating waveforms from these spectrograms. We created a basic model for male speech, which can be fine- tuned for new speakers. The best system we created achieved a good mean opinion score of listeners (4.07 on a scale 1-5) that simulates natural speech.

Keywords: slovene speech synthesis, deep neural networks, Tacotron model.

(14)

(15)

Poglavje 1 Uvod

V zadnjih letih se pojavlja vedno veˇcja potreba po visokokakovovostnih sintetizatorjih govora. Te danes uporabljamo za razliˇcne namene. Ljudem z okvaro vida omogoˇcajo posluˇsanje besedil in informacij, ljudem z okvaro govora pa omogoˇcajo govorno sporoˇcanje. Uporabljajo se na vrstah krajev in napravah, od napovedovalcev na letalih in avtobusih, do navigacijskih sistemov na mobilnih napravah. Velika podjetja kot so Google, Apple, Micro- soft in Amazon ustvarjajo in nadgradujejo svoje glasovne pomoˇcnike, s ka- terimi uporabniki komunicirajo v vsakdanjem ˇzivljenju. Kakovost glasovnih pomoˇcnikov je odvisna od kvalitetnega razumevanja uporabniˇskega govora in od kvalitete sinteze govora. Ljudje se raje sporazumevamo z nekom, ki zveni kot mi, zato je cilj sintetizatorjev govora naravni ˇcloveˇski govor, za katerega uporabniki ne bodo vedeli, da prihaja iz raˇcunalnika.

Stanje sinteze slovenskega govora v Sloveniji se poˇcasi izboljˇsuje. Z njim se aktivno ukvarjata zaenkrat le Institut Joˇzef Stefan ter podjetje Amebis, vendar so ˇse zmeraj vsi trenutni sintetizatorji govora zgrajeni na podlagi starejˇsih metod. Tudi vse podatkovne mnoˇzice, koda in zgrajeni modeli niso odprtokodni ali vsaj pridobljivi na preprost naˇcin, kar moˇcno zavira razvoj sintetizatorjev slovenskega govora.

Ker je slovenski trg majhen, se ne smemo zanaˇsati le na veˇcja tuja podjetja za sintezo slovenskega govora, vendar moramo sami raziskovanje in ustvarja-

1

(16)

2 Tom ˇSabanov nje sintetizatorjev slovenskega govora, ˇce ˇzelimo v prihodnosti se s popular- nimi glasovnimi pomoˇcniki pogovarjati v naˇsem materinem jeziku.

Trenutno je teˇzko zaˇceti z delom na sintezi slovenskega govora, saj ni- mamo ne odprtokodne podatkovne mnoˇzice niti odprtokodnega modela, ki bi sluˇzil za izhodiˇsˇce pri razvoju sinteze govora. V diplomski nalogi skuiˇsamo ustvariti tak model, na osnovi trenutno najsodobnejˇsih metod globokega uˇcenja. Cilj je ustvariti model, ki ga bomo lahko z malo podatki prilaga- jali za nove govorce. Rezultat diplomske naloge so nauˇceni modeli, ki bodo koristni raziskovalcem sinteze govora in ˇsirˇsi publiki.

Diplomsko delo je razdeljeno na ˇsest poglavij. V drugem poglavju se posvetimo sintezi govora. Opiˇsemo osnovni problem, ki ga reˇsujejo sistemi TTS (ang. Text To Speech), opiˇsemo razliˇcne metode za sintezo govora in njihove evalvacije, nato pa na kratko pregledamo obstojeˇce slovenske sintetizatorje. V tretjem poglavju se osredotoˇcimo na algoritme in arhitekture, ki se danes uporabljajo pri sintetizatorjih govora. Povzamemo literaturo arhitektur Hifi-GAN [25] in Tacotron 2 [40, 34], ki ju uporabimo v diplomski nalogi. V ˇcetrtem poglavju opiˇsemo ustvarjene podatkovne mnoˇzice in vse postopke predpriprave le-teh za treniranje nevronskih mreˇz izbranih arhitektur. V petem poglavju sledi opis izvedenih eksperimentov in rezultatov, ki jih interpretiramo. V zakljuˇcku povzamemo in podamo ideje za nadaljno delo

(17)

Poglavje 2

Pregled podroˇ cja

Cilj sinteze govora je produkcija naravnega govora iz besedila. Problem sinteze lahko obravnavamo kot problem preslikave zaporedja grafemov v zaporedje zvoˇcnih signalov. Grafemi so najmanjˇse enote pisave, ki odgovarjajo najmanjˇsim glasovnim enotam oziroma fonemom. Teˇzavnost problema je odvisna od jezika, saj se lahko isti grafemi v razliˇcnih besedah izgovorijo z drugimi fonemi. Primer takih besed sta Peter, kjer prvi e naglasimo z dol- gim ozkime, in kmet, kjer naglasimo e z naglaˇsenim ˇsirokim e. Sintetizator lahko tak problem reˇsi s slovarjem izgovorjav, ki uporablja fonetiˇcno abecedo, kjer vsak grafem predstavlja en fonem. Najbolj znana fonetiˇcna abeceda je IPA (ang. International Phonetic Alphabet) [8], ki vsebuje za vsak fonem v obstojeˇcih jezikih en simbol.

Veˇcji problem za sintetizatorje govora so besede, ki se zapiˇsejo na enak naˇcin, vendar imajo drugaˇcen pomen in drugaˇcno izgovorjavo. Takˇsnim be- sedam pravimo enakopisnice ali homografi. Primer takega para besed v slo- venˇsˇcini je v povedi Na gori gori. Za reˇsevanje tega problema bi moral sintetizator govora prepoznati kontekst besedila.

Druge lastnosti govora, kot so intonacija, intenziteta in dolˇzina izgovorjave fonemov so odvisne od veˇc kontekstualnih spremenljivk v besedilu. Fone- mov ne izgovarjamo loˇceno od konteksta, vendar ga nezavestno upoˇstevamo na besednem, stavˇcnem in na nivoju povedi, da doseˇzemo naravni zvok go-

3

(18)

4 Tom ˇSabanov vora.

Problem preslikave zaporedja grafemov v zaporedje zvoˇcnih signalov lahko razˇclenimo na preslikavo besedila v sekvenco jezikovnih znaˇcilk ter na sintezo govora iz teh znaˇcilk. Jezikovne znaˇcilke vsebujejo veˇcinoma le foneme, lahko pa tudi intonacijo, intenziteto in dolˇzino izgovorjave.

2.1 Naˇ cini tvorjenja umetnega govora

Prvi poskusi sinteze govora segajo v 11. stoletje [3], od takrat se je zvrstilo mnogo pristopov in ˇstevilnih napredkov v tehnologiji sinteze govora.

2.1.1 Artikulatorna sinteza

Najstarejˇsi pristop sinteze govora je artikulatorna sinteza [30] iz 18. stoletja.

Deluje na princip posnemanja biomehanike ˇcloveˇskega govornega sistema.

Zasnovana je na osnovi matematiˇcnega modela, ki simulira govorno cev. Ta vsebuje ustnice, zobe, jezik, itd.

Artikularna sinteza se izvaja na fiziˇcnih napravah, ki poskuˇsajo posnemati pretok zraka skozi govorno cev. Ta je simulirana s kaskado povezav cevi skozi katere se ˇsirijo zvoˇcni valovi.

Ker potrebujemo izjemno natanˇcne modele govorca za poustvaritev ka- rakteristik njegovega govora, se ta pristop danes veˇc ne uporablja.

2.1.2 Formantna sinteza

Formantna sinteza govora [27] je dominirala vse do poznih osemdesetih let, uporablja pa podoben pristop kot artikulatorna sinteza govora. Zasnovana je na osnovi klasiˇcne akustiˇcne teorije produkcije glasu, kjer ima vsak zvok vir, ki ga govorna cev filtrira. Glas poskuˇsa umetno rekonstruirati s pomoˇcjo formantnih frekvenc glasu. To so resonanˇcne frekvence pri izreku doloˇcenega glasu.

(19)

Diplomska naloga 5 Tako kot pri artikularni sintezi se formantna sinteza zanaˇsa na vnaprej doloˇcen akustiˇcni model glasovne produkcije. Proizveden glas, kontroliran z mnoˇzico roˇcno ustvarjenih parametrov za formantne frekvence, je razumljiv, vendar ˇse vedno ne posnema dobro naravnega ˇcloveˇskega glasu in zveni umetno.

2.1.3 Sinteza z zdruˇ zevanjem

Pred pojavom sinteze z globokim uˇcenjem, je veˇcina sistemov TTS upora- bljala sintezo z zdruˇzevanjem [21].

Sinteza z zdruˇzevanjem osnovnih enot govora je zasnovana na zdruˇzevanju kratkih segmentov posnetega govora. To so lahko polni stavki, besede, zlogi, ali posamezni fonemi. Hranimo jih v valovni obliki ali v obliki spektrogramov.

Za specifiˇcne domene, kot so recimo javni prevozi, se lahko zdruˇzujejo polni stavki in besede, za sploˇsen sistem TTS, ki bo znal proizvajati zvok za ˇse nevidene besede in stavke pa je potrebno delati na nivoju fonemov. Takˇsni sistemi TTS uporabljajo pristop z izbiro enote (ang. unit selection).

Naprej pretvorimo besedilo, ki bi ga ˇzeleli sintetizirati, v govorne lastnosti oziroma ciljne enote. Vsaka ciljna enota je s svojim zvoˇcnim segmentom nato shranjena v govorni zbirki ˇze posnetih in oznaˇcenih zvoˇcnih segmentov. Izbira enote se poenostavi v problem prerazporeditve obstojeˇcih zvoˇcnih segmentov v sekvenco segmentov, ki bodo ˇcim bolj ustrezali sekvenci ciljnih enot.

Sintetizatorji z zdruˇzevanjem izberejo najboljˇse zaporedje zvoˇcnih segmentov tako, da zmanjˇsajo ciljno ceno in ceno zdruˇzevanja. Ciljna cena pove, kako dobro se enota kandidatka ujema s ciljno enoto, cena zdruˇzevanja pa, kako dobro se zdruˇzijo izbrane enote kandidatke. Celoten problem iska- nja idealne ureditve zvoˇcnih segmentov se reˇsuje kot problem minimizacije teh dveh cen.

Omejitev take sinteze je, da posameznih zvoˇcnih segmentov ne spreminjamo, kar pomeni da je generirani govor povsem omejen na stil govorca zvoˇcnih posnetkov.

Slika 2.1 prikaˇze problem ujemanja ciljnih in kandidatnih enot. Modre

(20)

6 Tom ˇSabanov ˇskatle so ciljne enote besedila, rdeˇce pa vse enote kandidatov za posamezno ciljno enoto. Na sliki 2.2 lahko vidimo, kako se posamezne enote kandidatke povezujejo.

Slika 2.1: Ilustracija ciljnih enot in enot kandidatk.

Slika 2.2: Ilustracija izbire enot (prevzeta iz [42]).

(21)

Diplomska naloga 7

2.1.4 Parametriˇ cna sinteza

Parametriˇcna sinteza prav tako sintetizira govor s pomoˇcjo vnaprej pripra- vljenih govornih segmentov, vendar s pomoˇcjo mnoˇzice parametrov govorne segmente tudi modificira.

Parametriˇcna sinteza je sestavljena iz dveh delov, in sicer iz faze treniranja ter iz sinteze. Med fazo treniranja izvleˇcemo mnoˇzico parametriˇcnih reprezen- tacij govora iz baze govornih segmentov. Te reprezentacije nato modeliramo skupaj s pripadajoˇcim besedilom s pomoˇcjo statistiˇcnih modelov. Soˇcasno modeliramo frekvenˇcni spekter, osnovno frekvenco in prozodijo glasu. Eden izmed najbolj popularnih statistiˇcnih modelov za sintezo govora, ki zagota- vlja dobre rezultate, je prikriti markovski model oziroma PMM (ang. hidden Markov model) [9].

Namesto da izbiramo najbolj primerne enote iz govorne zbirke, kot pri sintezi z zdruˇzevanjem, parametriˇcna sinteza problem poenostavi tako, da ustvari povpreˇcno enoto iz mnoˇzice enot, ki ustrezajo ciljni enoti. Rezul- tat takˇsnega naˇcina generiranja govora je v nasprotju s sintezo zdruˇzevanja, kjer ˇzelimo ohraniti nespremenjene zvoˇcne enote originalnega govorca. Ven- dar nam parametriˇcna sinteza nudi druge prednosti. Znaˇcilnosti glasa lahko spreminjamo tako, da transformiramo ustrezne parametre PMM. Uporablja se lahko za razliˇcne jezike z malo spremembami. Z majhno koliˇcino govornih posnetkov lahko sintetiziramo razliˇcne sloge govora.

Bolj podrobnejˇsi opis uporabe PMM za sintezo govora opiˇsejo avtorji v [12].

2.1.5 Sinteza z globokim uˇ cenjem

Zaradi napredka strojne opreme je v zadnjih letih napredovalo podroˇcje globokega uˇcenja. globokega uˇcenja. Na podroˇcju sinteze govora se je spoˇcetka globoko uˇcenje uporabljalo le za zamenjavo komponent obstojeˇcih sintetizatorjev govora. Leta 2013 so Schuster et al. [19] zamenjali cenitev gostote verjetnosti na osnovi PMM z globokimi nevronskimi mreˇzami (ang. Deep

(22)

8 Tom ˇSabanov Neural Networks) [29]. Uporaba globokih nevronskih mreˇz v modelih zasnovana z metodo PMM se je izkazala za precejˇsno izboljˇsavo, saj so globoke nevronske mreˇze bolje modelirale parametre prozodije govora.

Najveˇcja prednost sinteze govora z globokim uˇcenjem je moˇznost izgra- dnje modela, ki je zmoˇzen popolnoma sintetizirati zvok le iz danega besedila in pripadajoˇcih glasovnih posnetkov. Takˇsnim sistemom pravimo end-to-end sistemi. Takˇsne sisteme lahko matematiˇcno modeliramo z enaˇcbo 2.1, kjer je Y besedilo, ki ga ˇzelimo sintetizirati, X ciljni sintetiziran govor, θ pa predstavlja parametre modela.

X =arg max P(X|Y, θ) (2.1) Vse sodobne arhitekture end-to-end sistemov, kot so FastSpeech [41], Tacotron [40] ali DeepVoice [7], vsebujejo v osnovi ˇstiri komponente. To so predprocesor, kodirnik, dekodirnik ter vokoder. Na sliki 2.3 lahko vidimo osnovno shemo sodobnih arhitektur. Model dobi na vhod besedilo, ki gre skozi veˇc komponent, in je nakoncu pretvorjeno v zvoˇcni posnetek.

Slika 2.3: Osnovna shema sodobnih arhitektur na podlagi globokega uˇcenja.

Predprocesor naprej razˇcleni besedilo v posamiˇcne besede, jih pretvori v foneme in na izhod vrne iz njih sestavljene jeziskovne znaˇcilnosti. Kodirnik na vhodu dobi jezikovne znaˇcilnosti, na izhod pa vrne n-dimenzionalne vloˇzitve (ang. embedding). Vloˇzitvam med kodirnikom in dekodirnikom pravimo latentne lastnosti. Te so kljuˇcnega pomena, saj vsebujejo lastnosti govora, kot so vloˇzitve govorcev (ang. speaker embedding), intonacija, intenziteta in dolˇzina fonemov.

Dekodirnik se uporablja za pretvorbo informacij iz latentnih lastnosti v

(23)

Diplomska naloga 9 zvoˇcne lastnosti. Te so zapisane v obliki spektrogramov. Opis spektrogramov se nahaja v poglavju 3.1.

Naloga vokodorja je konˇcna pretvorba iz spektrogramov v zvoˇcne valove oziroma zvoˇcni posnetek. To lahko naredimo s pomoˇcjo matematiˇcnega modela, kot je Griffin-Lim [18], ali pa z uporabo globokega uˇcenja nauˇcimo nevronsko mreˇzo, da se nauˇci preslikati spektrograme v valovne signale.

2.2 Evalvacija sintetizatorjev govora

Povpreˇcna ocena mnenj ali POM (ang. mean opinion score) je najbolj pogo- sta mera za evalvuiranje kvalitete sintetizatorjev govora. POM ima razpon od 0 do 5, kjer je pravi ˇcloveˇski govor med 4,5 do 4,8.

Mera prihaja s podroˇcja telekomunikacij in je opredeljena kot aritmetiˇcna sredina ocen sintetiziranega govora ljudi. Za doloˇcitev POM moramo imeti veˇcjo skupino ljudi, ki ocenjujejo sintetiziran govor v tihem prostoru, po moˇznosti s sluˇsalkami. V enaˇcbi 2.2 je N ˇstevilo ljudi, Rn pa ocena posame- znega posnetka.

P OM =

N

X

n=1

Rn

N (2.2)

2.3 Sintetizatorji slovenskega govora

Prvi sintetizator slovenskega govora je izˇsel leta 1997. Imenoval se je S5, izdelan pa je bil na Fakulteti za elektrotehniko v Ljubljani [24]. Sledili so mu Govorec, Proteus TTS in danes najbolj popularni sintetizator slovenskega govora eBralec [43].

Prva verzija [15] je izˇsla leta 2000, izdelana pa je bila na Institutu Joˇzefa Stefana. Prvi dve verziji Govorca sta za tvorjenje glasu skupaj lepila difone, zato spadata v druˇzino sintetizatorjev z zdruˇzevanjem. Govorec 1 uporalja govorno zbirko, ki vsebuje le po en primer vsakega difona, zato mora moˇcno prilagajati ter zgladiti osnovni ton in moˇc govornih signalov. Generirani go-

(24)

10 Tom ˇSabanov vor zato zveni nenaravno. Govorec 2 dela na enak naˇcin kot njegov prednik, le ustvarjeno govorno zbirko difonov razˇsiri in izpopolni. Govorec 3 ustvari novo govorno zbirko in uporablja metodo HNM (angl. harmonic plus noise modulation) [36], ki opravi dekompozicijo govornega signala na harmonski del, ki se ga modelira s harmonsko sinusno sintezo, in ˇsumni del, ki se modelira s filtriranjem ˇsuma. Veˇc o delovanju sintetizatorja Govorec 3 je v delu [33].

Sintetizator eBralec [16] je izˇsel leta 2015 in je danes eden izmed najboljˇsih sintetizatorjev na slovenskem trgu. Glas sintetizira s pomoˇcjo metode PMM in globokih nevronskih mreˇz, njegova prednost je, da pred samim generira- njem glasu opravi obseˇzno analizo besedila. Upoˇsteva okrajˇsave, skladenjske oziroma neskladenjske rabe znakov za loˇcila ter homografe. Tako se pri sin- tetiziranemu glasu izogne napaˇcnim sklanjatvam ter pravilno naglasi veˇcino besed.

Najnovejˇsi sintetizator slovenskega govora prihaja iz podjetja Microsoft.

Glasova Petre in Roka sta zgrajena z uporabo arhitekture FastSpeech in sta trenutno najboljˇsa sintetizirana slovenska glasova. Edina veˇcja pomankljivost je neupoˇstevanje okrajˇsav, sklanjatev in napaˇcno naglaˇsevanje homografov.

(25)

Poglavje 3

Nevronski pristopi k sintezi govora

Kvaliteta sinteze govora se s pomoˇcjo enovitih sistemov (ang. end-to-end systems) v zadnjih letih dviguje. Takˇsni sistemi so sestavljeni iz dveh delov.

V prvem delu generirajo mel-spektrograme, v drugem pa z njihovo uporabo sintetizirajo govor. Mel-spektrograme opiˇsemo v razdelku 3.1.

WaveNet [38] je avtoregresivna (ang. autoregressive - AR) konvolucijska nevronska mreˇza, ki je pokazala, da so nevronske mreˇze zmoˇzne boljˇse sinteze govora od tradicionalnih metod. Zaradi strukture AR sintetizira WaveNet visoko kakovostne zvoˇcne posnetke precej poˇcasi. Probleme originalne arhitekture WaveNet reˇsujejo razliˇcice, kot so Parallel WaveNet [39] in WaveGlow [32].

Drugaˇcen pristop k sintezi govora ponujajo generativna nasprotniˇska omreˇzja (ang. generative adversarial networks - GAN) [13], ki v zadnjih letih posta- jajo vse bolj priljubljena. Primer takˇsnih arhitektur sta MelGAN [26] in Hifi-GAN [25].

WaveNet, njene razliˇcice, MelGan in Hifi-GAN so vokoderji, ki omogoˇcajo sintezo govora iz mel-spektrogramov. Za generiranje mel-spektrogramov obstaja danes veˇc arhitektur, kot so Tacotron [40], FastSpeech [41] in DeepVoice [7].

11

(26)

12 Tom ˇSabanov V diplomski nalogi smo uporabili arhitekturo Tacotron za generiranje mel-spektrogramov in vokoderje Griffin-Lim ter Hifi-Gan. Te bomo povzeli iz originalnih implementacij, ˇse pred tem pa opiˇsemo mel-spektrograme in njihovo uporabo v enovitih sistemih.

3.1 Mel-spektrogram

Zvok je vibracija, ki se ˇsiri skozi medij, recimo skozi zrak ali vodo. Zvoˇcni valovi so opisani s fizikalnimi koliˇcinami, kot so frekvenca, amplituda in smer.

Te lahko pretvorimo v elektriˇcni signal in digitaliziramo. Zvoˇcni signali so enodimenzionalni, saj so predstavljeni le kot amplituda v odvisnosti od ˇcasa.

Te signale ˇzelimo pretvoriti v bolj podrobno predstavitev govornega signala, ki bo nosila veˇc informacij o teh fizikalnih koliˇcinah.

Do boljˇse predstavitve lahko pridemo s pomoˇcjo kratke ˇcasovne Fourie- rove transformacije (ang. Short Term Fourier Transformation - STFT) [5]

govornega signala. Dobljeni spektrogram je dvodimenzionalna reprezentacija govora, ki nam pokaˇze magnitude frekvenc v odvisnosti od ˇcasa.

Na sliki 3.1 lahko vidimo primer spektrograma, kjer je logaritem vsake magnitude Fourierove transformacije vizualiziran. Frekvenca je na y osi, ˇcas na x osi, razliˇcne barve pa so uporabljene za razlikovanje magnitud vsake frekvence. Bolj kot je barva svetla, veˇcja je magnituda.

(27)

Diplomska naloga 13

Slika 3.1: Spektrogram logaritmov magnitud (prevzet iz [6]).

Ljudje dojemamo zvok drugaˇce kot raˇcunalnik. Sluˇsni del spektra je skon- centrirano v ozkem razponu frekvenc in amplitud. Laˇzje zaznamo razlike v niˇzjih frekvencah kot v viˇsjih, zato se veˇcina uporabnih informacij v govoru nahaja na niˇzjih frekvencah. Uporabno orodje, ki izboljˇsuje rezultate sodobnih sistemov TTS, je mel lestvica, ki je nelinearna transformacija frekvenˇcne lestvice. Razdalje med zvoki na mel lestvici ustrezajo naˇsemu dojemanju viˇsine tonov. Za primerjavo, na frekvenˇcni lestvici na sliki 3.2 je razlika med 300 in 400 Hz zelo oˇcitna, razlika med 4500 in 4600 Hz pa je komaj opazna.

(28)

14 Tom ˇSabanov

Slika 3.2: Mel lestvica (prevzeta iz [17]).

Dojemanje zvoka med posamezniki se razlikuje, zato je lestvica subjek- tivna. Obstaja veˇc enaˇcb za pretvorbomel lestvice v bolj objektivno oceno, ki se bo prilagajala rezultatom eksperimentov. Enaˇcba 3.1 je najbolj popularen pristop k pretvorbi pridobljenih rezultatov v bolj objektivno mel lestvico.

mel= 2595 log₁₀(1 + f

700) (3.1)

Na sliki 3.3 je prejˇsni spektrogram sedaj prikazan na mel lestvici. Ja- sno je videti veˇcje razlike med niˇzjimi frekvencami in manjˇse med viˇsjimi frekvencami. Vidimo, da so frekvence na spektrogramu v mel lestivci viˇsje resolucije in da je manj redundantnih informacij. Zaradi tega so spektro- grami v mel lestvici bolj primerni za uporabo z metodami klasifikacij slik, kot so konvolucijske nevronske mreˇze (ang. convolutional neural networks - CNN) [11].

(29)

Diplomska naloga 15

Slika 3.3: Primer spektrograma v mel lestvici (prevzeto iz [6]).

3.2 Tacotron 2

Tacotron 2 [34] velja za enega uspeˇsnejˇsih enovitih sintetizatorjev govora.

Zasnovan je na podlagi arhitekture zaporedje v zaporedje [22] (ang. sequence to sequence - seq2seq) in globokega uˇcenja. Pri uˇcenju seq2seq uˇcimo modele pretvarjati zaporedja iz ene domene v zaporedja druge domene. Tak primer je recimo prevajanje angleˇsˇcine v slovenˇsˇcino, ali, v primeru sinteze govora, pretvarjanje besedil v zvoˇcne posnetke.

Za usposobitev Tacotrona potrebujemo pare besedil in njim pripadajoˇce zvoˇcne posnetke. Sistem je sestavljen iz dveh komponent. Prva komponenta napoveduje spektrograme. Na vhod dobi besedilo, na izhodu pa vrne mel- spektrograme. Druga komponenta je vokoder, ki napovedane spektrograme pretvori v zvoˇcne valove. Avtorji [34] uporabijo WaveNet, lahko pa bi uporabili tudi kateri drugi vokoder. Prva komponenta vsebuje kodirnik, dekodirnik in mehanizem pozornosti (ang. attention layer).

V primerjavi s parametriˇcnimi sintetizatorji ali sintetizatorji z zdruˇzevanjem, ki potrebujejo veˇc kompleksnih elementov v sistemu, za katere potrebujemo

(30)

16 Tom ˇSabanov obseˇzno znanje s podroˇcja jezikoslovja, je Tacotron bolj enostaven. Ne zahteva poravnave besedil in zvoˇcnih posnetkov na nivoju osnovnih enot, zato ga lahko zlahka prilagodimo za uporabo z velikimi koliˇcinami zvoˇcnih posnetkov in pripadajoˇcih besedil.

Slika 3.4: Pregled arhitekture Tacotrona 2 (prevzeto iz [34]).

Na sliki 3.4 modre komponente predstavljajo kodirnik, oranˇzne pa dekodirnik. Na vhod dobi Tacotron zaporedje besed. Vsak znak v zaporedju pre- slika v veˇcdimenzionalni vloˇzitveni vektor. Na zaˇcetku so vsi vloˇzitveni vektorji nakljuˇcno inicializirani in se nato med uˇcenjem popravljajo. S pomoˇcjo metode glavnih komponent (ang. principal compenent analysis) lahko vloˇzitvene vektorje na koncu preslikamo na graf [35]. Znaki, ki so si podobni v spektro- gramih, so si tudi na grafu bliˇzje.

Vloˇzitveni vektorji gredo po preslikavi besedila skozi tri konvolucijske sloje s 512 filtri z velikostjo jedra 5. Po vsaki konvoluciji se izvede paketna normalizacija (ang. batch normalization) [10] in aktivacijska funkcija ReLu (ang. rectified linear activation function) [4]. Izhod konvolucijskih slojev gre skozi dvosmerni LSTM (ang. long short term memory) [20] sloj s skritim stanjem velikosti 226 za kodiranje latentnega stanja lastnosti.

(31)

Diplomska naloga 17 Arhitektura dekodirnika je zasnovana rekurentnimi nevronskimi mreˇzami (ang. recurrent neural network - RNN) [31]. Tako dekodirnik v vsakem ˇcasovnem koraku ustvarja okvir mel-spektrograma, ki ga nato poda nazaj na vhod za naslednji ˇcasovni korak.

Dekodirnik je sestavljen iz petih delov in sicer iz bloka dveh LSTM slojev, napovedi spektrograma (ang. spectrogram frame prediction), napovedi ustavitve (ang. stop prediction), predomreˇzja (ang. prenet) in poomreˇzja (ang. postnet).

Med kodirnikom in dekodirnikom leˇzi sloj pozornosti (ang. attention layer). Njegova osnovna naloga je, da se dekodirnik osredotoˇci na pravilne dele izhoda kodirnika. Sloj pozornosti to doseˇze tako, da povzame celotni izhod kodirnika, izraˇcuna uteˇzi pozornosti (ang. attention weights) za vsak ˇcasovni korak dekodirnika in ustvari kontekstualni vektor (ang. context vector), ki se uporabi za vhod v LSTM sloje. Ta se izraˇcuna z matriˇcnim mnoˇzenjem uteˇzi pozornosti in izhoda kodirnika.

Prvi LSTM sloj dekodirnika vzame sliko spektrograma in kontekstualni vektor prejˇsnega cikla kot vhod, na izhod pa vrne ustvarjeni vektor dimen- zije 1024. Po prvem LSTM sloju ustvari sloj pozornosti novi kontekstualni vektor, ki ga dobi drugi LSTM sloj na vhod skupaj z izhodnim vektorjem prvega LSTM sloja.

LSTM slojema sledi sloj, ki skrbi za konec generiranja slik spektrogramov. Zadnji izhod LSTM sloja in kontekstualni vektor projecira v ˇstevilo, ki je vhod v sigmoidno funkcijo, da izraˇcuna verjetnost ustavitvenega simbola (ang. stop token). ˇCe je ta verjetnost nad 0.5, se generiranje slik spektrogramov ustavi. To omogoˇca modelu, da dinamiˇcno doloˇca dolˇzino generiranega govora, namesto da bi generiral fiksno dolˇzino. Zadnja komponenta cikla v ponavljajoˇcem se delu dekoderja je popolnoma povezan sloj (ang. fully connected layer), ki vrne na izhod sliko mel-spektrograma.

Pred vsakim ciklom dekodirnika gre vhod tudi ˇcez predomreˇzje, ki ga sestavljata dva popolnoma povezana sloja. Namen predomreˇzja je, da se obnaˇsa kot informacijsko ozko grlo na podoben naˇcin kot sloj pozornosti.

(32)

18 Tom ˇSabanov Predomreˇzje poda poomreˇzju na vhod spektrogram. Poomreˇzje je sesta- vljeno iz petih slojev enodimenzionalnih konvolucij, ki se nauˇcijo vhodnemu spektrogramu dodati rezidualne informacije iz projekcij LSTM za izboljˇsanje rekonstrukcije spektrograma.

Na sliki 3.5 je spektrogram na izhodu predomreˇzja, na drugi sliki 3.6 pa spektrogram na izhodu iz poomreˇzja. Vizualno sta si zelo podobna, vendar pa avtorji v [34] omenijo, da poomreˇzje malo izboljˇsa spektrogram.

Slika 3.5: Spektrogram na izhodu predomreˇzja (prevzeto iz [6]).

Slika 3.6: Spektrogram na izhodu poomreˇzja (prevzeto iz [6]).

(33)

Diplomska naloga 19

3.3 Griffin-Lim algoritem

Griffin-Lim algoritem [14] je bil objavljen leta 1984 in ga ˇse danes uporabljamo pri sintezi govora. Algoritem rekonstruira ˇcasovno serijo signala (ang.

time series signal) iz STFT brez informacij o fazi signala.

V primerjavi z modernimi vokoderji, Griffin-Lim ne uporablja nauˇcenih parametrov. Algoritem ima pet korakov:

1. Vzpostavitev faznih informacij signala STFT iz nakljuˇcne enakomerne porazdelitve.

2. Generiranje signala ˇcasovne vrste z inverzno STFT z uporabo magni- tudnega spektrograma in novih informacij o fazi.

3. Generiranje STFT iz signala ˇcasovne vrste 2. koraka.

4. Iz prejˇsnega koraka vzamemo fazne informacije iz STFT in jih uporabimo v originalnem magnitudnem spektrogramu.

5. Ponavljamo korake od 2. do 4. dokler signal ˇcasovne serije ne konver- gira.

Vsaka iteracija zmanjˇsa srednjo kvadratno napako (ang. mean squared error) med ocenjenimi signali STFT in izvirnim spektrogramom. Algoritem je dokaj preprost. Veˇcina izraˇcunov je potrebnih le za diskretno Fourierjevo transformacijo.

3.4 Hifi-GAN

Hifi-GAN [25] je zasnovan na generativnih nasprotniˇskih mreˇzah. Dosega veˇcjo raˇcunsko uˇcinkovitost in kakovost vzorcev kot avtoregresivni modeli.

Visoko kakovost sinteze govora dosega z diskriminatorjem veˇc manjˇsih disk- triminatorjev, kjer se vsak osredotoˇca le na majhen periodiˇcen del zvoˇcnih valov.

(34)

20 Tom ˇSabanov Hifi-GAN sestavlja en generator in dva diskriminatorja, veˇcperiodiˇcni (ang. multi-period - MPD) ter veˇcobseˇzni (ang. multi-scale - MPS). Ge- nerator in diskriminatorji se uˇcijo nasprotno, skupaj z dvema dodatnima funkcijama izgub za izboljˇsanje stabilnosti uˇcenja in uspeˇsnosti modela.

Generator je konvolucijska nevronska mreˇza. Kot vhod uporablja mel- spektrogram, ki ga vzorˇci skozi transponirane konvolucije, dokler se dolˇzina izhodnega zaporedja ne ujema s ˇcasovno loˇcljivostjo surovih valovnih oblik.

Vsaki transponirani konvoluciji sledi zlitje veˇczaznavnih polj (ang. multi- receptive field fusion - MRF) modul.

Modul MRF vzporedno opazuje vzorce razliˇcnih dolˇzin. Natanˇcneje, modul MRF vrne vsoto izhodov iz veˇc rezidualnih blokov. Za vsak rezidualni blok so izbrane razliˇcne velikosti jeder in hitrosti ˇsirjenja, da tvorijo razliˇcne vzorce receptorskega polja. V generatorju imamo nekaj nastavljivih parametrov, ki jih lahko reguliramo tako, da najdemo kompromis med uˇcinkovitostjo sinteze in kakovostjo sintetiziranega govora.

Naloga MPD je identificirati razliˇcne periodiˇcne vzorce, na katerih teme- ljijo zvoˇcni podatki. Sestavlja ga veˇc manjˇsih diskriminatorjev, od katerih vsak obravnava del periodiˇcnih signalov vhodnega zvoka. Vsak manjˇsi diskriminator sprejema le enakomerno razporejene vzorce vhodnega zvoka in ostale zavraˇca. Zasnovani so tako, da med opazovanjem razliˇcnih delov vhodnega zvoka zajamejo razliˇcne implicitne strukture zvoka. Vsak manjˇsi diskriminator je sestavljen iz sklada konvolucijskih slojev z ReLu aktivacijo.

Za zajem zaporednih vzorcev in dolgoroˇcnih odvisnosti uporabljamo veˇc- obseˇzni diskriminator oziroma MSD, prviˇc predlagan v MelGAN [26], ki zaporedno ovrednoti zvoˇcne vzorce na razliˇcnih ravneh. Ker diskriminatorji v MPD sprejemajo in vrednotijo le loˇcene vzorce zvoˇcnega signala, se MSD uporablja za zaporedno ovrednotenje zvoˇcnega signala. MSD je meˇsanica treh delujoˇcih diskriminatorjev, ki delajo na razliˇcnih velikostih vhodov. Vsi so sestavljeni iz sklada konvolucijskih slojev z aktivacijo ReLu.

Cilj uˇcenja generatorja in diskriminatorjev je zmanjˇsevanje funkcij izgub [28]. Hifi-GAN vsebuje ˇstiri funckije izgub, in sicer funkcijo izgube GAN

(35)

Diplomska naloga 21 (ang. GAN loss), izgube mel-spektrogramov (ang. Mel-Spectrogram loss), izgube ujemanja znaˇcilk (ang. Feature matching loss) in konˇcno izgubo (ang.

Final loss).

Pri funkciji izgube GAN diskriminator klasificira originalne vzorce posnetkov na 1 in sintetizirane vzorce generatorja na 0. Generator se tako uˇci pretentati diskriminator s posodabljanjem kakovosti generiranih zvoˇcnih vzorcev. Cilj je generirati zvoˇcne vzorce, ki bodo klasificirani ˇcim bliˇzje vre- dnosti 1.

Funkcija izgube mel-spektrogramov pomaga pri izboljˇsanju uˇcinkovitosti uˇcenja generatorja in kakovosti reprodukcije zvoˇcnega signala. Funkcija izgube se raˇcuna s pomoˇcjo L1 oz. z manhatansko razdaljo med mel-spektrogramom, ki ga je generator sintetiziral, in originalnih zvoˇcnim posnetkom.

Izguba mel-spektrograma pomaga generatorju sintetizirati realistiˇcno obliko zvoˇcnih valov, ki ustrezajo originalnim zvoˇcnim posnetkom, prav tako pa stabilizira proces nasprotniˇskega uˇcenja.

Funkcija izgube ujemanja znaˇcilk meri podobnost nauˇcenih znaˇcilk diskriminatorja tako, da meri razliko med originalnim zvoˇcnim posnetkom in sintetiziranim zvoˇcnim posnetkom z uporabo teh znaˇcilk. Iz diskriminatorja izvleˇcemo znaˇcilke, na podlagi katerih sintetiziramo nov zvoˇcni vzorec. Nato izraˇcunamo manhatonsko razdaljo med generiranim vzorcem in originalnim zvoˇcnim posnetkom tako kot pri funkciji izgube mel-spektrogramov.

Funkcija konˇcne izgube je vsota prejˇsnjih treh izgub. Konˇcni cilj generatorja je, da ˇcim bolj zmanjˇsa konˇcno izgubo in tako pretenta diskriminatorje.

(36)

22 Tom ˇSabanov

(37)

Poglavje 4

Podatkovne mnoˇ zice

Za uˇcenje nevronskih mreˇz Tacotron, DeepVoice in FastSpeech je potrebno pripraviti uˇcno mnoˇzico v specifiˇcne oblike. V delu smo 30 ur slovenskega govora ˇstirih moˇskih pretvorili v obliko podatkovne mnoˇzice LJ Speech [23].

Govorni posnetki vsebujejo pozdrave, vzklike, ˇstevilke in fonetiˇcno bogate stavke. Izbrani govorci so profesionalni govorci starosti od 40 do 60 let, ki delajo kot radijski napovedovalci, igralci in pevci.

Govorni posnetki so bili posneti s frekvenco vzorˇcenja 44100 Hz in bitno globino 16 bitov. Vse zvoˇcne posnetke smo pretvorili v posnetke z vzorˇcno frekvenco 22050 Hz, tiˇsino na zaˇcetku in koncu posnetkov pa smo odrezali.

Besedila zvoˇcnih posnetkov vsebujejo ˇstevilke od 0 do 9, vse znake iz slovenske abecede ter loˇcila{. , ? ! - : ; ( )}. Pri normalizaciji besedila smo vse ˇstevilke ter okrajˇsave zamenjali s polnimi besedami.

Ustvarili smo ˇsest podatkovnih mnoˇzic, ki smo jih uporabili za uˇcenje nevronskih mreˇz. Posnetke, ki so daljˇsi od petnajst sekund, smo zavrgli.

Tabela 4.1 vsebuje ˇstevilo posnetkov, ˇstevilo besed, dolˇzino posnetkov, pov- preˇcno dolˇzino posnetkov, minimalno in maksimalno dolˇzino posnetkov ter ˇstevilo unikatnih besed.

Podatkovna mnoˇzica PM1 vsebuje zvoˇcne posnetke vseh govorcev. PM2 vsebuje zvoˇcne posnetke prvih treh govorcev, PM3 pa vsebuje zvoˇcne posnetke zadnjega govorca. Podatkovne mnoˇzice PM4, PM5 in PM6 vsebujejo

23

(38)

24 Tom ˇSabanov 120, 60 in 30 minut zvoˇcnih posnetkov zadnjega govorca.

Lastnosti PM1 PM2 PM3 PM4 PM5 PM6

ˇStevilo posnetkov 25.1k 17.4k 7.8k 0.5k 0.91k 1.6k

ˇStevilo besed 493k 325k 172k 9.3k 18.6k 37.5k

Dolˇzina posnetkov 30h 20.5h 9.5h 0.5h 1h 2h

Povpreˇcna dolˇzina posnetka 4.5s 4.71s 4.93s 3.49s 3.96s 4.5s Minimalna dolˇzina posnetka 0.1s 0.09s 0.08s 0.16s 0.12s 0.12s Maksimalna dolˇzina posnetka 15s 14.97s 15s 14.72s 14.84s 14.98s Povpreˇcno ˇstevilo besed na posnetek 19.64 18.67 22.05 18.02 20.4 23.43

ˇStevilo unikatnih besed 89k 65k 32k 2.7k 4.8k 8.5k

Tabela 4.1: Lastnosti ustvarjenih podatkovnih mnoˇzic

Ustvarjena podatkovna mnoˇzica PM1 je v primerjavi z najbolj pogosto uporabljeno podatkovno mnoˇzico za angleˇski jezik LJSpeech [23] veˇcja, vendar je sestavljena iz ˇstirih govorcev. Za kakovostno sintezo govora se uporabljajo podatkovne mnoˇzice enega govorca. LJSpeech vsebuje 24h govora enega govorca in je zaradi tega bolj primerna za sintezo kot podatkovna mnoˇzica PM1. Iz tega razloga smo ustvarili podatkovno mnoˇzico PM3, ki jo sestavlja 9.5h govora enega govorca.

Za pripravo podatkovnih mnoˇzic smo potrebovali okoli 80h. Veˇcino dela je bilo namenjenu poravnavi besedil in zvoˇcnih posnetkov. Za poravnavo je bilo potrebno podatke tudi obdelati. Besedila smo razdelili na stavke in povedi, zvoˇcne posnetke pa smo morali razdeliti na manjˇse dele ter odstraniti tiˇsino na zaˇcetku in koncu posnetkov. Ustvarili smo programsko skripto, ki je olajˇsala delo poravnave tako, da je napovedovala dolˇzino izgovorjave stavkov iz besedila in avtomatiˇcno poskuˇsala poravnati podatke.

Ustvarili smo tudi evalvacijsko mnoˇzico iz podatkovne mnoˇzice PM3. Iz nje smo vzeli 40 parov zvoˇcnih posnetkov in pripadajoˇcih besedil, ki smo jih sintetizirali in predvajali ocenjevalcem.

(39)

Poglavje 5

Eksperimenti in rezultati

V diplomskem delu smo za generiranje mel-spektrogramov uporabili implementacijo ForwardTacotron [1], ki generira mel-spektrograme v enem samem prehodu skozi komponente arhitekture. To stori s pomoˇcjo napovedalca dolˇzine, ki poravna besedilo in generirane mel-spektrograme. Arhitektura omogoˇca kontroliranje hitrosti in intenzitete govora. Razlika med Forward- Tacotron in Tacotron 2 je, da ForwardTacotron ne uporablja sloja pozornosti.

Zaradi tega laˇzje generira daljˇse stavke, za katere bi drugaˇce potrebovali veˇc pomnilnika. Za pretvorbo mel-spektrogramov v zvoˇcne posnetke smo uporabili originalno implementacijo Hifi-GAN [2].

Pri uˇcenju ForwardTacotron in Hifi-GAN modela smo uporabljali veˇcinoma privzete parametre. Za laˇzje testiranje modelov na razliˇcnih podatkovnih mnoˇzicah smo minimalno spremenili izvorno kodo arhitektur.

5.1 Eksperimenti

Sodobni sistemi TTS se uˇcijo in evalvirajo na veˇc deset urah enega govorca.

Podatkovne mnoˇzice, ki smo jih uporabili, vsebujejo preko 30 ur govora, vendar od ˇstirih govorcev. Najveˇcja dolˇzina govora enega govorca je 9.5 ur. Pri delu smo uporabili metodo mehkega zaˇcetka (ang. warm start).

Pri tej metodi nauˇcimo osnovni model s ˇcim veˇc podatki veˇcih govorcev

25

(40)

26 Tom ˇSabanov in ga nato prilagodimo enemu govorcu. Osnovni model nima informacij o govorcih in obravnava podatkovno mnoˇzico kot mnoˇzico zvoˇcnih posnetkov enega govorca.

Ustvarili smo dva modela Hifi-GAN in ˇsest modelov ForwardTacotron.

Prvi model Hifi-GAN HG1 smo ustvarili z namenom, da bi sluˇzil kot univerzalni model za slovenski govor. Drugi model HG2 smo ustvarili z metodo mehkega zaˇcetka za enega govorca in smo ga uporabljali pri sinteti- ziranju mel-spektrogramov vseh modelov ForwardTacotron. Za generiranje mel-spektrogramov smo ustvarili univerzalni model ForwardTacotron FT1.

Na podlagi tega modela smo prilagodili model FT2 za enega govorca. Da bi lahko ocenili efektivnost metode mehkega zaˇcetka smo ustvarili model FT3 z isto podatkovno mnoˇzico kot FT2, vendar brez omenjene metode. Zanimalo nas je tudi, koliko podatkov enega govorca bi potrebovali, da bi ustvarili robusten sistem TTS na podlagi modela FT1. Zato smo ustvarili modele FT4, FT5 in FT6 s podatkovnimi mnoˇzicami PM4, PM5 in PM6 kot smo opisali v razdelku 4.1.

Zvoˇcni posnetki, ki so omenjeni v nadaljevanju, so dostopni na [37].

5.1.1 Modeli Hifi-GAN

Model Hifi-GAN HG1 smo ustvarili s podatkovno mnoˇzico PM1, ki vsebuje zvoˇcne posnetke vseh ˇstirih govorcev. Uˇcili smo ga 160k korakov, vendar je bil konˇcni rezultat dokaj slab pri sintezi zvoˇcnih posnetkov ˇse nevidenih govorcev. Generiran govor je sicer razumljiv, vendar ima veliko artefaktov in zveni precej umetno. Kakovost sintetiziranega glasu je odvisna od podobnosti glasov novega govorca in govorcev iz podatkovne mnoˇzice PM1. Boljˇse rezultate dobimo pri sintezi govora na podlagi govorcev iz podatkovne mnoˇzice, na kateri je bil model uˇcen. Pri sintezi je generiran govor dobro razumljiv pri vseh govorcih, manj artefaktov pa je pri govorcih z veˇc glasovnimi posnetki v podatkovni mnoˇzici PM1.

Model Hifi-GAN HG2 smo uˇcili z metodo prilagajanja. Za osnovni model smo vzeli univerzalni model, ki ga ponuja originalna implementacija. Ta se

(41)

Diplomska naloga 27 je uˇcil kar dva tedna do 2.5 miljona korakov na angleˇskih uˇcnih mnoˇzicah.

Prilagodili smo ga ˇse dodatnih 130k korakov na podatkovni mnoˇzici PM3, ki vsebuje le enega govorca. Konˇcni model ohranja lastnosti originalnega govorca in dobro rekonstruira intenziteto, hitrost in prozodijo govorca iz podatkovne mnoˇzice PM3, vendar se pri daljˇsih stavkih pri izgovorjavi besed opazi ˇsum.

V tabeli 5.1 so prikazani ˇstevilo korakov, ˇcas uˇcenja in uporabljena grafiˇcna kartica, ki smo jo uporabili pri uˇcenju modelov HG1 in HG2.

Model Hifi-GAN ˇStevilo uˇcnih korakov Cas uˇˇ cenja Grafiˇcna kartica

HG1 160k 44h RTX 3090

HG2 130k 17h RTX 3090

Tabela 5.1: Podrobnosti uˇcenja modelov HG1 in HG2.

5.1.2 Modeli ForwardTacotron

S podatkovno mnoˇzico PM2 smo ustvarili model ForwardTacotron FT1.

Nauˇcen model FT1 je po 300k korakih generiral veˇcinoma razumljiv govor, vendar umetno zveneˇc. Generirani stavki zvenijo podobno povpreˇcenemu glasu vseh govorcev iz podatkovne mnoˇzice, hitrost generiranega govora pa je podobna hitrosti enega od govorcev v PM2. Nauˇcen model izpuˇsˇca tudi dele besed pri daljˇsih stavkih in ima teˇzave z izgovorjavo nekaterih besed.

Nauˇcene uteˇzi osnovnega modela FT1 smo uporabili pri prilagoditvi modela FT2 enemu govorcu na podatkovni mnoˇzici PM3. Prilagojen model smo uˇcili ˇse nadaljnih 150k korakov, dokler niso funkcije izgube konvergirale in ni bilo mogoˇce veˇc zaˇcutiti obˇcutnih sprememb v generiranem govoru. Ge- nerirani govor dobro posnema zvok govorca, veˇcjih delov besed ne izpuˇsˇca, vendar ˇse zmeraj obdrˇzi lastnost hitrejˇsega govora osnovnega modela FT1.

Za primerjavo s prilagojenim modelom FT2 smo nauˇcili tretji model For- wardTacotron FT3 samo s podatkovno mnoˇzico PM3. Uˇcili smo ga 300k

(42)

28 Tom ˇSabanov korakov, dosega pa boljˇse rezultate kot model FT2, saj zelo dobro posnema lastnosti originalnega govorca in pri daljˇsih stavkih ne izpuˇsˇca delov besed.

Zanimalo nas je tudi, koliko podatkov bi potrebovali iz podatkovne mnoˇzi- ce PM3, da bi generirali govor solidne kakovosti iz osnovnega modela FT1.

Za ta namen smo ustvarili podatkovne mnoˇzice PM4, PM5 in PM6. Nauˇcili smo tri nove ForwardTacotron modele FT4, FT5 in FT6 z metodo mehkega zaˇcetka na osnovi modela FT1. Model FT4 smo uˇcili s PM4, FT5 s PM5 in FT6 s PM6. Vse tri modele smo uˇcili le 10k korakov. Vsi trije modeli so dobro posnemali glas govorca, vendar sta modela FT4 in FT5 izpuˇsˇcala ali celo narobe izgovarjala besede. Pri najveˇcjem modelu FT6 zaˇcnemo dobi- vati dobre rezultate. Model besed ne izgovarja narobe in jih obˇcutno manj izpuˇsˇca.

V tabeli 5.2 so prikazani ˇstevilo korakov, ˇcas uˇcenja in uporabljena grafiˇcna kartica, ki smo jo uporabili pri uˇcenju vseh modelov ForwardTacotron.

Model ForwardTacotron Stevilo uˇˇ cnih korakov Cas uˇˇ cenja Grafiˇcna kartica

FT1 300k 27h RTX 3090

FT2 150k 19h RTX 3090

FT3 300k 28h RTX 3090

FT4 10k 2h RTX 3090

FT5 10k 2h RTX 3090

FT6 10k 1h RTX 3090

Tabela 5.2: Podrobnosti uˇcenja modelov ForwardTacotron.

5.2 Evalvacija

Vse skupaj smo ustvarili pet sistemov TTS. Tri najboljˇse sisteme smo ocenili z metodo povpreˇcne ocene mnenj (POM), kjer posluˇsalci ocenjujejo kako naravno zveni sintetiziran govor. Posluˇsalci so posamezne zvoˇcne posnetke

(43)

Diplomska naloga 29 ocenili z oceno od 1 do 5, kjer 5 predstavlja vrednost odliˇcno, 1 pa vrednost zaniˇc.

Za namen testa smo ustvarili preprosto spletno aplikacijo, kjer so po- sluˇsalci ocenjevali zvoˇcne posnetke. Za posluˇsanje so uporabljali svojo opremo, zato kontrole nad pogoji posluˇsanja nismo imeli.

Ocenili smo modele FT2, FT3 in FT6. Vsi so za generiranje zvoˇcnih posnetkov iz mel-spektrogramov uporabljali model HG2.

Za vsak sistem smo izbrali iz podatkovnih mnoˇzic 10 nakljuˇcnih stavkov.

Pred zaˇcetkom testa so posluˇsalci naprej posluˇsali originalne zvoˇcne posnetke, ki so ocenjeni s 5. Ker se sˇcasoma lahko kriterij posluˇsalca spremeni, so dobili zvoˇcne posnetke v individualnem nakljuˇcnem vrstnem redu.

V evalvaciji je sodelovalo 21 posluˇsalcev-prostovoljcev moˇskega spola, ki so v svojih dvajsetih letih. Vsak ocenjevalec je ocenil 10 zvoˇcnih posnetkov vsakega sistema ter 10 posnetkov originalnega govorca, tako je bil vsak model ocenjen 210-krat.

5.3 Rezultati

V tabeli 5.3 so prikazani POM rezultati najboljˇsih treh sistemov TTS.

Sistem TTS POM

FT2 + HG2 3.8 ± 0.28

FT3 + HG2 4.07 ± 0.32

FT6 + HG2 3.1 ± 0.34

Originalni zvoˇcni posnetki 4.56 ± 0.19

Tabela 5.3: POM ocene testiranih sistemov TTS s 95% intervalom zaupanja.

Najboljˇso POM oceno 4.07 dobimo z modelom FT3, za njim pa zaostaja model FT2. Za primerjavo: Tacotron 2 doseˇze oceno 4.52, FastSpeech oceno 3.83, DeepVoice pa oceno 3.78. Vsi trije modeli so bili nauˇceni z angleˇsko podatkovno mnoˇzico LJSpeech [23].

(44)

30 Tom ˇSabanov Model FT3 generira najbolj naraven govor izmed vseh modelov. Model dobro ohrani govorne lastnosti originalnega govorca, vendar se pri sintezi daljˇsih stavkov zaˇcuti, da je govor umeten.

Osnovni model ForwardTacotron FT1 ne generira dobre kakovosti govora, vendar je dovolj dober za prilagajanje drugih, ˇse nevidenih govorcev. Model FT2 je generiral skoraj tako dobre rezultate kot FT3, kljub temu, da je za uˇcenje potreboval le polovico korakov modela FT3. Veˇcja pomankljivost modela FT2 je, da je obdrˇzal hitrost govora osnovnega modela FT1, kar je pripomoglo k slabˇsim rezultatom pri sintezi daljˇsih stavkov.

Najslabˇse rezultate dosegajo modeli, ki so bili prilagojeni z manj podatki.

Izmed teh dosega najboljˇse rezultate FT6, ki je nauˇcen na dveh urah govora.

Modeli FT4, FT5 in FT6 dobro posnemajo zvok govorca, vendar izpuˇsˇcajo dele besed. Najmanj se to opazi pri modelu FT6. To bi lahko bila posledica uporabe arhitekture ForwardTacotron, ki ne uporablja sloja pozornosti, ki skrbi, da ne pride do izpada besed iz stavkov. Manj podatkov za uˇcenje modelov pomeni tudi, da obstaja veˇcja moˇznost, da model ne dobi dovolj kombinacij fonemov za pravilno uˇcenje prozodije. Boljˇso kakovost so dosegali modeli z veˇc podatki.

Pri modelih FT4 in FT6 hitro opazimo, da se kakovost sintetiziranega glasu ne izboljˇsa, ˇce imamo dodatnih 30 minut govora. Oba modela dobro posnameta zvok govorca, vendar vsebuje generiran govor preveˇc artefaktov za robusten sistem TTS.

Pri primerjavi modelov Hifi-GAN je prilagojen model HG2 dosegal naj- boljˇse rezultate, najslabˇse pa osnovni model HG1, ki je bil nauˇcen z le 160k koraki. ˇCe ˇzelimo dosegati dobre rezultate pri univerzalnih vokoderjih, jih je potrebno uˇciti vsaj 500k korakov, kar lahko vzame tudi veˇc tednov. Osnovni model Hifi-GAN generira govor z veliko artefaktov pri sintezi ˇse nevidenega govorca. V primeru ˇze videnih govorcev najbolje generira glasove, ki so imeli veˇc podatkov v uˇcni mnoˇzici. Algoritem Griffin-Lim generira razumljiv govor, vendar vseeno zveni umetno. Univerzalni Hifi-GAN model je zmoˇzen sintetizirati veliko razliˇcnih glasov iz razliˇcnih jezikov. Generiran govor je

(45)

Diplomska naloga 31 razumljiv, vendar ne ohranja popolnoma glasu originalnega govorca, sicer pa je dobra osnova za prilagajanje modela z enim govorcem.

Vsi modeli ForwardTacotron ne prepoznajo konteksta besedila in zato ne znajo pravilno sklanjati ter razˇsirjati okrajˇsav. Prav tako imajo teˇzave z na- glasitvijo nekaterih besed. Reˇsitev bi bila implementacija fonetiˇcne abecede v uˇcenje modelov.

(46)

32 Tom ˇSabanov

(47)

Poglavje 6 Zakljuˇ cek

V diplomskem delu smo ustvarili sintetizator slovenskega govora. Zgradili smo ˇsest podatkovnih mnoˇzic ter uporabili arhitekturi ForwardTacotron in Hifi-GAN za izgradnjo petih razliˇcnih TTS sistemov. Preverili smo, koliko podatkov potrebujemo za prilagajanje novega modela sinteze govora na podlagi ˇze zgrajenega osnovnega ForwardTacotron modela. Ugotovili smo, da za dobro kakovost sinteze potrebujemo vsaj 60 minut govora, vendar za posne- manje glasu zadostuje ˇze samo 30 minut govora novega govorca. Primerjali smo tri najboljˇse TTS sisteme in originalne zvoˇcne posnetke s pomoˇcjo ocene POM.

Zgradili smo tudi dva Hifi-GAN modela in ugotovili, da za uˇcenje univerzalnega vokoderja potrebujemo veliko veˇc ˇcasa kot za uˇcenje univerzalnega modela Tacotron. Prilagodili smo obstojeˇci univerzalni model za naˇsega govorca, s katerim smo dobili zelo dobro kakovost generiranega glasu.

Sploˇsni model ForwardTacotron FT1 je primeren za nadaljne izboljˇsave.

Model bi lahko nadgradili z veˇcjo koliˇcino moˇskih glasov, za univerzalni model pa bi bilo potrebno prilagoditi model FT1 z veliko koliˇcino zvoˇcnih posnetkov ˇzenskega in moˇskega glasu. Za pravilno naglaˇsevanje bi morali uˇciti model ForwardTacotron s fonetiˇcno abecedo. Vhod besedila v ForwardTacotron bi bilo treba obdelati in pravilno oznaˇciti besede za dosego boljˇsega naravnega govora.

33

(48)

34 Tom ˇSabanov Uˇcenje lastnega univerzalnega vokoderja brez metode mehkega zaˇcetka zahteva ogromno koliˇcino podatkov in ˇcasa. Za ustvaritev univerzalnega vokoderja je zato bolje vzeti obstojeˇc univerzalni model in ga prilagoditi na veˇcjo mnoˇzico moˇskih in ˇzenskih glasov.

(49)

Literatura

[1] Forwardtacotron. Dosegljivo: https://github.com/as-ideas/

ForwardTacotron/. [Dostopano 30. 7. 2021].

[2] Hifi-GAN. Dosegljivo: https://github.com/jik876/hifi-gan. [Do- stopano 30. 7. 2021].

[3] Brazen head. Dosegljivo: https://en.wikipedia.org/wiki/Brazen_

head, 2015. [Dostopano 30. 7. 2021].

[4] Abien Fred Agarap. Deep Learning using Rectified Linear Units (ReLU).

Dosegljivo: https://arxiv.org/pdf/1803.08375.pdf, 2019.

[5] J. Allen. Short term spectral analysis, synthesis, and modification by discrete Fourier transform. IEEE Transactions on Acoustics, Speech, and Signal Processing, 25(3):235–238, 1977.

[6] Alastalo Antti. Finnish end-to-end speech synthesis with Tacotron 2 and WaveNet. Magistrska naloga, Aalto University, School of Science, 2021.

[7] Sercan ¨O. Arık, Mike Chrzanowski, Adam Coates, Gregory Diamos, Andrew Gibiansky, Yongguo Kang, Xian Li, John Miller, Andrew Ng, Jonathan Raiman, Shubho Sengupta, and Mohammad Shoeybi. Deep voice: Real-time neural text-to-speech. In Doina Precup and Yee Whye Teh, editors, Proceedings of the 34th International Conference on Ma- chine Learning, volume 70 ofProceedings of Machine Learning Research, pages 195–204, 2017.

35

(50)

36 Tom ˇSabanov [8] International Phonetic Association. The international phonetic alphabet. Dosegljivo: https://www.internationalphoneticassociation.

org/sites/default/files/IPA_Kiel_2015.pdf, 2015. [Dostopano 30.

7. 2021].

[9] Mariette Awad and Rahul Khanna. Hidden Markov Model, pages 81–

104. Apress, 2015.

[10] Johan Bjorck, Carla Gomes, Bart Selman, and Kilian Q. Weinberger.

Understanding Batch Normalization. Dosegljivo: https://arxiv.org/

pdf/1806.02375.pdf, 2018.

[11] Sam Thornton Boyang Zhang, Jared Leitner. Audio Reco- gnition using Mel Spectrograms and Convolution Neural Ne- tworks. Dosegljivo: http://noiselab.ucsd.edu/ECE228_2019/

Reports/Report38.pdf, 2019. [Dostopano 30. 7. 2021].

[12] Nikola Paveˇsi´c Boˇstjan Vesnicer, France Miheliˇc. Vrednotenje na pri- kritih markovovih modelih temeljeˇcega sistema za umetno tvorjenje slovenskega govora. Jezikovne tehnologije: zbornik B 7. mednarodne multi- konference Informacijska druˇzba IS, pages 98–102, 2004.

[13] Antonia Creswell, Tom White, Vincent Dumoulin, Kai Arulkumaran, Biswa Sengupta, and Anil A. Bharath. Generative adversarial networks:

An overview. IEEE Signal Processing Magazine, 35(1):53–65, 2018.

[14] Jae Lim D. Griffin. Signal estimation from modified short-time fourier transform. IEEE Transactions on Acoustics, Speech, and Signal Proces- sing, Volume 32, Issue: 2, Apr 1984, pages 98–102, 1984.

[15] Matjaˇz Gams. Govorec - sistem za slovenski raˇcunalniˇski govor. Novice IJS. ˇst. 83, pages 3–4, 2000.

[16] Matjaˇz Gams. Sintetizator govora za slovenˇsˇcino ebralec. Zbornik konference Jezikovne tehnologije in digitalna humanistika, pages 180–185, 2016.

(51)

Diplomska naloga 37 [17] Fredrick Geissler. Notes, 32(4):775–777, 1976.

[18] Griffin, D. and Jae Lim. Signal estimation from modified short-time Fourier transform. IEEE Transactions on Acoustics, Speech, and Signal Processing, 32(2):236–243, 1984.

[19] Mike Schuster Heiga Ze, Andrew Senior. Statistical parametric speech synthesis using deep neural networks. IEEE international conference on acoustics, speech and signal processing, pages 7962–7966, 2013.

[20] Hochreiter, Sepp and Schmidhuber, Jurgen. Long Short-Term Memory.

Neural Computation, 9(8):1735–1780, 1997.

[21] A.J. Hunt and A.W. Black. Unit selection in a concatenative speech synthesis system using a large speech database. In1996 IEEE Internati- onal Conference on Acoustics, Speech, and Signal Processing Conference Proceedings, volume 1, pages 373–376 vol. 1, 1996.

[22] Quoc V. Le Ilya Sutskever, Oriol Vinyals. Sequence to Sequence Learnin- gwith Neural Networks. In Advances in Neural Information Processing Systems (NIPS 2014).

[23] Keith Ito and Linda Johnson. The LJ Speech Dataset. https:

//keithito.com/LJ-Speech-Dataset/, 2017.

[24] Jerneja ˇZganec Gros, Nikola Paveˇsi´c, France Miheliˇc. Text-to-Speech synthesis: a complete system for the Slovenian language. Journal of computing and information technology, pages 11–19, 1997.

[25] Jungil Kong, Jaehyeon Kim, and Jaekyoung Bae. HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis.

Dosegljivo: https://arxiv.org/pdf/2010.05646.pdf, 2020.

[26] Kundan Kumar, Rithesh Kumar, Thibault de Boissiere, Lucas Gestin, Wei Zhen Teoh, Jose Sotelo, Alexandre de Brebisson, Yoshua Ben- gio, and Aaron Courville. MelGAN: Generative Adversarial Networks

(52)

38 Tom ˇSabanov for Conditional Waveform Synthesis. Dosegljivo: https://arxiv.org/

pdf/1910.06711.pdf, 2019.

[27] Sneha Lukose and Savitha S. Upadhya. Text to speech synthesizer- formant synthesis. In 2017 International Conference on Nascent Tech- nologies in Engineering (ICNTE), pages 1–4, 2017.

[28] Xudong Mao, Qing Li, Haoran Xie, Raymond Lau, Zhen Wang, and Stephen Paul Smolley. Least squares generative adversarial networks.

Proceedings of the IEEE International Conference on Computer Vision (ICCV), pages 2794–2802, 2017.

[29] Gregoire Montavon, Wojciech Samek, and Klaus-Robert Muller. Me- thods for interpreting and understanding deep neural networks. Digital Signal Processing, 73:1–15, 2018.

[30] Pertti Palo. A review of articulatory speech synthesis. Magistrska naloga, Helsinki University of Technology, 2006.

[31] Razvan Pascanu, Tomas Mikolov, and Yoshua Bengio. On the difficulty of training recurrent neural networks. In Sanjoy Dasgupta and David McAllester, editors, Proceedings of the 30th International Conference on Machine Learning, volume 28 of Proceedings of Machine Learning Research, pages 1310–1318, 2013.

[32] Ryan Prenger, Rafael Valle, and Bryan Catanzaro. WaveGlow: A Flow- based Generative Network for Speech Synthesis. pages 3617–3621, 2019.

[33] Simon Rozman. Sinteza govornega signala na osnovi metode HNM.

Magistrska naloga, Univerza v Ljubljani, Fakulteta za raˇcunalniˇstvo in informatiko, 2005.

[34] Jonathan Shen, Ruoming Pang, Ron J. Weiss, Mike Schuster, Nav- deep Jaitly, Zongheng Yang, Zhifeng Chen, Yu Zhang, Yuxuan Wang, Rj Skerrv-Ryan, Rif A. Saurous, Yannis Agiomvrgiannakis, and Yonghui

(53)

Diplomska naloga 39 Wu. Natural TTS Synthesis by Conditioning Wavenet on MEL Spectro- gram Predictions. In2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 4779–4783, 2018.

[35] Blaˇz Simˇciˇc. Metoda glavnih komponent in manjkajoˇci podatki. Magi- strska naloga, Univerza v Ljubljani, Fakulteta za druˇzbene vede, 2014.

[36] Y. Stylianou. Applying the harmonic plus noise model in concatenative speech synthesis. IEEE Transactions on Speech and Audio Processing, 9(1):21–29, 2001.

[37] Tom ˇSabanov. Generiranje slovenskega govora na podlagi uˇcnih mnoˇzic veˇc govorcev. Dosegljivo: https://tomsabanov.gitlab.io/

generiranje-slovenskega-govora-tacotron/, 2021. [Dostopano 30.

7. 2021].

[38] Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior, and Ko- ray Kavukcuoglu. WaveNet: A Generative Model for Raw Audio, 2016.

[39] Aaron van den Oord, Yazhe Li, Igor Babuschkin, Karen Simonyan, Oriol Vinyals, Koray Kavukcuoglu, George van den Driessche, Edward Lockhart, Luis Cobo, Florian Stimberg, Norman Casagrande, Dominik Grewe, Seb Noury, Sander Dieleman, Erich Elsen, Nal Kalchbrenner, Heiga Zen, Alex Graves, Helen King, Tom Walters, Dan Belov, and De- mis Hassabis. Parallel WaveNet: Fast high-fidelity speech synthesis. In Jennifer Dy and Andreas Krause, editors,Proceedings of the 35th Inter- national Conference on Machine Learning, volume 80 of Proceedings of Machine Learning Research, pages 3918–3926, 2018.

[40] Yuxuan Wang, RJ Skerry-Ryan, Daisy Stanton, Yonghui Wu, Ron J.

Weiss, Navdeep Jaitly, Zongheng Yang, Ying Xiao, Zhifeng Chen, Samy Bengio, Quoc Le, Yannis Agiomyrgiannakis, Rob Clark, and Rif A.

Saurous. Tacotron: Towards end-to-end speech synthesis. Dosegljivo:

https://arxiv.org/pdf/1703.10135.pdf, 2017.

(54)

40 Tom ˇSabanov [41] Yi Ren, Yangjun Ruan, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie- Yan Liu. FastSpeech: Fast, Robust and Controllable Text to Speech.

Dosegljivo: https://arxiv.org/pdf/1905.09263.pdf, 2019. [Dosto- pano 30. 7. 2021].

[42] Heiga Zen, Keiichi Tokuda, and Alan W. Black. An HMM-based speech synthesis system applied to English. IEEE Speech Synthesis Workshop, pages 227–230, 2002.

[43] Jerneja ˇZganec Gros. eBralec – sintetizator govora za slovenˇsˇcino. Do- segljivo: http://videolectures.net/jota_zganec_gros_ebralec/, 2018. [Dostopano 30. 7. 2021].