• Rezultati Niso Bili Najdeni

Sodobni sistemi TTS se uˇcijo in evalvirajo na veˇc deset urah enega govorca.

Podatkovne mnoˇzice, ki smo jih uporabili, vsebujejo preko 30 ur govora, vendar od ˇstirih govorcev. Najveˇcja dolˇzina govora enega govorca je 9.5 ur. Pri delu smo uporabili metodo mehkega zaˇcetka (ang. warm start).

Pri tej metodi nauˇcimo osnovni model s ˇcim veˇc podatki veˇcih govorcev

25

26 Tom ˇSabanov in ga nato prilagodimo enemu govorcu. Osnovni model nima informacij o govorcih in obravnava podatkovno mnoˇzico kot mnoˇzico zvoˇcnih posnetkov enega govorca.

Ustvarili smo dva modela Hifi-GAN in ˇsest modelov ForwardTacotron.

Prvi model Hifi-GAN HG1 smo ustvarili z namenom, da bi sluˇzil kot uni-verzalni model za slovenski govor. Drugi model HG2 smo ustvarili z me-todo mehkega zaˇcetka za enega govorca in smo ga uporabljali pri sinteti-ziranju mel-spektrogramov vseh modelov ForwardTacotron. Za generiranje mel-spektrogramov smo ustvarili univerzalni model ForwardTacotron FT1.

Na podlagi tega modela smo prilagodili model FT2 za enega govorca. Da bi lahko ocenili efektivnost metode mehkega zaˇcetka smo ustvarili model FT3 z isto podatkovno mnoˇzico kot FT2, vendar brez omenjene metode. Zanimalo nas je tudi, koliko podatkov enega govorca bi potrebovali, da bi ustvarili ro-busten sistem TTS na podlagi modela FT1. Zato smo ustvarili modele FT4, FT5 in FT6 s podatkovnimi mnoˇzicami PM4, PM5 in PM6 kot smo opisali v razdelku 4.1.

Zvoˇcni posnetki, ki so omenjeni v nadaljevanju, so dostopni na [37].

5.1.1 Modeli Hifi-GAN

Model Hifi-GAN HG1 smo ustvarili s podatkovno mnoˇzico PM1, ki vsebuje zvoˇcne posnetke vseh ˇstirih govorcev. Uˇcili smo ga 160k korakov, vendar je bil konˇcni rezultat dokaj slab pri sintezi zvoˇcnih posnetkov ˇse nevidenih govorcev. Generiran govor je sicer razumljiv, vendar ima veliko artefaktov in zveni precej umetno. Kakovost sintetiziranega glasu je odvisna od podobnosti glasov novega govorca in govorcev iz podatkovne mnoˇzice PM1. Boljˇse rezul-tate dobimo pri sintezi govora na podlagi govorcev iz podatkovne mnoˇzice, na kateri je bil model uˇcen. Pri sintezi je generiran govor dobro razumljiv pri vseh govorcih, manj artefaktov pa je pri govorcih z veˇc glasovnimi posnetki v podatkovni mnoˇzici PM1.

Model Hifi-GAN HG2 smo uˇcili z metodo prilagajanja. Za osnovni model smo vzeli univerzalni model, ki ga ponuja originalna implementacija. Ta se

Diplomska naloga 27 je uˇcil kar dva tedna do 2.5 miljona korakov na angleˇskih uˇcnih mnoˇzicah.

Prilagodili smo ga ˇse dodatnih 130k korakov na podatkovni mnoˇzici PM3, ki vsebuje le enega govorca. Konˇcni model ohranja lastnosti originalnega govorca in dobro rekonstruira intenziteto, hitrost in prozodijo govorca iz podatkovne mnoˇzice PM3, vendar se pri daljˇsih stavkih pri izgovorjavi besed opazi ˇsum.

V tabeli 5.1 so prikazani ˇstevilo korakov, ˇcas uˇcenja in uporabljena grafiˇcna kartica, ki smo jo uporabili pri uˇcenju modelov HG1 in HG2.

Model Hifi-GAN ˇStevilo uˇcnih korakov Cas uˇˇ cenja Grafiˇcna kartica

HG1 160k 44h RTX 3090

HG2 130k 17h RTX 3090

Tabela 5.1: Podrobnosti uˇcenja modelov HG1 in HG2.

5.1.2 Modeli ForwardTacotron

S podatkovno mnoˇzico PM2 smo ustvarili model ForwardTacotron FT1.

Nauˇcen model FT1 je po 300k korakih generiral veˇcinoma razumljiv govor, vendar umetno zveneˇc. Generirani stavki zvenijo podobno povpreˇcenemu glasu vseh govorcev iz podatkovne mnoˇzice, hitrost generiranega govora pa je podobna hitrosti enega od govorcev v PM2. Nauˇcen model izpuˇsˇca tudi dele besed pri daljˇsih stavkih in ima teˇzave z izgovorjavo nekaterih besed.

Nauˇcene uteˇzi osnovnega modela FT1 smo uporabili pri prilagoditvi mo-dela FT2 enemu govorcu na podatkovni mnoˇzici PM3. Prilagojen model smo uˇcili ˇse nadaljnih 150k korakov, dokler niso funkcije izgube konvergirale in ni bilo mogoˇce veˇc zaˇcutiti obˇcutnih sprememb v generiranem govoru. Ge-nerirani govor dobro posnema zvok govorca, veˇcjih delov besed ne izpuˇsˇca, vendar ˇse zmeraj obdrˇzi lastnost hitrejˇsega govora osnovnega modela FT1.

Za primerjavo s prilagojenim modelom FT2 smo nauˇcili tretji model For-wardTacotron FT3 samo s podatkovno mnoˇzico PM3. Uˇcili smo ga 300k

28 Tom ˇSabanov korakov, dosega pa boljˇse rezultate kot model FT2, saj zelo dobro posnema lastnosti originalnega govorca in pri daljˇsih stavkih ne izpuˇsˇca delov besed.

Zanimalo nas je tudi, koliko podatkov bi potrebovali iz podatkovne mnoˇ zi-ce PM3, da bi generirali govor solidne kakovosti iz osnovnega modela FT1.

Za ta namen smo ustvarili podatkovne mnoˇzice PM4, PM5 in PM6. Nauˇcili smo tri nove ForwardTacotron modele FT4, FT5 in FT6 z metodo mehkega zaˇcetka na osnovi modela FT1. Model FT4 smo uˇcili s PM4, FT5 s PM5 in FT6 s PM6. Vse tri modele smo uˇcili le 10k korakov. Vsi trije modeli so dobro posnemali glas govorca, vendar sta modela FT4 in FT5 izpuˇsˇcala ali celo narobe izgovarjala besede. Pri najveˇcjem modelu FT6 zaˇcnemo dobi-vati dobre rezultate. Model besed ne izgovarja narobe in jih obˇcutno manj izpuˇsˇca.

V tabeli 5.2 so prikazani ˇstevilo korakov, ˇcas uˇcenja in uporabljena grafiˇcna kartica, ki smo jo uporabili pri uˇcenju vseh modelov ForwardTacotron.

Model ForwardTacotron Stevilo uˇˇ cnih korakov Cas uˇˇ cenja Grafiˇcna kartica

FT1 300k 27h RTX 3090

FT2 150k 19h RTX 3090

FT3 300k 28h RTX 3090

FT4 10k 2h RTX 3090

FT5 10k 2h RTX 3090

FT6 10k 1h RTX 3090

Tabela 5.2: Podrobnosti uˇcenja modelov ForwardTacotron.