• Rezultati Niso Bili Najdeni

Naˇ cini tvorjenja umetnega govora

Prvi poskusi sinteze govora segajo v 11. stoletje [3], od takrat se je zvrstilo mnogo pristopov in ˇstevilnih napredkov v tehnologiji sinteze govora.

2.1.1 Artikulatorna sinteza

Najstarejˇsi pristop sinteze govora je artikulatorna sinteza [30] iz 18. stoletja.

Deluje na princip posnemanja biomehanike ˇcloveˇskega govornega sistema.

Zasnovana je na osnovi matematiˇcnega modela, ki simulira govorno cev. Ta vsebuje ustnice, zobe, jezik, itd.

Artikularna sinteza se izvaja na fiziˇcnih napravah, ki poskuˇsajo posnemati pretok zraka skozi govorno cev. Ta je simulirana s kaskado povezav cevi skozi katere se ˇsirijo zvoˇcni valovi.

Ker potrebujemo izjemno natanˇcne modele govorca za poustvaritev ka-rakteristik njegovega govora, se ta pristop danes veˇc ne uporablja.

2.1.2 Formantna sinteza

Formantna sinteza govora [27] je dominirala vse do poznih osemdesetih let, uporablja pa podoben pristop kot artikulatorna sinteza govora. Zasnovana je na osnovi klasiˇcne akustiˇcne teorije produkcije glasu, kjer ima vsak zvok vir, ki ga govorna cev filtrira. Glas poskuˇsa umetno rekonstruirati s pomoˇcjo formantnih frekvenc glasu. To so resonanˇcne frekvence pri izreku doloˇcenega glasu.

Diplomska naloga 5 Tako kot pri artikularni sintezi se formantna sinteza zanaˇsa na vnaprej doloˇcen akustiˇcni model glasovne produkcije. Proizveden glas, kontroliran z mnoˇzico roˇcno ustvarjenih parametrov za formantne frekvence, je razumljiv, vendar ˇse vedno ne posnema dobro naravnega ˇcloveˇskega glasu in zveni ume-tno.

2.1.3 Sinteza z zdruˇ zevanjem

Pred pojavom sinteze z globokim uˇcenjem, je veˇcina sistemov TTS upora-bljala sintezo z zdruˇzevanjem [21].

Sinteza z zdruˇzevanjem osnovnih enot govora je zasnovana na zdruˇzevanju kratkih segmentov posnetega govora. To so lahko polni stavki, besede, zlogi, ali posamezni fonemi. Hranimo jih v valovni obliki ali v obliki spektrogramov.

Za specifiˇcne domene, kot so recimo javni prevozi, se lahko zdruˇzujejo polni stavki in besede, za sploˇsen sistem TTS, ki bo znal proizvajati zvok za ˇse nevidene besede in stavke pa je potrebno delati na nivoju fonemov. Takˇsni sistemi TTS uporabljajo pristop z izbiro enote (ang. unit selection).

Naprej pretvorimo besedilo, ki bi ga ˇzeleli sintetizirati, v govorne lastnosti oziroma ciljne enote. Vsaka ciljna enota je s svojim zvoˇcnim segmentom nato shranjena v govorni zbirki ˇze posnetih in oznaˇcenih zvoˇcnih segmentov. Izbira enote se poenostavi v problem prerazporeditve obstojeˇcih zvoˇcnih segmentov v sekvenco segmentov, ki bodo ˇcim bolj ustrezali sekvenci ciljnih enot.

Sintetizatorji z zdruˇzevanjem izberejo najboljˇse zaporedje zvoˇcnih se-gmentov tako, da zmanjˇsajo ciljno ceno in ceno zdruˇzevanja. Ciljna cena pove, kako dobro se enota kandidatka ujema s ciljno enoto, cena zdruˇzevanja pa, kako dobro se zdruˇzijo izbrane enote kandidatke. Celoten problem iska-nja idealne ureditve zvoˇcnih segmentov se reˇsuje kot problem minimizacije teh dveh cen.

Omejitev take sinteze je, da posameznih zvoˇcnih segmentov ne spremi-njamo, kar pomeni da je generirani govor povsem omejen na stil govorca zvoˇcnih posnetkov.

Slika 2.1 prikaˇze problem ujemanja ciljnih in kandidatnih enot. Modre

6 Tom ˇSabanov ˇskatle so ciljne enote besedila, rdeˇce pa vse enote kandidatov za posamezno ciljno enoto. Na sliki 2.2 lahko vidimo, kako se posamezne enote kandidatke povezujejo.

Slika 2.1: Ilustracija ciljnih enot in enot kandidatk.

Slika 2.2: Ilustracija izbire enot (prevzeta iz [42]).

Diplomska naloga 7

2.1.4 Parametriˇ cna sinteza

Parametriˇcna sinteza prav tako sintetizira govor s pomoˇcjo vnaprej pripra-vljenih govornih segmentov, vendar s pomoˇcjo mnoˇzice parametrov govorne segmente tudi modificira.

Parametriˇcna sinteza je sestavljena iz dveh delov, in sicer iz faze treniranja ter iz sinteze. Med fazo treniranja izvleˇcemo mnoˇzico parametriˇcnih reprezen-tacij govora iz baze govornih segmentov. Te reprezenreprezen-tacije nato modeliramo skupaj s pripadajoˇcim besedilom s pomoˇcjo statistiˇcnih modelov. Soˇcasno modeliramo frekvenˇcni spekter, osnovno frekvenco in prozodijo glasu. Eden izmed najbolj popularnih statistiˇcnih modelov za sintezo govora, ki zagota-vlja dobre rezultate, je prikriti markovski model oziroma PMM (ang. hidden Markov model) [9].

Namesto da izbiramo najbolj primerne enote iz govorne zbirke, kot pri sintezi z zdruˇzevanjem, parametriˇcna sinteza problem poenostavi tako, da ustvari povpreˇcno enoto iz mnoˇzice enot, ki ustrezajo ciljni enoti. Rezul-tat takˇsnega naˇcina generiranja govora je v nasprotju s sintezo zdruˇzevanja, kjer ˇzelimo ohraniti nespremenjene zvoˇcne enote originalnega govorca. Ven-dar nam parametriˇcna sinteza nudi druge prednosti. Znaˇcilnosti glasa lahko spreminjamo tako, da transformiramo ustrezne parametre PMM. Uporablja se lahko za razliˇcne jezike z malo spremembami. Z majhno koliˇcino govornih posnetkov lahko sintetiziramo razliˇcne sloge govora.

Bolj podrobnejˇsi opis uporabe PMM za sintezo govora opiˇsejo avtorji v [12].

2.1.5 Sinteza z globokim uˇ cenjem

Zaradi napredka strojne opreme je v zadnjih letih napredovalo podroˇcje glo-bokega uˇcenja. globokega uˇcenja. Na podroˇcju sinteze govora se je spoˇcetka globoko uˇcenje uporabljalo le za zamenjavo komponent obstojeˇcih sintetiza-torjev govora. Leta 2013 so Schuster et al. [19] zamenjali cenitev gostote verjetnosti na osnovi PMM z globokimi nevronskimi mreˇzami (ang. Deep

8 Tom ˇSabanov Neural Networks) [29]. Uporaba globokih nevronskih mreˇz v modelih zasno-vana z metodo PMM se je izkazala za precejˇsno izboljˇsavo, saj so globoke nevronske mreˇze bolje modelirale parametre prozodije govora.

Najveˇcja prednost sinteze govora z globokim uˇcenjem je moˇznost izgra-dnje modela, ki je zmoˇzen popolnoma sintetizirati zvok le iz danega besedila in pripadajoˇcih glasovnih posnetkov. Takˇsnim sistemom pravimo end-to-end sistemi. Takˇsne sisteme lahko matematiˇcno modeliramo z enaˇcbo 2.1, kjer je Y besedilo, ki ga ˇzelimo sintetizirati, X ciljni sintetiziran govor, θ pa pred-stavlja parametre modela.

X =arg max P(X|Y, θ) (2.1) Vse sodobne arhitekture end-to-end sistemov, kot so FastSpeech [41], Tacotron [40] ali DeepVoice [7], vsebujejo v osnovi ˇstiri komponente. To so predprocesor, kodirnik, dekodirnik ter vokoder. Na sliki 2.3 lahko vidimo osnovno shemo sodobnih arhitektur. Model dobi na vhod besedilo, ki gre skozi veˇc komponent, in je nakoncu pretvorjeno v zvoˇcni posnetek.

Slika 2.3: Osnovna shema sodobnih arhitektur na podlagi globokega uˇcenja.

Predprocesor naprej razˇcleni besedilo v posamiˇcne besede, jih pretvori v foneme in na izhod vrne iz njih sestavljene jeziskovne znaˇcilnosti. Kodirnik na vhodu dobi jezikovne znaˇcilnosti, na izhod pa vrne n-dimenzionalne vloˇzitve (ang. embedding). Vloˇzitvam med kodirnikom in dekodirnikom pravimo latentne lastnosti. Te so kljuˇcnega pomena, saj vsebujejo lastnosti govora, kot so vloˇzitve govorcev (ang. speaker embedding), intonacija, intenziteta in dolˇzina fonemov.

Dekodirnik se uporablja za pretvorbo informacij iz latentnih lastnosti v

Diplomska naloga 9 zvoˇcne lastnosti. Te so zapisane v obliki spektrogramov. Opis spektrogramov se nahaja v poglavju 3.1.

Naloga vokodorja je konˇcna pretvorba iz spektrogramov v zvoˇcne valove oziroma zvoˇcni posnetek. To lahko naredimo s pomoˇcjo matematiˇcnega mo-dela, kot je Griffin-Lim [18], ali pa z uporabo globokega uˇcenja nauˇcimo nevronsko mreˇzo, da se nauˇci preslikati spektrograme v valovne signale.