Implementacijamodelazaklasiﬁciranjeurbanihzvokov MetodZupanˇciˇc

(1)

Univerza v Ljubljani

Fakulteta za raˇ cunalniˇ stvo in informatiko

Metod Zupanˇciˇc

Implementacija modela za klasificiranje urbanih zvokov

DIPLOMSKO DELO

VISOKOˇSOLSKI STROKOVNI ˇSTUDIJSKI PROGRAM PRVE STOPNJE

RA ˇCUNALNIˇSTVO IN INFORMATIKA

Mentor : doc. dr. Jure ˇ Zabkar

Ljubljana, 2021

(2)

tatov diplomske naloge je potrebno pisno privoljenje avtorja, fakultete ter mentorja.

Besedilo je oblikovano z urejevalnikom besedil L^ATEX.

(3)

Kandidat: Metod Zupanˇciˇc

Naslov: Implementacija modela za klasificiranje urbanih zvokov

Vrsta naloge: Diplomska naloga na visokoˇsolskem programu prve stopnje Raˇcunalniˇstvo in informatika

Mentor: doc. dr. Jure ˇZabkar

Opis:

Raziˇsˇcite podroˇcje klasifikacije urbanih zvokov in implementirajte model za reˇsitev tega problema. Za nabor podatkov izberite enega od javnih prosto- dostopnih virov, ki so ustrezno pripravljeni za ta problem. Poiˇsˇcite ustrezen pristop, izberite oz. skonstruirajte ustrezne znaˇcilke, uporabite primeren algoritem strojnega uˇcenja in ovrednotite dobljeni model.

Title: Implementation of a machine learning model for the classification of urban sounds

Description: Explore the field of urban sound classification and implement a model to solve this problem. Use one of the publicly available data sources that is suitable for this problem. Find the right approach, choose or construct the appropriate features, use an appropriate machine learning algorithm, and evaluate the obtained model.

(4)

(5)

Zavhaljujem se vsem ˇclanom podjetja IMS MERILNI SISTEMI d.o.o., ki so mi tematiko diplomske naloge predstavili ˇze v sklopu opravljanja delovne prakse in me v procesu izdelave reˇsitve in diplomske naloge podpirali. Zahva- ljujem se tudi mentorju doc. dr. Juretu ˇZabkarju, ki je preverjal in skrbel za pravilnost izvajanja naloge in potrditev rezultatov.

(6)

(7)

Kazalo

Povzetek Abstract

1 Uvod 1

2 Pristop k nalogi 3

2.1 Pregled podroˇcja . . . 3

2.2 Izbira orodij in tehnologij . . . 3

2.3 Izbira podatkov . . . 4

2.4 Iskanje ustrezne topologije in znaˇcilk zvoka . . . 4

2.5 Optimizacija modela . . . 4

3 Motivacija 5 3.1 Uporaba v podjetju . . . 5

3.2 Pametno mesto . . . 6

3.3 Vpliv hrupa na zdravje . . . 6

3.4 Varnost v mestih . . . 7

3.5 Letenje dronov . . . 8

3.6 Pomoˇc v prometu . . . 8

4 Teorija 11 4.1 Kratkoˇcasovna Fourierjeva transformacija . . . 11

4.2 Znaˇcilke zvoka . . . 12

4.3 Umetna nevronska mreˇza . . . 14

(8)

5 Pregled podroˇcja 17

6 Izbira orodij in tehnologij 21

6.1 Strojna oprema . . . 21

6.2 Programski jezik in knjiˇznice . . . 22

6.3 Strojno uˇcenje . . . 24

7 Izbira podatkov 29 7.1 UrbanSound8K . . . 30

7.2 ESC: Dataset for Environmental Sound Classification . . . 31

7.3 FreesoundDataset - FSD50K . . . 32

8 Metodologija, poskusi 33 8.1 Predpriprava podatkov . . . 33

8.2 Pridobitev topologije modela . . . 34

8.3 Iskanje ustreznih znaˇcilk zvoka . . . 34

8.4 Optimizacija modela . . . 35

8.5 Implementacija na poljubno izbranih zvoˇcnih dogodkih . . . . 38

9 Rezultati 41 9.1 Topologija CNN . . . 41

9.2 Znaˇcilke zvoka . . . 43

9.3 Optimizacija modela . . . 47 9.4 Rezultati implementacije na poljubno izbranih zvoˇcnih dogodkih 51

10 Zakljuˇcek 55

Literatura 57

(9)

Seznam uporabljenih kratic

kratica angleˇsko slovensko

CNN Convolutional Neural Network konvolucijska nevronska mreˇza RNN Recurrent Neural Network nevronska mreˇza s povratno

zanko

SVM Support Vector Machine metod podpornih vektorjev CA Classification Accuracy klasifikacijska toˇcnost

Acc Accuracy natanˇcnost

Epochs Epochs pregledi celotne mnoˇzice podatkov

STFT Short Time Fourier Transform kratkoˇcasovna Fourierjeva transformacija

FFT Fast Fourier Transform hitra Fourierjeva transformacija

MEL Mel Frequency Spectogram mel frekvenˇcni spektrogram MFCC Mel Frequency Cepstral Co-

efficients

mel frekvenˇcni kepstralni koeficienti

CHR CQT

Constant-Q Transformation Constant-Q transformacija CHR

CEN

Chroma Energy Normalized normalizirana kroma energija CHR

STFT

Chromagram kromagram

(10)

(11)

Povzetek

Naslov: Implementacija modela za klasificiranje urbanih zvokov Avtor: Metod Zupanˇciˇc

Z razvojem umetne inteligence in strojnega uˇcenja se reˇsuje veliko vsak- danjih ˇcloveˇskih problemov, na podroˇcju zvoka navadno predvsem z obrav- navanjem ˇcloveˇskega govora. Zaradi vpliva hrupa na ˇcloveˇsko zdravje pa je pomembna toˇcka izboljˇsave kvalitete ˇzivljenja tudi zaznavanje in minimizacija zvoˇcnega hrupa. Trenutne reˇsitve se za detekcijo zanaˇsajo samo na niz- konivojsko preseganje dovoljene jakosti, za nadaljnje ukrepe pa potrebujejo viˇsjenivojske informacije o viru zvoka.

Pred implementacijo je potrebno pregledati sorodna dela, kljuˇcne znaˇcilke zvoka in njim najbolj primerne topologije strojnega uˇcenja. Za vir podatkov se bodo uporabljali prostodostopni nabor podatkov, zaˇzeljivo tisti, na katerih je bila ˇze opravljena podobna naloga, ki bi sluˇzila za primerjanje rezultatov.

Po zadovoljivi uspeˇsnosti izbranih znaˇcilk in topologije je potrebno preizkusiti razliˇcne naˇcine izboljˇsevanja rezultatov.

Pri vseh naborih podatkov se za uporabo konvolucijske nevronske mreˇze najbolj izkaˇzeta znaˇcilki MFCC in MEL z dodajanjem tonsko in ˇcasovno spremenjenih zvoˇcnih posnetkov. Glede na sorodna dela, ki so uporabljala enak nabor podatkov, je reˇsitev te naloge (10-krat preˇcno preverjena povpreˇcna klasifikacijska natanˇcnost 98,4%) obetavna za nadaljnji razvoj.

Kljuˇcne besede: klasifikacija, strojno uˇcenje, zvok.

(12)

(13)

Abstract

Title: Implementation of a machine learning model for the classification of urban sounds

Author: Metod Zupanˇciˇc

With the development of artificial intelligence and machine learning, many everyday human problems are solved, in the field of sound usually mainly by dealing with human speech. Due to the impact of noise on human health, the detection and minimization of sound noise is also an important point for improving the quality of life. Current detection solutions rely only on low- level exceedances of the allowable volume for detection, and require further- level information on the sound source for further action.

Prior to implementation, it is necessary to review related works, key sound characteristics and the most appropriate machine learning topologies. Free datasets will be used as the data source, preferably those on which a similar task has already been performed to compare the results. After satisfactory performance of the selected features and configuration of the model, it is necessary to try different ways to improve the results.

For the all datasets, the MFCC and MEL features are best used for using a convolutional neural network by adding tone and time augmentations to the audio recordings. According to related works that used the same dataset, the proposed solution to this task (10-fold average classification accuracy 98.4%) is promising for further development.

Keywords: classification, machine learning, sound.

(14)

(15)

Poglavje 1 Uvod

Razvoj tehnologije spreminja naˇcin ˇzivljenja. V veliki meri je ˇclovekov vsak- dan v vsaj nekaj toˇckah olajˇsan z interakcijo s pametnimi napravami in reˇsitvami. Raˇcunska moˇc in uˇcinkovitost naraˇsˇcata in postajata dostopnejˇsa.

Rezultat tega je poveˇcanje koliˇcine podatkov, kar poslediˇcno omogoˇca razvoj umetne inteligence in strojnega uˇcenja za pridobivanje visokonivojskih informacij iz podatkov. Zato v zadnjih letih vidimo porast uporabe umetne inteligence v vseh podroˇcjih izboljˇsave ˇclovekovega bivanja.

Podroˇcje slike je z vidika strojnega uˇcenja ˇze precej dobro dodelano in aplikativno uporabljeno, potreba po pametnem zaznavanju zvoka pa se z modernizacijo poˇcasi poveˇcuje. Poleg onesnaˇzenja zraka je hrup pomemben negativen dejavnik na ˇclovekovo zdravje, zato ga je potrebno ustrezno meriti, analizirati in obvladovati.

Naloga opisuje implementacijo orodja za ustreznejˇsi pristop k reˇsevanju problemov, povezanih s hrupom urbanega okolja.

1

(16)

(17)

Poglavje 2

Pristop k nalogi

2.1 Pregled podroˇ cja

Pred izdelavo lastne reˇsitve preverimo pristope v sodornih delih. Za pridobivanje povratnih informacij iz pregleda podroˇcja so za nas pomembna vpraˇsanja:

kakˇsna je priˇcakovana uspeˇsnost takih reˇsitev,

katere znaˇcilke zvoka so najbolj odloˇcilne za pravilno klasifikacijo,

kaj naredi doloˇceno reˇsitev boljˇso od drugih, kakˇsna orodja in algoritme strojnega uˇcenja uporablja,

kateri nabori podatkov so uporabljeni za uˇcenje in testiranje.

2.2 Izbira orodij in tehnologij

Po pregledu podroˇcja je potrebnno navesti najbolj optimalno programsko platformo za implementacijo lastne reˇsitve. Ker je reˇsitev navsezadnje namenjena uporabi v podjetju, je pomembna sposobnost izbrane platforme prenosljivost in skalabilnost. V izbiro je potrebno upoˇstevati seznanjenost z izbranimi orodji, saj se s tem skrajˇsa ˇcas razvoja. Poleg same teˇzavnosti

3

(18)

izbrane programske opreme je pomembna tudi sposobnost paralelnega izvajanja na veˇc procesnih enotah (CPE ali GPE), ker bo v ˇcasu iskanja ustrezne strukture modela porabljeno veliko ˇcasa le za ˇcakanje na rezultate prototipi- ranja.

2.3 Izbira podatkov

Za uˇcenje in preverjanje uspeˇsnosti modela moramo izbrati nabor podatkov, dovolj obseˇzen in overjen za uporabo v nalogi. Zaˇzeljena je uporaba naborov podatkov, ki so relevantni in so bili ˇze uporabljeni znotraj sorodnih del. Tako bodo sorodna dela sluˇzila kot primerljivi rezultati.

2.4 Iskanje ustrezne topologije in znaˇ cilk zvoka

Za preverjanje kvalitete znaˇcilk zvoka je najprej potrebno definirati pribliˇzno ustrezno topologijo modela. To bi pridobili na podlagi sorodnih del podobnih struktur, ki bi jih uporabili le za iskanje razlik v natanˇcnosti glede na izbrane znaˇcilke. Sprotno z iskanjem ustreznih znaˇcilk je potrebno preizkuˇsati tudi razliˇcne topologije modela. ˇCasovno je to najpotratnejˇsi in najmanj stabi- len korak razvoja, ker zaˇcetno znanje temelji le na sorodnih delih in sprotno pridobljenih izkuˇsnjah. Kljub sorodnim delom znaˇcilno uporabo le enojnih zvoˇcnih znaˇcilk je potrebno preveriti, ˇce je model uspeˇsnejˇsi z uporabo kombinacij dveh ali veˇc znaˇcilk.

2.5 Optimizacija modela

Glede na ustrezne kvalitete znaˇcilk zvoka lahko eliminiramo vpraˇsanje izbire ustreznih znaˇcilk zvoka in se osredotoˇcimo na izpopolnitev topologije modela in uporabo razliˇcnih metod spreminjanja podatkov za izboljˇsavo. Predvsem je pomembna minimizacija prekomernega prileganja. Ce ˇˇ zeljen model ni generaliziran, je za aplikativno rabo neuporaben.

(19)

Poglavje 3 Motivacija

3.1 Uporaba v podjetju

V podjetju IMS MERILNI SISTEMI d.o.o. je bila ponujena moˇznost razi- skovanja in implementacije modela za klasifikacijo urbanih zvokov. Podjetje razvija strojne in programske reˇsitve za merjenje zvoka in vibracij. Kla- sifikacija merjenega zvoka bi pripomogla k dodatnim funkcionalnostim ˇze obstojeˇcim reˇsitvam, hkrati pa bi bila dobra podlaga za nadaljnji razvoj.

Sluˇzila bi kot pomoˇc oz. nadomestitev generiranja podrobnejˇsih poroˇcil, ki zahtevajo roˇcno preverjanje zgodovine ˇcasovnih toˇck dogodkov, katerih zvoˇcna jakost je presegala mejne vrednosti. Na lokacijah zvoˇcne onesnaˇzenosti razliˇcnih virov bi strankam omogoˇcala izloˇcanje neustreznih meritev. Za doseganje ustrezne kakovosti se v ponujenih produktih podjetja poleg merilnikov zvoka prilaga tudi vremenske postaje, ki v primeru neprimernih vre- menskih pogojev izloˇcajo meritve. Zaznavanje zvoka deˇzja ali vetra (kljub dejstvu, da to ni urbani zvok) bi pripomoglo k zniˇzevanju stroˇskov uporabe vremenske postaje. Poleg dodajanja funkcionalnosti k trenutnim reˇsitvam pa podjetje razvija ideje za uporabo v konceptu pametnih mest.

5

(20)

3.2 Pametno mesto

Vedno bolj vzpodbujana ideja je implementacija funkcionalnosti pametnih mest. Evropska komisija v skladu s predstavljeno idejo Smart cities [12]

podpira razvoj projektov za trajnostno prihodnost. Koncept je na razliˇcne naˇcine realiziran v projektih 29 drˇzav evropske unije, med njimi tudi v Slo- veniji. Poudarek projektov je izboljˇsevanje uˇcinkovitosti energije, mobilnosti in vsesploˇsno trajnostnega razvoja mest. Gradi se znanje za reˇsevanje problemov neizogibne urbanizacije. Poleg razvoja strojne opreme komercialnih reˇsitev (primer: Arduino Nano RP4040 Connect) se preko raziskovalnih pu- blikacij [13] dokazuje, da je koncept ”Internet of Things” kredibilen.

3.3 Vpliv hrupa na zdravje

Onesnaˇzenost okolja poleg ekosistema sedaj ˇze zelo moˇcno obˇcutijo tudi lju- dje, predvsem v gosto naseljenih mestih, kjer je poleg najbolj uniˇcujoˇcega onesnaˇzenja zraka prisotna tudi hrupna onesnaˇzenost. Po trditvah WHO [21], hrup resno ˇskoduje zdravju ljudi in moti vsakodnevne dejavnosti ljudi, predvsem v vedno bolj gosto naseljenih mestih. Hrup lahko moti spanje, povzroˇca kardiovaskularne in psihofizioloˇske uˇcinke, zmanjˇsuje fiziˇcno zmo- gljivost in povzroˇca motnje in spremembe v druˇzbenem vedenju.

V poroˇcilu Evropske agencije za okolje [2] je zbrano zelo podrobno znanje o vplivu hrupa in o trenutnem stanju hrupnega oneznaˇzenja v Evropi.

V poroˇcilu je okoljski hrup opisan kot onesnaˇzenost, ki negativno vpliva na zdravje in poˇcutje evropskih drˇzavljanov in ˇzivali. ˇCeprav je hrup prisoten med mnogimi ˇcloveˇskimi dejavnostmi, je najbolj vpliven v povezavi s pre- vozom. Takoj za najvplivnejˇsim onesnaˇzenjem zraka s trdnimi delci je hrup prevoza drugi najpomembnejˇsi vzrok slabega zdravja v zahodni Evropi. V poroˇcilu so predstavljene tudi pomembne toˇcke za niˇzanje in obvladovanje izpostavitve hrupu, kjer so opisani razliˇcni pristopi reˇsevanja:

uporaba niˇzje-hrupno-emisijskih virov hrupa (pnevmatike, motor, as-

(21)

Diplomska naloga 7 falt),

ˇcasovna omejitev delovanja na hrupnih obmoˇcjih (letaliˇsˇce, teˇzka vo- zila),

nadzor prometa (omejevanje gostosti, hitrosti),

kaznovalni ukrepi za neupoˇstevanje ukrepov.

Omenjeni ukrepi obravnavajo problem na razliˇcne naˇcine, vsem pa je skupna potreba po merjenju hrupa za lociranje potencialne reˇsitve in spremljanje uspeˇsnosti skozi ˇcas.

3.4 Varnost v mestih

V veˇcini mest je na ˇzalost poleg pozitivnih socialnih interakcij prisoten tudi kriminal. Vzrok kriminalnih dejanj posameznika je kompleksnejˇsi problem, ki ga ta naloga ˇzal ne reˇsuje. Naˇsa implementacija ima potencial za pomoˇc pri odkrivanju in prepreˇcevanju kriminalnih aktivnosti s klasifikacijo dogodkov, ki imajo visoko verjetnost kriminalnih dejanj, npr.:

strel oroˇzja,

razbitje stekla,

krik ˇcloveka,

klic za pomoˇc.

V noˇcnih urah bi omenjena reˇsitev zaradi niˇzjih ravni glasnosti potencialno bolj uˇcinkovito reˇsevala problem odkrivanja in prepreˇcevanja kriminalnih dejanj, kakor standardna uporaba video naprav, ki se na razliˇcne naˇcine spo- padajo s problemom nizke svetlosti. Velikokrat je funkcionalnost integrirana z uporabo merilnikov gibanja, katerih potencialna ˇsibka toˇcka je prostorska pokritost. V sodelovanju s trenutnimi sistemi bi klasifikacija sumljivih dogodkov pripomogla k ustreznejˇsim ukrepom. Reˇsitev bi bila lahko realizirana

(22)

na ravni omreˇzja razprˇsenih naprav po mestu za vzdrˇzevanje varnosti prebi- valcev, ali pa kot dodaten modul domaˇcega protivlomnega sistema.

3.5 Letenje dronov

V zadnjih letih se je popularizirala uporaba manjˇsih dronov oz. brezpilotnih letalnikov za razliˇcne aktivnosti, kot so slikanje, snemanje in dirkanje. S porastjo amaterske uporabe, sedaj zelo sposobnih in relativno poceni naprav, se pojavlja problem zagotavljanja varnosti. Droni veˇcjih velikosti velikokrat ni- majo dovolj ustrezno varovanih propelerjev, ki so pri visokih vrtljajih rezila.

Pri strmoglavljenju z viˇsine pa tudi brez propelerjev predstavljajo nevarnost resnih poˇskodb za mimoidoˇce. Neodvisno od direktnih fiziˇcnih poˇskodb pa zaradi glasnosti motorjev povzroˇcajo hrupno onesnaˇzenje. Evropska komisija je predstavila pravila in postopke za uporabo brezpilotnih zrakoplovov [3]. Za vzdrˇzevanje teh pravil je potreben nadzor nezakonite uporabe dronov, pogostejˇse predvsem na odprtih obmoˇcjih parkov in naselij. Z detekcijo letenja dronov na teh kritiˇcnih obmoˇcjih se laˇzje vzdrˇzuje varnost in kaznuje nepravilno uporabo.

3.6 Pomoˇ c v prometu

V vedno bolj gosto naseljenih mestih se ob prometnih konicah vedno bolj pogosto pojavlja problem prometnih zastojev, ki poleg povzroˇcanja nevˇseˇcnosti vpletenih najbolj kritiˇcno ovira pravilno delovanje intervencijskih vozil. V kritiˇcnih situacijah odloˇcajo sekunde, ki se v statiˇcno nastavljenih sistemih semaforjev izgubljajo zaradi ˇcloveˇskih napak. V gruˇci iz sluˇzb utrujenih vo- znikov avtomobilov se na prihajajoˇc zvok siren redko pravilno odzovejo vsi vpleteni, za izgubo ˇcasa ali pa potencialno prometno nesreˇco pa je dovolj le ena napaka. Za zmanjˇsanje zapletov in hitrejˇse odzivne ˇcase intervencijskih vozil bi prepoznava sirene intervencijskih vozil lahko sluˇzila kot sproˇzilec za predˇcasno spremembo stanja semaforjev. S problemom se raziskovalci spopa-

(23)

Diplomska naloga 9 dajo na razliˇcne naˇcine [15, 20, 28, 23]. Merilnik zvoka bi lahko deloval tudi kot dodatni varnostni sistem ob prehodih ˇcez ˇzelezniˇsko progo, kjer je sicer v veˇcini primerov semaforni sistem ˇze povezan s sistemom za upravljanje prometa vlakov. Kljub robustnim naˇcrtom za vzdrˇzevanje pravilnega delovanja teh sistemov se ˇzal kljub temu dogajajo izpadi in poslediˇcno nesreˇce.

(24)

(25)

Poglavje 4 Teorija

Iz zvoˇcnih meritev, pretvorjenih iz zvoˇcnih v elektriˇcna valovanja z uporabo mikrofonov, se poleg osnovnih podatkov pridobiva razliˇcne informacije z uporabo spektralne analize. Za izpostavitev znaˇcilk potrebujemo obdelane podatke z uporabo Fourierjeve transormacije, v naˇsem primeru natanˇcneje, kratkoˇcasovne Fourierjeve transformacije.

4.1 Kratkoˇ casovna Fourierjeva transformacija

Kratkoˇcasovna Fourierjeva transformacija - STFT [8, 18] je zaporedje Fou- rierjevih transformacij na manjˇsih ˇcasovnih odsekih. Izbira manjˇsih odsekov omogoˇca pribliˇzanje ideji obravnavanja signala v stacionarnih toˇckah.

Omogoˇca ˇcasovno-frekvenˇcno analizo signala, ki je uporabna za nadaljnje pretvorbe v prepoznavne znaˇcilke zvoka. V procesu razstavljanja signala na ˇcasovne odseke se uporabljajo okenske funkcije za prilagojeno obravna- vanje podatkov vsakega odseka. Pomembno vpraˇsanje pri uporabi STFT je izbira velikosti okna in velikost koraka. Izbira manjˇsih oken dosega viˇsjo ra- ven stacionarnosti, vendar izgublja na frekvenˇcni loˇcljivosti. Velikost koraka vpliva na ˇstevilo oken, poslediˇcno na prostorsko zasedenost. Zahteva tudi uporabo primerne okenske funkcije za vzdrˇzevanje natanˇcnosti podatkov in prepreˇcevanje frekvenˇcnega puˇsˇcanja.

11

(26)

4.1.1 Okenska funkcija

Okenske funkcije [8] so pomembne zaradi naˇcina obravnavanja podatkov znotraj odsekov. Navadno se robni predeli odsekov prekrivajo, kar v veliko primerih povzroˇca probleme nenatanˇcnosti ˇzeljenih informacij nadaljnje obdelave. Zato se glede na ciljno rabo izbere ustrezna okenska funkcija, ki prilagaja amplitudne vrednosti v posameznem odseku. Za nalogo uporabljamo Hannovo okno.

4.2 Znaˇ cilke zvoka

4.2.1 Mel frekvenˇ cni spektrogram

Cloveˇsko sluˇsno zaznavanje frekvenc ni linearno. Zaradi naˇsega, bolj loga-ˇ ritmiˇcnega zaznavanja frekvenc, je za vzdrˇzevanja enake oddaljenosti med viˇsinami tonov uporabljena lestvica mel. Formula za pretvorbo iz herc frekvence v ekvivalentno frekvenco mel:

m= 2595 log₁₀(1 + f 70)

Mel spektrogram je torej ˇcloveku pribliˇzana pretvorba Fourierjeve transformacije.

4.2.2 Mel frekvenˇ cni kepstralni koeficienti

Mel frekvenˇcni kepstralni koeficienti [4, 19] obravnavajo hitrosti sprememb spektralnih pasov. Logaritem logaritma Fourierjevega spektra prikazuje vr- hove ponavljajoˇcih se frekvenc. Zaradi dvojnega logaritmiranja ciljni spekter ni ne v frekvenˇcni, ne ˇcasovni domeni, zato je bil uvrˇsˇcen v novoimenovano kuefrenˇcno domeno in poimenovan kepstrum. Lastnosti kepstralnih koefici- entov so podrobnejˇse informacije o obliki zvenjenja zvoka. Glavna uporaba je v prepoznavanju govora, ker z visoko natanˇcnostjo prikazuje lastnosti po- sameznih vokalnih vplivov (jezik, zobje, pozicija ˇceljusti).

(27)

Diplomska naloga 13

4.2.3 Ostale uporabljene znaˇ cilke zvoka

Transformacija Constant-Q je drugaˇcen pristop k Fourierjevi transforma- ciji. Transformacija proizvede amplitudni oz. fazni odziv glede na logari- temske frekvence, kar se direktno pribliˇza ˇcloveˇskemu zaznavanja zvoka. Pri- mernejˇsa je za uporabo v glasbenem vidiku obdelave signalov zaradi ˇsirˇsega pokritja tonskega spektra z manjˇsim ˇstevilom koˇsev. V primerjavi s FFT je raˇcunsko poˇcasnejˇsa, je pa v povezavi s premikajoˇcim se DFT bliˇzje hitrosti FFT.

Kromagram prikazuje porazdelitev zvoˇcnega signala skozi ˇcas v razdelkih 12 kroma pasov:

{C, C], D, D], E, F, F ], G, G], A, A], B}

Kroma normalizirana energija (CENS) je odporna na dinamiko, obliko in artikulacijo zvoka, zato se pogosto uporablja v aplikacijah za ujemanje in iskanje zvoka.

(28)

4.3 Umetna nevronska mreˇ za

Uˇcenje smo implementirali s konvolucijskimi nevronskimi mreˇzami. Ume- tna nevronska mreˇza [17] je konceptualizirana na osnovi abstrakcije nevronov v ˇcloveˇskih moˇzganih. Mreˇza je sestavljena iz veˇc vozliˇsˇcnih plasti, ki vsebujejo vhodno plast in izhodno plast, ter poljubno ˇstevilo skritih plasti.

Vsako vozliˇsˇce je povezano z vsemi vozliˇsˇci sosednjih plasti. Vsako vozliˇsˇce ob preseganju pragu aktivacije sproˇzi povezavno uteˇzen pretok podatkov v naslednjo plast. Z dodajanjem skritih plasti naraˇsˇca natanˇcnost aproksima- cije ˇzeljene funkcije. Nevronska mreˇza z vsaj 1 skrito plastjo se kvalificira za globoko nevronsko mreˇzo. Umetne nevronske mreˇze so se zaradi poljubnega ˇstevila plasti in nevronov izkazale za robustno in vsestransko uporabno izbiro za aproksimacijo linearnih in nelinearnih funkcij. Za usmerjenost v bolj specifiˇcna podroˇcja obstajajo razliˇcne prilagoditve nevronskih mreˇz, kot sta konvolucijska nevronska mreˇza (CNN) in ponavljajoˇca se nevronska mreˇza (RNN).

4.4 Konvolucijska nevronska mreˇ za

Konvolucijska nevronska mreˇza [22] je optimizirana za uporabo na podroˇcjih slike, govora in zvoka. Za razliko od nevronskih mreˇz lahko plasti konvolucijske nevronske mreˇze sprejemajo podatke razliˇcnih dimenzij, prostorsko definiranih kot viˇsina, ˇsirina in globina.

Konvolucijska plast je prvi in najpomembnejˇsi gradnik CNN. Za iskanje lastnosti podatkov uporablja proces konvolucije. Konvolucija je proces ma- triˇcnega mnoˇzenja in premikanja filtra (kernel) nad vhodno matriko. Aplika- tivno se uporablja za filtriranje slik (ostrenje, zaznavanje robov, odstranjeva- nje ˇsuma). Glede na ˇstevilo nevronov, velikost vhodnih podatkov in velikost filtra, je vsakemu izmed njih podano obmoˇcje izvajanja konvolucije. Zaradi omejenega obmoˇcja vsakega nevrona so nevroni znotraj konvolucijske plasti oznaˇceni kot delno povezani oz. lokalno povezani. V konvolucijski nevronski

(29)

Diplomska naloga 15 mreˇzi se znotraj uˇcnega procesa poleg uteˇzi nevronov prilagaja vsebina filtra vsakega nevrona. Za izvedbo konvolucije nad vhodnimi podatki zahteva vho- dnim podatkom ustrezno dimenzionalnost filtra. Dodatne nastavitve filtrov so:

ˇstevilo filtrov,

velikost premika filtra,

bitno zapolnjevanje (v primeru neskladnih velikosti vhodne matrike in filtra).

Po vsaki operaciji konvolucje se nad rezultatom uporabi aktivacijska funkcija Rectified Linear Unit (ReLU), s katero se pojavi nelinearnost v modelu. Z dodajanjem konvolucijskih plasti naraˇsˇcata natanˇcnost in raˇcunska kompleksnost.

Zdruˇzevalna plast uporablja enak koncept filtriranja, z razliko uporabe le enega filtra skozi celotno vhodno matriko, ki na osnovi izbrane agregacije izbere ustrezne vrednosti za naslednjo plast. Agregacijske funkcije so izpostavitev najveˇcjih ali pa povpreˇcnih vrednosti iz obmoˇcja. V zdruˇzevalni plasti se izgubi veliko informacij, hkrati pa zniˇzuje kompleksnost, raˇcunsko zahtevnost in problem prekomernega prileganja.

V polno povezani plasti so nevroni polno povezani z vsemi nevroni sosednjih plasti. Polno povezana plast izvaja nalogo klasifikacije na podlagi znaˇcilnosti, pridobljenih s prejˇsnjimi plastmi. Namesto aktivacijske funkcije ReLU se za pridobivanje verjetnosti uporablja aktivacijska funkcija softmax.

(30)

(31)

Poglavje 5

Pregled podroˇ cja

Razvoj aplikativne uporabe strojnega uˇcenja v zadnjih 10 letih je predstavil nove, boljˇse optimizirane algoritme strojnega uˇcenja za doseg boljˇsih rezultatov. Poleg razvoja teorije umetne inteligence se je v podporo njej razvijala tudi strojna oprema. Zaradi vzpona kriptovalut se je ˇse dodatno vzpodbujal razvoj grafiˇcnih kartic, ki so v trenutnem stanju strojnega uˇcenja kljuˇcna orodja. Zato obstaja visoka verjetnost, da bo rezultate te implementacije povozil tehnoloˇski razvoj. Najverjetneje bo veˇcina teˇzje doseˇzenih napredkov na podroˇcju strojnega uˇcenja hitro postala irelevantna z razvojem kvantnega raˇcunanja.

Na fakulteti za raˇcunalniˇstvo in informatiko in na fakulteti za strojniˇstvo se izdelujejo diplomska in magistrska dela na podobne teme, ni pa nobene direktno primerljive z naˇso vrsto zvoˇcnih dogodkov. Vsa 3 spodaj omenjena dela se specializirajo v doloˇceno podzvrst dogodkov, z izjemo klasifikacije vokalnih posnetkov ljudske glasbe, ki natanˇcneje obravnava glasbeni vidik zvoka.

Klasifikacija vokalnih posnetkov ljudske glasbe

Naloga [26] z uporabo zvoˇcnih znaˇcilk MFCC in ∆MFCC klasificira vokalne posnetke ljudske glasbe. Za klasifikacijo sta implementirana in primerjana

17

(32)

dva razliˇcna sistema, ki prepoznavata akustiˇcne vzorce v podatkih. Prvi za klasifikacijo uporablja metodo podpornih vektorjev (SVM), drugi pa Gaus- sove modele (GMM). Pri loˇcevanju posnetkov z enoglasnim in veˇcglasnim petjem je sistem GMM pravilno klasificiral 78,6% primerov. Pri loˇcevanju petja in petja z glasbeno spremljavo pa je sistem SVM dosegel natanˇcnost 89,5%.

Detekcija in klasifikacija zvokov bobnov v realnem ˇcasu

Naloga [5] opisuje program, ki na podlagi ˇcloveˇskega proizvajanja zvoka bobnov z usti posamezne udarce zamenja z vnaprej shranjenimi zvoki. Z razliˇcnimi metodami pristopa k izpostavljanju najpomembnejˇsih zvoˇcnih znaˇcilk za detekcijo in klasifikacijo zvoka bobnov. Konˇcni izdelek je program, ki glede na vhodni signal pravilno klasificira in predvaja ustrezne zvoke bobnov. Zaradi izbire implementacije klasifikacije v realnem ˇcasu je program zaradi omejitev strojne opreme deloval relativno poˇcasi, vendar pa vseeno dokazuje uresniˇcljivost funkcionalnosti. Pomembna omemba je podrobnejˇsi pregled in priprava zvoˇcnih znaˇcilk za nadaljnjo klasifikacijo, ki je za ˇcas izdelave naloge zaradi ostalih omejitev tehnoloˇskega napredka najbolj pripomogla k izboljˇsevanju uspeˇsnosti.

(33)

Diplomska naloga 19 Primerjava algoritmov nadzorovanega in nenadzorovanega uˇcenja za klasifikacijo zvoˇcnih dogodkov

Naloga [7] iˇsˇce najboljˇsi pristop strojnega uˇcenja k prepoznavanju nenadzorovanega pojava zvoka in vibracij zavor pri zaviranju in speljevanju vozil z avtomatskim menjalnikom. Efekt, imenovan stick-slip, se pojavlja v fre- kvenˇcnem obmoˇcju pod 500 Hz. Za strojno uˇcenje je bilo pripravljenih preko 1000 meritev in subjektivnih ocen. Za doseganje rezultatov je bilo potrebno preveriti razliˇcne kombinacije zvoˇcnih znaˇcilk in metod nadzorovanega in nenadzorovanega uˇcenja. Glede na rezultate sta se najbolje izkazala samo- organizirajoˇca mreˇza in algoritem k-povpreˇcij. Za pravilno napovedovanje 6 razredov so se izkazale 4 znaˇcilke:

najviˇsja vrednost RMS visokih frekvenc,

kurtosis visokih frekvenc,

najviˇsja grobost - amplituda fluktuacije,

najviˇsja amplituda fluktuacije.

Uporabna povratna informacija je specifiˇcnost uporabe doloˇcenih zvoˇcnih znaˇcilk. Umetne nevronske mreˇze v starejˇsih delih niso bile najpopularnejˇsa izbira. Z razvojem strojnega uˇcenja se je ta pristop ustalil v standardno izbiro za danaˇsnje reˇsitve, v delu Primerjava algoritmov nadzorovanega in nenadzorovanega uˇcenja za klasifikacijo zvoˇcnih dogodkov se to potrjuje z rezultati rastoˇce samoorganizirajoˇce mreˇze.

(34)

Naslednji deli sta vsebinsko neposredno primerljivi zaradi usmerjene de- tekcije urbanih zvoˇcnih dogodkov na podobnih, ˇce ne enakih naborih podatkov. Obe omenjeni sta bili publicirani relativno ne dolgo nazaj, zato sta relevantnejˇsi iz vidika tehnoloˇskega razvoja.

Environment Sound Classification Using a Two-Stream CNN Ba- sed on Decision-Level Fusion

Clanek [27] naslavlja implementacijo boljˇsega klasifikacijskega modela napo-ˇ vedovanja urbanih zvoˇcnih dogodkov na naboru podatkov UrbanSound8K [25]. Razlog za izboljˇsavo temelji na teoriji Dempster-Shafer. Namesto enojne zvoˇcne znaˇcilke uporablja kombinacijo MEL in MFCC. Klasifikacijska toˇcnost konˇcne reˇsitve na naboru podatkov UrbanSound8K je 97,2%.

PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition

Publikacija [16] opisuje izboljˇsavo trenutne reˇsitve za prepoznavanja vzorcev v zvoku. Ciljna izboljˇsava je viˇsanje klasifikacijske toˇcnosti napovedova- nja zvoˇcnih dogodkov v naboru podatkov AudioSet. Klasifikacijska toˇcnost konˇcne reˇsitve je 43,9%, ki je za 4,7% boljˇsa od tedaj najboljˇse.

Povratna informacija je popularnost uporabe globokih nevronskih mreˇz, natanˇcneje, konvolucijskih nevronskih mreˇz. Izpostavljeni publikaciji pou- darjata robustnost izbrane topologije za razpoznavanje vzorcev zvoˇcnih dogodkov. Skozi pregled problema in reˇsitev objave na spletni strani Kaggle [6]

se potrjuje uporaba konvolucijske nevronske mreˇze za pridobitev najboljˇsih rezultatov. Z rezultati omenjenih del si lahko okvirno predstavljamo ciljno uspeˇsnost. Za uˇcenje in testiranje modela bomo uporabljali nabor podatkov UrbanSound8K, zato je ˇzeljena ciljna klasifikacijska toˇcnost okoli 97%.

(35)

Poglavje 6

Izbira orodij in tehnologij

6.1 Strojna oprema

V zaˇcetnih fazah razvoja reˇsitve (iskanje ustreznih zvoˇcnih znaˇcilk) se uporablja osebni raˇcunalnik z za nalogo pomembnimi specifikacijami:

CPE: 1x AMD Ryzen 3700X

GPE: 1x Nvidia RTX 2060

RAM: 16 GB

Za nadaljnji razvoj in podrobnejˇse testiranje se uporablja raˇcunalnik:

CPE: 2x Intel Xeon Silver 4110

GPE: 4x Nvidia GTX 1080 Ti

RAM: 188 GB

21

(36)

6.2 Programski jezik in knjiˇ znice

Za implementacijo uporabljamo programski jezik Python. Za dodatne funkcionalnosti in hitro obdelavo matrik je uporabljena matematiˇcna knjiˇznica Numpy. Vizualizacijo za prikaz slik v diplomskem delu smo relizirali z razliˇcnimi funkcijami knjiˇznic, kot sta Matplotlib in Seaborn, ki pa jih ne bomo natanˇcneje opisovali.

Predprocesiranje podatkov je loˇceno od samega procesa grajenja in uˇcenja modelov. Najprimernejˇsi knjiˇznici za obdelavo signalov sta Librosa in pyAu- dioAnalysis. Librosa je vsebinsko bolj namenjena predvsem analizi in obde- lavi zvoˇcnega signala, medtem ko pyAudioAnalysis poleg analize in obdelave ponuja tudi grajenje in uˇcenje klasifikacijskih modelov. Zaradi nepotrebe po sposobnostih strojnega uˇcenja smo izbrali knjiˇznico Librosa [1]. Za izdelavo spremenjenih posnetkov je uporabljena knjiˇznica Audiomentations.

6.2.1 Numpy

NumPy je odprtokodna knjiˇznica za programski jezik Python, ki podpira hitrejˇse obdelave velikih, veˇcdimenzionalnih nizov in matrik. Vsebuje zbirko visokonivojskih matematiˇcnih funkcij za obdelavo nizov in matrik. Prednik omenjene knjiˇznice, Numeric, je ustvaril Jim Hugunin s prispevki veˇc drugih razvijalcev. Leta 2005 je Travis Oliphant ustvaril NumPy z vkljuˇcitvijo funkcij konkureˇcne reˇsitve Numarray v Numeric z obseˇznimi spremembami.

Cilja na optimizacijo refernˇcnega tolmaˇcenega izvajanja Python kode. Mate- matiˇcni algoritmi, napisani za privzeto izvajanje v tolmaˇceni izvedbi pogosto delujejo veliko poˇcasneje kot prevedeni ekvivalenti. NumPy delno reˇsuje problem poˇcasnosti z zagotavljanjem veˇcdimenzionalnih nizov, funkcij in opera- terjev, ki uˇcinkoviteje delujejo na nize.

6.2.2 Pandas

Pandas je Python knjiˇznica, uporabna za manipulacijo in analizo podatkov.

Ponuja podatkovne strukture in operacije za manipulacijo z numeriˇcnimi ta-

(37)

Diplomska naloga 23 belami in ˇcasovnimi vrstami. Wes McKinney je osnovno knjiˇznico zaˇcel gra- diti medtem, ko je bil raziskovalec v AQR Capital od 2007 do 2010. Glavne funkcionalnosti:

hiter in uˇcinkovit objekt DataFrame za obdelavo podatkov z integrira- nim indeksiranjem,

orodja za branje in zapisovanje podatkov med podatkovnimi struktu- rami v pomnilniku in razliˇcnimi formati: CSV in besedilne datoteke, Microsoft Excel, zbirke podatkov SQL in hitra oblika HDF5,

inteligentna poravnava podatkov in integrirano ravnanje z manjkajoˇcimi podatki,

prilagodljivo preoblikovanje in vrtenje naborov podatkov,

inteligentno rezanje na osnovi oznak, indeksiranje in podnastavitev velikih naborov podatkov,

zdruˇzevanje ali pretvorba podatkov z zmogljivo skupino z mehanizmom, ki omogoˇca operacije razdeljevanja-uporabe-kombiniranja na naborih podatkov,

visoko zmogljivo zdruˇzevanje in zdruˇzevanje naborov podatkov,

hierarhiˇcno indeksiranje osi omogoˇca intuitiven naˇcin dela z visoko di- menzionalnimi podatki v niˇzji dimenziji.

6.2.3 Librosa

Knjiˇznica Librosa [1] je namenjena raziskovalcem in programerjem podroˇcij glasbe, digitalnega procesiranja signalov in strojnega strojnega uˇcenja. Omogoˇca integriran dostop, prikaz, analizo in obdelavo zvoˇcnega signala. Temelji na jeziku Python, ima dobro dokumentacijo in omogoˇca enostavno uporabo.

V naˇsem primeru uporabe je knjiˇznica podpirala pridobivanje vseh ˇzeljenih znaˇcilk zvoka z enovrstiˇcnimi klici ustrezno poimenovanih funkcij.

(38)

6.2.4 Audiomentations

Knjiˇznica Audiomentations [14] je namenjena manipulaciji zvoˇcnih podatkov. Navdih izdelave je iz knjiˇznice albumentations, ki manipulira s podatki slike in je popularna izbira za pomoˇc pri izboljˇsevanju rezultatov strojnega uˇcenja. Audiomentations je uporabna za globoko uˇcenje. Podpira mono in delno veˇckanalni zvok. Lahko se vkljuˇcuje v cevovode za uˇcenje modelov znotraj platform Tensorflow, Keras ali Pytorch. Ljudem je pomagala doseˇci rezultate svetovnega razreda na tekmovanjih Kaggle. Uporabljajo ga podjetja, ki izdelujejo avdio izdelke naslednje generacije.

6.3 Strojno uˇ cenje

Pred izdelavo lastne reˇsitve se moramo najprej pozanimati o naˇcinu implementacije podobnih reˇsitev, ker je veliko razliˇcnih programskih vmesnikov za strojno uˇcenje. Razliˇcni pristopi k strojnemu uˇcenju so realizirani z razliˇcnimi orodji, velikokrat omenjeni so Tensorflow, PyTorch in Keras. Na spletni strani Kaggle je aktivna skupnost, znotraj katere so organizirana tekmova- nja na podroˇcju strojnega uˇcenja in podatkovnega rudarjenja.

Fran¸cois Chollet, ustvarjalec programskega vmesnika za strojno uˇcenje Keras, je delil statistiko najpopularnejˇsih glavnih programskih orodij, ki jih uporablja najboljˇsih 5 ekip na tekmovanjih platforme Kaggle. (glej sliki 6.1, 6.2) Statistika je bila objavljena leta 2019.

(39)

Diplomska naloga 25

Slika 6.1: Primarno programsko orodje za strojno uˇcenje, ki ga uporablja najboljˇsih 5 ekip na tekmovanjih Kaggle.

(40)

Slika 6.2: Primarno in pomoˇzno programsko orodje za strojno uˇcenje, ki ga uporablja najboljˇsih 5 ekip na tekmovanjih Kaggle.

(41)

Diplomska naloga 27 Iz prikazanih za konˇcno reˇsitev izbiramo med orodji Tensorflow, Keras in PyTorch. ˇCe nobenega programskega vmesnika predˇcasno ˇse nismo uporabljali, je poleg ustreznosti dani nalogi pomembna tudi preprostost razumeva- nja delovanja. Vse 3 so podprte v izbranem programskem jeziku. Zaˇzeljena ˇcim laˇzja izdelava konvolucijske nevronske mreˇze, ki jo podpirata Keras in PyTorch. Za ˇcas implementacije je programski vmesnik Keras ˇze vkljuˇcen v Tensorflow, zato lahko tudi v skladu z uporabo Tensorflow dostopamo do Keras funkcionalnosti.

Za strojno uˇcenje je zaradi skalabilnosti in preprostosti prehoda na pro- dukcijsko okolje izbran Tensorflow v kombinaciji s Keras. Predprocesiranje zvoˇcnega signala izvajamo loˇceno, ker bi za integrirano predpripravo podatkov morali spisati adaptacije ˇze napisanih funkcij drugih knjiˇznic, kar pa ni pomemben cilj naˇse reˇsitve.

6.3.1 Tensorflow

TensorFlow je odprtokodna celovita platforma za ustvarjanje aplikacij strojnega uˇcenja. Razvijalcem omogoˇca ustvarjanje aplikacij za strojno uˇcenje z uporabo razliˇcnih orodij, knjiˇznic in virov skupnosti. Prvotno je bila ustvar- jena za notranjo rabo podjetja Google, razvita v raziskovalni skupini Google Brain. Je simboliˇcna matematiˇcna knjiˇznica, ki uporablja programiranje pretoka podatkov in diferencialno programiranje za izvajanje razliˇcnih na- log, osredotoˇcenih na usposabljanje in sklepanje globokih nevronskih mreˇz.

Podpira vse tri toˇcke razvoja reˇsitve strojnega uˇcenje:

1. nalaganje in obdelava podatkov,

2. grajenje, uˇcenje in ponovna uporaba modelov,

3. namestitev v ciljni sistem.

(42)

6.3.2 Keras

Keras je odprtokodna knjiˇznica za strojno uˇcenje, ki se izvaja na vrhu platform Theano ali Tensorflow. Naˇcrtovana je za modularnost, hitrost in preprostost uporabe. Leta 2015 jo je razvil Fran¸cois Chollet, inˇzenir v podjetju Google, ki je tudi avtor modela globoke nevronske mreˇze XCeption. Vsebuje ˇstevilne izvedbe pogosto uporabljenih gradnikov nevronskih omreˇzij, kot so plasti, cilji, aktivacijske funkcije, optimizatorji. Knjiˇznica je optimizirana za hitro eksperimentiranje z globokimi nevronskimi mreˇzami.

(43)

Poglavje 7

Izbira podatkov

S porastjo ˇzelje po reˇsevanju problema klasifikacije urbanih zvokov so se na razliˇcnih virih za rabo tekmovanj in raziskovanj objavljali prostodostopni nabori podatkov klasificiranih zvoˇcnih dogodkov. Za nalogo uporabljamo:

UrbanSound8K [25]

FreesoundDataset - FSD50K [10]

ESC: Dataset for Environmental Sound Classification [24]

29

(44)

7.1 UrbanSound8K

Nabor podatkov UrbanSound8K [25] vsebuje 8 732 oznaˇcenih zvoˇcnih posnetkov, ki so dolgi 4 sekunde ali manj. Iz predpostavljene razvrstive dogodkov v publikaciji je izpostavljenih 10 nizkonivojskih mestnih zvokov:

klimatska naprava,

avtomobilska hupa,

igranje otrok,

pasji lajeˇz,

vrtanje,

motor v prostem teku,

strel oroˇzja,

pnevmatiˇcno kladivo,

sirena,

uliˇcna glasba.

Z izjemo igranja otrok in strela oroˇzja, ki sta bila dodana zaradi raznoli- kosti, so bili ostali zvoki izbrani zaradi pogostosti v pritoˇzbah glede hrupa v mestih. Merila avtorjev za grajenje nabora podatkov so:

Vsebovanost zvokov, ki se pojavljajo v urbanem okolju,

vsi posnetki morajo biti resniˇcni posnetki s terena,

nabor podatkov mora biti dovolj velik in raznolik z vidika pogojev snemanja, da bo koristen za usposabljanje skalabilnih algoritmov za analizo resniˇcnih podatkov senzorskih omreˇzij ali veˇcpredstavnostnih skladiˇsˇc.

(45)

Diplomska naloga 31 Osnovni posnetki so pridobljeni iz spletne strani Freesound. V ˇcasu grajenja nabora podatkov so bili vsi prejeti posnetki roˇcno pregledani in ustrezno obdelani za doseg ustrezno odrezanih odsekov dolˇzine 4 sekund ali manj.

7.2 ESC: Dataset for Environmental Sound Classification

Glavni projekt zbiranja podatkov je razdeljen na 3 dele:

1. ESC-50

Nabor podatkov 50 razredov, zgrajen na 2 000 roˇcno pregledanih zvoˇcnih posnetkih, pridobljenih iz spletne strani FreeSound. Za priroˇcno uporabo so razredi zdruˇzeni v kategorije: zvoki ˇzivali, naravne zvoˇcne po- krajine in zvok vode, ˇcloveˇski (negovorni) zvoki, notranji oz. domaˇci zvoki in zunanji zvoki oz. mestni hrup.

2. ESC-10

Izbor 10 razredov iz obˇsirnejˇsega nabora podatkov, predstavlja tri sploˇsne skupine zvokov:

kratki oz. udarni zvoki, vˇcasih z zelo pomembnimi ˇcasovnimi vzorci (kihanje, lajanje, zvok ure),

zvoˇcni dogodki z moˇcno harmoniˇcno vsebino (jok dojenˇcka, kiki- rikanje petelina),

bolj ali manj strukturiran hrup oz. zvoˇcna pokrajina (deˇz, morje, valovi, prasketanje ognja).

Podnabnor je namenjen reˇsevanju laˇzjih problemov za zaˇcetek dokazo- vanja klasifikacije. Za podrobnejˇse klasificiranje ni uporaben.

3. ESC-US

Zaradi manjˇse ˇstevilˇcnosti ostalih dveh podnaborov se je zbralo dodaten nabor 250 000 zvoˇcnih posnetkov dolˇzine 5 sekund. Ni roˇcno

(46)

pregledan, ima pa vkljuˇceno datoteko z metapodatki o posnetkih za laˇzje doloˇcanje. Primeren je za predvsem za uporabo v modelih nenadzorovanega uˇcenja.

Za uporabo v nalogi deloma izkoriˇsˇcamo le podatkovni podnabor ESC-50.

7.3 FreesoundDataset - FSD50K

Zbran nabor podatkov [9] vsebuje 51 197 posnetkov, skupno preko 100 ur roˇcno oznaˇcenih zvoˇcnih posnetkov v 200 razredov, doloˇcenih iz ontologije, ki jo je podjetje Google predstavilo v publikaciji [11]. Je drugi najveˇcji roˇcno pregledan nabor podatkov zvoˇcnih posnetkov, takoj za naborom podatkov AudioSet.

(47)

Poglavje 8

Metodologija, poskusi

8.1 Predpriprava podatkov

Pri pridobivanju zvoˇcnih znaˇcilk z uporabo knjiˇznice Librosa se s klicem znaˇcilkam istoimenskih funkcij pridobi 2D matrika, katere dimenzije so od- visne od ˇzeljene loˇcljivosti. Dimenzija izhodne matrike je izraˇcunana po postopku:

Lastnosti vhodnih podatkov:

Stevilo vseh posnetkov (n) : 8732ˇ

Dolˇzina posnetka (t): 4 s

Frekvenca vzorˇcenja (f): 22050 Hz Izbirni parametri za doloˇcanje loˇcljivosti:

Velikost okna (w) : 512

Dolˇzina premika (s) : 256

Stevilo koˇsev v spektrogramu (m): 40ˇ Raˇcunanje dimenzije izhodne matrike:

1. ˇStevilo spektrogramov za vsak posnetek (formula : t×f s

) (k):

345

33

(48)

2. Dimenzija izhodne matrike (n × m ×k) : (8732 × 40× 345)

8.2 Pridobitev topologije modela

Zaradi najbolj urejene in dokumentirane oblike v tej fazi razvoja za nabor podatkov uporabljamo le UrbanSound8K [25]. Za zaˇcetno postavitev topologije modela smo izbrali sorodnemu delu podobno topologijo CNN. Dokler z uspeˇsnostjo izbrane strukture nismo zadovoljni, za optimizacijo strukture uporabljamo le znaˇcilki MEL in MFCC, ker iz pregleda podroˇcja in sprotnega beleˇzenja uspeˇsnosti kaˇzeta najboljˇsi potencial. Do oˇcitno zadovoljivih rezultatov se za preverjanje uspeˇsnosti uporablja le po 1 model (torej brez preˇcnega preverjanja). To je v konceptu pravilnega pridobivanja rezultatov strojnega uˇcenja napaˇcno, vendar pa je v procesu manjˇsih sprememb hiperpa- rametrov ˇcasovno uˇcinkovitejˇsa izvedba. Za ˇcim zgodenjˇso prepoznavo razlik med spremembami za proces uˇcenja uporabljamo le 100 ciklov celotnega pregleda uˇcne mnoˇzice (epoch). V primeru 10 neuspelih poskusov izboljˇsave se proces uˇcenja predˇcasno zakljuˇci.

8.3 Iskanje ustreznih znaˇ cilk zvoka

Pri pripravi uˇcne, validacijske in testne mnoˇzice uporabljamo stratificirano razdeljevanje podatkov za k-kratno preˇcno preverjanje. Namesto 100 pri dokazovanju uspeˇsnosti modela uporabljamo 1000 pregledov celotne uˇcne mnoˇzice (Epochs) s 100 neuspelimi poskusi izboljˇsave. Za pravilno vre- dnotenje rezultatov uporabljamo 10-kratno preˇcno preverjanje, iz katerega se za uspeˇsnost modela upoˇsteva povpreˇcje klasifikacijske toˇcnosti. Poleg uspeˇsnosti je prikazano tudi zahtevano ˇstevilo pregledov uˇcne mnoˇzice (Epo- chs) do najboljˇse topologije.

(49)

Diplomska naloga 35

8.4 Optimizacija modela

Uporaba kombinacij znaˇcilk

Za preverjanje potencialne izboljˇsave na osnovi uporabe dveh ali veˇc znaˇcilk hkrati testiramo vse kombinacije velikosti 2 s 3-kratnim preˇcnim preverja- njem. Razlog nizkega ˇstevila preˇcnih preverjanj je predvsem ˇcas izvajanja.

Vseh 36 kombinacij se izvaja nekaj ˇcez 7 dni na streˇzniˇskem raˇcunalniku s 4 grafiˇcnimi karticami.

Dodajanje spremenjenih podatkov

Kakor se pri strojnemu uˇcenju za prepoznavanje vzorcev na slikah uporablja razliˇcne transformacije slik za poveˇcevanje generalizacije klasifikacijskega modela, ˇzelimo z zvokom narediti podobno na osnovi spreminjanja doloˇcenih lastnosti posnetkov. Naˇcin spreminjanja mora vplivati na posnetek tako, da ne uniˇcuje identitete (vir dogodka) zvoka oz. zniˇzuje ˇzeljeno klasifikacijsko natanˇcnost. V kolikor se klasifikacijska toˇcnost izboljˇsa, se spremembe uve- ljavljajo kot uporabno orodje za posploˇsitev modela. V nasprotnem primeru se iz vidika strojnega uˇcenja obravnavajo kot ˇsum, ki poneumlja model in s tem onemogoˇca posploˇsitev. Glede na pridobljene rezultate uspeˇsnosti po znaˇcilkah se iz muzikaliˇcno povezanih znaˇcilk (CHR CEN, CHR CQT, CHR STFT) model lastnosti zvoka ne prepoznava dovolj natanˇcno, da bi enoliˇcno klasificiral dogodke. Potencialne spremembe so torej lahko muzikaliˇcno zelo vplivne, hkrati pa ˇse vedno blizu izbranim znaˇcilkam MFCC in MEL.

Za hitro in enostavno izvedbo spreminjanja zvoˇcnih posnetkov uporabljamo knjiˇznico Audiomentations 6.2.4, kjer klic funkcije za spreminjanje nakljuˇcno spremeni doloˇceno znaˇcilnost zvoka glede na izbrane omejitve.

Izbrano spreminjanje zvoka:

spreminanje viˇsine tona,

ˇcasovno raztezanje.

(50)

Na sliki 8.1 je prikazan vpliv izbranega spreminjanja na posamezne znaˇcilke zvoka. Prva vrstica vsakega stolpca slik znaˇcilk je spektrogram izvornih podatkov, preostale pa nakljuˇcno spremenjene razliˇcice izbranega spreminjanja.

Muzikaliˇcno pomembnejˇse znaˇcilnosti zvoka se spremenijo oˇcitneje od znaˇcilk MFCC in MEL.

(51)

Diplomska naloga 37

Slika8.1:Zvoksirenepoznaˇcilkah-1.vrsticajeizvornizvoˇcnidogodek,ostalisospremenjeni

(52)

8.5 Implementacija na poljubno izbranih zvoˇ cnih dogodkih

Poskus poljubno izbranih dogodkov je namenjen predvsem izpostavljanju sploˇsne uporabnosti topologije na manjˇsih, bolj usmerjenih ciljnih spremen- ljivkah. Izbrani zvoˇcni dogodki:

avtomobilska hupa,

veter,

deˇz,

letenje drona

Ideja izbranih dogodkov je simulacija merjenja zvoka v obmoˇcjih, kjer bi ˇzeleli prepreˇcevati uporabo dronov. Deˇz in veter sta si zvoˇcno dovolj podobna, da bi ju model s slabˇsimi sposobnostmi lahko zamenjal, avtomobilska hupa je izbran nakljuˇcen dogodek, ki je dovolj drugaˇcen od deˇzja in vetra, posnetke letenja drona pa lahko posnamemo sami. V naboru podatkov Ur- banSound8K je vsebovana le avtomobilska hupa, zato za pridobitev posnetkov ostalih dogodkov uporabljamo ˇse omenjena podatkovna nabora ESC-50 in FSD. Iz naborov podatkov pridobivamo razliˇcno ˇstevilo razliˇcno dolgih posnetkov (tabela 8.1), ki so v primeru daljˇse dolˇzine od 5 sekund (za stan- dardizirano uporabo vseh naborov podatkov) razstavljeni na manjˇse odseke (tabela 8.2). V primeru krajˇse dolˇzine je posnetek ob koncu zapolnjen z niˇclami v matriki. V naboru podatkov FSD je moˇzna izbira uporabe enojno ali veˇc-dogodkovno oznaˇcenih posnetkov. Za uˇcenje uporabljamo le enojno oznaˇceno podzbirko FSD.

(53)

Diplomska naloga 39

Tabela 8.1: ˇStevilo posnetkov glede na podatkovne nabore za klasifikacijski model 4 ciljnih dogodkov.

Nabor podatkov avto-hupa veter deˇz dron

ESC 40 40 40 0

FSD single 0 206 166 0

FSD multi 101 261 368 0

UrbanSound 429 0 0 0

Snemano 0 0 0 11

Skupno 570 507 574 11

Tabela 8.2: ˇStevilo posnetkov, razrezanih na 5s dolge odseke, glede na podatkovne nabore za klasifikacijski model 4 ciljnih dogodkov.

Nabor podatkov avto-hupa veter deˇz dron

ESC 40 40 40 0

FSD single 0 432 621 0

FSD multi 186 600 1475 0

UrbanSound 429 0 0 0

Snemano 0 0 0 682

Skupno 655 1072 2136 682

(54)

(55)

Poglavje 9 Rezultati

9.1 Topologija CNN

V procesu testiranja razliˇcnih topologij CNN in razliˇcnih loˇcljivosti (z vidika kratkoˇcasovne Fourierjeve transformacije) znaˇcilk MFCC in MEL se je za najboljˇso izkazala:

Konvolucijske plasti:

1. 512 vozliˇsˇc, filter: 9×9 , aktivacijska funkcija: ReLU, zdruˇzevalni filter: 4×4,

2. 256 vozliˇsˇc, filter: 9×9, aktivacijska funkcija: ReLU, zdruˇzevalni filter: 4×4,

3. 128 vozliˇsˇc, filter: 9×9 , aktivacijska funkcija: ReLU, zdruˇzevalni filter: 4×4,

Tesno povezane plasti:

1. 1024 vozliˇsˇc, aktivacijska funkcija ReLU 2. 10 vozliˇsˇc, aktivacijska funkcija Softmax

Dodatni hiperparametri za prepreˇcevanje prekomernega prileganja:

41

(56)

2. konvolucijska plast: L2 regularizacija, 0,5 verjetnost brisanja vo- zliˇsˇca

3. konvolucijska plast: L2 regularizacija, 0,5 verjetnost brisanja vo- zliˇsˇca

1. tesno povezana plast: L2 regularizacija, 0,5 verjetnost brisanja vozliˇsˇca

Nastavitve algoritma optimizacije:

algoritem za optimizacijo: Adam,

hitrost uˇcenja: 0,0001,

funkcija ocenjevanja napake: sparse categorical crossentropy,

funkcija ocenjevanja uspeˇsnosti: natanˇcnost (accuracy),

(57)

Diplomska naloga 43

9.2 Znaˇ cilke zvoka

Znaˇcilki MEL in MFCC (skupina tabel 9.1) priˇcakovano najbolje doloˇcata zvoˇcne dogodke, zato za sigurno potrditev uporabljamo 10-kratno preˇcno preverjanje. Za ostale znaˇcilke (skupina tabel 9.2, 9.3) uporabljamo po 2 in 3-kratno preˇcno preverjanje zaradi mnenja slabega potenciala in poslediˇcno dodatne izgube ˇcasa z nadaljnjim testiranjem. Znaˇcilke, oznaˇcene s simbolom

∆ so izraˇcunane razlike med ˇcasovno zaporednimi vrednostmi originalnih znaˇcilk.

Povpreˇcna klasifikacijska toˇcnost predlaganega modela glede na znaˇcilke:

MFCC : 0,96

MEL : 0,95

CHR CEN: 0,54

CHR CQT: 0,73

CHR STFT: 0,81

∆MFCC : 0,90

∆MEL : 0,88

∆(∆MFCC) : 0,77

∆(∆MEL) : 0,83

(58)

Tabela 9.1: Rezultati 10-kratnega preˇcnega preverjanja predlagane topologije za znaˇcilki MFCC in MEL

MFCC

Loss Acc Epochs 0 0,256 0,958 587 1 0,253 0,963 615 2 0,249 0,961 566 3 0,257 0,962 540 4 0,289 0,963 336 5 0,249 0,959 600

6 0,265 0,96 581

7 0,252 0,958 549 8 0,292 0,954 406 9 0,262 0,966 503 min 0,249 0,954 336 max 0,292 0,966 615 mean 0,262 0,960 528,300

std 0,016 0,003 90,335

MEL

Loss Acc Epochs 0 0,308 0,949 592 1 0,318 0,958 422 2 0,276 0,955 800 3 0,269 0,963 634 4 0,274 0,959 637

5 0,287 0,95 745

6 0,295 0,954 609 7 0,303 0,955 489 8 0,286 0,959 691 9 0,297 0,959 626 min 0,269 0,949 422 max 0,318 0,963 800 mean 0,291 0,956 624,500

std 0,016 0,004 110,883

(59)

Diplomska naloga 45

Tabela 9.2: Rezultati 2-kratnega preˇcnega preverjanja predlagane topologije za znaˇcilke CHR CEN, CHR CQT in CHR STFT.

CHR CEN

Loss Acc Epochs 0 1,938 0,549 9,000 1 1,896 0,534 39,000 min 1,896 0,534 9,000 max 1,938 0,549 39,000 mean 1,917 0,542 24,000 std 0,030 0,011 21,213

CHR CQT

Loss Acc Epochs 0 1,410 0,747 138,000 1 1,536 0,720 69,000 min 1,410 0,720 69,000 max 1,536 0,747 138,000 mean 1,473 0,733 103,500 std 0,089 0,019 48,790 CHR STFT

Loss Acc Epochs 0 1,252 0,816 96,000 1 1,282 0,809 83,000 min 1,252 0,809 83,000 max 1,282 0,816 96,000 mean 1,267 0,812 89,500 std 0,021 0,005 9,192

(60)

Tabela 9.3: Rezultati 3-kratnega preˇcnega preverjanja predlagane topologije za matrike razlik znaˇcilk MFCC in MEL.

∆MFCC

Loss Acc Epochs 0 0,531 0,896 654,000 1 0,498 0,898 771,000 2 0,456 0,908 992,000 min 0,456 0,896 654,000 max 0,531 0,908 992,000 mean 0,495 0,901 805,667 std 0,038 0,007 171,646

∆MEL

Loss Acc Epochs 0 0,589 0,895 642,000 1 0,583 0,870 1000,000 2 0,556 0,884 785,000 min 0,556 0,870 642,000 max 0,589 0,895 1000,000 mean 0,576 0,883 809,000

std 0,018 0,013 180,203

∆(∆MFCC)

Loss Acc Epochs 0 0,883 0,801 421,000 1 0,894 0,765 471,000 2 0,957 0,757 512,000 min 0,883 0,757 421,000 max 0,957 0,801 512,000 mean 0,912 0,775 468,000 std 0,040 0,023 45,574

∆(∆MEL)

Loss Acc Epochs 0 0,789 0,828 628,000 1 0,777 0,848 739,000 2 0,787 0,814 1000,000 min 0,777 0,814 628,000 max 0,789 0,848 1000,000 mean 0,784 0,830 789,000

std 0,006 0,017 190,974

(61)

Diplomska naloga 47

9.3 Optimizacija modela

9.3.1 Uporaba kombinacij znaˇ cilk

Iz tabele 9.4 je razvidno, da z uporabo trenutne topologije modela kombinacije 2 znaˇcilk ne pripomorejo k izboljˇsavi klasifikacijske natanˇcnosti. S sivo barvo so oznaˇcene povpreˇcne klasifikacijske toˇcnosti uporabe ene znaˇcilke zvoka.

(62)

Tabela9.4:Tabelapovpreˇcnihklasifikacijskihtoˇcnostikombinacijdvehznaˇcilk

MFCCMELCHRSTFTCHRCENCHRCQT∆MFCC∆MEL∆(∆MFCC)∆(∆MEL)

MFCC0,9600,9550,9560,9560,9530,9440,9390,9450,948

MEL0,9550,9560,9450,9450,9400,9480,9410,9490,947

CHRSTFT0,9560,9450,8120,8220,8490,9100,9070,8800,884

CHRCEN0,9560,9450,8220,5420,6820,8880,8730,8450,828

CHRCQT0,9530,9400,8490,6820,7330,8890,8950,8640,860

∆MFCC0,9440,9480,9100,8880,8890,9010,8940,8850,889

∆MEL0,9390,9410,9070,8730,8950,8940,8830,8900,896

∆(∆MFCC)0,9450,9490,8800,8450,8640,8850,8900,7750,825

∆(∆MEL)0,9480,9470,8840,8280,8600,8890,8960,8250,830

(63)

Diplomska naloga 49 Tabela 9.5: Rezultati 10-kratnega preˇcnega preverjanja uporabe spremenjenih podatkov za znaˇcilki MFCC in MEL.

MFCC

Loss Acc Epochs 0 0,139 0,992 889 1 0,147 0,986 651 2 0,200 0,985 274 3 0,153 0,989 497 4 0,188 0,986 284 5 0,188 0,987 252 6 0,192 0,986 298 7 0,245 0,969 211 8 0,196 0,984 273 9 0,225 0,977 213 min 0,139 0,969 211,000 max 0,245 0,992 889,000 mean 0,187 0,984 384,200 std 0,034 0,007 225,461

MEL

Loss Acc Epochs 0 0,214 0,977 306 1 0,176 0,987 405 2 0,249 0,959 274 3 0,242 0,982 173 4 0,308 0,977 129 5 0,250 0,974 215 6 0,292 0,957 211 7 0,280 0,978 178 8 0,246 0,981 212 9 0,275 0,967 210 min 0,176 0,957 129,000 max 0,308 0,987 405,000 mean 0,253 0,974 231,300 std 0,038 0,010 78,729

9.3.2 Uporaba spremenjenih posnetkov

Povpreˇcne klasifikacijske toˇcnosti 10-kratnega preˇcnega preverjanja iz tabel 9.5:

MFCC: 0,984

MEL: 0,974

Za prikaz matrike zmot iz najboljˇse topologije izbiramo najboljˇse iteracije modelov, prikazane na slikah 9.1 in 9.2.

(64)

Slika 9.1: UrbanSound8K - matrika zmot najboljˇsega modela znaˇcilke MFCC.

Slika 9.2: UrbanSound8K - matrika zmot najboljˇsega modela znaˇcilke MEL.

(65)

Diplomska naloga 51

9.4 Rezultati implementacije na poljubno iz- branih zvoˇ cnih dogodkih

Z uporabo predlagane topologije modela na zbranih podatkih je po 10- kratnem preˇcnem preverjanju (tabela 9.6) model dosegal povpreˇcno klasifikacijsko toˇcnost:

MFCC brez spremenjenih podatkov: 0,945

MFCC s spremenjenimi podatki : 0,993

MEL brez spremenjenih podatkov: 0,932

MEL s spremenjenimi podatki : 0,952

V doloˇceni iteraciji MFCC s spremenjenimi podatki je model po ˇstevilkah v tabeli dosegal popolno toˇcnost, ki je zaradi zaokroˇzevanja na 3 decimalne vrednosti zavedljiva, saj vrednost napake ni rezultatu ustrezno enaka 0. Iz zbirke 10 modelov za prikaz matrike zmot uporabljamo najboljˇse modele (sliki 9.3, 9.4).

(66)

Tabela 9.6: Uspeˇsnost 10-kratnega preˇcnega preverjanja topologije na poljubno izbranih zvoˇcnih dogodkih iz razliˇcnih podatkovnih zbirk brez dodajanja spremenjenih posnetkov (levo) in z dodajanjem spremenjenih posnetkov (desno).

Loss Acc Epochs MFCC

0 0,184 0,952 591,000 1 0,186 0,948 941,000 2 0,141 0,956 912,000 3 0,198 0,948 813,000 4 0,184 0,943 704,000 5 0,147 0,969 899,000 6 0,159 0,939 732,000 7 0,171 0,939 990,000 8 0,236 0,934 622,000 9 0,175 0,956 649,000 min 0,141 0,934 591,000 max 0,236 0,969 990,000 mean 0,178 0,948 785,300 std 0,027 0,010 144,661

MEL

0 0,247 0,943 576,000 1 0,266 0,930 599,000 2 0,253 0,921 585,000 3 0,260 0,934 530,000 4 0,241 0,939 554,000 5 0,234 0,939 530,000 6 0,253 0,926 560,000 7 0,239 0,930 631,000 8 0,235 0,926 585,000 9 0,253 0,934 590,000 min 0,234 0,921 530,000 max 0,266 0,943 631,000 mean 0,248 0,932 574,000 std 0,011 0,007 31,348

Loss Acc Epochs MFCC

0 0,074 0,996 363,000 1 0,077 0,991 600,000 2 0,062 0,991 707,000 3 0,065 0,987 679,000 4 0,055 0,991 811,000 5 0,063 0,996 718,000 6 0,068 1,000 375,000 7 0,075 0,991 621,000 8 0,061 0,996 702,000 9 0,058 0,987 959,000 min 0,055 0,987 363,000 max 0,077 1,000 959,000 mean 0,066 0,993 653,500 std 0,007 0,004 180,749

MEL

0 0,153 0,943 765,000 1 0,180 0,952 263,000 2 0,169 0,969 232,000 3 0,182 0,939 345,000 4 0,182 0,943 288,000 5 0,160 0,974 262,000 6 0,198 0,921 301,000 7 0,174 0,948 414,000 8 0,164 0,969 250,000 9 0,188 0,961 304,000 min 0,153 0,921 232,000 max 0,198 0,974 765,000 mean 0,175 0,952 342,400 std 0,014 0,016 157,539

(67)

Diplomska naloga 53 Slika 9.3: Poljubno izbrani zvoˇcni dogodki - matrika zmot najboljˇsega modela znaˇcilke MFCC.

Slika 9.4: Poljubno izbrani zvoˇcni dogodki - matrika zmot najboljˇsega modela znaˇcilke MEL.

(68)

(69)

Poglavje 10 Zakljuˇ cek

V okviru naloge smo implementirali model za klasifikacijo urbanih zvoˇcnih dogodkov, ki dosega vzpodbudne rezultate za nadaljnji razvoj in aplikativno uporabo. Za klasifikacijo se kot najpomembnejˇsi izkaˇzeta znaˇcilki MFCC in MEL. Z uporabo tonsko in ˇcasovno spremenjenih posnetkov v procesu uˇcenja modela na izbranih znaˇcilkah je v vseh primerih izboljˇsana klasifikacijska toˇcnost.

Topologija modela v ˇstevilu plasti in vozliˇsˇc dopuˇsˇca moˇznosti za optimizacijo glede na izbrano ˇstevilo dogodkov. Za sploˇsnejˇso uporabnost (napo- vedovanja veˇc kot le 10 urbanih dogodkov) bi topologijo morali prilagoditi.

V usmerjeni uporabi (primer iz implementacije na poljubno izbranih zvoˇcnih dogodkih) se model izkaˇze s skoraj popolnim napovedovanjem ˇzeljenih dogodkov.

Za dodatno nadgradnjo naloge bi bilo obetavno preizkusiti RNN, ki se v podroˇcju strojnega uˇcenja na podatkih zvoka poleg konvolucijskih nevronskih mreˇz znaˇcilna izbira. V diplomski nalogi jih nismo natanˇcneje preizkuˇsali zaradi dobrega sprotnega napredka v razvoju modela z uporabo konvolucijskih nevronskih mreˇz. Zanimiv bi bil tudi podoben princip uporabe lastne topologije v sodelovanju dveh modelov na osnovi znaˇcilk MFCC in MEL, kakor je bilo predstavljeno v [27].

55

(70)

Za ˇcas pisanja te diplomske naloge je bil model ˇze delno implementiran v poskusno razliˇcico streˇznika za shranjevanje meritev, ki presegajo omejitve jakosti. Merilnik zvoka, iz katerega streˇznik pridobiva podatke, je posta- vljen v hrupni okolici blizu bara in parkiriˇsˇca, kjer je veˇcina klasificiranih virov zaznanih kot igranje otrok s povpreˇcno verjetnostjo okoli 85%, kar je presenetljivo glede na nepoznavanje zvoka ˇcloveˇskega odraslega govora.

Kakor ˇze veˇckrat omenjeno v nalogi se drˇzimo mnenja, da bo trenutna reˇsitev s ˇcasom izgubila svojo absolutno vrednost z razvojem novih tehnologij in pristopov, vseeno pa smo z rezultatom reˇsitve zadovoljni.

(71)

Literatura

[1] librosa: Audio and Music Signal Analysis in Python, 2015. URLhttps:

//colinraffel.com/publications/scipy2015librosa.pdf.

[2] European Enviroment Agency. Enviromental noise in europe - 2020, . ISSN 1977-8449. URL https://www.eea.europa.eu/publications/

environmental-noise-in-europe.

[3] European Union Aviation Safety Agency. Easy access rules for unmanned aircraft systems (regulation (eu) 2019/947 and regulation (eu) 2019/945), . URL https://www.easa.europa.eu/document- library/easy-access-rules/easy-access-rules-unmanned-

aircraft-systems-regulation-eu.

[4] J. Ancilin and A. Milton. Improved speech emotion recognition with mel frequency magnitude coefficient. Applied Acoustics, 179:108046, 2021. ISSN 0003-682X. doi: https://doi.org/10.1016/j.apacoust.2021.

108046. URL https://www.sciencedirect.com/science/article/

pii/S0003682X21001390.

[5] Bojan Bratuˇz. Detekcija in klasifikacija zvokov bobnov v realnem ˇcasu, 2007. URL http://eprints.fri.uni-lj.si/id/eprint/537. Biblio- grafija: str. 47-48 Povzetek.

[6] European Commission. Smart cities. URL https://ec.europa.eu/

info/eu-regional-and-urban-development/topics/cities-and- urban-development/city-initiatives/smart-cities_en.

57

(72)

[7] Anˇze ˇZeleznik. Primerjava algoritmov nadzorovanega in nenadzorovanega uˇcenja za klasifikacijo zvoˇcnih dogodkov. 2021. URL https://

repozitorij.uni-lj.si/IzpisGradiva.php?lang=slv&id=125648.

[8] DOUGLAS F. ELLIOTT. Chapter 1 - transforms and transform pro- perties. In Douglas F. Elliott, editor, Handbook of Digital Signal Pro- cessing, pages 1–53. Academic Press, San Diego, 1987. ISBN 978-0- 08-050780-4. doi: https://doi.org/10.1016/B978-0-08-050780-4.50006- 0. URL https://www.sciencedirect.com/science/article/pii/

B9780080507804500060.

[9] Eduardo Fonseca, Xavier Favory, Jordi Pons, Frederic Font, and Xavier Serra. Fsd50k: an open dataset of human-labeled sound events, 2020.

URL https://arxiv.org/abs/2010.00475.

[10] Eduardo Fonseca, Xavier Favory, Jordi Pons, Frederic Font, and Xavier Serra. Fsd50k, Oct 2020.

[11] Jort F. Gemmeke, Daniel P. W. Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R. Channing Moore, Manoj Plakal, and Marvin Ritter.

Audio set: An ontology and human-labeled dataset for audio events.

In Proc. IEEE ICASSP 2017, New Orleans, LA, 2017. URL https:

//ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7952261.

[12] Chris Gorgolewski. Urbansound8k — kaggle. URL https://www.

kaggle.com/chrisfilo/urbansound8k.

[13] Unai Hernandez-Jayo and Amaia Go˜ni. Noise characterization in the scope of a smart city through a low cost and mobile electronic em- bedded system. Sensors (Basel, Switzerland), 21(5). ISSN 1424-8220.

doi: 10.3390/s21051707. URL https://europepmc.org/articles/

PMC7958125.

[14] Iver Jordal. Audiomentations. URL https://github.com/iver56/

audiomentations.

(73)

Diplomska naloga 59 [15] Anurag Kanungo, Ayush Sharma, and Chetan Singla. Smart traffic lights switching and traffic density calculation using video processing.

In 2014 Recent Advances in Engineering and Computational Sciences (RAECS), pages 1–6, 3 2014. doi: 10.1109/RAECS.2014.6799542. URL https://www.researchgate.net/publication/269310721_Smart_

traffic_lights_switching_and_traffic_density_calculation_

using_video_processing.

[16] Qiuqiang Kong, Yin Cao, Turab Iqbal, Yuxuan Wang, Wenwu Wang, and Mark D. Plumbley. Panns: Large-scale pretrained audio neural networks for audio pattern recognition. CoRR, abs/1912.10211, 2019. doi: 10.1109/TASLP.2020.3030497. URL http://arxiv.org/

abs/1912.10211.

[17] Igor Kononenko and Marko Robnik ˇSikonja. Inteligentni sistemi.

Zaloˇzba FE in FRI, Ljubljana, 2010. ISBN 978-961-6209-78-6.

[18] Carlos Mateo and Juan Antonio Talavera. Short-time fourier transform with the window size fixed in the frequency domain. Digital Signal Pro- cessing, 77:13–21, 2018. ISSN 1051-2004. doi: https://doi.org/10.1016/

j.dsp.2017.11.003. URL https://www.sciencedirect.com/science/

article/pii/S1051200417302555.

[19] P.P. Mini, Tessamma Thomas, and R. Gopikakumari. Eeg based di- rect speech bci system using a fusion of smrt and mfcc/lpcc features with ann classifier. Biomedical Signal Processing and Control, 68:102625, 2021. ISSN 1746-8094. doi: https://doi.org/10.1016/j.

bspc.2021.102625. URL https://www.sciencedirect.com/science/

article/pii/S1746809421002226.

[20] Volodymyr Miz and Vladimir Hahanov. Smart traffic light in terms of the cognitive road traffic management system (ctms) based on the internet of things. InProceedings of IEEE East-West Design Test Symposium (EWDTS 2014), pages 1–5, 9 2014. doi: 10.1109/EWDTS.2014.7027102.

(74)

URL https://www.researchgate.net/publication/283561103_

Smart_traffic_light_in_terms_of_the_cognitive_road_traffic_

management_system_CTMS_based_on_the_Internet_of_Things.

[21] World Health Organization. Noise. URLhttps://www.euro.who.int/

en/health-topics/environment-and-health/noise/noise.

[22] Keiron O’Shea and Ryan Nash. An introduction to convolutional neural networks. CoRR, abs/1511.08458, 2015. URLhttp://arxiv.org/abs/

1511.08458.

[23] Imtiyaz Pasha. Ambulance management system using gis.

01 2006. URL https://www.researchgate.net/publication/

277756712_Ambulance_management_system_using_GIS.

[24] Karol J. Piczak. ESC: Dataset for Environmental Sound Classifica- tion. In Proceedings of the 23rd Annual ACM Conference on Multi- media, pages 1015–1018. ACM Press. ISBN 978-1-4503-3459-4. doi:

10.1145/2733373.2806390. URL http://dl.acm.org/citation.cfm?

doid=2733373.2806390.

[25] J. Salamon, C. Jacoby, and J. P. Bello. A dataset and taxonomy for urban sound research. In 22nd ACM International Conference on Mul- timedia (ACM-MM’14), pages 1041–1044, Orlando, FL, USA, 11 2014.

URL https://urbansounddataset.weebly.com/urbansound8k.html.

[26] Domen Strupeh. Klasifikacija vokalnih posnetkov ljudske glasbe. PhD thesis, Univerza v Ljubljani, Fakulteta za raˇcunalniˇstvo in informatiko, 2010. URL http://eprints.fri.uni-lj.si/1169.

[27] Yu Su, Ke Zhang, Jingyu Wang, and Kurosh Madani. Environment sound classification using a two-stream cnn based on decision-level fusion.

Sensors, 19(7), 2019. ISSN 1424-8220. URL https://www.mdpi.com/

1424-8220/19/7/1733.

(75)

Diplomska naloga 61 [28] Mohammad Wani, Samiya Khan, and Mansaf Alam. Iot based traffic management system for ambulances, 4 2020. URL https://www.researchgate.net/publication/341451346_IoT_

Based_Traffic_Management_System_for_Ambulances.