• Rezultati Niso Bili Najdeni

Na podroˇcju raˇcunalniˇskega vida se velikokrat sreˇcujemo s potrebo po apro-ksimaciji gibanja objektov na sekvenci slik. 3D vektorjem hitrosti, ki so projecirani na 2D ravnino pogosto pravimo polje gibanja (angl. motion fi-eld). ˇCe bi lahko priˇsli do takega polja, bi bilo to idealno. A smo zaradi danih podatkov ponavadi postavljeni pred ravno obratni vrsti red operacij.

Iz sekvence slik moramo namreˇc aproskimirati, kako so se objekti v realno-sti premikali. Tej aproksimaciji pravimo polje optiˇcnega toka (angl. optical flow field). Optiˇcni tok je tako definiran kot navidezno gibanje individual-nih pikslov na ravnini slike [41]. Danes je ta uporabljen v veliko razliˇcnih izzivih raˇcunalniˇskega vida kot so npr. segmentacija in sledenje objektov, avtonomna voˇznja, nadzor prometa in prepoznava akcij. Poleg tega pa so pridobljene informacije uporabljene tudi v biomedicini, detektiranju tumor-jev in podobnih nalogah [35].

Koncept optiˇcnega toka je bil prviˇc teoretiˇcno predstavljen v delih ameriˇskega psihologa James J. Gibsona. Ta je preuˇceval, kako ˇzivali preko vizulane per-cepcije in sledenjem vzorcem svetlobe na mreˇznici pridobivajo informacije iz zunanjega sveta. Iz te ugotovitve izvira glavna omejitev optiˇcnega toka in sicer, da se svetlost/intenziteta piksla med dvema zaporednima okvirjema ne spremeni. A le s to omejitvijo ni mogoˇce reˇsiti problema. Denimo, da imamo na primer video ˇzogice, ki nima nobene teksture in luˇc nekje v ozadju, ki se ne premika. Ker je pozicija luˇci konstantna, se svetloba od ˇzogice od-bija vedno enako. Samo iz video posnetka te ˇzogice ni mogoˇce doloˇciti ali se ta rotira okoli svoje osi ali pa stoji na mestu. Tako pridemo do primera, ko se polje gibanja in polje optiˇcnega toka ne ujemata. Razvidno je, da ta problem nima enostavne reˇsitve. Zato je potrebno pri aproksimaciji narediti

Diplomska naloga 13 veliko predpostavk, ki pa so lahko prav tako krˇsene.

Horn in Schunck sta se leta 1981 prva zaˇcela resno ukvarjati z raˇcunanjem polja optiˇcnega toka [11]. Kot smo to omenili ˇze prej, je za optiˇcni tok naj-pomembneje predvidevati, da se svetlost piksla ne spremeni med dvema za-porednima slikama. To lahko predstavimo z enaˇcbo (2.7), kjer je I() funkcija svetlosti/intenzitete, na Sliki 2.4 pa je ˇse grafiˇcni prikaz.

I(x, y, t) = I(x+ ∆, y+ ∆, t+ ∆) (2.7)

Slika 2.4: Grafiˇcni prikaz vektorja gibanja, ki ga dobimo z izraˇcunom optiˇcnega toka

Pri poenostavljanju te funkcije sta avtorja predvidevala tudi majhno giba-nje v majhnem ˇcasu. To je pomenilo, da lahko desno stran enaˇcbe razˇsirita s pomoˇcjo Taylorjeve serije (prva stopnja). Po poenostavitvi prideta na koncu do enaˇcbe (2.8), kjer u oznaˇcuje komponento vektorja gibanja po x in v komponento vektorja gibanja po y koordinati.

Ixu+Iyv =−It (2.8)

A samo s to enaˇcbo ni mogoˇce doloˇciti toka, saj pridemo do ene enaˇcbe z dvema neznankama. Zato sta avtorja v svojem ˇclanku naredila dodatno predpostavko, ki predvideva gladkost optiˇcnega polja. To pomeni, da sose-dnji piksli najverjetneje pripadajo enaki, gladki povrˇsini in imajo zato tudi podoben hitrostni vektor. S tem sta priˇsla do optimizacijske funkcije in para enaˇcb za vsak piksel na sliki. Konˇcna implementacija algoritma je bila sicer zaradi manj zmogljivih raˇcunalnikov precej slaba. Tako je metoda iterativno poskuˇsala najti najboljˇso globalno reˇsitev za vsako toˇcko na sliki. Njihove predikcije pa so imele ˇse posebej problem na robovih objektov oziroma na mejah med razliˇcnimi povrˇsinami. Tam je namreˇc predpostavka o gladkem polju in podobnih vektorjih gibanja sosednjih pikslov krˇsena.

Horn in Schunck sta s svojo metodo poskuˇsala pridobiti gosto polje optiˇcnega toka. To pomeni, da rezultat vsebuje vektor hitrosti za vsako toˇcko na sliki.

V istem obdobju pa sta Lucas in Kanade za potrebe poravnave dveh zapore-dnih slik razvila metodo za redko aproksimacijo polja optiˇcnega toka. Pona-vadi so za te toˇcke izbrani robovi ali pa koti objektov [26]. Tudi tu se avtorja posluˇzujeta nekaterih predpostavk pri raˇcunanju. Glavna od njih je, tako kot pri globalni metodi, konsistenca svetlosti. Poleg tega pa predvidevata ˇse majhno gibanje in prostorsko konsistenco. To pomeni, da se trenutna toˇcka giblje podobno kot njene sosede. Ker je metoda lokalna, upoˇsteva za doloˇcen piksel le njegovo 5x5 okolico. Iz tega pridemo do 25 enaˇcb z dvema neznan-kama (u in v), kar je reˇsljivo. Za reˇsevanje pa uporabimo metodo najmanjˇsih kvadratov. Preko minimiziranja vsote kvadratov napak tako poiˇsˇcemo rav-nino, ki se najbolje prilega danim podatkom. Problem take lokalne metode je aproksimacija optiˇcnega toka znotraj neke brezteksturne povrˇsine. Tu na-mreˇc samo s pomoˇcjo sosednjih toˇck ni mogoˇce izvedeti vektorja gibanja.

Zato ima metoda dodatno omejitev. Pri raˇcunanju metode najmanjˇsih kva-dratov dobimo matriko S, ki vsebuje koeficiente vseh petindvajsetih enaˇcb.

S preverjanjem invertibilnosti STS matrike in primerjanjem velikosti njenih lastnih vektorjev lahko izloˇcimo regije, ki so brez strukture in nezanimive.

Obstajajo pa tudi razliˇcice algoritma, ki delujejo tudi ob krˇsitvi predpostavke

Diplomska naloga 15 o majhnem gibanju. To naredimo s pomoˇcjo Gaussovih piramid obeh slik in iterativnim popravljanjem vektorja gibanja. Aproksimacijo zaˇcnemo na slikah z najmanjˇso resolucijo, nato pa adaptiramo vektorje na vedno veˇcji resoluciji do konˇcnega rezultata [1].

V klasiˇcnih metodah je naloga pridobivanja optiˇcnega toka predstavljena predvsem kot optimizacijski problem. Zato so se posluˇzevali roˇcno narejenih formulacij, ki so poskuˇsale minimizirati energijo med slikama. Z razvojem globokega uˇcenja pa se tudi ta veja raˇcunalniˇskega vida razvija v smer ne-vronskih mreˇz [14]. Na eni strani so napredku veliko botrovale nove podat-kovne zbirke (npr. Middlebury, MPI-Sintel, KITTI), ki so postavljale nove izzive raziskovalcem. Na drugi strani, pa so se pojavile tudi nove roˇcno iz-delane metode. Te so uporabljale zanimive, sveˇze ideje, a se je zato njihova hitrost evalvacije poveˇcala in niso bile uporabne v realnem ˇcasu. S pridobi-tvijo raˇcunsko zmogljivih grafiˇcnih kartic pa so priˇsli prvi nevronski modeli za aproksimacijo optiˇcnega toka. Razvijali sta se dve razliˇcici modelov, ki sta uporabljala konvolucijske nevronske mreˇze (CNN). Prva metoda je CNN uporabljala za pridobivanje znaˇcilk, ki so bile nato vhod v klasiˇcne metode, druga metoda pa je s pomoˇcjo regresije nevronske mreˇze poskuˇsala nauˇciti model celotno predikcijo naenkrat (angl. end-to-end). Prva taka metoda je bila FlowNet, ki pa je bila na zaˇcetku slabˇsa od tradicionalnih metod.

Tako ˇse ni bilo jasno, ˇce so reˇsitev za boljˇsi optiˇcni tok res end-to-end mo-deli tako kot pri drugih izzivih v raˇcunalniˇskem vidu. Kasnejˇse raziskave pa so le pokazale boljˇse rezultate od klasiˇcnih metod. Najpomembnejˇse je bilo odkritje novih arhitektur nevronskih mreˇz z zlaganjem veˇcih komponent sku-paj v en model ali pa z izgradnjo CNN piramid. Vseeno pa te metode niso brez omejitev. Problem je predvsem v zanaˇsanju na veliko koliˇcino oznaˇcenih podatkov za treniranje in padanju natanˇcnosti modelov na ˇse nevidenih do-menah. Zato raziskovalci poskuˇsajo razviti modele s pol nadzorovanim (angl.

semi-supervised) in nenadzorovanim (angl. unsupervised) naˇcinom uˇcenja.