Pridobivanje in uporaba metaznanja za uˇcinkovitejˇso izbiro uˇcnih primerov

(1)

UNIVERZA V LJUBLJANI

SKUPNI INTERDISCIPLINARNI PROGRAM DRUGE STOPNJE KOGNITIVNA ZNANOST

V SODELOVANJU Z UNIVERSIT ¨AT WIEN, UNIVERZITA KOMENSK ´EHO V BRATISLAVE IN

E ÖTV ÖS LOR ÁND TUDOM ÁNYEGYETEM

Benjamin Fele

Pridobivanje in uporaba metaznanja za uˇcinkovitejˇso izbiro uˇcnih primerov

Magistrsko delo

Ljubljana, 2020

(2)

UNIVERZA V LJUBLJANI

SKUPNI INTERDISCIPLINARNI PROGRAM DRUGE STOPNJE KOGNITIVNA ZNANOST

V SODELOVANJU Z UNIVERSIT ¨AT WIEN, UNIVERZITA KOMENSK ´EHO V BRATISLAVE IN

E ÖTV ÖS LOR ÁND TUDOM ÁNYEGYETEM

Benjamin Fele

Pridobivanje in uporaba metaznanja za uˇcinkovitejˇso izbiro uˇcnih primerov

Magistrsko delo

Mentor: izr. prof. dr. Danijel Skoˇcaj

Ljubljana, 2020

(3)

Zahvala

Profesorju Danijelu Skoˇcajuza konstruktivno usmerjanje razvoja magistrskega dela,

Eli Praznikza posluˇsanje mojega kontempliranja in

starˇsemza podporo tekom ˇstudija.

(4)

Povzetek

Podroˇcje umetne inteligence je bilo v svoji zgodovini veˇckrat navdahnjeno s ˇcloveˇsko kognicijo.

V tem magistrskem delu vzamemo visokonivojski pogled na metakognicijo in implementiramo sistem s podobnimi karakteristikami. Naˇsa motivacija za to je dveh vrst: prva izhaja iz ˇzelje po prispevku k metodam strojnega uˇcenja, natanˇcneje polnadzorovane klasifikacije, druga pa iz moˇznosti primerjave uˇcenja ljudi in umetnih sistemov. Naˇs sistem skladno z literaturo razdelimo na objektni in meta del, pri ˇcemer s prvim reˇsujemo klasifikacijski problem, z drugim pa z doloˇcanjem pragov prepriˇcanosti v napovedi izbiramo uˇcne primere glede na znanje prvega.

Podobno kot pri ljudeh se tudi v naˇsem sistemu uˇcnih strategij nauˇcimo skozi nabiranje znanja o reˇsevanju problema, za kar uporabimo spodbujevalno uˇcenje. Pri naˇcrtovanju naˇsega sistema je eno izmed pomembnih vodil sploˇsnost, zaradi ˇcesar eksperimente izvedemo z variiranjem arhitektur klasifikatorjev (nevronskih mreˇz) in podatkovnih zbirk. Sistem uˇcimo tako od zaˇcetka, kot tudi s prenosom znanja z enega problema na drugega. Pridobimo meˇsane rezultate, ki so v najveˇcji meri odvisni od uˇcinkovitosti naˇsega pristopa k polnadzorovanemu uˇcenju. Ob primerjavi naˇse metode z “naivnimi” pristopi dobimo najveˇc 1 % slabˇse, pogosto pa tudi boljˇse rezultate kot pri uporabi pragov, najdenih z nakljuˇcnim iskanjem. S prenosom uˇcnih strategij iz enega problema na drugega za 80 % zmanjˇsamo ˇcas, potreben za reˇsitev problema izbire uˇcnih primerov ter dobimo primerljive rezultate kot pri uˇcenju od zaˇcetka. Z naˇsim delom pokaˇzemo, da se je v danem okviru uˇcnega naˇcrta mogoˇce nauˇciti in da le-ta pohitri uˇcenje, ter da je izbira uˇcnih primerov z uporabo metaznanja eden od uˇcinkovitih pristopov za uspeˇsno uˇcenje klasifikatorjev. Naˇstete lastnosti so tudi kljuˇcne podobnosti implementiranega sistema s ˇcloveˇskim uˇcenjem.

Kljuˇcne besede: klasifikacija, metakognicija, metauˇcenje, polnadzorovano uˇcenje, prenos znanja, spodbujevalno uˇcenje, uˇcni naˇcrt

(5)

Abstract

The field of artificial intelligence has been throughout its history repeatedly inspired by human cognition. In this master’s thesis, we take a high-level view of meta-cognition and implement a system with similar characteristics. Our motivation for this is of two kinds: the first stems from the desire to contribute to machine learning methods, more specifically semi-supervised classification, and the second from the ability to compare human learning and artificial sy- stems. According to the literature, our system is divided into object and meta parts, with the former solving the classification problem, and the latter selecting learning examples based on its knowledge by determining the appropriate confidence thresholds. Similarly to humans, we learn learning strategies in our system through the accumulation of knowledge about solving a particular problem, for which we use reinforcement learning. While designing our system, one of the important guidelines is generality, which is why we perform experiments by varying the architectures of classifiers (neural networks) and datasets. We train the system both from the beginning and by transferring knowledge from one problem to another. We obtain mixed results that depend largely on the effectiveness of our approach to semi-supervised learning.

When comparing our method with “naive” approaches, we get at most 1% worse, but often bet- ter results than using confidence thresholds found by random search. By transferring learning strategies from one problem to another, we reduce the time required to solve the sample selection problem by 80% and obtain comparable results as when learning from the beginning. Our work shows that it is possible to learn a curriculum within a given framework, that it accelerates learning and that the selection of learning samples using meta-knowledge is one of the effective approaches for successful classifier training. The listed properties are also key similarities of the implemented system when compared to human learning.

Keywords: classification, curriculum, meta-cognition, meta-learning, reinforcement learning, semi-supervised learning, transfer learning

(6)

Kazalo

1 Uvod 1

2 Pregled podroˇcja 3

2.1 Sorodno delo s podroˇcja strojnega uˇcenja . . . 3

2.1.1 Pristopi k modeliranju uˇcnega procesa . . . 3

2.1.2 Metauˇcenje . . . 4

2.1.3 Polnadzorovano uˇcenje . . . 5

2.1.4 Spodbujevalno uˇcenje . . . 7

2.1.5 Prenos znanja . . . 8

2.2 Navezava na kognitivno psihologijo . . . 9

2.2.1 Metakognicija . . . 10

2.2.2 Lastnosti metakognitivnih procesov in uˇcenja . . . 15

2.2.3 Relacija med teˇzavnostjo, spretnostjo in zanimivostjo naloge . . . 16

2.3 Kibernetika kot okvir za primerjavo ˇcloveˇske kognicije in naˇsega sistema . . . 18

2.4 Navezava na naˇse raziskave . . . 18

3 Metoda 20 3.1 Osnovni problem . . . 20

3.1.1 Inicializacija parametrov klasifikatorja . . . 22

3.1.2 Posodabljanje ciljnih razredov neoznaˇcenih uˇcnih primerov . . . 22

3.1.3 Generiranje stanj . . . 23

3.1.4 Oblikovanje uˇcnih mnoˇzic . . . 24

3.1.5 Uˇcenje klasifikatorja . . . 24

3.2 Metaproblem . . . 26

3.2.1 Uˇcenje meta-agenta . . . 26

3.3 Prenos znanja . . . 28

(7)

4 Zasnova eksperimentov 30

4.1 Potek uˇcenja sistema . . . 30

4.2 Hiperparametri . . . 31

4.3 Podatki . . . 32

4.4 Arhitekture nevronskih mreˇz . . . 35

4.4.1 Arhitekture nevronskih mreˇz klasifikatorjev . . . 35

4.4.2 Arhitekture nevronskih mreˇz za reˇsevanje metaproblema . . . 37

4.5 Vrednotenje rezultatov . . . 38

5 Eksperimentalni rezultati 41 5.1 Uˇcenje uˇcnih strategij . . . 41

5.1.1 Uˇcenje klasifikatorja . . . 42

5.1.2 Rezultati uˇcenja meta-agenta . . . 48

5.2 Prenos uˇcnih strategij . . . 52

5.2.1 Prenos brez uglaˇsevanja na ciljni problem . . . 52

5.2.2 Prenos z uglaˇsevanjem na ciljni problem . . . 53

5.2.3 Prenos s poveˇcevanjem ˇstevila oznaˇcenih uˇcnih primerov . . . 54

5.3 Diskusija . . . 56

5.3.1 Diskusija rezultatov iz prejˇsnjih poglavij . . . 56

5.3.2 Primerjava s ˇcloveˇskim uˇcenjem . . . 58

6 Zakljuˇcek 61

Literatura 63

(8)

1 Uvod

Strojno uˇcenje se v mnogih pogledih odvija s pomoˇcjo podobnih mehanizmov kot uˇcenje ljudi.

Tako na primer uˇcni naˇcrt oziroma stopnjevanje teˇzavnosti danega problema, ki je kljuˇcen za uspeˇsen razvoj otrok (Oudeyer et al., 2007), pripomore tudi k uˇcenju nevronskih mreˇz (Bengio et al., 2009). Za hitrejˇse uˇcenje ljudi je kljuˇcno tudi raziskovanje, ki je pomembna tema tudi na podroˇcju spodbujevalnega uˇcenja (Oudeyer in Kaplan, 2008). V ˇzelji po raziskovanju sploˇsnih mehanizmov, ki pripomorejo k boljˇsi generalizaciji pri ljudeh in imajo moˇznost uporabe v okviru strojnega uˇcenja, se v tem magistrskem delu obrnemo na metakognicijo in z njo povezane procese. Naˇse delo izvira iz uporabe visokonivojskih idej s podroˇcja kognitivne psihologije, ki jih uporabimo za snovanje novega pristopa k reˇsevanju klasifikacijskih problemov. Pri tem je eno izmed glavnih vodil naˇse metode sploˇsnost, ki za delovanje predpostavlja ˇcim manj lastnosti podatkovnih zbirk ter uporabljenih arhitektur klasifikatorjev.

Posluˇzujemo se dveh pristopov, katerih motivacija za uporabo na podroˇcju strojnega uˇcenja je zmanjˇsanje koliˇcine eksplicitnega znanja, podanega s strani raziskovalca ali uporabnika: spodbujevalnega in polnadzorovanega uˇcenja. Polnadzorovano uˇcenje izkoriˇsˇca neoznaˇceno uˇcno mnoˇzico za dvig konˇcne klasifikacijske toˇcnosti (Zhu in Goldberg, 2009), medtem ko spodbujevalno uˇcenje problem modelira le s pomoˇcjo nagrade brez eksplicitno podanih reˇsitev. Oba pristopa imata ustreznika na podroˇcju ˇcloveˇskega uˇcenja; spodbujevalno uˇcenje se pogosto primerja s klasiˇcnim pogojevanjem (Dayan in Abbott, 2001), polnadzorovano uˇcenje pa je naˇcin prejemanja znanja v vsakdanjem ˇzivljenju ljudi (Gibson et al., 2013; Zhu in Goldberg, 2009).

Uˇcenje ljudi pogosto poteka z vpogledom v potek reˇsevanja ter kognitivne procese, povezane s tem (Flavell, 1979). Poleg dveh v prejˇsnjem odstavku omenjenih znaˇcilnosti, ki si jih delijo ˇcloveˇski in umetni sistemi, v naˇsem delu tako uvedemo ˇse tretjo; pridobivanje in uporaba metaznanja. To je v sklopu strojnega uˇcenja povezano s podroˇcjem metauˇcenja, ki zajema zbiranje in uˇcenje iz podatkov o poteku reˇsevanju nekega drugega problema (Lemke et al., 2015).

V sklopu te magistrske naloge ˇzelimo naˇstete lastnosti na inovativen zdruˇziti z reˇsevanjem polnadzorovanega klasifikacijskega problema ter pridobivanjem in uporabo metaznanja s spodbu- jevalnim uˇcenjem. Arhitekturo naˇsega sistema razdelimo na dva dela; objektnega in meta, kjer je prvi zadolˇzen za reˇsevanje klasifikacijskega problema, drugi pa skrbi za izbiro primernih uˇcnih primerov za uˇcenje prvega in s tem reˇsuje metaproblem. Komponenti ustrezata meta in objektnemu nivoju procesiranja pri ljudeh, ki ju nadalje opiˇsemo v razdelku 2.2.1.

V naˇsem sistemu je metanivo zadolˇzen za oblikovanje uˇcnih strategij, ki se odrazijo v uspeˇsnosti reˇsevanja klasifikacijskega problema na objektni ravni. Uˇcne strategije so udejanjene s postav- ljanjem pragov prepriˇcanosti, prek katerih so izbrani neoznaˇceni uˇcni primeri. Razvoj sistema, ki takˇsno uˇcenje omogoˇca, je prvi izmed treh ciljev tega magistrskega dela. Poleg tega je naˇs

(9)

cilj tudi izvedba eksperimentov prenosa metaznanja med razliˇcnimi klasifikacijskimi problemi, za katerega raziskave kaˇzejo, da je v doloˇcenih pogojih prisotno tudi pri ljudeh in ˇzivalih. Ta in ostale lastnosti sluˇzijo kot iztoˇcnice za primerjavo rezultatov naˇsega sistema z ugotovitvami kognitivne psihologije, opisanimi v razdelku 2.2.2; to je tretji cilj te magistrske naloge.

Nekatera sorodna dela, ki jih opisujemo v podpoglavju 2.1, ˇze zdruˇzujejo polnadzorovano, spodbujevalno in metauˇcenje (Wu et al., 2018; Chen et al., 2018; Buchler et al., 2018). Naˇsa metoda ima veˇc podobnosti z omenjenimi deli, a je po drugi strani relativno neodvisna od izbire arhitekture klasifikatorja in podatkovne zbirke. Pri prenosu metaznanja z enega problema na drugega implementiramo pristop, podoben metodi avtorjev Julian et al. (2020), ki kljub rela- tivni enostavnosti bistveno zmanjˇsa ˇstevilo potrebnih iteracij za najdbo reˇsitve.

Nadaljnja poglavja imajo sledeˇco strukturo: poglavje 2 predstavlja pregled sorodnih del, ki ga zaˇcnemo z deli iz podroˇcja strojnega uˇcenja (podpoglavje 2.1), ˇcemur sledi pregled relevantne literature s podroˇcja kognitivne psihologije (podpoglavje 2.2), ki sestoji iz opisov modelov uˇcenja in metakognicije ter predstavitve relacije med teˇzavnostjo, spretnostjo in zanimivostjo pri reˇsevanju problemov. V poglavju 3 opiˇsemo naˇso metodo, ki je razdeljena na opis uˇcenja klasifikatorja (podpoglavje 3.1), reˇsevanja metaproblema (podpoglavje 3.2) in prenosa znanja (podpoglavje 3.3). V poglavju 4 opiˇsemo uporabljene arhitekture nevronskih mreˇz, podatkovne zbirke, hiperparametre in zasnovo eksperimentov. Nadalje v poglavju 5 predstavimo rezultate, ˇcemur sledita diskusija (podpoglavje 5.3) ter zakljuˇcek (poglavje 6).

(10)

2 Pregled podroˇcja

Naˇse delo spaja podroˇcji strojnega uˇcenja in kognitivne psihologije. Modeli metakognicije, katerih pregled ponudimo v podpoglavju 2.2, sluˇzijo kot baza, na podlagi katere delimo komponente naˇsega sistema, ter opisujejo nekatere predpostavke, ki veljajo tudi za naˇse delo. Opi- sani modeli metakognicije torej sluˇzijo kot ogrodje, ki ga uporabimo za oblikovanje metode, ki spada na podroˇcje strojnega uˇcenja. Z vidika slednjega se posluˇzujemo metod polnadzorovanega, spodbujevalnega in metauˇcenja ter prenosa znanja, ki jih opisujemo v podpoglavju 2.1.

V podpoglavju 2.2 poleg modelov metakognicije opisujemo tudi tokovni model in uˇcenje po uˇcnem naˇcrtu, katerih lastnosti postavljajo temelje odloˇcitev o naˇcinu implementacije pripa- dajoˇcih delov naˇsega sistema.

2.1 Sorodno delo s podroˇcja strojnega uˇcenja

Problem, ki ga reˇsujemo, lahko razdelimo na veˇc podproblemov, kjer vsak ustreza skupini pristopov s podroˇcja strojnega uˇcenja. Kot bo postalo jasno v nadaljevanju, ti pristopi pogosto za uresniˇcevanje podobnih ciljev uporabljajo razliˇcna imena in so med seboj povezani.

Magistrsko delo se dotika podroˇcij kot so sledenje znanju (angl.knowledge tracing) in uˇcenje po uˇcnem naˇcrtu (angl.curriculum learning), ki so opisani v razdelku 2.1.1. Sledi opis metauˇcenja (razdelek 2.1.2), pregledi polnadzorovanega (razdelek 2.1.3) in spodbujevalnega uˇcenja (razdelek 2.1.4) ter prenosa znanja (razdelek 2.1.5).

2.1.1 Pristopi k modeliranju uˇcnega procesa

Modeliranje vrstnega reda uˇcnih primerov, iz katerih se raˇcunalniˇski model uˇci, je mogoˇce reˇsevati z veˇc pristopi, katerih osrednji cilj je pohitritev ali izboljˇsanje toˇcnosti modelov z obli- kovanjem uˇcnega procesa. Tovrstna dela je mogoˇce uvrstiti na podroˇcja aktivnega uˇcenja (Gal et al., 2017; Majnik in Skoˇcaj, 2013; Yu et al., 2017; Skoˇcaj et al., 2012; Amiri, 2019) in uˇcenja po uˇcnem naˇcrtu (Bengio et al., 2009; Matiisen et al., 2019; Elman, 1993; Jiang et al., 2015;

Kumar et al., 2010). Settles (2009) aktivno uˇcenje opredeli kot pristop k strojnemu uˇcenju ob predpostavki, da se uˇcenec uˇci hitreje v primeru moˇznosti izbire uˇcnih primerov, iz katerih se uˇci. Uˇcenje po uˇcnem naˇcrtu po drugi strani izkoriˇsˇca zunanjo oceno o primernosti uˇcnega procesa, kar sicer temelji na podobni ideji: reguliranje vrstnega reda uˇcnih primerov vodi do hi- trejˇsega uˇcenja in/ali viˇsje klasifikacijske toˇcnosti (Elman, 1993; Bengio et al., 2009). Uˇcenje po uˇcnem naˇcrtu na podlagi podanega opisa torej zajema skupino pristopov, kjer je aktivno uˇcenje

(11)

podmnoˇzica metod, pri katerih je vrstni red uˇcnih primerov odvisen od povratne informacije

“uˇcenca”.

Omenjena dela za delovanje zahtevajo razliˇcno koliˇcino vneˇsenega znanja s strani raziskovalca o problemu ter omogoˇcajo razliˇcno ˇsirino nabora problemov, ki jih lahko reˇsujejo. Veˇcina omenjenih pristopov deluje na omejeni koliˇcini problemov oziroma za reˇsitev problema zahtevajo relativno veliko znanja s strani raziskovalca. Relativno sploˇsen pristop opiˇsejo Kumar et al.

(2010), ki v funkcijo izgube uvedejo dodaten regulatorni ˇclen, ki determinira teˇzavnost uˇcnega primera, ter Amiri (2019), ki v ˇclanku razvije sistem, ki uˇcne primere razvrˇsˇca v Leitnerjevo vrsto (Leitner, 1972) in nato iz nje vzorˇci uˇcne primere. S samodejnim doloˇcanjem vrstnega reda uˇcnih primerov se ukvarja tudi domena sledenja znanju (angl.knowledge tracing), katere glavni cilj je modeliranje uˇcenˇcevega znanja o podproblemih (Corbett in Anderson, 1994; Pardos et al., 2012; Piech et al., 2015). Sledenje znanju eliminira potrebo po roˇcnem doloˇcanju vrstnega reda uˇcnih primerov, saj so za oblikovanje le-tega lahko uporabljeni podatki spremljanja znanja uˇcencev. Ti pristopi ˇse vedno predvidevajo raziskovalˇcev vnos znanja v obliki razdelitve problema na podprobleme, katerih uspeˇsnost reˇsevanja je nato spremljana v procesu sledenja znanju.

2.1.2 Metauˇcenje

Skupina pristopov, ki se ukvarja zuˇcenjem uˇcenja, spada tudi na podroˇcje metauˇcenja (Piech et al., 2015; Wu et al., 2018; Chen et al., 2018; Buchler et al., 2018). Definicije metauˇcenja dajejo poudarek razliˇcnim vidikom le-tega. Lemke et al. (2015) termin definirajo v okviru sistema, sposobnega metauˇcenja. Gre za

“[S]istem, sestavljen iz podsistema, sposobnega uˇcenja in reˇsitve danega problema, ki je posledica uporabe metaznanja pridobljenega v a) preteklih uˇcnih iteracijah in/ali b) drugih problemskih domenah”. (Str. 119)

V zgornjem citatu je potrebno izpostaviti “uporabo metaznanja”, ki ta sistem razlikuje od tistih brez sposobnosti metauˇcenja. O metaznanju Lemke et al. (2015) piˇsejo kot o znanju o samem problemu (npr. ˇstevilo ciljnih razredov in njihove statistiˇcne znaˇcilnosti), njegovi teˇzavnosti in naˇcinu reˇsevanja (npr. intervali zaupanja napovedi in klasifikacijske toˇcnosti).

Uporaba metauˇcenja za avtomatsko razvrˇsˇcanje uˇcnih primerov sicer ni nujna, kot na primer pokaˇzejo Kumar et al. (2010) in Amiri (2019). V naˇsem delu metauˇcenje uporabimo kot sred- stvo za dinamiˇcno izbiro uˇcnih primerov oziroma snovanje uˇcnih strategij. Primeri del, ki za modeliranje vrstnega reda uˇcnih primerov uporabijo pristop metauˇcenja, so na primer ˇze prej

(12)

omenjeni Piech et al. (2015), Wu et al. (2018), Chen et al. (2018) in Buchler et al. (2018). V primeru zadnjih treh ˇclankov avtorji metaznanje izkoriˇsˇcajo prek uporabe spodbujevalnega uˇcenja, kar je podoben pristop, kot je uporabljen v tem delu. Del pristopa, povezan z metauˇcenjem, nadalje opisujemo v podpoglavju 3.2.

Clanek avtorjev Wu et al. (2018) opravlja metauˇcenje nad tekstovnimi podatki, ki jih glede na iz-ˇ brano metriko podobnosti razdeli vngruˇc. V fazi uˇcenja so nato iterativno preizkuˇsene razliˇcne gruˇce za uˇcenje ob razliˇcnih kompetentnostih modelov. Skozi nabiranje razliˇcnih kombinacij se algoritem spodbujevalnega uˇcenja priuˇci vrstnega reda uˇcenja iz skupin, kar vodi do novega najboljˇsega rezultata na dveh podatkovnih zbirkah. V vsaki gruˇci izberejo predstavnika, katerega verjetnostne porazdelitve napovedanih ciljnih razredov se uporabijo za generiranje stanj, na podlagi katerih se nauˇcijo optimalnega vrstnega reda gruˇc, iz katerih se modeli uˇcijo. Chen et al. (2018) po drugi strani generirajo bolj kompleksna stanja, ki zajemajo nauˇcene reprezenta- cije, nivo prepriˇcanosti in sploˇsne karakteristike podatkovne zbirke za vsak primer. V vsakem koraku spodbujevalnega uˇcenja nato izvedejo akcijo, ki nakljuˇcno izbran primer uporabi ali ne uporabi za nadaljnje uˇcenje. To ponovno vodi v strategijo, ki maksimizira konˇcno klasifikacijsko toˇcnost modela. V tem magistrskem delu je reprezentacija stanj klasifikatorja podobna Wu et al. (2018), prav tako pa nagrado po izvedeni akciji definiramo s spremembo klasifikacijske toˇcnosti.

2.1.3 Polnadzorovano uˇcenje

Polnadzorovano uˇcenje leˇzi na stiˇciˇsˇcu nadzorovanega in nenadzorovanega uˇcenja. Izkoriˇsˇca mnoˇzico neoznaˇcenih podatkov v namen izboljˇsanja klasifikacijske toˇcnosti pri reˇsevanju problema, za katerega je na voljo majhno ˇstevilo oznaˇcenih primerov (Chapelle et al., 2010). Da polnadzorovane metode v sploˇsnem lahko izboljˇsajo klasifikacijsko toˇcnost v primerjavi z uporabo zgolj oznaˇcenih podatkov, mora biti zadoˇsˇceno naslednjim predpostavkam (Chapelle et al., 2010):

• Predpostavka zveznosti: ˇce sta dve toˇcki (primera) x_i in x_j blizu v obmoˇcju z visoko gostoto primerov, morata biti blizu tudi ciljna razreday_iiny_j.

• Predpostavka gruˇc: ˇCe sta toˇcki (primera)x_iinx_j v isti gruˇci, potem verjetno pripadata istemu ciljnemu razredu.

• Predpostavka zmanjˇsanja dimenzionalnosti(angl. manifold assumption): Visokodimen- zionalni podatki so lahko opisani z manjˇsim ˇstevilom dimenzij oziroma leˇzijo v niˇzje- dimenzijskem prostoru.

(13)

Zgornjax_iinx_justrezata dvema uˇcnima primeroma, medtem koy_iiny_justrezata pripadajoˇcima ciljnim razredoma. Prva in druga izmed zgoraj omenjenih predpostavk opisujeta, da je za delovanje polnadzorovanih metod potrebna organizacija podatkov, kjer je iz podobnosti med primeri in gostote toˇck, ki jih le-ti predstavljajo, mogoˇce sklepati o kategorijah, ki jim pripadajo. Pred- postavka dimenzionalnosti pa je po drugi strani potrebna zaradi iskanja funkcije, ki najbolje opiˇse ciljne razrede v podatkih, pri ˇcemer izobilje (neoznaˇcenih) uˇcnih primerov lahko sluˇzi za dosego viˇsje natanˇcnosti. Poenostavljeno, polnadzorovano uˇcenje deluje zaradi gruˇc, ki so prisotne v podatkih, ki omogoˇcajo iskanje parametrov funkcije, ki opisujejo njihove kategorije, tudi ˇce te niso eksplicitno podane.

Bagherzadeh in Asil (2019) povzemata glavne kategorije polnadzorovanega uˇcenja. Med kategorije pristopov spadajo samouˇcenje (angl. self-learning, self-teaching), generativni modeli, sotrening (angl. co-training) in tri-trening ter metode, osnovane na grafih (angl. graph-based methods). Med primere samouˇcenja, ki mu pripada tudi naˇse delo, poleg ˇclankov, omenjenih v Bagherzadeh in Asil (2019), spadajo tudi Laine in Aila (2016), Tarvainen in Valpola (2017), in Lee (2013), ki vsak na svoj naˇcin izkoriˇsˇcajo s strani modela dodeljene ciljne razrede, svoje metode pa preizkusijo z nevronskimi mreˇzami. Lee (2013) za dodelitev ciljnih razredov uporabi trenutne napovedi modela, Laine in Aila (2016) pa te napovedi povpreˇcita skozi epohe, kar vodi do veˇcje robustnosti. Tarvainen in Valpola (2017) v svojem delu povpreˇcita uteˇzi sekun- darne nevronske mreˇze in ciljne razrede doloˇcata glede na izhod le-te. Samouˇcenje v nekaterih implementacijah uporablja prag zaupanja ali nprimerov z najviˇsjimi prepriˇcanji v napovedi, s ˇcimer so izbrani uˇcni primeri, ki zmanjˇsajo moˇznost uˇcenja iz uˇcnih primerov z napaˇcnimi ka- tegorijami (Mihalcea, 2004; McClosky et al., 2006; Rosenberg et al., 2005) – doloˇcanje pragov prepriˇcanosti v tem delu sledi tej ideji.

Zavoljo celovitosti opisujemo ˇse ostale pristope k polnadzorovanemu uˇcenju. Polnadzorovano uˇcenje z generativnimi modeli uporabi neoznaˇceno uˇcno mnoˇzico za uˇcenje parametrov nevronske mreˇze, katere cilj je modeliranje distribucijeP(X_u). Primeri tovrstnega pristopa uteˇzi nevronske mreˇze najprej uˇcijo s samokodirnikom in uˇcnimi primeriX_u, ter nato uteˇzi kodirnika uporabijo pri nadaljnjem uˇcenju verjetnostne distribucijeP(Y_l|X_l)(Amiri, 2019; Adiwardana et al., 2016). So- in tri-trening izkoriˇsˇcata razliˇcne “poglede” v podatke in uˇcne algoritme, za katere se predpostavlja, da bodo v sistem vnesli nove informacije. Tako so pri so-treningu atributi podatkov razdeljeni na dve podmnoˇzici, iz katerih sta nauˇcena dva modela, ki nato iterativno en za drugega doloˇcata kategorije uˇcnih primerov (Blum in Mitchell, 1998). Tri-trening po drugi strani uporablja konsenz med klasifikatorji, kjer strinjanje o kategoriji dveh modelov doloˇci ciljni razred na podlagi katerega je nauˇcen tretji (Zhou in Li, 2005). Metode, osnovane na grafih, na razliˇcne naˇcine raˇcunajo podobnost primerov in glede na to propagirajo kategorije med oznaˇcenimi in neoznaˇcenimi primeri (Zhan et al., 2018; Haeusser et al., 2017; Mallapragada et al., 2008).

(14)

2.1.4 Spodbujevalno uˇcenje

V naˇsem delu nimamo dostopa do uˇcnih strategij, ki pripeljejo do uspeˇsnejˇsega uˇcenja, zaradi ˇcesar moramo prostor moˇznih strategij raziskati s poskuˇsanjem in se uˇciti iz zbranih interakcij.

Uˇcinkovito reˇsevanje tega problema omogoˇca spodbujevalno uˇcenje, s katerim se uˇcimo strategij, ki maksimizirajo toˇcnost klasifikatorja. Spodbujevalno uˇcenje je torej v naˇsem sistemu zadolˇzeno za pridobitev in uporabo metaznanja in je v sploˇsnem definirano kot

“[R]aˇcunski pristop k razumevanju in avtomatiziranju ciljno orientiranega uˇcenja in odloˇcanja. Od ostalih metod uˇcenja se razlikuje zaradi poudarka na neposredno interakcijo agenta z njegovim okoljem, brez uporabe neposrednega nadzora ali modela okolja”. (Sutton in Barto, 2018, str. 15)

Formalno spada spodbujevalno uˇcenje v skupino Markovih odloˇcitvenih procesov, definiranimi s prostorom stanjS, prostorom akcijA, nagradamiR in verjetnostnimi porazdelitvamiP, ki oznaˇcujejo verjetnost prehoda iz stanjas_t v stanjes_t+1(s_t,s_t+1∈S). Spodbujevalno uˇcenje je poseben primer Markovih odloˇcitvenih procesov, pri katerem verjetnostne porazdelitve preho- dov stanj in nagrade niso znane vnaprej (Sutton in Barto, 2018).

Pomemben del spodbujevalnega uˇcenja je vrednostna funkcija stanj in akcij (angl. state-action value function)Q(s,a):

Q^π(s,a) =Eπ

"

∞ t=0

∑

γ^tR(s_t,a_t)

s₀=s, a₀=a

#

(1)

in vrednostna funkcija (angl. value function)V(s):

V^π(s) =Eπ

"

∞

∑

t=0

γ^tR(s_t,a_t)

s₀=s

#

. (2)

Spremenljivka γ ∈[0,1] v enaˇcbah (1) in (2) doloˇca teˇzo nagrad, ki jih strategija prinese v prihodnosti. FunkcijaR(s_t,a_t)vraˇca nagrado ob izvedbi akcijea_tv stanjus_t, spremenljivkatpa doloˇca ˇcasovni korak. Gre za podobni funkciji, pri ˇcemerQ^π(s,a)definira priˇcakovano vsoto nagrad ob zaˇcetnem stanjus in izvedbi akcije aterV(s)definira priˇcakovano vsoto nagrad iz stanjas. V obeh primerih so nadaljnje akcije odvisne od strategije π (Sutton in Barto, 2018).

Zavoljo celovitosti pokaˇzimo ˇse na povezavo med funkcijamaV(s)inQ(s,a):

Q^π(s,a) =Eπ

R(s_t,a_t) +γV^π(s_t+1)

s_t =s, a_t=a

. (3)

(15)

Optimalna strategija je nato tista, ki maksimizira vrednost funkcijeV(s):

π^∗=arg max

π

V^π(s), ∀s∈S. (4)

Za reˇsitev naˇsega problema uporabimo algoritem SAC (angl. soft actor-critic) (Haarnoja et al., 2018), ki je nadgradnja algoritma odvoda strategije (angl. policy gradient). Odvod strategije v primerjavi z ostalimi metodami agentovo strategijo posodablja neposredno z uporabo funkcije Q(s,a)(Sutton in Barto, 2018):

∇_φJ(φ) =

∑

s

Pr^π(s)

∑

a

π_φ(a|s)Q^π(s,a)∇_φlogπ_φ(a|s)

=Eπ

Q^π(s,a)∇_φlogπ_φ(a|s)

// v obliki priˇcakovanja.

(5)

Parametri strategijeπ so nato posodobljeni z gradientnim dvigom:

φt+1←φt+∇_φJ(φ_t). (6) V enaˇcbah (5) in (6) φ_t in φ_t+1 predstavljata parametre agenta v trenutnem in naslednjem ˇcasovnem koraku. Pr^π(s) predstavlja verjetnost pojavitve stanja s, Q^π(s,a) pa predstavlja priˇcakovano nagrado do konca epizode, kjer je v obeh primerih predvidevana uporaba trenutne strategijeπ. ˇClen∇_πlogπ_φ(a|s)predstavlja odvod parametrovφ v odvisnosti od logπ_φ(a|s)– logaritma verjetnosti akcije av stanju s. Enaˇcba (5) predstavlja izraˇcun potrebne spremembe parametrovφ, medtem ko enaˇcba (6) predstavlja dejansko posodobitev parametrov. Intuicija za posodabljanje parametrov φ neposredno z vrednostmi funkcijeQ(s,a)leˇzi v predpostavki, da so viˇsje vrednosti funkcije posledica tistih akcij, katerih verjetnostπ(a|s)ˇzelimo poveˇcati.

Enaˇcbi (5) in (6) opisujeta le posodabljanje parametrov agenta, ki je v tem primeru idealizirano s predpostavljanjem ˇze nauˇcene funkcije Q(s,a) in znanih vrednostiPr(s). Funkcija Pr(s)je dana implicitno in je odvisna od strategijeπ, medtem ko je funkcijaQ(s,a)nauˇcena. Kot smo ˇze omenili, v naˇsem delu uporabimo algoritem SAC (soft actor-critic) (Haarnoja et al., 2018), katerega kljuˇcni prispevek je uˇcenje strategije, ki maksimizira tudi entropijo agentovih akcij.

Strategije delovanja se uˇci iz spomina preteklih interakcij (angl. off-policy) in ne neposredno po izvedeni akciji (angl. on-policy) ter uporabi dve funkciji Q(s,a) za poveˇcanje stabilnosti algoritma. Algoritem podrobneje opisujemo v razdelku 3.2.1.

2.1.5 Prenos znanja

Prenos znanja je proces, ki ga je pogosto uporabljamo ljudje in nam omogoˇca hitrejˇse pridobivanje novih spretnosti; na podroˇcju strojnega uˇcenja je motivacija za deljenje znanja med

(16)

domenami podobna (Pan in Yang, 2009). Pan in Yang (2009) prenos znanja razdelita na in- duktivnega, transduktivnega in nenadzorovanega, pri ˇcemer poimenovanja sovpadajo z dostop- nostjo oznaˇcenih podatkov na ciljni, primarni in nobeni izmed domen. V vseh primerih gre za uresniˇcevanje cilja izboljˇsanja rezultatov na ciljni domeni s pomoˇcjo podatkov iz izhodiˇsˇcne domene.

V naˇsem pregledu metod se bomo osredotoˇcili predvsem na prenos znanja v sklopu spodbujevalnega uˇcenja, saj je to domena, v katero spada tudi naˇse delo. V tej domeni je prenos mogoˇce uporabljati ob spremembah naloge, prostora stanj in akcij za reˇsevanje iste naloge ali variiranja obeh lastnosti, pri ˇcemer lahko prenos poteka iz ene ali veˇc izhodiˇsˇcnih nalog (Lazaric, 2012).

Za naˇse delo je posebej relevanten primer prenosa, pri katerem se spremeni tako naloga (oziroma dinamika okoljaT ), kot tudi prostor moˇznih stanjS. Ta problem je lahko reˇsen s prenosom interakcij, ki obsega roˇcne ali nauˇcene preslikave Abase→Atarget, Sbase→Starget in Tbase→Ttarget. Poleg prenosa samih interakcij moˇzni pristopi vkljuˇcujejo tudi razˇsiritve prostora stanj v Markovem odloˇcitvenem procesu in prenos parametrov nauˇcenih funkcij π(a|s), Q(s,a)aliV(s)(Lazaric, 2012).

Veliko sodobnih del vkljuˇcuje uˇcenje preslikav interakcij z generiranjem reprezentacij, ki so nato uporabljene v algoritmu spodbujevalnega uˇcenja (Ammar et al., 2015; Hu in Montana, 2019). Kot pa so pokazali Julian et al. (2020) pa relativno kompleksno generiranje preslikav ni nujno potrebno, paˇc pa je prenos v njihovem primeru mogoˇc ˇze s prenosom parametrov funkcij π(a|s),Q(s,a)inV(s)brez sprememb algoritma ali generiranja vmesnih reprezentacij . Avtorji svoje eksperimente izvedejo na robotski roki, katere karakteristike (ˇstevilo sklepov, naˇcin pri- jemanja) po zaˇcetnem uˇcenju variirajo v fazi uglaˇsevanja (angl. fine-tune) reˇsitve. Poleg tega spreminjajo tudi osvetljavo okolja, ozadje in dodajajo prej nevidene predmete. Pri spreminjaju naloge prenaˇsajo parametre prej nauˇcenih funkcij, ki ocenjujejo priˇcakovane nagrade in modeli- rajo akcije glede na trenutno stanje ter spomin preteklih interakcij. Kljub temu, da Ammar et al.

(2015) ter Hu in Montana (2019) v svojih delih razvijejo metode, katerih prednost je sploˇsnost, se izkaˇze, da metoda, podobna Julian et al. (2020), ki jo uporabimo tudi v naˇsem delu, vseeno bistveno pohitri uˇcenje agenta.

2.2 Navezava na kognitivno psihologijo

V naˇsem delu ˇzelimo vzpostaviti moˇznost primerjave naˇsih rezultatov z uˇcenjem ljudi, zato bomo v tem podpoglavju predstavili relevantno literaturo s podroˇcja kognitivne psihologije. Za primerjavo naˇsega dela s ˇcloveˇskim uˇcenjem sta pomembna dva konteksta; kakˇsno vlogo ima metakognicija pri pridobivanju novega znanja ter kako je metaznanje, pridobljeno za reˇsevanje enega problema, lahko preneseno na reˇsevanje drugega. V tem podpoglavju predstavimo nekaj

(17)

relevantnih modelov uˇcenja (razdelek 2.2.1), lastnosti metakognicije (razdelek 2.2.2) ter povezavo med zanimivostjo in teˇzavnostjo naloge (razdelek 2.2.3), ki je izhodiˇsˇce za utemeljitev naˇsega pristopa k polnadzorovanemu uˇcenju.

2.2.1 Metakognicija

Pred odgovarjanjem na zgornji vpraˇsanji je potrebno definirati termin metakognicija. Flavell (1979) metakognicijo v sploˇsnem definira kot (poudarek je naˇs)

“[S]premljanje kognitivnih procesov, ki se zgodi kot posledica izvajanja in medse- bojnih vplivov med ˇstirimi razredi pojavov: a) metakognitivnega znanja, b) metakognitivnih izkuˇsenj, c) ciljev (ali nalog) in d) akcij (ali strategij)”. (Str. 906)

V sklopu magistrskega dela ˇzelimo poustvariti sistem, ki ima najbolj eksplicitno navezavo na metakognitivno znanje. Flavell (1979) le-tega definira kot

“[Z]nanje in prepriˇcanja o tem, katere spremenljivke ter na kakˇsen naˇcin vplivajo na potek in rezultat kognitivnih procesov”. (Str. 906)

Pri doloˇcanju, ali je neko znanje metakognitivno, lahko razlikujemo med kognitivnimi procesi, povezanimi z reˇsevanjem samega problema, in kognitivnimi procesi, povezanimi s prepriˇcanji o teh kognitivnih procesih. Rekurzivno nanaˇsanje enega kognitivnega procesa na drugega nima omejitve globine (Nelson in Narens, 1994); metanivo lahko v nekem kontekstu postane objektni, nadomesti pa ga nov metakognitivni proces, ki se nanaˇsa nanj – vsebina kognitivnega procesa torej ni inherentno objektna ali meta, paˇc pa prva in druga vrsta kognitivnih procesov obstajata samo v navezavi en na drugega. Ne glede na nivo rekurzivnega nanaˇsanja, je diho- tomijo mogoˇce opisati z diagramom prikazanim na sliki 1 (Nelson in Narens, 1994). Diagram prikazuje 2 entiteti, ki ustrezata objektnemu in meta nivoju kognicije, pri ˇcemer objektni nivo informira metakognitivne procese, ki v zameno nadzirajo prve. Na sliki 1 je na metanivoju viden tudimodel, ki ustreza modelu problema, prisotnem na objektni ravni (Nelson in Narens, 1994). Kot izpostavita Nelson in Narens (1994), je kljuˇcno, da obratno ne velja; objektna raven nima modela oziroma vpogleda v meta raven.

Veˇc nivojev, prisotnih med uˇcenjem, pa je mogoˇce zaslediti tudi v drugih delih. Kot piˇsemo v nadaljevanju, ta dela pogosto presegajo le opisovanje metakognicije in predstavljajo ˇse druge komponente, kljuˇcne za uˇcenje. Te komponente le omenjamo zaradi ˇsirˇse umestitve metakognicije v kognitivni sistem, vendar bomo podrobne opise izpuˇsˇcali, ker presegajo tematiko te

(18)

MODEL

Spremljanje Nadzor

Meta nivo

Tok informacij

Objektni nivo

Slika 1: Prikaz razdelitve objektnega- in metakognitivnega nivoja ter smeri izmenjave informacij med njima. Prevedeno po Nelson in Narens (1994)

magistrske naloge. Navajamo modele, katerih kompleksnost pogosto presega naˇs sistem, a dajejo vpogled v paradigme na tem podroˇcju in omogoˇcajo primerjavo z rezultati naˇsega sistema v podpoglavju 5.3.

Model uˇcenja z dvojno zanko

Tako znanje o reˇsevanju problema kot tudi nadzor in spremljanje s strani metakognitivnih procesov so nauˇceni (Baer, 1994; Flavell, 1979). V sklopu pridobivanja metakognitivnega znanja pri reˇsevanju doloˇcenega problema Argyris (1991) razlikuje med uˇcenjem z enojno in dvojno zanko (angl. single-indouble-loop learning). Argyris (1991) pristopa k uˇcenju razlikuje v kontekstu svetovalcev v podjetjih. Kljub temu, da njegovo delo ni podprto s psiholoˇskimi raziskavami, paˇc pa gre za analizo pristopa k reˇsevanju problemov s strani prej omenjenih svetovalcev, avtor poudari, da izboljˇsanje rezultatov ni le posledica iteriranja znotraj enojne zanke, paˇc pa tudi posledica iteriranja znotraj drugega nivoja, ki spreminja predpostavke in strategije reˇsevanja (slika 2) in da se je zavestnega spremljanja slednjega mogoˇce nauˇciti.

King in Kitchener (2004) na podoben naˇcin kot Argyris (1991) piˇseta o odsevni presoji (angl.

reflective judgement), ki nastopi, ko uˇcenec ne presoja le, kako reˇsevati sam problem (kognitivni nivo) ter svoje reˇsevanje tega problema (metakognitivni nivo), paˇc pa tudi izvor znanja, ki oblikuje njegove strategije reˇsevanja (epistemoloˇsko-kognitivni nivo), kar je nivo, ki ustreza zunanji zanki v modelu z dvojno zanko.

Samonadzirano uˇcenje

(19)

Predpostavke Akcije Rezultati Učenje z enojno zanko:

izboljšanje razumevanja z analiziranjem rezultatov

Učenje z dvojno zanko:

izboljšanje razumevanja z analiziranjem predpostavk

Slika 2: Diagram uˇcenja z dvojno zanko. Prevedeno po Argyris (1991)

Z metakognicijo v okviru uˇcenja se ukvarja tudi samonadzirano uˇcenje (angl. self-regulated learning), katerega pregled ponudi Panadero (2017). Samonadzirano uˇcenje raziskuje veˇc fe- nomenov; od kognitivnih strategij, vpliva ˇcustev na uˇcenje, metakognicije in motivacije. Med prvimi ga je definiral Zimmerman (1989), in sicer kot“metakognitivno, vedenjsko in motiva- cijsko vkljuˇcenost uˇcencev v lasten uˇcni proces”. Samonadzirano uˇcenje je krovni izraz, pod katerim je moˇc najti veˇc modelov uˇcenja. Nekateri uˇcenje razdelijo glede na tip motivacije, katerih skrajnosti opredelijo kot potrebo po samoohranitvni (zunanja motivacija) in notranjo ˇzeljo po poveˇcanju spretnosti pri reˇsevanju doloˇcenega problema (notranja motivacija) (Boekaerts, 2011). Drugi proces razdelijo na soodvisne podprocese brez ali z manjˇsim ozirom na ˇcustvene komponente ter se osredotoˇcijo na izbiro ciljev, strategij ter spremljanje uspeˇsnosti (Winne, 1996; Zimmerman in Moylan, 2009). Vsi modeli vsebujejo navezavo na metakognitivne procese, veliko pa jih tudi eksplicitno opredeli pomen povratne zanke oz. faze samorefleksije pri spremljanju lastnega procesa uˇcenja, kot je na primer vidno na slikah 3 in 4. ˇSe posebej bi radi opozorili na model avtorjev Winne (1996), ki precej natanˇcno specificira razliˇcne korake procesiranja med uˇcenjem in izvajanjem naloge. Naˇs sistem prepriˇcanj, ciljev in rezultatov ne modelira eksplicitno, vendar podobno kot model avtorja Winne (1996) iz zunanjega sveta dobi povratno informacijo ter s spremljanjem procesa uˇcenja vpliva na znanje in nadaljnje reˇsevanje naloge. Podobno, kot je vidno na sliki 4, tudi Oudeyer et al. (2007) in Flavell (1979) piˇsejo o potrebi po interakcijah agenta z okoljem, s katerimi imajo moˇznost pridobitve izkuˇsenj o primernih uˇcnih strategijah. Slednje je glavna utemeljitev za uporabo spodbujevalnega uˇcenja v naˇsem sistemu.

Zimmerman (2013) opisuje eksperimente, izvedene v podporo cikliˇcnemu modelu samoreguli- ranega uˇcenja. V podporo premiˇsljevalni, izvedbeni in samoreflektivni fazi je bil izveden ekspe-

(20)

Premišljevalna faza

Analiza naloge Zastavljanje ciljev

Planiranje Samo-motivacijska

prepričanja Samoučinkovitost

Pričakovani izidi Zanimanje za nalogo

Izvedbena faza Samonadzor Strategije reševanja

Samoučenje Miselne slike Upravljanje s časom Strukturiranje okolja

Iskanje pomoči Kazanje interesa Samokaznovanje Samospremljanje Metakognitivno spremljanje

Samosnemanje

Samo-reflektivna faza

Samosojenje Samoevalvacija Atribuiranje kavzalnosti

Reakcija Samozadovoljstvo Prilagoditev/obramba

Slika 3: Cikliˇcni model Metanadziranega uˇcenja. Prevedeno po Zimmerman in Moylan (2009)

(21)

Znanje in prepričanja Domensko

znanje Strateško

znanje Motivacijska

prepričanja

Cilji

A B C D karakterizacija

ciljev:

A B C D E

Rezultati

karakterizacija trenutnega

stanja:

Strategije

Spremljanje

karakterizacija napak:

A: ni napake B: precenitev C: podcenitev D: ...

Izvedba Zunanja

povratna informacija

Naloga

Lastnost 0 Lastnost 1 ...Lastnost n

Kognitivni sistem

Slika 4: Winne et al.-ov model uˇcenja. Prevedeno po Winne (1996)

riment, kjer je s spodbujanjem uporabe elementov katere izmed teh treh faz pokazal na linearno korelacijo, ki ga imajo na konˇcno uspeˇsnost uˇcnega procesa. Greene in Azevedo (2007) na drugi strani opravita pregled Winneovega modela uˇcenja: predstavita vrsto raziskav, ki utemeljujejo elemente modela. V njunem delu se izrazmetakognitivnospremljanje navezuje na spremljanje reˇsevanja in evalvacijo napak medreˇsevanjem naloge, medtem ko kognitivno spremljanjeopi- suje sposobnost ovrednotenja uspeˇsnosti reˇsevanjapredinpouˇcenju ter reˇsevanju. Glede metakognitivnega spremljanja navedejo meˇsane rezultate, ki ne utemeljujejo izkazane pomembnosti le-tega v modelu na sliki 4. Po drugi strani pri kognitivnem spremljanju opiˇsejo ugotovljeno korelacijo med oceno znanja po testu in uspeˇsnostjo reˇsevanja ter pomembnost notranjega pov- zemanja nauˇcenega.

Povezava predstavljenih modelov

Predstavljeni modeli variirajo po kompleksnosti, a je kljub temu vsem skupen naˇcin procesiranja, ki deli lastnosti z delom avtorjev Nelson in Narens (1994). Avtorja Zimmerman in Moylan (2009) v svojem delu tako na primer znotraj faze delovanja (angl. performance phase) ome- njata elementa nadzora in spremljanja, medtem ko ima model Winne (1996) povezave v in iz elementa, ki doloˇca proces spremljanja. Naˇcin reˇsevanja problema v sklopu tega magistrskega dela je podoben; na objektni ravni imamo osnovni problem, katerega reˇsevanje se ne izboljˇsuje le skozi povratno informacijo o funkciji napake, paˇc pa tudi s spremembo akcij in strategije, ki

(22)

jo omogoˇca metanivo procesov.

2.2.2 Lastnosti metakognitivnih procesov in uˇcenja

Tu predstavljamo nekatere lastnosti metakognicije, s katerimi primerjamo naˇs sistem. Izmed lastnosti, navedenih v ˇclanku avtorja Dawson (2008), izberemo in podrobneje opiˇsemo tiste, ki so relevantne za primerjavo in izpustimo lastnosti, ki zajemajo motivacijo, razmiˇsljanje ter ostale sposobnosti, vezane na delovanje ljudi.

Metakognitivne veˇsˇcine so nauˇcene: Baer (1994) preuˇcuje razvitost metakognicije pri 11- in 15-letnikih ter odraslih. Vlogo metakognicije raziskuje v kontekstu pisanja besedila. Eksperi- ment je zasnovan kot delo v paru, ki omogoˇca premislek o procesu pisanja skozi analizo dialoga med udeleˇzencema raziskave. Ugotovljeno je bilo, da 11- in 15-letniki v sploˇsnem uporabljajo manj metakognitivnih veˇsˇcin, medtem ko so le-te pri odraslih bolj pogoste. Razlike so bile med drugim najdene v koliˇcini ˇcasa, posveˇcenega predhodni analizi problema, strukturiranju besedila pred pisanjem in evalvaciji dosege cilja po pisanju. Nauˇcenost metakognitivnih sposobnosti je kljuˇcna tudi za naˇse delo; podobno kot to poˇcnejo ljudje tudi v naˇsih eksperimentih zaˇcnemo z nakljuˇcno strategijo, ki se nadalje oblikuje glede na uspeˇsnost interakcij agenta s problemom.

Uˇcenci z metakognitivnimi veˇsˇcinami se uˇcijo hitreje: Borkowski et al. (1987) raziskujejo metakognitivne veˇsˇcine pri umsko zaostalih in normalno razvitih mladostnikih. Skozi metaanalizo ustvarijo model, katerega osrednja komponenta je uporaba metakognicije za uspeˇsno uˇcenje. Kot primer uporabe metakognicije v prvi vrsti opisujejo pomembnost formiranja strategij, odsotnost katerih je bila najdena pri umsko zaostalih mladostnikih. Piˇsejo tudi o pred- hodnem zavedanju, da je za reˇsitev problema potreben trud, izpostavijo pa tudi pomembnost reevalvacije strategij in zavedanje o lastnih zmoˇznostih. To so lastnosti, ki so prav tako bolj pogoste v primeru normalno razvitih kognitivnih sposobnosti.

Za razvoj je potrebno tako domensko znanje kot tudi metakognitivne sposobnosti: avtorji Bransford et al. (1986) v svojem ˇclanku primerjajo vlogo domenskega znanja ter metakognitivnih procesov. Predstavijo metaanalizo raziskav, iz katerih sledi, da je vzpodbujanje k prepozna- vanju sploˇsnih vzorcev in strukturiranju znanja (ki po njihovem tvorita metakognitivne procese) kljuˇcno za uspeˇsen priklic potrebnega domenskega znanja, ko je to potrebno. Ob razlagi ene izmed raziskav tako izpostavijo:

“ ˇSahovski mojstri so morda razvili bazo znanja, ki jim omogoˇca zaznavanje pomembnosti razliˇcnih stanj v igri in s tem ustvarjanje kvalitativno boljˇsih potez”, (Bransford et al., 1986, str. 1079)

(23)

kar je odgovor na zavrnjeno hipotezo raziskovalcev originalne raziskave, da ˇsahovski mojstri vnaprej predvidijo veˇc potez (in se torej bolj znaˇsajo na domensko znanje) kot zaˇcetniki.

Uˇcenci spontano uporabijo sploˇsne metakognitivne sposobnosti za reˇsevanje problema na novi domeni: Mathan in Koedinger (2005) izvedejo eksperiment na ljudeh, kjer praktiˇcno ovrednotijo pristope k podajanju povratne informacije med uˇcenjem. V njihovem delu osred- njo vlogo prevzame model “inteligentnega novinca”, ki kot mehanizem povratne informacije uporablja tudi lastne sposobnosti zaznavanja in popravljanja napak. Eksperiment zastavijo kot uˇcenje novih funkcionalnosti v programu za urejanje preglednic (npr. Microsoft Excel). Ugo- tovijo, da se inteligentni novinci uˇcijo hitreje, ter da njihovo uˇcenje vodi k boljˇsi generalizaciji in razumevanju problema.

Prenos metakognitivnega znanja je pogosto prisoten pri uˇcenju reˇsevanja novega problema, a ne vedno: Garner in Alexander (1989) problem prenosa znanja razdelita na prenos med bolj in manj podobnimi domenami; prenos med prvimi je bolj pogost, kar je mogoˇce raz- lagati s podobnostjo strategije, ki jo lahko uˇcenec uporabi za uˇcenje. Podobnost strategij uˇcenja pa sicer na vpraˇsanje prenosa ne odgovori v celoti. Avtorja navajata tudi druge dejavnike, kot so na primer navada na uporabo ene strategije in poslediˇcno neuspeˇsno reˇsevanje problema v drugi domeni ter metodologije samih eksperimentov, ki pogosto eksplicitno zahtevajo uporabo specifiˇcnih strategij, kar omejuje udeleˇzence pri prenosu metakognitivnega znanja.

Kljub temu, da so rezultati raziskav meˇsani, Borkowski et al. (1987) pridejo do podobnih za- kljuˇckov kot Garner in Alexander (1989) in omenijo tudi vlogo podobnosti problemov na objektni ravni pri prenosu metakognitivnega znanja. Everson (1997) pokaˇze na bolj oˇciten prenos veˇsˇcin metakognitivnega spremljanja med reˇsevanjem jezikovnega in matematiˇcnega problema.

Kornell et al. (2007) pokaˇzejo na prenos metakognitivnega znanja pri opicah, kjer so le-tega preverjali z uˇcenjem strategije za reˇsitev enega problema, ki je pohitrila reˇsevanje druge naloge, ki je bila povezana s strategijo reˇsevanja, a ne v sami reˇsitvi.

2.2.3 Relacija med teˇzavnostjo, spretnostjo in zanimivostjo naloge

V tem razdelku bi radi na kratko opisali dva modela, ki se ukvarjata s korelacijo med zanimivostjo in teˇzavnostjo danega problema. Ta modela predstavljata vedenjski pogled na delovanje ljudi in ne vkljuˇcujeta navezave na metakognicijo. Opisali bomo Foggov vedenjski model (Fogg, 2009) ter tokovni model (angl.flow model) (Csikszentmihalyi, 2014).

Na sliki 5 je viden tokovni model (Csikszentmihalyi, 2014). Delo se sicer v prvi vrsti ukvarja z motivacijo in z njo povezano korelacijo med izzivom in znanjem pri reˇsevanju doloˇcenega problema. Za nas je to delo povezano z metodo doloˇcanja pragov prepriˇcanosti, ki je opisana v podpoglavju 3.1. Iz slike 5 je razviden glavni princip: v primeru, da ima agent manj znanja, je

(24)

Preobremenjenost

Dolgočasenje Tok

Spretnost

Izziv

Velik

Majhen

Nespretnost

Slika 5: Tokovni model. Prevedeno po Csikszentmihalyi (2014)

temu primerno prilagojena tudi teˇzavnost podproblema, s katerim se ukvarja, teˇzavnost pa raste s ˇcasom oziroma spretnostjo. Csikszentmihalyi (2014) opisuje tok (angl. flow), ki predstavlja pravo sorazmerje med tema dvema spremenljivkama. V primeru, da je teˇzavnost nesorazmerna z znanjem, to vodi do prenehanja izvajanja dejavnosti skozi preobremenjenost ali dolgoˇcasenje.

Model toka je skladen z Foggovim vedenjskim modelom (Fogg, 2009), ki namesto prej omenjenih spremenljivk primerja teˇzavnost in motivacijo. Rezultati izvedenih raziskav kaˇzejo na to, da s teˇzavnostjo motivacija, potrebna za reˇsevanje problema, naraˇsˇca.

Naˇs pristop je soroden delu Oudeyer in Kaplan (2008), ki defnira veˇc vrst notranjih motivacij, katerih cilj je lahko delovanje v regijah s poudarki na razliˇcnih predpostavkah (npr. raziskovanje regij z najviˇsjo entropijo, regij, ki predstavljajo najveˇcji/najmanjˇsi izziv). Kot formalizacijo enega izmed moˇznih mehanizmov notranje motivacije v umetnih sistemih vzamejo tudi tokovni model Csikszentmihalyi (2014). Naˇs sistem sicer ne posega na podroˇcje notranje motivacije, vendar je naˇsa ideja postavljanja pragov zaupanja za uˇcne primere motivirana s podobnimi pred- postavkami: podobno kot otroci se tudi ostali (umetni) kompleksni sistemi, sposobni uˇcenja, uˇcijo inkrementalno in se posveˇcajo problemom, ki ustrezajo njihovi kompetentnosti. Tako se na primer otroci najprej nauˇcijo prevraˇcanja, ter ˇsele nato plazenja in sedenja. ˇSele po teh fazah pridejo do problema hoje (Oudeyer et al., 2007), fenomen, ki ga je mogoˇce najti tudi na podroˇcju umetne inteligence, npr. pri modeliranju jezika (Elman, 1993; Bengio et al., 2009;

Kumar et al., 2010), razpoznavi slik (Kumar et al., 2010; Guo et al., 2018) ali uˇcenju robotskega nadzora (Sanger, 1994).

(25)

2.3 Kibernetika kot okvir za primerjavo ˇcloveˇske kognicije in naˇsega sis- tema

Kibernetika je omenjana kot kljuˇcna disciplina, ki je pripeljala do rojstva kognitivne znanosti (Dupuy, 2009). Gre za transdisciplinaren pristop k raziskovanju nadzora in komunikacije v ˇzivih bitjih in strojih (Wiener, 2019). Primerjava naˇsega sistema in ˇcloveˇske kognicije, ki jo opravimo v razdelku 5.3.2, ni enostavna; ˇcloveˇska kognicija in naˇs model imata bistvene razlike, ki se zaˇcnejo z razliko v kompleksnosti in vodijo do umeˇsˇcenosti enega in drugega v svetu. Iz tega razloga bi na tem mestu radi predstavili argument o zmoˇznosti primerjave obeh sistemov skozi paradigmo kibernetike.

Modeli metakognicije in uˇcenja, predstavljeni v razdelku 2.2.1, si delijo marsikatero podobnost z naslednjim opisom kibernetike:

“Osnovna vloga kibernetike je posledica temeljne ideje, da je mogoˇce razliˇcne stopnje procesiranja pri ljudeh in strojih obravnavati kot nadzorne sisteme z medsebojno povezanimi stopnjami in povratnimi zankami”. (Xiong in Proctor, 2018, str. 1)

Vsebino zgornjega citata je mogoˇce neposredno videti na slikah 1, 2, 3 in 4, kjer puˇsˇcice predstavljajo tok informacij, ki tvori povezave med entitetami modelov in povratne zanke. Podobno lastnost kot omenjeni modeli ima tudi naˇs sistem, predstavljen v naslednjem poglavju: na sliki 6 je viden skupek soodvisnih entitet, ki so namenjene reˇsevanju podobnega problema kot opisani modeli metakognicije.

2.4 Navezava na naˇse raziskave

V naˇsem delu se najbolj neposredno zgledujemo po dveh ˇclankih: Wu et al. (2018) in Chen et al.

(2018). Oba za reˇsitev polnadzorovanega problema uporabita spodbujevalno uˇcenje, pri ˇcemer v vsakem koraku algoritma doloˇcata, ali je uˇcni primer ali skupina le-teh iz zbirke tekstovnih podatkov primerna za nadaljnje uˇcenje. Pristop k problemu je v tem delu enak, z razliko, da naˇs sistem razvijamo z mislijo na uporabo tako v okviru tekstovnih podatkov kot tudi z drugimi vrstami problemskih domen. V teoriji je mogoˇca razˇsiritev naˇsega dela na poljuben klasifikator, ki omogoˇca vpogled v verjetnostne porazdelitve napovedi za vsak uˇcni primer (npr. metodo naivnega Bayesa ali nakljuˇcnih gozdov), a smo se v naˇsem delu odloˇcili omejiti na klasifikacijo z umetnimi nevronskimi mreˇzami. Znotraj domene nevronskih mreˇz uporaba naˇse metode ni omejena z arhitekturo le-te.

Za dosego sploˇsnosti se odreˇcemo gruˇcenju uˇcnih primerov, ki je uporabljeno v ˇclanku Wu et al.

(2018), saj ni trivialno za vse tipe podatkov (npr. slike). Za pridobivanje in uporabo metaznanja

(26)

se odloˇcimo uporabiti pragove prepriˇcanosti, ki na zadosten naˇcin razdelijo primere glede na primernost za uˇcenje in so uporabljeni tudi v nekaterih drugih delih s podroˇcja polnadzorovanega uˇcenja s samouˇcenjem. Za razliko od Wu et al. (2018) in Chen et al. (2018) naˇs problem poslediˇcno reˇsujemo v zveznem prostoru akcij, za kar uporabimo algoritem spodbujevalnega uˇcenja SAC (Haarnoja et al., 2018).

Pri prenosu metaznanja uporabimo podoben pristop, kot ˇze opisana metoda v delu avtorjev Julian et al. (2020). Pri tem za razliko od Julian et al. (2020) variiramo dimenzionalnost stanja brez uˇcenja skritih reprezentacij, kot to poˇcnejo Ammar et al. (2015) ter Hu in Montana (2019).

S tem pokaˇzemo, da je spreminjanje dimenzionalnosti stanj lahko reˇsljivo na preprost naˇcin.

Omeniti je sicer potrebno, da pri tem ne zagovarjamo, da je naˇsa metoda prenosa reprezentacij stanj sploˇsna, paˇc pa le, da deluje na naˇsem specifiˇcnem problemu, ki dopuˇsˇca spremembo stanj, kot opisujemo v podpoglavju 3.3.

(27)

3 Metoda

V preteklih poglavjih smo orisali ozadje naˇsega sistema, v tem poglavju pa bomo konkretno opisali komponente in interakcije med njimi. Na sliki 6 je vidna shema modela, ki jo je mogoˇce razdeliti na dva dela. Ta dva dela ustrezata dvema problemoma, ki ju reˇsujemo v sklopu tega magistrskega dela in ju imenujemo osnovni problem in metaproblem. Osnovni problem reˇsujemo s klasifikatorjem, medtem ko metaproblem reˇsujemo z agentom spodbujevalnega uˇcenja (v nadaljevanju uporabljamo tudi terminaRL agentinmeta-agent). Povezave med vozliˇsˇci v sklopu osnovnega problema definirajo uˇcenje in evalvacijo klasifikatorja ter na sliki 6 tvorijo kroˇzno zanko. Ta zanka poleg reˇsitve danega klasifikacijskega problema omogoˇca tudi nabiranje me- tapodatkov, potrebnih za reˇsevanje metaproblema. Interakcije RL agenta s klasifikatorjem se zgodijo s postavljanja pragov prepriˇcanosti ter shranjevanjem potrebnih informacij v pomnilnik (angl. replay buffer), ki so na sliki 6 karakterizirane z vzporednimi puˇsˇcicami na levi in desni.

Z reˇsevanjem metaproblema je povezana tudi aproksimacija funkcij algoritma spodbujevalnega uˇcenja s ciljem uˇcenja agenta (oziroma funkcije π(·|s)). Kot bomo opisali kasneje, se to izvaja loˇceno zaradi uˇcenja iz pomnilnika preteklih interakcij. To pomeni, da se agent ne uˇci neposredno iz interakcije po tem, ko se le-ta zgodi. Potrebno je omeniti, da se nauˇceno znanje tekom poganjanja eksperimenta ˇse vseeno odrazi v spreminjanju njegove strategije, ki vpliva na interakcijo. Potek uˇcenja RL agenta je specificiran v spodnjem delu slike 6.

V tem poglavju najprej opiˇsemo elemente naˇsega sistema (t. j. vozliˇsˇca na sliki 6), ˇcemur sledi opis naˇse metode prenosa znanja v podpoglavju 3.3. V nadaljevanju bomo izmeniˇcno uporablja- li besedikorakinepoha, ki v prvem primeru oznaˇcuje interakcijo meta-agenta s klasifikatorjem, v drugem pa eno iteracijo skozi uˇcno mnoˇzico, iz katere se klasifikator uˇci. Beseda korak je torej uporabljena v kontekstu spodbujevalnega uˇcenja, medtem ko je epoha uporabljena v okviru polnadzorovanega. Poleg tega zepizodonaslovimoninterakcij RL agenta s klasifikatorjem, ki predstavljajo zakljuˇceno celoto; to v okviru polnadzorovanega uˇcenja predstavlja n epoh in s tem zakljuˇceno uˇcenje. S pari terminov korak-epoha in epizoda-zakljuˇceno uˇcenje oznaˇcujemo razliˇcne vidike enakih procesov znotraj naˇsega sistema, pri ˇcemer terminologija sledi tisti, ki je uporabljena v pripadajoˇci disciplini.

3.1 Osnovni problem

V tem podpoglavju opisujemo uˇcenje klasifikatorja – nevronske mreˇze – ter korake, ki so umeˇsˇceni v zanko uˇcenja in so povezani z beleˇzenjem interakcij. Uˇcenje klasifikatorja poteka v okviru polnadzorovanega uˇcenja in sestoji izposodabljanja napovedi neoznaˇcenih uˇcnih primerov, oblikovanja uˇcne mnoˇzice insamega uˇcenja. Med temi koraki se generirata ˇse sta- nji modelas_t ins_t+1 terbeleˇzenje klasifikacijske toˇcnosti na validacijski mnoˇzici, ki je kasneje

(28)

Osnovni problem [klasifikator]

Inicializacija parametrov klasifikatorja

Posodobitev napovedi neoznačenih učnih primerov Po n epohah (korakih)

končaj epizodo

Oblikovanje nove učne množice Zabeleženje klasifikacijske

točnosti na validacijski množici

Generiranje stanja st

Učenje klasifikatorja Generiranje novega

stanja st+1

Učenje agenta Vzorčenje interakcij

(st, at, rt, st+1, d) iz pomnilnika Posodobitev funkcij Q1(s, a) in Q2(s, a)

Posodobitev

parametra α Posodobitev

funkcije π(s)

Posodobitev funkcije V(s) Metaproblem

[agent spodbujevalnega učenja]

Izračun nagrade Generiranje akcije at

Zapis interakcije (st, at, rt, st+1, d) v pomnilnik

Slika 6: Poenostavljena shema implementiranega sistema

(29)

uporabljena za izraˇcun nagrade. Ob zaˇcetku uˇcenja in vsakihnepoh se parametri klasifikatorja, oznaˇcimo jih zW, inicializirajo na nakljuˇcne vrednosti. V nadaljevanju podrobneje opisujemo vse omenjene podprocese z izjemo beleˇzenja klasifikacijske toˇcnosti, za katerega mislimo, da je razumljiv sam po sebi.

Naˇs problem pripada podroˇcju polnadzorovanega uˇcenja, kar pomeni, da so podatkovne zbirke, nad katerimi izvajamo eksperimente, razdeljene na oznaˇceni del{X_l,Y_l}in neoznaˇceni del{X_u}.

Poleg teh dveh mnoˇzic podatkov uporabljamo tudi oznaˇceno testno{X_test,Y_test}in validacijsko mnoˇzico{X_val,Y_val}.

3.1.1 Inicializacija parametrov klasifikatorja

Ob vsakem zaˇcetku uˇcenja uteˇzi nakljuˇcno inicializiramo v skladu z distribucijo, za katero velja, da je primerna za doloˇcen tip nivoja v uporabljeni nevronski mreˇzi. Uteˇzi inicializiramo, kot je specificirano v dokumentaciji knjiˇznice PyTorch (Paszke et al., 2019):

w_i=U ni f orm(−bound,bound),w_i∈W bound=

s 6 n_{f an}

(7)

V enaˇcbi (7) funkcijaU ni f orm() generira enakomerno porazdeljena nakljuˇcna ˇstevila na intervalu [−bound,bound]. V primeru polno povezanega nivoja nevronske mreˇze uteˇzi inicializiramo z enakomerno Hejevo distribucijo (He et al., 2015) – to dobimo ob uporabi vrednosti n_{f an}= f an in. Ob inicializaciji konvolucijskega nivoja pa uporabimo enakomerno Glorotovo porazdelitev (Glorot in Bengio, 2010). Ta vrednostn_{f an}postavi na f an in+f an out. Vredno- sti f an inin f an out ustrezata ˇstevilu vhodov in izhodov nivoja nevronske mreˇze, ki ji pripada parameterw_i.

3.1.2 Posodabljanje ciljnih razredov neoznaˇcenih uˇcnih primerov

V koraku posodabljanja napovedanih ciljnih razredov se posluˇzimo povpreˇcenja napovedi modela skozi ˇcas. To vodi k veˇcji robustnosti napovedanih kategorij in je pristop podoben delu avtorjev Laine in Aila (2016). Ob vsakem zaˇcetku uˇcenja napovedi y_i za vsak uˇcni primer x_i∈X_unapovedi inicializiramo z:

y_i,0= f₀(x_i), (8)

kjer je f(x)funkcija, ki jo implementira naˇs klasifikator in vraˇca vektor dolˇzine|y|, v katerem vsaka vrednost predstavlja verjetnost, da primer pripada ciljnemu razreduc∈ {0, . . . ,|y| −1}.

Nadalje po vsaki zakljuˇceni epohi napovedi posodobimo z:

y_i,t = (1−α_label)∗y_i,t−1+α_label∗f_t(x_i), (9)

(30)

kjer jeα_label hiperparameter, ki doloˇca hitrost spreminjanja (uˇcenja) ciljnih razredov.

Doloˇcimo ˇse mnoˇzico, v katero shranjujemo povpreˇcene distribucije ciljnih razredov, ki sluˇzijo kot ocene ciljnih razredov neoznaˇcenih uˇcnih primerov:

Y_est ={y_0,t, ...y_n,t}, n=|X_u|.

3.1.3 Generiranje stanj

Generiranje stanj se na sliki 6 izvaja na dveh mestih¹: pred in po uˇcenju klasifikatorja, kar ustreza stanjemas_t ins_t+1. Trenutno stanje modela, ki je izhodiˇsˇce za doloˇcanje akcij s strani meta-agenta, opiˇsemo s povpreˇcnimi porazdelitvami po ciljnih razredih na validacijski mnoˇzici ter s petimi drugimi metrikami uˇcenja:

• deleˇz izbranih uˇcnih primerov v prejˇsnji epohi,

• vrednost funkcije izgube na validacijski mnoˇzici – definirana v enaˇcbi (16),

• vrednost funkcije izgube na uˇcni mnoˇzici – definirana v enaˇcbi (16),

• klasifikacijska toˇcnost na validacijski mnoˇzici – definirana v enaˇcbi (26) in

• klasifikacijska toˇcnost na uˇcni mnoˇzici – definirana v enaˇcbi (26).

Pri generiranju povpreˇcnih verjetnostnih distribucij ciljnih razredov na validacijski mnoˇzici le- -te shranimo v matrikomvelikosti |y| × |y|, kjer je|y| ˇstevilo ciljnih razredov. Vsaka vrsticai predstavlja povpreˇcno distribucijoi-tega ciljnega razreda:

m_i= 1

|Y_i|

∑

k=0

f(x_k), i∈[0, |y|], (10)

kjer x_k v predstavlja k-ti primer iz validacijske uˇcne mnoˇzice {X_i,Y_i}, f(x) pa je uporabljen klasifikator. Mnoˇzica {X_i,Y_i} vsebuje uˇcne primere, katerih arg maxy_k =i. To pomeni, da vrstice matrikempredstavljajo glede naresniˇcniciljni razred razdeljeno validacijsko mnoˇzico, kjer vsaka vrstica vsebuje trenutna povpreˇcja napovedi klasifikatorja za ta ciljni razred.

Zaradi zahtev naˇse implementacije spodbujevalnega uˇcenja matriko msploˇsˇcimo, s ˇcimer dobimo vektor dolˇzine|y|². Vrednostim dodamo ˇse prej omenjene metrike, kot so deleˇz izbranih primerov v prejˇsnjem koraku ter klasifikacijske toˇcnosti in vrednosti funkcije napake.

1Da zmanjˇsamo koliˇcino raˇcunskih operacij potrebnih za generiranje stanj, v implementaciji sistema kots_t shranimo stanje klasifikatorja po koncu prejˇsnje epohe, medtem ko zas_t+1uporabimo stanje po zadnji posodobitvi.

Namesto da so stanja generirana dvakrat, kot je prikazano na sliki 6, torej le-ta generiramo le enkrat na epoho.

(31)

3.1.4 Oblikovanje uˇcnih mnoˇzic

Za vsako epoho iz neoznaˇcene uˇcne mnoˇzice X_u vzamemo primerne uˇcne primere skupaj z naˇsimi izraˇcunanimi ciljnimi razredi, katerih izraˇcun je opisan v razdelku 3.1.2. Da v sistem vnesemo nekaj zunanjega znanja, v vsaki epohi vzamemo tudi (pogosto manjˇso) oznaˇceno uˇcno mnoˇzico{X_l,Y_l}. Iz slednje vzamemo vse uˇcne primere, medtem ko primere izX_uizberemo na podlagi akcije podane s strani meta-agenta. Kot je opisano tudi v podpoglavju 3.2, RL agent vraˇca 1-dimenzionalni vektora_t = [a₀,a₁]z vrednostmi na intervalu (−1, 1). Vrednostia₀in a₁najprej skrˇcimo na interval(0, 1):

a_i= a_i+1

2 , i∈ {0,1} (11)

in nato preoblikujemo v spodnja in zgornja pragovaτmininτmax z:

τ_min=a₀−δ

τ_max=a₀+δ, (12)

pri ˇcemer jeδ definiran z:

δ =a₁∗(0.5−abs(0.5−a₀)). (13) V praksi izbrana metoda spreminjanja agentovih akcij v pragove prepriˇcanosti povzroˇci, da vsaka vrednost a₀ predstavlja sredino pasu, v katerem so izbrani uˇcni primeri, medtem ko se vrednosta₁skrˇci glede naa₀, tako, da staτ_mininτ_maxzagotovo v intervalu[0,1]. Transformacija povzroˇci, da vsak par[a₀,a₁]predstavlja unikatno akcijo brez potrebe po dodatnem definiranju robnih pogojev (na primer, ko jeτ_min>τ_max).

Z izraˇcunanima vrednostimaτ_mininτ_maxuˇcne primere za epohotiz neoznaˇcene uˇcne mnoˇzice izberemo z:

{Xu,t,Yu,t}={x_u, y_u}, s.t.τ_min<maxy_u<τ_max, (14) kjer jey_uciljni razred iz mnoˇziceY_est, pripadajoˇc primerux_u.

Uˇcna mnoˇzica{X_t,Y_t}je zat-to epoho definirana z:

X_t =X_l∪X_u,t

Y_t=Y_l∪Y_u,t. (15)

3.1.5 Uˇcenje klasifikatorja

Po izbiranju uˇcnih primerov in generiranju uˇcne mnoˇzice posodobimo uteˇzi naˇsega klasifikatorja, pri ˇcemer minimiziramo preˇcno entropijo, kot je implementirana v knjiˇznici PyTorch

(32)

(Paszke et al., 2019):

loss(y,c) =−log





exp(y_c)

∑^|y|_j=0exp(y_j)



, (16)

kjer je spremenljivkayizhod nevronske mreˇze (brez pretvorbe v verjetnosti z aktivacijsko funkcijo Softmax) za doloˇcen primer x in c resniˇcen ciljni razred tega primera, ki je v primeru neoznaˇcene uˇcne mnoˇzice definiran kot

c=arg max y_t, y_t ∈Y_u,t.

Funkcijo izgube minimiziramo s stohatiˇcnim gradientnim spustom z algoritmom Adam (Kingma in Ba, 2014). Zaradi narave naˇsih podatkov, t. j. relativno majhne oznaˇcene uˇcne mnoˇzice v primerjavi z neoznaˇceno, konˇcno funkcijo izgube izraˇcunamo z uteˇzevanjem primerov in vzorˇcenjem iz vsake mnoˇzice po algoritmu 1. Kljuˇcno pri algoritmu je, da v vsaki iteraciji vzame batch size primerov iz oznaˇcene in neoznaˇcene uˇcne mnoˇzice (vrstici 4 in 5) ter nato izraˇcuna funkcijo napake, pri ˇcemer je napaka pri napovedi neoznaˇcenih primerov uteˇzena s hi- perparametromα_loss. ˇStevilo iteracij doloˇcimo tako, da ustreza ˇstevilu primerov v veˇcji izmed obeh mnoˇzic in s tem poskrbimo, da se model vedno uˇci iz vseh primerov (vrstica 1). Ker je ˇstevilo primerov v vsaki izmed uˇcnih mnoˇzic razliˇcno, se model v vsaki epohi iz nekaterih uˇci dvakrat. Funkcijasample()poskrbi, da so primeri vzorˇceni nakljuˇcno, a tudi, da je vsak vedno vzorˇcen vsaj enkrat.

Algoritem 1: Potek vzorˇcenja uˇcnih primerov in uˇcenja klasifikatorja iz {X_l,Y_l} in {Xu,t,Yu,t}.

Podatki: {X_l,Y_l}, {X_u,t,Y_u,t}, batch size, model,α_weight

1 n batch = max(|{X_l,Y_l}|, |{X_u,t,Y_u,t}|)/ batch size;

2 i = 0;

3 whilei<n batchdo

4 X batch_l,Y batch_l = sample(X_l,Y_l, batch size);

5 X batch_u,Y batch_u= sample(X_u,t,Y_u,t, batch size);

6 loss_l = cross entropy(Y batch_l, model.predict(X batch_l));

7 loss_u= cross entropy(Y batch_u, model.predict(X batch_u));

8 loss=loss_l +α_loss∗loss_u;

9 model.update(loss, adam optimizer);

10 i = i + 1;

11 end

Po posodobitvi parametrov klasifikatorja proces posodabljanja oznak neoznaˇcenih uˇcnih primerov, generiranja stanja s_t in uˇcenja ponavljamo, dokler ni doseˇzeno specificirano ˇstevilo epoh, po ˇcemer uteˇzi modela in izraˇcunane ciljne razrede ponovno inicializiramo.