Iskanje interakcij s pomoˇ cjo

(1)

UNIVERZA V LJUBLJANI, SKUPNI INTERDISCIPLINARNI ˇSTUDIJSKI PROGRAM DRUGE STOPNJE

KOGNITIVNA ZNANOST

V SODELOVANJU Z UNIVERSIT ÄT WIEN, UNIVERZITA KOMENSKÉHO V BRATISLAVE IN E ÖTV ÖS LOR ÁND TUDOM ÁNYEGYETEM

Enja Kokalj

Iskanje interakcij s pomoˇ cjo

interpretacije napovednih modelov na primeru navadne trsne rumenice

MAGISTRSKO DELO

Ljubljana, 2019

(2)

(3)

UNIVERZA V LJUBLJANI, SKUPNI INTERDISCIPLINARNI ˇSTUDIJSKI PROGRAM DRUGE STOPNJE

KOGNITIVNA ZNANOST

V SODELOVANJU Z UNIVERSIT ÄT WIEN, UNIVERZITA KOMENSKÉHO V BRATISLAVE IN E ÖTV ÖS LOR ÁND TUDOM ÁNYEGYETEM

Enja Kokalj

Iskanje interakcij s pomoˇ cjo

interpretacije napovednih modelov na primeru navadne trsne rumenice

MAGISTRSKO DELO

Mentor : prof. dr. Marko Robnik ˇ Sikonja

Univerza v Ljubljani, Fakulteta za raˇ cunalniˇstvo in informatiko

Ljubljana, 2019

(4)

(5)

To diplomsko delo je ponujeno pod licencoCreative Commons Priznanje avtorstva- Deljenje pod enakimi pogoji 2.5 Slovenijaali (po ˇzelji) novejˇso razliˇcico. To pomeni, da se tako besedilo, slike, grafi in druge sestavine dela kot tudi rezultati diplomskega dela lahko prosto distribuirajo, reproducirajo, uporabljajo, dajejo v najem, priobˇcujejo javnosti in predelujejo, pod pogojem, da se jasno in vidno navede avtorja in naslov tega dela in da se v primeru spremembe, preoblikovanja ali uporabe tega dela v svojem delu, lahko distribuira predelava le pod licenco, ki je enaka tej.

Podrobnosti licence so dostopne na spletni stranihttp://creativecommons.si/

ali na Inˇstitutu za intelektualno lastnino, Streliˇska 1, 1000 Ljubljana.

Izvorna koda diplomskega dela, njenih rezultatov in v ta namen razvite program- ske opreme je ponujena pod GNU General Public License, razliˇcica 3 ali (po ˇzelji) novejˇso razliˇcico. To pomeni, da se lahko prosto uporablja, distribuira in/ali predeluje pod njenimi pogoji. Podrobnosti licence so dostopne na spletni strani http://www.gnu.org/licenses/.

Besedilo je oblikovano z urejevalnikom besedil L^ATEX.

(6)

(7)

Izjava o avtorstvu magistrskega dela

Spodaj podpisana Enja Kokalj sem avtorica magistrskega dela z naslovom:

Iskanje interakcij s pomoˇcjo interpretacije napovednih modelov na primeru navadne trsne rumenice

S svojim podpisom zagotavljam, da:

• sem magistrsko delo izdelala samostojno pod mentorstvom prof. dr.

Marka Robnika ˇSikonje;

• je predloˇzeno magistrsko delo izkljuˇcno rezultat mojega lastnega razi- skovalnega dela;

• sem poskrbela, da so dela in mnenja drugih avtorjev oz. avtoric, ki jih uporabljam v predloˇzenem delu, ustrezno navedena oz. citirana;

• sem poskrbela, da so vsa dela in mnenja drugih avtorjev oz. avtoric navedena v seznamu virov, ki je sestavni element predloˇzenega dela;

• sem pridobila vsa dovoljenja za uporabo avtorskih del, ki so v celoti prenesena v predloˇzeno delo in sem to tudi jasno zapisala v predloˇzenem delu;

• se zavedam, da je plagiatorstvo – predstavljanje tujih del, bodisi v obliki citata bodisi v obliki skoraj dobesednega parafraziranja bodisi v grafiˇcni obliki, s katerim so tuje misli oziroma ideje predstavljene kot lastne – kaznivo po zakonu (Zakon o avtorstvu in sorodnih pravicah, Uradni

(8)

ˇstudentov Univerze v Ljubljani;

• se zavedam ˇskodljivih posledic, ki jih dokazano plagiatorstvo lahko predstavlja za predloˇzeno delo in za moj status na Pedagoˇski fakul- teti;

• so elektronska oblika magistrskega dela, naslov (slov., angl.), povzetek (slov., angl.) ter kljuˇcne besede (slov., angl.) identiˇcni s tiskano obliko magistrskega dela ter soglaˇsam z objavo elektronske oblike magistrskega dela v zbirkiDela PeF UL;

• dovolim javno objavo osebnih podatkov, vezanih na zakljuˇcek ˇstudija na spletnih straneh PeF UL in v publikacijah PeF UL;

• je magistrsko delo lektorirano in urejeno skladno s fakultetnim Pravil- nikom o podiplomskem ˇstudiju 2. stopnje za nove ˇstudijske programe.

V Ljubljani, 25. septembra 2019 Podpis avtorja:

(9)

Zahvala

Zahvaljujem se mentorju, prof. dr. Marku Robniku ˇSikonji, za usmerjanje, pomoˇc in potrpeˇzljivost pri raziskovalnem delu in pisanju magistrske naloge.

Zahvaljujem se tudi neuradnemu somentorju, mag. Blaˇzu ˇSkrlju, za pomoˇc in nasvete pri implementaciji novega algoritma ter pripravi bioloˇske podatkovne zbirke.

Velika zahvala gre tudi Nacionalnemu inˇstitutu za biologijo v Ljubljani za po- sredovanje podatkovne zbirke izraˇzanja genov vinske trte.

Iskreno se zahvaljujem ˇse druˇzini in prijateljem za podporo, razumevanje, po- trpeˇzljivost in vzpodbudo med ˇstudijem in pisanjem magistrskega dela.

Hvala tudi mestecu Piran, ki mi je nudilo zatoˇciˇsˇce in dajalo navdih v ˇcasu pisanja magistrskega dela.

Enja Kokalj, september 2019

(10)

(11)

Kazalo

Povzetek Abstract

1 Uvod 1

1.1 Cilji in prispevki . . . 2

1.2 Struktura magistrskega dela . . . 2

2 Teoretiˇcna izhodiˇsˇca 3 2.1 Navadna trsna rumenica . . . 3

2.2 Strojno uˇcenje . . . 5

2.3 Interpretabilnost modelov strojnega uˇcenja . . . 9

2.4 Povezovalna pravila . . . 16

2.5 Podatkovne mnoˇzice . . . 21

3 Opis novega algoritma za iskanje interakcij med atributi 29 4 Vrednotenje razlagalne metode SHAP 33 4.1 Preizkus metod strojnega uˇcenja . . . 33

4.2 Primerjava razlagalnih metod LIME in SHAP . . . 34

4.3 Razlaga napovedi na bioloˇski mnoˇzici podatkov . . . 40

5 Analiza uspeˇsnosti novega algoritma za iskanje interakcij 47 5.1 Preizkus novega algoritma na umetnih podatkih . . . 47

(12)

5.2 Uporaba in vrednotenje novega algoritma na bioloˇskem naboru podatkov . . . 54 6 Sklepne ugotovitve in nadaljnje delo 59

Literatura 60

(13)

Povzetek

Naslov: Iskanje interakcij s pomoˇcjo interpretacije napovednih modelov na primeru navadne trsne rumenice

Magistrsko delo obravnava problem interpretacije netransparentnih modelov strojnega uˇcenja, doloˇcanje vpliva atributov na generirane napovedi in iskanje interakcij med atributi v podatkovnih mnoˇzicah. Tega se lotimo na primeru bolezni vinske trte, ki povzroˇci izgubo pridelka in gospodarsko ˇskodo. Iden- tifikacija ustreznih genskih pokazateljev bi prispevala k pravoˇcasnemu odkrivanju okuˇzbe in njeni zajezitvi. Prispevek magistrskega dela je v novem algoritmu za iskanje interakcij med atributi v podatkovnih mnoˇzicah, ki je sestavljen iz metode za razlaganje napovedi modelov strojnega uˇcenja SHAP in algoritma za iskanje povezovalnih pravil Apriori. Novo predlagani algoritem je na umetno generiranih podatkih uspeˇsno prepoznal vplivne atribute in interakcije med njimi. Vplivni atributi (geni), ki smo jih naˇsli na bioloˇski mnoˇzici podatkov, v veliki meri sovpadajo z rezultati predhodne raziskave, ki nam je sluˇzila kot referenˇcna toˇcka. Odkrili smo tudi moˇcna povezovalna pravila, ki opisujejo potencialne interakcije med atributi (geni), vendar jih zaradi pomanjkanja bioloˇskih informacij o genskih interakcijah pri obrambnem odzivu vinske trte ne moremo ustrezno ovrednotiti. Prednost naˇsega algoritma je, da povezovalna pravila iˇsˇce na podlagi vpliva posameznih atributov na napovedi, namesto na dejanskih vrednostih izraˇzanja genov, s ˇcimer se izognemo razliˇcnim stopnjam dejanskega izraˇzanja genov in vse gene obravnavamo glede na njihov vpliv v modelu strojnega uˇcenja. Omogoˇca tudi

(14)

iskanje interakcij viˇsjih redov in dobljeni rezultati (povezovalna pravila) so interpretabilni. Slabost algoritma je iskanje povezovalnih pravil le na diskre- tiziranih atributih in je zato odvisnost od izbrane metode diskretizacije.

Kljuˇ cne besede

interpretacija modelov strojnega uˇcenja, metoda SHAP, povezovalna pravila, interakcije med atributi, vinska trta

(15)

Abstract

Title: Identifying attribute interactions by interpreting model predictions:

the case of grapevine yellows disease

The master’s thesis deals with the problem of interpreting black box machine learning models, explaining predictions with attributes’ contributions, and identifying attribute interactions in data sets. We address this in the case of grapevine disease, which causes crop losses and economic damage. Identifica- tion of useful gene markers would allow for earlier detection and containment of infection. The contribution of our work is in a new algorithm for identifying attribute interactions that consists of a method for interpreting model predictions called SHAP, and an algorithm for association rule mining called Apriori. The proposed algorithm successfully identified important attributes and their interactions on artificially generated data sets. The important attributes (genes) we found in the biological data set confirm the results of a previous study that served as a reference point. We also discovered strong association rules that describe possible attribute (gene) interactions, but were unable to draw any conclusions due to a lack of biological information about gene interactions in defense response of grapevine. The advantage of the algorithm is that it generates association rules based on attribute importance rather than using actual gene expression values, thus avoiding different levels of actual gene expression and only considering the genes’ contribution in the machine learning model. It can be used to find higher order interactions and the results (association rules) are interpretable. Its disadvantage is that the

(16)

generation of association rules is done on discretized numerical attributes and is therefore dependent on the discretization method.

Keywords

machine learning model interpretation, SHAP method, association rule mining, attribute interactions, grapevine

(17)

Poglavje 1 Uvod

Navadna trsna rumenica ali poˇcrnelost lesa (angl. bois noir) je zelo razˇsirjena bolezen vinske trte, ki jo povzroˇca fitoplazma Candidatus Phytoplasma solani iz razreda Mollicutes. Fitoplazme so patogene bakterije brez celiˇcne stene. Med rastlinami se prenaˇsajo z insekti, ki se hranijo z njihovim sokom.

Gojenje vinskih trt in pridelava vina je pomembna gospodarska dejavnost v ˇstevilnih evropskih drˇzavah, tudi v Sloveniji, kar pomeni, da je skrb za zdravje rastlin eden izmed temeljnih dejavnikov v proizvodnji kakovostnega vina. Okuˇzba vinske trte s fitoplazmo obiˇcajno vodi v propad rastlin in pov- zroˇci velike izgube pridelka in s tem gospodarsko ˇskodo. Zato je pravoˇcasno odkrivanje okuˇzenih rastlin in zajezitve okuˇzbe zelo pomembno, a zaradi slabega poznavanja delovanja fitoplazem in obrambnega odziva rastlin to predstavlja velik izziv.

Identifikacija ustreznih genetskih pokazateljev, ki bi uˇcinkovito razloˇcevali med zdravimi in okuˇzenimi rastlinami, je iz tega razloga pomembna. Pogost pristop k reˇsevanju problema je uporaba statistiˇcnih metod, ki dajejo dobre rezultate in so v veliki meri interpretabilne (Rotter idr., 2018). Alternativni pristop predstavljajo metode strojnega uˇcenja, ki imajo veˇcjo napovedno moˇc, a so manj interpretabilne. Za izboljˇsanje interpretabilnosti modelov strojnega uˇcenja je bilo predlaganih veˇc razlagalnih metod, dve izmed katerih bomo uporabljali v tem delu.

1

(18)

1.1 Cilji in prispevki

V delu bomo z uporabo metod, ki razlagajo modele strojnega uˇcenja, identi- ficirali genetske pokazatelje, ki najbolj vplivajo na razloˇcevanje med zdravimi in okuˇzenimi rastlinami. Z algoritmom za iskanje povezovalnih pravil bomo poiskali najpomembnejˇse interakcije med atributi (geni). Rezultati bodo po- magali izboljˇsati razumevanje mehanizmov okuˇzbe in bodo prispevali k hi- trejˇsi in zanesljivejˇsi diagnozi okuˇzenih rastlin.

Prispevki naˇsega dela so naslednji:

• primerjali smo uspeˇsnost dveh razlagalnih metod strojnega uˇcenja na umetni podatkovni mnoˇzici (metodi LIME in SHAP);

• uˇcinkovitejˇso metodo smo uporabili za iskanje vplivnih genov na bi- oloˇski mnoˇzici podatkov (metoda SHAP);

• razvili smo nov algoritem za iskanje interakcij med atributi (geni) s povezovalnimi pravili (algoritem Apriori) na podlagi razlag napovedi (metoda SHAP).

1.2 Struktura magistrskega dela

Magistrsko delo je sestavljeno iz ˇsestih poglavij. Uvodno poglavje vsebuje opis problema, zastavljenih ciljev in naˇsih prispevkov. V 2. poglavju so predstavljena teoretiˇcna izhodiˇsˇca, in sicer bolezni vinske trte (navadna trsna rumenica), strojno uˇcenje, interpretabilnost modelov strojnega uˇcenja (razlagalni metodi LIME in SHAP), povezovalna pravila in uporabljene podatkovne mnoˇzice. V 3. poglavju je opisan predlagani algoritem za iskanje interakcij med atributi. V 4. poglavju vrednotimo uporabljeno razlagalno metodo SHAP (primerjava z metodo LIME in razlaga napovedi na bioloˇski mnoˇzici podatkov). V 5. poglavju je predstavljena analiza uspeˇsnosti naˇsega algoritma za iskanje interakcij in vrednotenje rezultatov. V zadnjem poglavju podamo sklepne ugotovitve in ideje za izboljˇsave in nadaljnje delo.

(19)

Poglavje 2

Teoretiˇ cna izhodiˇ sˇ ca

V tem poglavju so predstavljena glavna podroˇcja, ki jih obravnavamo v delu.

Najprej je opisana bolezen vinske trte, ki je bila povod za nastanek uporabljene bioloˇske mnoˇzice podatkov, nato so predstavljeni uporabljeni algoritmi strojnega uˇcenja in evalvacijske mere. Sledi predstavitev pomena interpretabilnosti modelov strojnega uˇcenja in opis uporabljenih metod LIME in SHAP.

Nazadnje je predstavljena metoda iskanja povezovalnih pravil v podatkovnih mnoˇzicah in opis uporabljenih podatkovnih mnoˇzic.

2.1 Navadna trsna rumenica

V delu uporabljam podatke Nacionalnega inˇstituta za biologijo v Ljubljani iz raziskave, v kateri so prouˇcevali dejavnike, ki prispevajo k okuˇzbi vinske trte z boleznijo navadna trsna rumenica ali poˇcrnelost lesa (angl. black wood of grapevine, bois noir). Podatkovna mnoˇzica vsebuje informacije o izraˇzanju genov vinske trte pri zdravih in okuˇzenih rastlinah. Na podlagi stopnje izraˇzanja izbranih genov in odkrivanja njihovih interakcij ˇzelimo predvi- deti bolezensko stanje in omogoˇciti zgodnje odkrivanje bolezni (Rotter idr., 2018).

Trsna rumenica (angl. grapevine yellows) je ena najpogostejˇsih bolezni vinske trte in je skupno ime za veˇc fitoplazemskih bolezni. Najbolj razˇsirjena

3

(20)

vrsta trsne rumenice v Evropi je navadna trsna rumenica, ki jo povzroˇca fitoplazmaCandidatusPhytoplasma solani. Okuˇzba s fitoplazmo povzroˇci razliˇcne simptome in metaboliˇcne spremembe v rastlini, kot so rumenenje in razbarvanje listov ter zmanjˇsanje pridelka. Fitoplazme so rastlinske patogene bakterije brez celiˇcne stene, ki pripadajo razredu Mollicutes. V rastlinah naseljujejo izkljuˇcno floemsko tkivo, ki je bogato s hranili, med rastlinami pa se prenaˇsajo z insekti, ki se hranijo z njihovim sokom. Fitoplazme okuˇzujejo veliko ˇstevilo gospodarsko pomembnih rastlinskih vrst, med njimi tudi vinsko trto, in povzroˇcajo velike izgube pridelka ter s tem gospodarsko ˇskodo (Rotter idr., 2018).

Poznavanje biologije fitoplazem in mehanizmov interakcij z gostitelji je slabo, predvsem zato, ker jih ˇse ni mogoˇce gojiti v umetnih medijih izven rastlin in ker so znotraj gostiteljskih rastlin eksperimentalno nedostopne (Hren idr., 2009). Zaradi tega je zgodnje odkrivanje okuˇzbe in razvoj uˇcinkovitih strategij za omejevanje bolezni teˇzavno. ˇSkoda, ki jo povzroˇcijo fitoplazme, je veliko veˇcja od priˇcakovane v primeru, da bi priˇslo le do porabe rastlinskih hranil. K temu verjetno najbolj prispeva obrambni odziv rastline na okuˇzbo (Rotter idr., 2018). Ugotovili so, da pride do ˇstevilnih transkripcijskih in metabolnih sprememb v gostiteljski rastlini. Spremeni se izraˇzanje genov, ki so vpleteni v primarne in sekundarne metabolne poti, kar naj bi omogoˇcalo prehranjevanje fitoplazme. Izrazito se poveˇca izraˇzanje genov, ki so kljuˇcni za presnovo ogljikovih hidratov, za sintezo flavonoidov, za proizvodnjo reaktivnih kisikovih zvrsti, in za zapis proteinov povezanih s patogenezo. Izraˇzanje veˇcih fotosintetskih genov se v okuˇzenih delih rastline zmanjˇsa. Prav tako se spremeni izraˇzanje nekaterih drugih genov, ki so vpleteni v obrambno signaliziranje (Hren idr., 2009).

V raziskavi, iz katere je vzeta uporabljena podatkovna mnoˇzica, so zbi- rali podatke o vsebnosti fitoplazme, izraˇzanju 16 izbranih genov pri 30 vinskih trtah iz istega vinograda sorte Chardonnay v obdobju ˇsestih let in v razliˇcnih okoljskih pogojih. Beleˇzili so tudi stopnjo izraˇzenosti bolezenskih znakov. Prouˇcevali so interakcije med stanjem gostiteljske rastline, koliˇcino

(21)

2.2. STROJNO U ˇCENJE 5

patogena in okoljskimi dejavniki in jih predstavili v t.i. bolezenskem triko- tniku. Ugotovili so, da ima najveˇcji vpliv na bolezenske znake patogen, in to neodvisno od njegove koliˇcine, ter da lahko na podlagi izraˇzanja doloˇcenih genov dokaj natanˇcno predvidimo bolezensko stanje rastlin, kar potencialno omogoˇca zgodnje odkrivanje bolezni (Rotter idr., 2018).

2.2 Strojno uˇ cenje

Strojno uˇcenje (angl. machine learning) je veja umetne inteligence, ki se ukvarja z razvijanjem raˇcunalniˇskih algoritmov in statistiˇcnih modelov, z namenom iskanja vzorcev v podatkih, kar omogoˇca strojem, da se uˇcijo na podlagi izkuˇsenj in izvajajo naloge, ne da bi jim vnaprej podali navodila. Proces strojnega uˇcenja se zaˇcne z delitvijo mnoˇzice vzorcev na uˇcno in validacijsko (testno) mnoˇzico. Na uˇcni mnoˇzici se uˇcimo in jo uporabimo za uglaˇsevanje parametrov modela. Nauˇceni model nato preizkusimo na novih primerih iz validacijske mnoˇzice. Pogosto uporabljen kriterij za uspeˇsnost uˇcenja je napovedna toˇcnost (angl. classification accuracy), ki predstavlja deleˇz pravilno napovedanih testnih primerov (Bishop, 2006). Algoritme strojnega uˇcenja delimo na tri vrste.

• Nadzorovano uˇcenje (angl. supervised learning) je postopek, pri katerem uˇcna mnoˇzica vsebuje tako vhodne spremenljivke (atribute) kot tudi ustrezne izhodne spremenljivke (pripadajoˇce ciljne vrednosti). Re- zultat uˇcenja je model, ki zmore na podlagi posploˇsitve uˇcnih podatkov napovedovati vrednosti novih primerov. Problemi, pri katerih je cilj pripisati vsakemu vhodnemu primeru eno izmed vnaprej doloˇcenih kategorij, so klasifikacijski. ˇCe so ˇzelene izhodne vrednosti ena ali veˇc zveznih vrednosti, gre za regresijski problem.

• Nenadzorovano uˇcenje (angl. unsupervised learning) je postopek, pri katerem uˇcna mnoˇzica vsebuje le vhodne spremenljivke, ne pa tudi izhodnih. Cilj tovrstnih algoritmov je razdelitev primerov po skupnih

(22)

znaˇcilnostih v ustrezno ˇstevilo kategorij (gruˇcenje podatkov), doloˇcanje razprˇsenosti podatkov (ocenjevanje gostote) ali pa projiciranje podatkov iz veˇcdimenzionalnega prostora v dvo- ali tridimenzionalnega za vizualizacijo.

• Spodbujevalno uˇcenje (angl. reinforcement learning) je postopek, pri katerem uˇcni algoritem ne pozna izhodnih vrednosti, temveˇc jih mora odkriti sam v procesu preizkuˇsanja. Obiˇcajno gre za zaporedje stanj in akcij, pri ˇcemer algoritem interagira z okoljem in iˇsˇce ustrezne odzive z namenom maksimizacije nagrade (npr. igranje igre backgammon) (Bishop, 2006).

2.2.1 Uporabljene metode strojnega uˇ cenja

V delu smo uporabili nadzorovano uˇcenje, saj smo poznali ciljne vrednosti, na podlagi katerih smo razvrˇsˇcali podatke. Preizkusili smo veˇc klasifikacijskih metod, in sicer k-najbliˇzjih sosedov, odloˇcitvena drevesa, nakljuˇcne gozdove in boosting. Za gradnjo konˇcnih napovednih modelov smo uporabili zadnji dve klasifikacijski metodi.

• K-najbliˇzjih sosedov (angl. k-nearest neighbours) je ena najbolj nepo- srednih metod strojnega uˇcenja. Klasifikacija poteka v dveh korakih, najprej identificiramo sosede, ki so najbliˇzje poizvedbenemu primeru, nato pa doloˇcimo veˇcinski razred sosedov, v katerega uvrstimo obrav- navani primer (Cunningham in Delany, 2007).

• Odloˇcitvena drevesa (angl. decision trees) so eden izmed najpogosteje uporabljanih klasifikatorjev in so obiˇcajno prikazani v obliki grafa. Gra- dnja drevesa se zaˇcne s prvim vozliˇsˇcem (korenom) in se nato rekurzivno nadaljuje z uvajanjem razvejitev, ki se konˇcajo z listi. Postopek raz- vejevanja poteka, dokler vsi podatki ne pripadajo doloˇcenemu razredu (listu) (Rokach in Maimon, 2005).

(23)

2.2. STROJNO U ˇCENJE 7

• Nakljuˇcni gozdovi (angl. random forests) je metoda zdruˇzevanja eno- stavnih klasifikatorjev, v tem primeru odloˇcitvenih dreves. Deluje na podlagi gradnje mnoˇzice odloˇcitvenih dreves, vzorce iz uˇcne mnoˇzice pa klasificiramo v razred, ki ga je izbralo najveˇc dreves. Nakljuˇcni gozdovi odpravijo nagnjenje odloˇcitvenih dreves k prevelikemu prila- gajanju uˇcnim podatkom (angl. overfitting), kar ni zaˇzeleno zaradi zmanjˇsanja sploˇsnosti modela (Ho, 1998; Robnik ˇSikonja, 2004).

• Boosting je metoda strojnega uˇcenja, ki zdruˇzuje modele istega tipa, obiˇcajno so to plitva odloˇcitvena drevesa. Postopek je iterativen, pri ˇcemer so modeli med seboj odvisni. Modeli poskuˇsajo popraviti klasifikacijo napaˇcno uvrˇsˇcenih primerov iz prejˇsnjih modelov, prispevek posameznih modelov h konˇcni napovedi pa je odvisen od njihove napo- vedne toˇcnosti (Witten in Frank, 2005).

2.2.2 Evalvacija klasifikacijskih modelov

Pri analizi rezultatov smo uporabljali veˇc mer za evalvacijo klasifikacijskih modelov, in sicer klasifikacijsko toˇcnost (angl. classification accuracy), na- tanˇcnost (angl. precision), priklic (angl. recall) in ocena F₁ (angl. F₁ score).

Naslednji opisi evalvacijskih mer veljajo za binarno klasifikacijo.

Klasifikacijska toˇcnost predstavlja deleˇz napovedi, ki jih je naˇs model pravilno napovedal in vkljuˇcuje oba razreda. Enaˇcba za izraˇcun je naslednja:

klasif ikacijska toˇcnost = T P +T N

T P +T N +F P +F N , (2.1) pri ˇcemer TP predstavlja ˇstevilo pravilnih napovedi za tarˇcni razred (angl.

true positives), TN je ˇstevilo pravilnih napovedi za netarˇcni razred (angl.

true negatives), FP je ˇstevilo napaˇcnih napovedi za tarˇcni razred (angl. false positives) in FN je ˇstevilo napaˇcnih napovedi za netarˇcni razred (angl. false negatives). Za naˇso bioloˇsko mnoˇzico podatkov so TP in TN tisti primeri, pri katerih dejanski razred in napoved sovpadata: TP v primeru razreda

(24)

okuˇzenih rastlin in TN pri razredu zdravih rastlin. V podmnoˇzici FP in FN pa spadajo primeri, kjer se dejanski razred in napoved ne ujemata, in sicer je pri FP napoved modela okuˇzena rastlina, pravi razred pa je zdrava rastlina, medtem ko je pri FN ravno obratno. Klasifikacijska toˇcnost je najbolj informativna v primeru, ko je razmerje med razredoma blizu 1, v primeru zelo neenakomerne porazdelitve razredov, pa je bolje uporabiti katero izmed evalvacijskih mer, ki upoˇstevajo le deleˇze znotraj posameznih razredov. Taki meri sta npr. natanˇcnost in priklic. Natanˇcnost predstavlja deleˇz pravilno napovedanih primerov iz tarˇcnega razreda glede na vse napovedi za tarˇcni razred. Enaˇcba za izraˇcun je naslednja:

natanˇcnost = T P

T P +F P . (2.2)

Priklic predstavlja deleˇz pravilno napovedanih primerov iz tarˇcnega razreda glede na vse primere iz tarˇcnega razreda. Enaˇcba za izraˇcun je naslednja:

priklic = T P

T P +F N . (2.3)

Ker se v primeru poveˇcanja mere za natanˇcnost, zmanjˇsa priklic in obratno, je bilo razvitih veˇc mer, ki bi upoˇstevale oboje. Ena izmed njih je ocena F₁, ki je harmoniˇcno povpreˇcje natanˇcnosti in priklica. Zavzema vrednosti med 0 in 1, pri ˇcemer 1 oznaˇcuje popolno natanˇcnost in priklic. Enaˇcba za izraˇcun je naslednja:

ocena F₁ = 2· natanˇcnost·priklic

natanˇcnost+priklic . (2.4)

(25)

2.3. INTERPRETABILNOST MODELOV STROJNEGA U ˇCENJA 9

2.3 Interpretabilnost modelov strojnega uˇ cenja

Modeli nadzorovanega strojnega uˇcenja dobro napovedujejo, a veˇcinoma ne posredujejo informacije o tem, zakaj posamezni primeri pripadajo doloˇcenemu razredu. Najboljˇsi modeli so obiˇcajno netransparentni (npr. nakljuˇcni gozdovi, boosting, metoda podpornih vektorjev, nevronske mreˇze), a dosegajo znatno boljˇse rezultate kot preprostejˇsi, interpretabilni modeli (npr. odlo- ˇcitvena drevesa, naivni Bayesov klasifikator). Interpretabilnost je za ˇstevilne probleme vseeno nujna (Lipton, 2018; Bohanec, Kljaji´c Borˇstnar in Robnik ˇSikonja, 2017). Razumevanje napovedi poveˇca zaupanje v model, kar je pomembno, ˇce jih ˇzelimo uporabljati pri odloˇcanju. Prav tako omogoˇca globlji vpogled v model, kar pomaga pri spreminjanju nezanesljivih modelov v za- nesljive oziroma pri njihovi izboljˇsavi, poleg tega pa nam je tudi v pomoˇc pri razumevanju procesa, ki ga modeliramo, ter pri odkrivanju vzroˇcnih struk- tur v podatkih (Lipton, 2018; Ribeiro, Singh in Guestrin, 2016; Lundberg in Lee, 2017). Stopnja zaupanja v napovedi je pomembna predvsem v primerih, ko se model uporablja kot podpora odloˇcanju, na primer kot orodje za postavljanje medicinskih diagnoz ali kot pomoˇc pri kreditnem toˇckovanju, analizi uˇcinkovitosti ali odkrivanju terorizma in prevar. V takih primerih ne moremo slepo zaupati napovedim, saj so lahko posledice v primeru napak katastrofalne. V primerih, kjer je prisotno tveganje, je zato interpretabilnost modela pogosto enako, ˇce ne ˇse bolj pomembna kot napovedna toˇcnost (Ribeiro idr., 2016; ˇStrumbelj in Kononenko, 2014).

V nekaterih primerih so enostavni (npr. linearni) modeli zaradi preprosto- sti interpretacije, kljub manjˇsi natanˇcnosti, bolj zaˇzeleni kot kompleksnejˇsi modeli. A ker so podatkovne mnoˇzice vedno obseˇznejˇse (angl. big data), prihajajo v ospredje prednosti uporabe kompleksnih modelov in je tako potrebno skleniti kompromis med napovedno toˇcnostjo in interpretabilnostjo (Lundberg in Lee, 2017). Za razlaganje napovedi kompleksnih modelov je bilo predlaganih veˇc algoritmov. V zadnjem ˇcasu sta zelo priljubljeni metodi LIME (angl. Local Interpretable Model-agnostic Explanations) in SHAP (angl. SHapley Additive exPlanation). Preden metodi natanˇcneje opiˇsemo,

(26)

bomo navedli ˇstiri pomembne in zaˇzelene lastnosti razlagalnih metod.

• Interpretabilnost

Razlagalne metode naj bi zagotavljale kvalitativno razumevanje odnosa med vhodnimi spremenljivkami in napovedjo ter naj bi podajale jasne razlage, ki jih je mogoˇce razumeti tudi brez predznanja (Ribeiro idr., 2016).

• Lokalna zanesljivost (angl. local fidelity)

Razlaga je teˇzko povsem zanesljiva, razen ˇce je popoln opis samega modela. Pogoj za smiselnost razlage je vsaj lokalna zanesljivost, kar pomeni, da mora opisovati obnaˇsanje modela v neposredni okolici primera, ki ga napovedujemo. Pri tem je potrebno poudariti, da lokalna zanesljivost ne pomeni tudi globalne zanesljivosti, in pogosto se zgodi, da atributi, ki so pomembni globalno, v doloˇcenih lokalnih okoliˇsˇcinah nimajo vpliva in obratno. Naˇceloma globalna zanesljivost implicira tudi lokalno zanesljivost, a trenutno ostaja identifikacija globalno za- nesljivih razlag, ki bi bile interpretabilne, ˇse vedno izziv za kompleksne modele (Ribeiro idr., 2016).

• Modelna agnostiˇcnost metod (angl. model-agnostic methods)

Razlagalne metode naj bi bile sposobne razloˇziti vsak model in naj ne bi delale razlik med bolj in manj interpretabilnimi modeli. Modele naj bi obravnavale kot ˇcrne ˇskatle in bile omejene na spreminjanje vhodnih podatkov in analiziranje sprememb v izhodnih podatkih. Cetudi seˇ take metode ne morejo zanaˇsati na specifiˇcne lastnosti modela, imajo prednost, da so neodvisne od tipa modela. To omogoˇca primerjavo razlag in izniˇci potrebo po zamenjavi razlagalne metode vsakiˇc, ko se zamenja model (Ribeiro idr., 2016; ˇStrumbelj in Kononenko, 2014).

• Globalni vidik

Za preverjanje zaupanja v model je poleg razlage posameznih napovedi pomembno ovrednotiti tudi model v celoti. Boljˇsi naˇcin za to,

(27)

kot je klasifikacijska toˇcnost, je izbira in prikaz reprezentativnih primerov modela, saj lahko na ta naˇcin zelo jasno ovrednotimo prednosti in pomanjkljivosti modela (Ribeiro idr., 2016).

2.3.1 Razlagalna metoda LIME

LIME (angl. Local Interpretable Model-agnostic Explanations) je modelno agnostiˇcna razlagalna metoda, ki napovedi klasifikatorjev razloˇzi na podlagi interpretabilnega modela, ki ga pripravi lokalno okoli posameznih napovedi.

Metoda je fleksibilna, saj je zmoˇzna razloˇziti tako modele za klasifikacijo numeriˇcnih podatkov kot tudi razliˇcne modele za klasifikacijo besedil (npr.

nakljuˇcni gozdovi) in slik (npr. nevronske mreˇze). V ˇclanku izraz razlaga napovedi definirajo kot prikaz besedilnih ali slikovnih razlag, ki omogoˇcijo kvalitativno razumevanje razmerja med komponentami posameznega primera (npr. besede v besedilu, slikovni odseki v sliki) in napovedmi modela (Ribeiro idr., 2016).

Glavni cilj metode LIME je identificirati interpretabilni model, ki je lokalno zvest klasifikatorju. Pri tem je pomembno razlikovati med dejanskimi atributi in interepretabilnimi reprezentacijami podatkov. Razlage morajo uporabljati reprezentacije, ki so razumljive ljudem in dejanski atributi, ki jih uporablja model, mnogokrat niso. Zato se pri LIME primarne reprezentacije atributov preslikajo v binarni vektor, ki predstavlja njihovo interpretabilno reprezentacijo. Na primer, interpretabilna reprezentacija pri klasifikaciji be- sedila je binarni vektor, ki predstavlja prisotnost ali odsotnost besede, medtem ko klasifikator uporablja bolj kompleksne (in nerazumljive) atribute, kot je vektorska predstavitev besed (angl. word embeddings). Podobno je tudi pri klasifikaciji slik, in sicer je interpretabilna reprezentacija binarni vektor, ki predstavlja prisotnost ali odsotnost odseka slikovnih toˇck (angl. super- pixel), medtem ko klasifikator predstavi sliko kot tenzor s tremi barvnimi kanali na slikovno piko (Ribeiro idr., 2016).

Na sliki 2.1 je prikazan proces priprave razlage napovedi z metodo LIME.

Razlaga temelji na lokalni linearni aproksimaciji obnaˇsanja modela. Kljub

(28)

Slika 2.1: Postopek razlage napovedi z metodo LIME (Ribeiro idr., 2016).

temu, da je model morda globalno kompleksen, je njegova aproksimacija v bliˇzini doloˇcenega primera laˇzja. LIME model obravnava kot ˇcrno ˇskatlo in za vsak primer posebej nauˇci enostaven linearen model na primerih v bliˇzini, ki ga nato uporabi za razlago. Funkcija napovednega modela, ki ni linearna, je prikazana z modro-rdeˇcim ozadjem. Odebeljen rdeˇci kriˇz je primer, ki ga razlagamo. LIME vzorˇci primere okoli njega in jih uteˇzi glede na oddaljenost.

Nato natrenira linearni model, prikazan s prekinjeno ˇcrto, ki v bliˇzini rdeˇcega kriˇza dobro aproksimira model (ne pa nujno tudi globalno), in ga uporabi za razlago (Ribeiro, 2016).

Primer razlage napovedi za okuˇzene rastline z metodo LIME je prikazan na sliki 2.2. Na levi strani je prikazana verjetnost napovedi. Sredinski graf predstavlja razlago napovedi v obliki prispevkov posameznih atributov.

Daljˇsa ˇcrta pomeni veˇcji prispevek atributa k napovedi modela. V prika- zanem primeru so na napoved najbolj vplivali atributi VvOLP, VvDMR6, VvGLC2, VvAGPL in VvSAMT. V desni tabeli so navedene dejanske vre-

(29)

dnosti atributov.

Slika 2.2: Razlaga napovedi za okuˇzene rastline z metodo LIME.

2.3.2 Razlagalna metoda SHAP

Obstaja veˇc metod za razlago kompleksnih modelov. Velikokrat ni jasno, kako so te metode med seboj povezane in kdaj katero uporabiti. Ta problem sta naslovila undberg in Lee (2017) in predlagala enoten okvir (angl. unified framework) za razlago napovedi z imenom SHAP (angl. SHapley Additive exPlanations). Ta metoda posploˇsuje ˇsest obstojeˇcih metod, in sicer LIME (opisana zgoraj), DeepLIFT, metodo ˇsirjenja ustreznosti po nivojih (angl.

Layer-Wise Relevance Propagation), in tri metode, ki ocenjujejo Shapleyeve vrednosti (angl. Classic Shapley Value Estimation). Naˇstete metode spadajo v razred metod, ki aditivno doloˇcajo vrednost atributov (angl. Additive Fea- ture Attribution Methods) in uporabljajo enaˇcbe iz kooperativne teorije iger za razlago napovedi modela, njihov razlagalni model pa je linearna funkcija binarnih spremenljivk. Zdruˇzitev predhodnih pristopov v metodi SHAP iz- boljˇsa raˇcunsko zmogljivost in pokaˇze boljˇse sovpadanje s ˇcloveˇsko intuicijo (Lundberg in Lee, 2017).

(30)

Najboljˇsa razlaga preprostih modelov je model sam, saj popolnoma za- stopa samega sebe in ga je lahko razumeti. Pri kompleksnejˇsih modelih ne moremo uporabiti izvirnega modela kot razlago, ker je ˇcloveku nerazumljiv.

Namesto tega uporabimo preprost razlagalni model, ki ga definiramo kot interpretabilen pribliˇzek prvotnemu modelu (Lundberg in Lee, 2017). Raz- lagalni model pri metodi SHAP temelji na konceptu Shapleyevih vrednosti, ki so odgovor na eno izmed temeljnih vpraˇsanj v teoriji iger: Kaj je naj- praviˇcnejˇsi naˇcin za razdelitev skupnega dobiˇcka v skupini, ki jo sestavlja veˇc igralcev z razliˇcnim naborom spretnosti? Predstavljamo si, da so se igralci skupini prikljuˇcili zaporedoma in v vsakem koraku sledimo prispev- kom posameznega igralca. Shapleyeva vrednost ustreza posameznikovemu delu dobiˇcka, glede na velikost njegovega prispevka k dobiˇcku in je edini praviˇcni naˇcin za razdelitev dobiˇcka med igralci (Shapley, 1953; Aumann, 1994).

Shapleyeve vrednosti so v SHAP metodi uporabljene v kontekstu atributov. Vsakemu atributu pripiˇsejo vrednost, ki odraˇza njegov vpliv na doloˇceno napoved. Na podlagi tega se izoblikuje razlaga napovedi, ki jih je podal model. Iz Shapleyevih vrednosti so izpeljali SHAP vrednosti, ki so poenotena mera za pomembnost atributov. To so Shapleyeve vrednosti izraˇcunane na podlagi funkcije pogojnega priˇcakovanja prvotnega modela. SHAP vrednosti predstavljajo vpliv posameznih atributov na spremembo v priˇcakovani napovedi (Lundberg in Lee, 2017). SHAP vrednosti so razˇsirili ˇse na identifikacijo interakcij za pare atributov, ki temelji na Shapleyevem interakcijskem inde- ksu iz teorije iger. Te vrednosti so poimenovali SHAP interakcijske vrednosti (angl. SHAP interaction values) (Lundberg, Erion in Lee, 2018).

Na sliki 2.3 je prikazan postopek generiranja razlage napovedi z metodo SHAP. Na podlagi uˇcne mnoˇzice se pripravi model, ki izvede napovedi na primerih iz validacijske mnoˇzice. Metoda SHAP uporabi zgrajeni model za doloˇcitev vpliva atributov na posamezne napovedi in na podlagi tega pripravi razlago. Za vsako napoved se generira razlaga v obliki grafa, ki prikazuje razliˇcne prispevke atributov na napoved (Lundberg, 2017a).

(31)

Slika 2.3: Postopek razlage napovedi z metodo SHAP (Lundberg, 2017a).

Primer razlage napovedi z metodo SHAP je prikazan na sliki 2.4. Prika- zani so posamezni prispevki atributov, ki potiskajo izhodno vrednost modela (angl. output value), ki predstavlja napovedano vrednost, stran od osnovne vrednosti (angl. base value), ki predstavlja povpreˇcno napoved modela za uˇcne podatke. SHAP razlaga prikaˇze, kako priti od osnovne do izhodne vrednosti. Atributi, ki odklanjajo vrednost navzgor od osnovne, so prikazani z rdeˇco (zgoraj), tisti, ki jo odklanjajo navzdol, so modri (spodaj). Izhodne vrednosti, ki so blizu 1, pomenijo da je napovedani razred okuˇzena rastlina, tiste ki so bliˇzje 0, pa oznaˇcujejo napoved za zdrave rastline.

Slika 2.4: Razlaga napovedi za okuˇzene (zgoraj) oziroma zdrave rastline (spodaj) z metodo SHAP.

Metoda SHAP se uporablja na veˇc podroˇcjih, npr. pri medicinski diagno- stiki, in daje dobre rezultate. Uporabili so jo za izboljˇsanje napovedovanja

(32)

tveganja za hipoksemijo med operacijo. Hipoksemija, oziroma nizka koncen- tracija kisika v arterijski krvi, je eden pogostih zapletov med operacijo, ki lahko vodi do razliˇcnih zapletov, kot so zastoj srca ali aritmije, pooperacijske okuˇzbe, moteno celjenje ran in oslabljenih kognitivnih funkcij. Kljub neneh- nemu merjenju koncentracije kisika v krvi, je hipoksijo zelo teˇzko napovedati.

Anesteziologi uspeˇsno predvidijo le 15 % hipoksemijskih stanj, zato se po- skuˇsa izboljˇsati napovedovanje tveganja z uporabo sistemov, ki temeljijo na strojnem uˇcenju. V ˇclanku (Lundberg, Nair idr. 2018) so uporabili podatke iz elektronskih zdravstvenih kartotek, ki vsebujejo meritve na minutni ravni za veˇc kot 50,000 operacij. Uporabljeni model pripravi napovedi in razlage dejavnikov tveganja v realnem ˇcasu in omogoˇci anesteziologom odkrivanje 30 % primerov hipoksij in torej signifikantno izboljˇsa postopek odloˇcanja ter prepreˇcevanje hipoksemiˇcnih zapletov. Razlage modela temeljijo na metodi SHAP. Na sliki 2.5 so prikazane razlage, ki opisujejo tveganje za hipoksemijo v naslednjih petih minutah. Atributi, ki poveˇcajo tveganje, so prikazani z rdeˇco, tisti, ki ga zmanjˇsajo pa z zeleno. Dolˇzina puˇsˇcice za posamezni de- javnik predstavlja jakost vpliva atributa. Podane razlage so konsistentne z razlagami v literaturi ter so v skladu z izkustvenim znanjem anesteziologov (Lundberg, Nair idr. 2018).

Slika 2.5: Primer uporabe razlag napovedi v realnem ˇcasu med operacijo (Lundberg, Nair idr. 2018).

2.4 Povezovalna pravila

Naraˇsˇcanje velikosti podatkovnih mnoˇzic je privedlo do razvoja orodij, ki so sposobna avtomatsko odkrivati znanje v podatkih. Asociacijska analiza je

(33)

2.4. POVEZOVALNA PRAVILA 17

ID Mnoˇzice elementov 1 {gen 1, gen 2}

2 {gen 1, gen 3, gen 4, gen 5}

Tabela 2.1: Primer izraˇzanja genov.

uporabna za odkrivanje implicitnega znanja, ki se nahaja v bazah, npr. po- vezanosti med mnoˇzicami elementov, ki jih predstavimo v obliki povezovalnih pravil (angl. association rules). Koncept je bil najprej uporabljen pri analizi trˇziˇsˇc za potrebe marketinˇskih strategij, vendar se je kasneje razˇsiril tudi na druga podroˇcja, kot so bioinformatika, medicinska diagnostika, podatkovno rudarjenje na spletu in analiza znanstvenih podatkov (Tan, Steinbach in Ku- mar, 2005).

Povezovalna pravila raˇcunamo na podatkovnih mnoˇzicah, npr. v mnoˇzici, ki prikazuje skupno izraˇzanje genov v tabeli 2.1. Vsaka vrstica v tabeli vsebuje identifikacijsko ˇstevilko in mnoˇzico izraˇzenih genov. Analiza tovrstnih podatkov nam omogoˇci ugotavljanje soizraˇzanja genov (Tan idr., 2005). Pred zaˇcetkom analize podatke iz tabele 2.1 preoblikujemo v binaren prikaz, ki vsebuje elemente vseh mnoˇzic ter ima oznaˇceno prisotnost oziroma odsotnost posameznih elementov glede na doloˇceno vrstico. Tak prikaz vidimo v tabeli 2.2. Odkrite povezave predstavimo v obliki povezovalnih pravil. Po- vezovalno pravilo je izraz oblike X → Y, kjer je presek med X in Y prazna mnoˇzica. Tak izraz se bere: iz X sledi Y.

Pri iskanju povezovalnih pravil v obseˇznih podatkovnih mnoˇzicah se sre- ˇcujemo z dvema problemoma, in sicer z raˇcunsko zahtevnostjo ter potenci- alnim odkritjem laˇznih pravil, ki so posledica nakljuˇcja in nas zavajajo pri ugotovitvah. Da bi se temu ˇcimbolj izognili, se za merjenje moˇci povezovalnih pravil uporablja veˇc mer. Osnovni meri za uspeˇsnost povezovalnih pravil

(34)

ID gen 1 gen 2 gen 3 gen 4 gen 5 gen 6

1 1 1 0 0 0 0

2 1 0 1 1 1 0

3 0 1 1 1 0 1

4 1 1 1 1 0 0

5 1 1 1 0 0 1

Tabela 2.2: Binarna predstavitev izraˇzanja genov.

sta podpora (angl. support) in zaupanje (angl. confidence), poleg njiju pa je pogosto v uporabi tudi dvig (angl. lift). Podpora predstavlja mero za pogostost pojavljanja pravila v celotnem naboru transakcij. Zaupanje nam pove, kako pogosto se Y pojavi v transakcijah, ki vsebujejo tudi X. Dvig izraˇcuna razmerje med zaupanjem pravila in pojavljanja Y v vseh transakcijah. Pogosto je to pomembna mera, saj lahko visoke vrednosti zaupanja pri pravilih zavajajo, ker ne upoˇstevajo dejanske frekvence pojavljanja Y.

Enaˇcbe za izraˇcun opisanih mer so naslednje:

podpora(X) = n(X)

N , (2.5)

zaupanje(X ⇒Y) = podpora(X∪Y)

podpora(X) in (2.6)

dvig(X ⇒Y) = zaupanje(X ⇒Y)

podpora(Y) . (2.7)

Najbolj osnoven pristop za iskanje povezovalnih pravil je z grobo silo (angl.

brute-force approach), pri katerem izraˇcunamo vrednost podpore in zanesljivosti za vsa moˇzna pravila. To je raˇcunsko zelo zahtevno in v veˇcji meri nepotrebno, saj se ob upoˇstevanju praga za podporo in zaupanje izloˇci veliko ˇstevilo redko pojavljajoˇcih se pravil. Da bi se temu izognili in ˇze prej oklestili veje eksponentno rastoˇcega drevesa moˇznih mnoˇzic elementov, obstaja veˇc

(35)

2.4. POVEZOVALNA PRAVILA 19

optimiziranih algoritmov (Tan idr., 2005).

Apriori je algoritem za iskanje povezovalnih pravil, ki uporablja izloˇcanje neustreznih mnoˇzic elementov z uporabo pragov za podporo in s tem omejuje konˇcno ˇstevilo kandidatnih mnoˇzic (angl. itemsets). Veliko drugih algoritmov za iskanje povezovalnih pravil je izpeljanih iz njega ali pa so njegove razˇsiritve (Gy˝or¨odi, Gy˝or¨odi in Holban, 2004). Algoritem deluje na podlagi t. i. principa apriori, ki pravi, da ˇce se doloˇcena mnoˇzica znotraj vseh transakcij pogosto pojavlja, iz tega sledi, da se pogosto pojavljajo tudi vse njene podmnoˇzice. Npr. pogosto pojavljajoˇca se mnoˇzica {c, d, e} pomeni, da se pogosto pojavljajo tudi njene podmnoˇzice {c, d}, {c, e}, {d, e}, {c}, {d} in {e}. Nasprotno velja za redko pojavljajoˇce se mnoˇzice, saj imajo vse nadmnoˇzice, ki jo vsebujejo, nizko vrednost podpore. Npr. mnoˇzica {a, b}

ima nizko podporo in iz tega sledi, da imajo tudi mnoˇzice {a, b, c}, {a, b, d} in {a, b, c, d} nizko podporo. Tak postopek iskanja pravil je raˇcunsko obvladljiv in uˇcinkovit (Tan, Steinbach in Kumar, 2005).

Rezultate asociacijske analize moramo pazljivo interpretirati, saj korela- cija, ki je zajeta v pravilih, ne pomeni nujno vzroˇcnosti. Je le odraz moˇcnega nakljuˇcnega sopojavljanja med doloˇcenimi elementi, medtem ko dokaz kavzalnosti zahteva znanje o vzroˇcno-poslediˇcnih odnosih med njimi. Slednje lahko ugotovimo npr. z prouˇcevanjem zanimivih odnosov skozi ˇcas (Tan idr., 2005).

V tabeli 2.3 je prikazan primer nekaj povezovalnih pravil, najdenih z algoritmom Apriori. Posamezno pravilo povezuje dve mnoˇzici elementov med sabo. Pravilo se bere na naˇcin, da iz elementov na levi strani (antecedent) sledijo elementi na desni strani (konsekvent). V zgornjem primeru visoke SHAP vrednosti atributov VvCKO, VvAGPL, VvHP in VvACYT moˇcno korelirajo s pojavljanjem razreda 1 (okuˇzene rastline). Pravila implicirajo skupno pojavljanje in ne kavzalnosti.

Metoda Apriori se uporablja tudi na podroˇcju medicine. Z njo so iskali povezovalna pravila na podlagi podatkov iz zdravstvenih kartotek, ki vsebujejo informacije o diagnostiˇcnih postopkih ˇstevilnih pacientov. S pravili so

(36)

antecedent konsekvent {midVvCKO, highVvAGPL, highVvHP, highVvACYT} 1

{highVvOLP, highVvHP, midVvCKO, highVvAGPL} 1 {highVvDMR6, highVvWRKY, highVvOLP, midVvCKO} 1 {highVvOLP, midVvCKO, highVvACYT} 1 {highVvDMR6, highVvHP, midVvCKO, highVvSUSY} 1

Tabela 2.3: Primeri povezovalnih pravil znotraj bioloˇske mnoˇzice podatkov z uporabo algoritma Apriori.

ˇzeleli ugotoviti povezavo med opravljenimi zdravniˇskimi pregledi in konˇcnimi diagnozami. Najdena pravila (slika 2.6) so lahko za zdravnike zelo informativna. Npr. zdravniki, ki so na nekem podroˇcju ˇse neizkuˇseni, se lahko na podlagi teh pravil seznanijo z postopki, ki vodijo do posameznih diagnoz ter ugotovijo, katere diagnoze se pogosto pojavljajo skupaj. Uporabna pa so tudi kot orodje za ugotavljanje goljufivega vedenja zdravnikov, t.i. ping- pong shema, pri kateri skupina zdravnikov predpisuje razliˇcna neinvazivna zdravljenja, ki niso nujno povezana z diagnozo, pri drugih ˇclanih te skupine in na ta naˇcin neupraviˇceno dobiva denar (Doddi idr., 2001).

Slika 2.6: Primeri najdenih povezovalnih pravil (Doddi idr., 2001).

Eden glavnih problemov pri iskanju povezovalnih pravil je generiranje ve- likega ˇstevila povezav, ki so veˇcinoma odveˇcne. Pri pristopu s podporo in za-

(37)

2.5. PODATKOVNE MNO ˇZICE 21

upanjem je ˇstevilo najdenih pravil odvisno od viˇsine pragov. S poveˇcevanjem pragov lahko izgubimo pomembna pravila, ˇce pa so prenizki, se lahko izgubimo v mnoˇzici nezanimivih pravi in zgreˇsimo zanimive, ki jih iˇsˇcemo (Kava- kiotis idr., 2013). Iskanje pravil na podlagi podpore je poglavitna slabost za bioloˇske aplikacije. Filtriranje po vrednosti podpore namreˇc oznaˇci pravila z nizko podporo za nezanimiva in jih izloˇci, kar je smiselno pri analizi trˇznih transakcij, saj povezav, ki se redko pojavljajo ne uporabijo pri naˇcrtovanju marketinˇskih strategij. Drugaˇce je pri bioloˇskih podatkih, kjer poskuˇsamo najti tudi redke povezave med manjˇso mnoˇzico proteinov, saj najbolj pogoste povezave obiˇcajno priˇcajo le o ˇze znanih povezavah. Na tak naˇcin lahko veliko povezav, ki so za nas pomembne in informativne, a ne zadoˇsˇcajo vrednostim pragov podpore, izgubimo (Benites, Simon in Sapozhnikova, 2014). Drug pomemben problem je diskretizacija numeriˇcnih atributov. Iskanje povezovalnih pravil namreˇc poteka na kategoriˇcnih atributih, zato je pomembno, da podatke predhodno preoblikujemo in razdelimo v ustrezne intervale. Pri klasifikacijskih problemih se uporablja nadzorovana diskretizacija (Kavakiotis idr., 2013).

Iskanje povezovalnih pravil na podatkih o izraˇzanju genov ima dva glavna cilja. Prvi je doloˇciti, kako in ˇce sploh izraˇzanje doloˇcenega gena vpliva na izraˇzanje drugih genov, oziroma kateri geni spadajo v skupno interakcijsko omreˇzje (Anandhavalli, Ghose in Gauthaman, 2010). Proteini namreˇc svojih funkcij ne opravljajo v izolaciji, temveˇc so neprestano v interakciji z drugimi proteini, in sicer neposredno ali pa posredno prek signalizacijskih poti (Ka- vakiotis idr., 2013). Drugi cilj je doloˇciti, kateri geni se izraˇzajo kot posledica doloˇcenih pogojev v celici, npr. kateri geni se izraˇzajo v okuˇzenih in kateri v zdravih celicah (Anandhavalli idr., 2010).

2.5 Podatkovne mnoˇ zice

Osnovna bioloˇska enota je celica. Funkcije, ki jih opravlja lahko v grobem razdelimo na tri korake in potegnemo vzporednice z delovanjem raˇcunalniˇske

(38)

enote. Koraki zajemajo sprejemanje vhodnih podatkov, procesiranje informacij in oddajanje ustreznih izhodnih podatkov. V celici poteka sprejemanje signalov predvsem prek receptorjev v membrani, ki sproˇzijo razliˇcne odzive v celici, kot so spremembe pH, sinteza reaktivnih kisikovih zvrsti in drugi si- gnalni dejavniki. Ta mnoˇzica informacij se ustrezno obdela in sproˇzi doloˇcen odziv, npr. spremembe v izraˇzanju genov, encimski aktivnosti ipd. Ker so dogodki v celicah podobni procesiranju informacij v raˇcunalniˇskih enotah, se je razvilo podroˇcje sintetiˇcne biologije, ki uporablja inˇzenirske pristope za prouˇcevanje bioloˇskih procesov. Delovanje raˇcunalniˇskih enot temelji na povezovanju mnoˇzice vezij, ki zavzemajo le vrednosti 0 ali 1, glede na to, ali je njihova vrednost pod ali nad doloˇcenim pragom. Vezja so zgrajena iz logiˇcnih elementov, ki so med seboj povezani in tvorijo logiˇcna vrata, kjer se izvajajo Boolove logiˇcne funkcije kot so NOT, OR, AND in vse njihove kom- binacije. Ko te koncepte prenesemo v celico, logiˇcne elemente nadomestijo signalne molekule in interakcije med njimi, vrednosti pragov pa so doloˇcene na podlagi koncentracije, encimske aktivnosti ali lokalizacije molekul. V nadaljevanju bom opisala bioloˇsko in umetno mnoˇzico podatkov (Miyamoto, Razavi, DeRose in Inoue, 2013).

2.5.1 Bioloˇ ski nabor podatkov

Podatkovna mnoˇzica bioloˇskih podatkov je rezultat raziskave Nacionalnega inˇstituta za biologijo v Ljubljani, v kateri so prouˇcevali dejavnike, ki vplivajo na okuˇzbo vinske trte z boleznijo navadna trsna rumenica ter poskuˇsali doloˇciti genetske pokazatelje, ki bi omogoˇcili zgodnje odkrivanje bolezni. Na- bor podatkov vsebuje informacije o letu zajemov, ki so potekali enkrat letno v letih 2004, 2005, 2007 in 2009, ter dvakrat v letu 2008. Skupno so zajeli podatke v ˇsestih razliˇcnih ˇcasovnih obdobjih. Beleˇzili so podatke 30 vinskih trt in stopnjo izraˇzanja 16 genov, in sicer VvINV2, VvACYT, VvADH1, VvA- GPL, VvHP, VvDMR6, VvLOX, VvOLP, VvSAMT, VvSUSY, VvWRKY, VvCASY, VvCKO, VvGLC1, VvGLC2 in VvGLC3. Geni, ki so jih opa- zovali v raziskavi, so bili izbrani na podlagi predhodne raziskave, kjer so

(39)

s transkripcijskim profiliranjem odzivov rastlin na fitoplazme doloˇcili gene, katerih izraˇzanje se ob okuˇzbi najbolj izrazito spremeni. Predlagali so t.i.

markerske gene za uporabo v diagnostiˇcnih testiranjih za fitoplazme (Hren idr., 2009). Ciljni razred mnoˇzice je podatek o stanju rastline, ki je 1 v primeru okuˇzenih rastlin oziroma 0 pri zdravih rastlinah. Podatkovna mnoˇzica vsebuje 166 primerov, 123 jih pripada razredu zdravih rastlin in preostalih 43 pripada razredu okuˇzenih rastlin.

2.5.2 Umetni nabor podatkov

Uspeˇsnost iskanja interakcij s povezovalnimi pravili na podlagi SHAP vrednosti bomo najprej preverili z uporabo umetnih podatkov. Tak pristop prilagodi uˇcne podatke naˇsim potrebam (Ploj, 2013). Ker je naˇs nabor re- alnih podatkov sestavljen iz informacij o stopnji izraˇzanja genov pri zdravih in okuˇzenih vinskih trtah, smo generirali umetne mnoˇzice, ki opisujejo interakcije v biokemijskem okolju. Najprej smo generirali podatke, ki ustrezajo logiˇcnima funkcijama XOR (izkljuˇcujoˇci ALI) in AND, nato pa razlagalni algoritem preverili ˇse na podatkih, ki ustrezajo bioloˇski pozitivni povratni zanki.

Logiˇcna funkcija AND je pogosto prisotna pri regulaciji izraˇzanja genov v celici (Miyamoto idr., 2013). Njeno tabelariˇcno obliko opisuje tabela 2.4.

Spremenljivki A in B predstavljata atributa (gena), ki sta v interakciji in vplivata na tarˇcni razred (stanje rastline), v tem primeru v skladu s funkcijo AND. Bioloˇski primer te funkcije je npr. aktivacija proteina T7 ob prisotnosti salicilata (Sal) in arabinoze (Ara), ki sproˇzi kaskadno reakcijo, ki se zakljuˇci s sintezo zeleno fluorescirajoˇcega proteina (GFP). Shema je prikazana na sliki 2.7 (Gendrault, Madec, Lallement, Pecheux in Haiech, 2011).

Druga bioloˇsko pomembna logiˇcna funkcija je XOR (izkljuˇcujoˇci ALI).

Njeno tabelariˇcno obliko opisuje tabela 2.5. Spremenljivki A in B predstavljata atributa (gena), ki sta v interakciji in vplivata na tarˇcni razred (stanje rastline), v tem primeru v skladu s funkcijo XOR. Bioloˇski primer te funkcije je kaskadna reakcija, ki enako kot v prejˇsnjem primeru privede do sinteze

(40)

A B AND

0 0 0

0 1 0

1 0 0

1 1 1

Tabela 2.4: Logiˇcna funkcija AND.

Slika 2.7: Bioloˇski primer logiˇcne funkcije AND (Gendrault idr., 2011).

GFP. Ob prisotnosti proteina A pride do sinteze proteina ZFA1, ki je inhibitor proteina ZFA2. Ob prisotnosti proteina B se sintetizira protein ZFA2, ki je inhibitor proteina ZFA1. Prisotnost ZFA1 ali ZFA2 aktivira sintezo GFP.

Iz tega sledi, da hkratna prisotnost A in B ne sproˇzi sinteze GFP, in sicer zaradi navzkriˇzne inhibicije proteinov ZFA1 in ZFA2. Do istega rezultata pride tudi ob hkratni odsotnosti proteinov A in B, medtem ko prisotnost le A ali B omogoˇci aktivacijo tretjega proteina in nazadnje sintezo GFP. Shema reakcije je prikazana na sliki 2.8 (Gendrault idr., 2011).

V tretjem umetnem naboru podatkov smo simulirali pozitivno povratno zanko z uporabo sinusne funkcije. Bioloˇski sistemi morajo nenehno vzdrˇzevati homeostazo, pri ˇcemer imajo povratne zanke kljuˇcno vlogo. Pri pozitivni povratni zanki produkt sistema ojaˇca sistem, pri negativni povratni zanki pa ga inhibira. Znan primer pozitivne povratne zanke iz biologije je oscilacija ˇstevila plena in plenilcev, ki sta jo prouˇcevala Lotka in Volterra in formuli- rala parametriˇcne diferencialne enaˇcbe. Graf lineariziranih enaˇcb je prikazan

(41)

A B XOR

0 0 0

0 1 1

1 0 1

1 1 0

Tabela 2.5: Logiˇcna funkcija XOR.

Slika 2.8: Bioloˇski primer logiˇcne funkcije XOR (Gendrault idr., 2011).

na sliki 2.9 (Lotka–Volterra equations, 2019; Carpenter, 2018; Positive and Negative Feedback Loops in Biology, 2016).

Na sliki 2.9 je prikazan graf enaˇcb, ki modelirata spreminjanje velikosti populacij plena in plenilcev skozi veˇc generacij. Vidi se, da je sploˇsna oblika obeh funkcij podobna, le da se lokalni maksimumi ene funkcije pojavljajo z zamikom glede na drugo. Modelna funkcija za populacijo plena predpostavlja, da ima ta neomejen dostop do hrane in da se razmnoˇzuje eksponentno.

Njihovo ˇstevilo omejuje stopnja plenilstva, ki je odvisna od velikosti populacije plenilcev. Modelna funkcija za populacijo plenilcev predpostavlja, da se populacija manjˇsa le na raˇcun ˇstevila naravne smrtnosti ali selitev, medtem ko je njeno poveˇcanje odvisno od dostopnosti plena in plenilske uspeˇsnosti.

Na sliki vidimo, da se z upadom populacije plenilcev zaradi manjˇse potrebe

(42)

Slika 2.9: Graf lineariziranih enaˇcb, ki opisujejo interakcijo med plenom in plenilcem (Lotka–Volterra equations, 2019).

po hrani poveˇca populacija plena, kar pa nato postopoma podpre ˇsirjenje populacije plenilcev, saj lahko zadovoljijo preˇzivetje veˇcjemu ˇstevilu potomcev.

Populacija plena se tako zopet zmanjˇsa in to postopoma povzroˇci zmanjˇsanje populacije plenilcev, saj imajo na voljo manj hrane. To zopet omogoˇci po- speˇseno razmnoˇzevanje plena in cikel se ponovi (Lotka–Volterra equations, 2019).

2.5.3 Lastnosti generiranih podatkovnih mnoˇ zic

Naˇse generirane mnoˇzice podatkov za funkcije AND, XOR in sinusno pozitivno povratno zanko vsebujejo vsaka po 1000 primerov od katerih je 20

% ˇsumnih podatkov. Uporabljeni atributi so A, B, C in target. Atributi A, B in C simulirajo gene in zavzemajo zvezne vrednosti med 0 in 1, kar predstavlja razliˇcno stopnjo njihove aktivacije. Target je ciljni razred, v naˇsem primeru simulira stanje rastline, in zavzema diskretni vrednosti 0 ali 1. Vrednost razreda se izraˇcuna na podlagi vrednosti A in B (glavna atri-

(43)

buta), pri ˇcemer je funkcija odvisna od tipa mnoˇzice, in sicer je AND oziroma XOR, v primeru generiranja podatkovnih mnoˇzic AND oziroma XOR. Kljuˇc, po katerem so generirani podatki za funkciji AND in XOR, so prikazani v tabeli 2.6 in 2.7, ki sta prirejeni po tabelah 2.4 in 2.5. Zvezne vrednosti atributov A in B med 0 in 0.5 ustrezajo vrednosti 0 iz tabel 2.4 in 2.5, vrednosti med 0.5 in 1 pa vrednosti 1. Logiˇcni funkciji AND in XOR tako ostaneta nespremenjeni. Atribut C zavzema zvezne vrednosti med 0 in 1, le da so te nakljuˇcno generirane, saj predstavlja ˇsumni gen, ki pri generiranju podatkov ne vpliva na vrednost razreda target.

A B target

< 0.5 < 0.5 0

< 0.5 > 0.5 0

> 0.5 < 0.5 0

> 0.5 > 0.5 1

Tabela 2.6: Prikaz kljuˇca, po katerem so generirani podatki AND.

A B target

< 0.5 < 0.5 0

< 0.5 > 0.5 1

> 0.5 < 0.5 1

> 0.5 > 0.5 0

Tabela 2.7: Prikaz kljuˇca, po katerem so generirani podatki XOR.

V naˇsi simulaciji pozitivne povratne zanke smo uporabili dve sinusni funkciji, eno z zamikom, kot je prikazano na sliki 2.10. Vrednosti atributa A ustrezajo enaˇcbi sin(x), vrednosti atributa B pa enaˇcbi sin(x - 2). Izraˇcun vrednosti za target je naslednji: ˇce sta vrednosti obeh, A in B, nad ali pod 0.5, zavzema vrednost 1, v nasprotnem primeru pa vrednost 0. Kljuˇc, po katerem so generirani podatki, so prikazani v tabeli 2.8.

(44)

A B target

<0.5 < 0.5 1

<0.5 > 0.5 0

>0.5 < 0.5 0

>0.5 > 0.5 1

Tabela 2.8: Prikaz kljuˇca, po katerem so generirani podatki za simulacijo pozitivne povratne zanke.

Slika 2.10: Simulacija pozitivne povratne zanke z dvema sinusnima funkcijama.

(45)

Poglavje 3

Opis novega algoritma za

iskanje interakcij med atributi

Predlagani algoritem zdruˇzuje razlagalno metodo SHAP in algoritem za iskanje povezovalnih pravil Apriori. Metoda SHAP za vsako napoved doloˇci prispevke posameznih atributov, Apriori pa iˇsˇce povezovalna pravila med diskretiziranimi atributi, v naˇsem primeru na podlagi SHAP vrednosti. Pri delu smo uporabljali programski jezik Python, javno dostopno implemen- tacijo algoritma SHAP in algoritem za iskanje povezovalnih pravil Apri- ori iz paketa mlxtend. Kodo in uporabljeno bioloˇsko mnoˇzico podatkov smo naloˇzili na GitHub in je dostopna na naslednji povezavi: https:

//github.com/enjakokalj/attribute_interactions.

Na sliki 3.1 je prikazan predlagani postopek. Podatke v bioloˇski mnoˇzici najprej skaliramo na interval od 0 do 1. Nato jih razdelimo na uˇcno in validacijsko mnoˇzico, model (npr. xgboost) nauˇcimo na uˇcni mnoˇzici in nje- govo uspeˇsnost preverimo na validacijski mnoˇzici. Uporabimo ga za pri- pravo napovedi na vseh podatkih (uˇcni in validacijski mnoˇzici). Nepravilno napovedane primere izloˇcimo, saj bi ti zaradi majhnosti naˇsega bioloˇskega nabora podatkov vplivali na razlago napovedi. Za pravilno napovedane primere izraˇcunamo SHAP vrednosti. Ker Apriori zahteva za vhodne podatke diskretizirane vrednosti, atribute diskretiziramo glede na SHAP vrednosti.

29

(46)

Pri posameznih primerih ne upoˇstevamo atributov, ki imajo SHAP vrednost 0, preostale pa na podlagi njihovih absolutnih vrednosti razdelimo v tri ka- tegorije, in sicer low, medium in high. Preizkusili smo dva naˇcina diskretizacije, in sicer na podlagi percentilov vseh SHAP vrednosti za primere v uˇcni mnoˇzici danega problema in fiksnih mej. Pri prvem naˇcinu smo za kriterij uporabili 25. in 75. percentil, pri drugem naˇcinu pa fiksni meji SHAP vrednosti 0.05 in 0.1. V obeh primerih uvrstimo atribute s SHAP vrednostmi, ki so manjˇse od spodnje meje v kategorijo low, veˇcje od zgornje meje v kategorijo high in tiste z vmesnimi vrednostmi v kategorijo medium. Meje so bile doloˇcene hevristiˇcno, saj je njihova vizualizacija pokazala, da je kategorizacija smiselna (slika 3.2). Atributom dodamo predpono low-,

mid-oziroma high-, glede na kategorijo, v katero spadajo. Vse primere diskretiziramo na enak naˇcin. Pri iskanju povezovalnih pravil z algoritmom Apriori uporabljamo naslednje parametre: pri iskanju kandidatnih mnoˇzic prag podpore 0.01, ki pomeni, da upoˇstevamo le tiste, ki se pojavijo vsaj v 1

% vseh primerov; pri iskanju pravil antecedent oziroma predhodna mnoˇzica (angl. antecedent) ne sme vkljuˇcevati ciljnih razredov (v naˇsem primeru 0 in 1) in atributov s predpono low; konsekvent oziroma poslediˇcna mnoˇzica (angl. consequent) mora biti eden izmed ciljnih razredov (v naˇsem primeru 0 ali 1).

Pomembna omejitev algoritma je trirazredna roˇcna diskretizacija podatkov, ki je prikazana na sliki 3.2. Opisani kriteriji so v veliki meri pogojeni z lastnostmi naˇse bioloˇske mnoˇzice podatkov, in sicer veliko ˇstevilo nevplivnih atributov (izloˇcitev niˇcelnih SHAP vrednosti) ter skoraj nevplivnih atributov (SHAP vrednosti so skoraj 0, predpona low) na eni strani in precej manjˇse ˇstevilo srednje vplivnih atributov (SHAP vrednosti blizu 0, predpona

mid) ter zelo vplivnih atributov (viˇsje SHAP vrednosti, predponahigh).

Problem sploˇsnosti diskretizacije naslovimo v zadnjem poglavju.

(47)

31

Slika 3.1: Novi algoritem za iskanje interakcij med atributi na podlagi SHAP vrednosti.

(48)

Slika 3.2: Prikaz diskretizacije atributov na podlagi percentilov pri bioloˇski mnoˇzici podatkov.

(49)

Poglavje 4

Vrednotenje razlagalne metode SHAP

V tem poglavju bomo vrednotili razlagalni metodi SHAP (Lundberg in Lee, 2017) in LIME (Ribeiro idr., 2016). Najprej predstavimo rezultate metod strojnega uˇcenja, ki smo jih preizkusili na bioloˇski mnoˇzici podatkov. Sledi primerjava dveh razlagalnih metod napovedi strojnega uˇcenja na primeru srediˇsˇcnih in robnih primerov pri umetni podatkovni mnoˇzici XOR. Naza- dnje uporabimo konsistentnejˇso metodo SHAP za razlago napovedi na bi- oloˇski mnoˇzici podatkov, doloˇcimo vplivne gene, interakcije dveh atributov in interpretiramo rezultate.

4.1 Preizkus metod strojnega uˇ cenja

Na podatkovni mnoˇzici o bolezni vinske trte smo preizkusili veˇc klasifikacijskih metod, in sicer nakljuˇcne gozdove (angl. random forests, RF), boosting na dva naˇcina (XGB iz paketa xgboost in GB iz paketa scikit-learn), k- najbliˇzjih sosedov (angl. k-nearest neighbors, KNN), odloˇcitvena drevesa (angl. decision trees, DT), in preprost klasifikatorDummy, ki napoveduje glede na veˇcinski razred primerov v uˇcni mnoˇzici. Vse metode razen XGB so del paketa scikit-learn. V vseh primerih smo uporabili iste vhodne podatke

33

(50)

(bioloˇski nabor podatkov) ter za kriterij uspeˇsnosti napovedovanja upoˇstevali oceno F₁ (angl. F₁ score). Ker pri nakljuˇcni delitvi primerov v uˇcno in validacijsko mnoˇzico lahko pride do neenakomerne porazdelitve primerov po razredih glede na porazdelitev v celotni mnoˇzici, smo uporabili stratificirano vzorˇcenje, ki primere izbira na naˇcin, da so porazdelitve razredov v vseh vzor- cih kar se da enake. Rezultati so prikazani v tabeli 4.1. Najboljˇse rezultate smo dosegli z nakljuˇcnimi gozdovi in boostingom. V nadaljnih korakih smo uporabljali RF in XGB. RF zato, ker je dosegel najboljˇse rezultate, XGB pa je privzeti klasifikator za metodo SHAP.

klasifikator toˇcnost natanˇcnost priklic ocena F₁

RF 0.904 1.000 0.375 0.545

GB 0.865 0.600 0.375 0.462

DT 0.865 1.000 0.125 0.222

XGB 0.865 1.000 0.125 0.222

KNN 0.865 1.000 0.125 0.222

Dummy 0.615 0.125 0.250 0.167

Tabela 4.1: Uspeˇsnost uporabljenih klasifikatorjev pri napovedovanju bolezni vinske trte.

4.2 Primerjava razlagalnih metod LIME in SHAP

Razlagalno uspeˇsnost posameznih napovedi z metodama LIME in SHAP smo primerjali na umetnem naboru podatkov, ki ustreza logiˇcni funkciji XOR. Pri delu smo uporabljali programski jezik Python, paket orodij za strojno uˇcenje

scikit-learn ter javno dostopni implementaciji algoritmov LIME in SHAP.

Podatkovna mnoˇzica je brez ˇsuma in ˇsumnega atributa C, vsebuje le atribute A, B in target, ki so prikazani v tabeli 2.5. Generiranim podatkom smo dodali

(51)

4.2. PRIMERJAVA RAZLAGALNIH METOD LIME IN SHAP 35

ˇstiri srediˇsˇcne in dvajset robnih toˇck, ki bodo sluˇzile kot vzorˇcni primeri pri primerjavi metod LIME in SHAP. Celoten nabor podatkov je prikazan na sliki 4.1.

Slika 4.1: Prikaz umetnega nabora podatkov, ki ustreza logiˇcni funkciji XOR, ˇce vrednosti diskretiziramo pri pragu 0.5.

Na sliki 4.1 so z modro in oranˇzno prikazani primeri iz validacijske mnoˇzice, pri ˇcemer prvi pripadajo razredu0in drugi razredu1. Z zeleno so prikazane srediˇsˇcne toˇcke kvadrantov, ki sluˇzijo kot referenˇcni primeri za razlago napovedi. Z rdeˇco so prikazani robni primeri, v bliˇzini katerih se razreda

0 in 1 diskretno spremenita in ki zato predstavljajo kritiˇcne toˇcke pri razlagi napovedi ter so bistveni za odkrivanje razlik med LIME in SHAP.

V nadaljevanju smo za primerjavo med metodama uporabili ˇstiri srediˇsˇcne (zelene) toˇcke ter ˇstiri robne (rdeˇce na sredini) toˇcke. V vseh primerih smo

(52)

primerjali razlage napovedi klasifikatorja nakljuˇcni gozdovi.

4.2.1 Srediˇ sˇ cne toˇ cke

Najprej primerjamo razlago napovedi obeh metod na srediˇsˇcnih toˇckah (zelene toˇcke na sliki 4.1), ki naj bi jasno pokazale loˇcevanje med razredoma label=0 in label=1. Za klasifikator smo uporabili metodo z nakljuˇcnimi gozdovi.

Slika 4.2: Razlaga ˇstirih srediˇsˇcnih primerov (zelene toˇcke) z metodo LIME.

Na sliki 4.2 vidimo konsistentno loˇcevanje med razredoma label=0 (prva dva primera) in label=1 (druga dva primera) z metodo LIME. Na levi strani je prikazana napoved modela (label=0 ali label=1) in verjetnost napovedi.

Na sredini je vizualizacija razlage, ki je sestavljena iz uteˇzenih atributov.

Vsak nabor uteˇzenih atributov, ki podaja razlago za posamezno napoved,

(53)

je pravzaprav linearni model, ki aproksimira obnaˇsanje klasifikatorja v okolici testnega primera. Za posamezni razred (label=0 ali label=1) velja, da atributi, ki so na isti strani ˇcrte, pozitivno vplivajo na uvrstitev primera v razred, medtem ko imajo tisti, ki so na drugi strani, negativen vpliv. Pri prvih dveh primerih (x = 0.25, y = 0.25 in x = 0.75, y = 0.75) oba atributa prispevata k uvrstitvi primera v razred label=0, le njun prispevek se malo razlikuje. Pri drugih dveh primerih (x = 0.25, y = 0.75 in x = 0.75, y = 0.25) pa imata uˇcinka atributov razliˇcen predznak. To stanje se pojavlja v vseh primerih, kjer je ena vrednost niˇzja od 0.5 in druga viˇsja, in sicer atri- but, ki zavzema viˇsjo vrednost vedno prispeva k uvrstitvi v razred label=1.

Ta primer kaˇze na nezanesljivost razlag z metodo LIME, ki temelji na lokalni linearni regresiji. V obravnavanem problemu XOR je ta neprimerna za modeliranje loˇcnice med razredoma in lahko daje neintuitivne rezultate.

Slika 4.3: Razlaga ˇstirih srediˇsˇcnih primerov (zelene toˇcke) z metodo SHAP.

(54)

Na sliki 4.3 so prikazane razlage napovedi z metodo SHAP za ˇstiri sre- dinske toˇcke. Enako kot na sliki 11, se tudi tukaj vidi konsistentno loˇcevanje med razredoma label=0 (prva dva primera) in label=1 (druga dva primera).

Razlaga prikazuje v kolikˇsni meri atributa (A in B) prispevata k odmiku napovedi modela od osnovne vrednosti, ki predstavlja povpreˇcno vrednost napovedi za primere iz testne mnoˇzice, do napovedi za posamezni primer.

Atributi, ki potiskajo napoved navzgor, so prikazani z rdeˇco, tisti, ki pa jo potiskajo navzdol, so prikazani z modro. Pri prvih dveh primerih (x = 0.25, y = 0.25 in x = 0.75, y = 0.75) oba atributa potiskata napoved navzgor od povpreˇcne vrednosti in prispevata k uvrstitvi primera v razred label=0. Pri drugih dveh primerih (x = 0.25, y = 0.75 in x = 0.75, y = 0.25) pa oba atributa potiskata napoved navzdol od povpreˇcne vrednosti in prispevata k uvrstitvi primera v razred label=1. Vidimo tudi, da so v vseh primerih SHAP vrednosti visoke (med 0.3 in 0.9), kar pomeni, da so vsi atributi prepoznani kot vplivni.

Rezultati primerjave metod LIME in SHAP na srediˇsˇcnih primerih ne sovpadajo povsem z naˇsimi priˇcakovanji, saj je bilo loˇcevanje med razredoma z metodo LIME sicer konsistentno, a neintuitivno. Metoda SHAP je podala tako konsistentne kot razumljive razlage za primere, ki so znotraj homoge- nega okolja.

4.2.2 Robne toˇ cke

Primerjamo ˇse razlago napovedi metod LIME in SHAP na robnih toˇckah v centru (ˇstiri rdeˇce toˇcke v srediˇsˇcu grafa na sliki 4.1), ki naj bi pokazale vpliv diskretnega spreminjanja razredov okoli posameznega primera na razlago napovedi.

Na sliki 4.4 vidimo, da je loˇcevanje med razredoma label=0 (prva dva primera) in label=1 (druga dva primera) pri metodi LIME nekonsistentno. Na levi strani je prikazana napoved modela (label=0 ali label=1) in verjetnost napovedi. Srednji graf prikazuje razlago napovedi. Razlaga je neinforma- tivna, kar pomeni, da linearni model slabo razloˇzi primere, v bliˇzini katerih

(55)

Slika 4.4: Razlaga robnih primerov (rdeˇce toˇcke v sredini) z metodo LIME.

se razredi primerov z vidika linearnosti moˇcno in neurejeno spreminjajo.

Loˇcevanje med razredoma label=0 (prva dva primera) in label=1 (druga dva primera) je pri metodi SHAP ˇse vedno konsistentno. Podane razlage na sliki 4.5 so enako jasne kot v primeru srediˇsˇcnih toˇck (slika 4.3). Vidi se, da linearna neurejenost razredov bliˇznjih primerov ne vpliva na razlage metode SHAP. Razlog za to je razliˇcen naˇcin doloˇcanja vpliva atributov pri metodah LIME in SHAP. Pri metodi LIME razlaga temelji na lokalni linearni aproksimaciji obnaˇsanja modela, ki deluje dobro v primerih, ko lokalno in globalno okolje v veˇcji meri sovpadata ali pa so prehodi med razliˇcnimi deli problemskega prostora dokaj gladki. V nasprotnem primeru podane razlage niso veˇc smiselne. Metoda SHAP izoblikuje razlago napovedi na podlagi prirejenih Shapleyevih vrednosti (SHAP vrednosti), ki predstavljajo poeno- teno mero za pomembnost atributov na globalni ravni. Zato razlage z metodo SHAP tudi v primeru lokalno heterogenega okolja ostanejo konsistentne,