• Rezultati Niso Bili Najdeni

Raˇcunskemetodezaodkrivanjenapovednihmarkerskihgenovvanalizipreˇzivetja JakaKokoˇsar

N/A
N/A
Protected

Academic year: 2022

Share "Raˇcunskemetodezaodkrivanjenapovednihmarkerskihgenovvanalizipreˇzivetja JakaKokoˇsar"

Copied!
70
0
0

Celotno besedilo

(1)Univerza v Ljubljani Fakulteta za računalništvo in informatiko. Jaka Kokošar. Računske metode za odkrivanje napovednih markerskih genov v analizi preživetja MAGISTRSKO DELO MAGISTRSKI ŠTUDIJSKI PROGRAM DRUGE STOPNJE RAČUNALNIŠTVO IN INFORMATIKA. Mentor: prof. dr. Blaž Zupan Somentor: dr. Marko Toplak Ljubljana, 2021.

(2)

(3) Avtorske pravice. Rezultati magistrskega dela so intelektualna lastnina avtorja in Fakultete za računalništvo in informatiko Univerze v Ljubljani. Za objavljanje ali izkoriščanje rezultatov magistrskega dela je potrebno pisno soglasje avtorja, Fakultete za računalništvo in informatiko ter mentorja. ©2021 Jaka Kokošar.

(4)

(5) Zahvala Zahvaljujem se članom Laboratorija za bioinformatiko predvsem pa mentorju prof. dr. Blažu Zupanu in somentorju dr. Marku Toplaku za vodenje tekom celotnega študija ter za koristne napotke pri izdelavi naloge. Na koncu bi se rad zahvalil tudi svojim prijateljem in družini za vso podporo v času študija. Jaka Kokošar, 2021.

(6)

(7) Kazalo Povzetek Abstract 1 Uvod. 1. 2 Pregled področja. 5. 2.1. Analiza preživetja . . . . . . . . . . . . . . . . . . . . . . . . .. 5. 2.2. Krivulja preživetja . . . . . . . . . . . . . . . . . . . . . . . .. 9. 2.3. Coxov regresijski model sorazmernega tveganja . . . . . . . . . 11. 2.4. Iskanje preživetvenih markerskih genov . . . . . . . . . . . . . 14. 3 Iskanje bioloških markerjev s pristopi analize preživetja. 17. 3.1. Iskanje markerskih genov . . . . . . . . . . . . . . . . . . . . . 18. 3.2. Iskanje skupin markerskih genov . . . . . . . . . . . . . . . . . 19. 4 Vrednotenje. 23. 4.1. Podatki in njihova predobdelava . . . . . . . . . . . . . . . . . 23. 4.2. Načrt vrednotenja . . . . . . . . . . . . . . . . . . . . . . . . . 25. 4.3. Ugotovitve in diskusija . . . . . . . . . . . . . . . . . . . . . . 25. 5 Implementacija v okolju za vizualno analitiko. 31. 5.1. Gradniki okolja Orange . . . . . . . . . . . . . . . . . . . . . . 32. 5.2. Primeri uporabe . . . . . . . . . . . . . . . . . . . . . . . . . . 36.

(8) KAZALO 6 Zaključek. 43. A Rezultati vrednotenja. 45.

(9) Povzetek Naslov: Računske metode za odkrivanje napovednih markerskih genov v analizi preživetja Prepoznavanje bioloških markerjev ni pomembno zgolj iz vidika njihove uporabe pri kliničnem odločanju ampak tudi zato, ker lahko z njimi dobimo nove vpoglede v samo delovanje mehanizma bolezni in o molekularnih procesih, ki jih povzročajo. V delu smo preučili izbrane metode, ki se uporabljajo pri analizi preživetvenih podatkov in prepoznavanju ter vrednotenju markerskih genov preživetja. Na področju analize preživetja smo opazili pomanjkanje enostavnih zbirk orodij z intuitivnim uporabniškim vmesnikom, ki bi z interaktivno analizo preživetvenih podatkov pomagala pri tovrstnih raziskavah. Intuitivna orodja s prilagodljivimi vmesniki in interaktivnimi vizualizacijami lahko bistveno pripomorejo k pospešitvi razvoja in vrednotenja potencialnih markerskih genov. Predlagane pristope smo zato vpeljali v okolje za podatkovno analitiko Orange ter izdelane gradnike preiskusili z uporabo na kliničnih podatkih o genskih izrazih.. Ključne besede analiza preživetja, markerski geni, izražanje genov, odkrivanje znanj iz podatkov, interaktivna podatkovna analitika.

(10)

(11) Abstract Title: Computational methods for the discovery of prognostic marker genes in survival analysis The identification of biological markers is essential because of their meaningful role in clinical decision-making.. With data mining that leads to. biomarker discovery, we may also gain novel insights into the disease mechanism and the molecular processes. We observed a lack of intuitive toolkits with exploratory user interfaces to help domain experts in biomarker discovery and analysis of the results. Intuitive tools with customizable user interfaces and interactive visualizations can significantly accelerate the development and evaluation of potential marker genes. The thesis focuses on survival analysis and examines and constructs methods and software implementations in the Orange data mining toolkit to identify potential survival marker genes.. Keywords survival analysis, marker genes, gene expression, data mining, interactive data analysis.

(12)

(13) Poglavje 1 Uvod Uporaba pripomočkov in tehnik visokozmogljivega sekvenciranja bioloških vzorcev nam omogoča lažje razumevanje in pojasnevanje bioloških procesov. Pridobljeno znanje o tem lahko prevedemo v prakso kliničnega odločanja [1]. Na področju biomedicine se tehnike visokozmogljivega sekvenciranja med drugim uporabljajo za prepoznavanje bioloških markerjev, vključno z geni in beljakovinami, ki jih pridobimo iz vzorcev človeškega tkiva. Biološki markerji so faktorji, ki so lastni pacientom, prek njih pa skušamo razumeti potek razvoja in napredovanja bolezni ali pa skušamo napovedati preživetje bolnika oziroma njegov odziv na zdravljenje. V splošnem poznamo tri različne tipe bioloških markerjev [2]: 1. Diagnostični biološki markerji se uporabljajo pri prepoznavanju prisotnosti ali odsotnosti bolezni pri pacientu. 2. Napovedni biološki markerji se uporabljajo pri prepoznavanju posameznikov, pri katerih je večja verjetnost, da se bodo dobro odzvali na določeno zdravljenje. 3. Prognostični biološki markerji so na primer tisti, ki kažejo na povečano (ali zmanjšano) možnost ponovitve ali napredovanja bolezni po opravljenem kliničnem posegu. 1.

(14) 2. POGLAVJE 1. UVOD Biološke markerje pri zapletenih boleznih, kot je rak, lahko računsko,. z uporabo računalniških algoritmov, prepoznamo z uporabo genomskih podatkov [3]. S profili izraženosti genov v človeškem genomu lahko sočasno beležimo delovanje tisočih genov v tkivih ali celicah [4]. Tovrstni podatki zato veliko obetajo na področju usmerjene medicine (angl. precision medicine), saj bi z rutinskim izvajanjem testov sekvenciranja pacientovih vzorcev lahko izboljšali odločanje pri nadaljnjih potekih njihovega zdravljenja. V splošnem je cilj študij, ki raziskujejo možnost uporabe bioloških markerjev, najti najmajnši možen nabor genov, katere lahko uspešno uporabljamo pri kliničnih odločitvah. Pri vrednotenju skupin markerskih genov si raziskovalci pogosto pomagajo z analizo preživetja. Analiza preživetja je sklop statističnih pristopov, s katerimi lahko poiščemo razlike v skupinah pacientov glede na podatke o času do pričakovanega dogodka (angl. time-to-event data). Zaradi splošnosti definicije dogodka, ki ni nujno zgolj smrt ampak je lahko tudi ponovitev bolezni ali razvoj metastaz so lahko take študije pomembne za skoraj vse preiskave, povezane z bolniki in študijami bolezni. V onkologiji je prepoznavanje novih bioloških markerjev, s katerimi lahko napovemo napredovanje bolezni ali pa primernost bolnika za določeno zdravljenje, pomembno iz dveh razlogov. Kot prvi in tudi najpomembnejši, če za merilo vzamemo človeško življenje, je njihova praktična uporaba pri kliničnem odločanju. Drugi vidik uporabe bioloških markerjev pa izhaja iz predpostavke, da lahko z njimi dobimo nove vpoglede v samo delovanje mehanizma bolezni in o molekularnih procesih, ki povzročajo spremembe bolezni raka [5]. Ker imamo opravka z visoko dimenzionalnimi podatki, kjer je potencialnih genskih markerjev na tisoče in njihovih kombinacij eksponencialno mnogo, je ročno odkrivanje morebitnih markerskih genov lahko zelo zamudno. Poleg samega računskega izziva, ki ga tovrstni podatki predstavljajo imajo raziskovalci na tem področju opravka tudi z razumevanju biološkega ozadja bolezni, ki jih preiskujejo. Z delom smo želeli podrobneje spoznati področje analize preživetja ter.

(15) 3 metode, ki rešujejo izzive podatkov s katerimi merimo čas do pričakovanega dogodka. Predvsem nas je zanimalo, kako lahko omenjene metode uporabimo pri vrednotenju potencialnih markerskih genov z uporabo genomskih podatkov. V nadeljevanju predstavimo, kako smo vrednotili nekatere najbolj pogosto uporabljene pristope ter opozorimo na morebitne težave povezane s takimi pristopi. Kot eno izmed večjih težav, ki jo imajo raziskovalci na tem področju je programersko znanje, ki je potrebno, da lahko združijo različne dele analize v povezano celoto. V sklopu dela smo zato razvili izbrane gradnike metod skupaj s pripadajočimi vizualizacijami v programu za podatkovno analitiko Orange [6]. Gradniki analize preživetja omogočajo uporabnikom izvajanje analize nad podatki skupaj z že razvitimi gradniki in vizualizacijami podatkovnega rudarjenja in funkcijske genomike. Menimo, da lahko intuitivna orodja s prilagodljivimi in interaktivnimi vmesniki bistveno pripomorejo k pospešitvi razvoja in vrednotenju potencialnih bioloških markerjev ter omogočijo lažjo komunikacijo med končnimi uporabniki ter domenskimi strokovnjaki..

(16)

(17) Poglavje 2 Pregled področja V poglavju opišemo izbrane metode s področja analize preživetja. Opišemo tip problema, ki ga pri analizi podatkov preživetja rešujemo in predstavimo nekatere ključne metode s katerimi si lahko pomagamo pri analizi tovrstnih podatkov. Nato izbrana dela s področja odkrivanja potencialnih bioloških markerjev iz podatkov o preživetju.. 2.1. Analiza preživetja. Analiza preživetja je skupek statističnih pristopov za preučevanje življenjske dobe preiskovane populacije. Ker gre za analizo podatkov, kjer je cilj oceniti čas do pojavitve nekega dogodka, jo lahko z drugimi besedami opišemo tudi kot analizo časa do dogodka. Začetki analize preživetja ter z njo povezani izrazi in pojmi primarno izhajajo iz študij, ki so se ukvarjale s preiskovanjem smrtnosti dane populacije [7]. V zadnjem obdobju se je uporabnost analize podatkov časa do dogodka razširila tudi na druga področja, ki vključujejo: • testiranje zanesljivosti strojne opreme v industriji [8], • preučevanje vpliva demografskih dejavnikov na brezposelnost [9] in • ocenjevanje kreditne sposobnosti komitentov [10]. 5.

(18) 6. POGLAVJE 2. PREGLED PODROČJA. Opazovanec. Čas (t). Dogodek (d). X1. X2. .... Xn. 1. t1. d1. x11. x12. .... x1n. 2 .. .. t2 .. .. d2 .. .. x12 .. .. x22 .. .. .... x2n .. .. i. ti. di. xi1. xi2. .... xin. Tabela 2.1: Oblika zapisa podatkov preživetja. Stolpec t poda pretečen čas od začetka študije do konca opazovanja, stolpec d je status pojavitve dogodka, kjer di = 1 pomeni, da smo zabeležili pričakovan dogodek in di = 0, da je podatek o dogodku krnjen. Nabor spremenljivk, s katerimi opišemo opazovance, je zajet v spremenljivkah X1 . . . Xn . Kaj smatramo kot dogodek je torej odvisno od same študije, ki jo izvajamo. Pri ocenah uspešnosti zdravljenja je to lahko preživetje pacienta ali recimo ponovna pojavitev bolezni [11]. Splošni zapis preživetvenih podatkov (tabela 2.2) vsebuje podatek o času, informacijo o pojavitvi pričakovanega dogodka ter vrednosti s katerimi opišemo opazovance, ki so predmet raziskave.. 2.1.1. Krnjenje. Krnjenje (angl. censoring) je izraz, ki se uporablja v analizi preživetja, ko ne moremo določiti časa preživetja oziroma zabeležiti časa pričakovanega dogodka za celotno populacijo v zadanem časovnem okviru študije [12]. Ločimo med desnim, levim in intervalnim krnjenjem podatkov.. Desno krnjenje. V času opazovanja dane populacije se lahko zgodi, da pričakovanega dogodka nismo zabeležili pri vseh opazovancih. V tem primeru je nemogoče sklepati o tem, ali je v prihodnosti pri opazovancu prišlo do pričakovanega dogodka ali ne (slika 2.1). Razlogov, da pride do desnega krnjenja je lahko več [13]:.

(19) 2.1. ANALIZA PREŽIVETJA. 7. • pri opazovancu do pričakovanega dogodka ne pride pred koncem študije, • opazovanca smo med študijo izgubili za nadaljnje spremljanje ali pa iz drugih razlogov ne želi več sodelovati v študiji, • opazovanec je doživel dogodek iz razlogov, ki niso povezani s študijo.. Levo krnjenje. Ko ne vemo, kdaj je pri opazovancu prišlo do pričakovanega dogodka, govorimo o levo krnjenih podatkih.. V takem primeru nam je. znano samo to, da je pri opazovancu prišlo do pričakovanega dogodka pred pričetkom študije [14].. Intervalno krnjenje. V študijah, kjer je opazovanec podvržen rednemu spremljanju, lahko dobimo stanje, ko pri opazovancu pride do pričakovanega dogodka v času med opravljenimi meritvami. Ko vemo, da je do dogodka prišlo v nekem časovnem obdobju ampak ne moremo sklepati o času pojavitve govorimo o intervalnem krnjenju [15].. 2.1.2. Funkcija preživetja. Naj bo T pozitivna zvezna slučajna spremenljivka, ki predstavlja čas do pojavitve pričakovanega dogodka s porazdelitveno funkcijo: F (t) = P (T < t). (2.1). Funkcija preživetja S(t), določena s S(t) = P (T > t) = 1 − F (t). (2.2). je padajoča funkcija časa, ki označuje verjetnost, da pričakovanega dogodka nismo zabeležili do časa t ali povedano drugače, verjetnost, da bo čas preživetja vsaj t..

(20) 8. POGLAVJE 2. PREGLED PODROČJA. Konec študije A. Izpadel iz študije. Dogodek. B. Izpadel iz študije. A. Dogodek. B. C. D. Izgulbjen. C. Dogodek. D. E. Izgulbjen. Dogodek. E. F. F. 1. 2. 3. 4. 5. 6. Čas v mesecih. 1. 2. 3. 4. 5. 6. Čas (v mesecih) od začetka spremljanja. Slika 2.1: Primer desnega krnjenja. Opazovanec A se je po dveh mesecih odločil prenehati sodelovati v študiji, opazovanca C pa iz različnih razlogov ne moremo več spremljati. Za opazovanca B in D smo zabeležili pričakovan dogodek, dočim za opazovanca A in F tekom študije dogodka nismo zabeležili. Točen čas pojavitve pričakovanega dogodka smo lahko zabeležili le pri opazovancu B in D, za vse ostale pa pravimo, da so desno krnjeni.. 2.1.3. Funkcija tveganja. Funkcija (trenutnega) tveganja, poda stopnjo tveganja, da bo pri opazovancu prišlo do pojavitve pričakovanega dogodka po času t, če do časa t dogodka pri opazovancu še nismo zabeležili:. P (t ≤ T < t + ∆t|T ≥ t) ∆t→0 ∆t. λ(t) = lim. (2.3). S funkcijo tveganja dobimo vpogled v stopnjo tveganja po posameznih časovnih obdobjih. Večja vrednost funkcije predstavlja večji potencial, da bo ob času t prišlo do pričakovanega dogodka..

(21) 2.2. KRIVULJA PREŽIVETJA. 2.2. 9. Krivulja preživetja. V analizi preživetja se za oceno preživetvene funkcije pri krnjenih podatkih uporablja neparametrična metoda Kaplan-Meier [16]. Glavna ideja metode je razbitje ocen preživetja po posameznih časih pojavitve dogodkov. Če imamo N opazovancev in I različnih časov pojavitev dogodkov t1 < t2 < . . . tI za I ≤ N , potem je ob vsakem času t verjetnost preživetja določena z:. Ŝ(t) =. Y ni − di ni i:t ≤t. (2.4). i. kjer je ni število preostalih opazovancev ob času ti ter di število opazovancev pri katerih smo zabeležili pričakovan dogodek (ob času ti ). Oceno funkcije preživetja po metodi Kaplan-Meier prikažemo kot padajočo stopničasto funkcijo, ki spremeni vrednost ob času pojavitve pričakovanega dogodka (slika 2.2). Glavna pomanjkljivost cenilke Kaplan-Meier je ta, da pri oceni funkcije preživetja ne upošteva značilk, ki opisujejo stanje posameznih opazovancev [17]. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. Čas. 1.0. 2.0. 3.0. 4.0. 4.5. 5.0. 0.5. 0.75. 1.0. 1.5. 2.0. 3.5. Dogodek. 1. 1. 1. 1. 1. 0. 1. 1. 1. 0. 1. 1. Tabela 2.2: Primer preživetvenih podatkov [18] z dvanajstimi opazovanci. V časovnem okviru študije smo pri desetih opazovancih zabeležili dogodek, pri ostalih dveh pa je informacija o dogodku krnjena.. 2.2.1. Primerjava krivulj preživetja. Krivulja preživetja nudi zanimiv vpogled v preživetvene podatke celotne populacije ali pa služi kot primerjava preživetvenih časov med različnimi skupinami opazovancev. V kliničnih študijah nas na primer zanima učinkovitost.

(22) 10. POGLAVJE 2. PREGLED PODROČJA. Čas. Št. Krnjenji Št. Dogodkov dogodki Ogroženih Preživetje. 0. 0. 0. 12. 1,00. 0,5. 1. 0. 12. 0.917. 0,75. 1. 0. 11. 0.833. 1. 2. 0. 10. 0.667. 1,5. 0. 1. 8. 0.667. 2. 2. 0. 7. 0.476. 3. 1. 0. 5. 0.380. 3,5. 1. 0. 4. 0.286. 4. 1. 0. 3. 0.190. 4,5. 1. 0. 2. 0.095. 5. 0. 1. 1. 0.095. Slika 2.2: Primer krivulje preživetja po metodi Kaplan-Meier, kot jo določa funkcija 2.4. Za izračun ocene krivulje preživetja je bila uporabljena celotna populacija opazovancev (tabela 2.2). V desni tabeli so predstavljeni vmesni koraki izračuna krivulje za vsak časovni interval.. zdravljenja dveh skupin opazovancev, ko merimo čas do ponovne pojavitve bolezni. Lahko bi izračunali krivulje preživetja (2.4) in primerjali delež preživelih po posameznih časih, vendar je slabost takega pristopa da ne omogoča primerjave preživetja skupin skozi celotno obdobje spremljanja. Najbolj razširjen pristop za primerjavo krivulj preživetja krnjenih podatkov je log-rank test s katerim preizkušamo domnevo, da ni razlike v preživetju med dvema skupinama skozi celotno obdobje spremljanja opazovancev [19]. Če so t1 < t2 < . . . tI različni časi pojavitev dogodkov, tako kot je to določeno z enačbo 2.4, potem lahko za vsak čas ti zapišemo tabelo (2.3) pojavitev dogodkov. Testna statistika pri metodi log-rank, kjer so oznake uporabljenih spremenljivk take, kot jih pojasnjuje tabela 2.3, je določena z [20]:.

(23) 2.3. COXOV REGRESIJSKI MODEL SORAZMERNEGA TVEGANJA11. Pojavitev dogodka Skupina. Da. Ne. Skupaj. 1. d1i. n1i − d1i. n1i. 2. d2i. n2i − d2i. n2i. Skupaj. di. ni − di. ni. Tabela 2.3: Tabela pojavitve dogodkov ob času ti , kjer sta d1i in d2i število dogodkov v posameznih skupinah in n1i ter n2i število opazovancev, kjer časa dogodka še nismo zabeležili.. hP χ2logrank = P I. I i=1 (d1i. i=1. 2.3. h. −. di n1i ) ni. i2. n2i n1i di (ni −di ) n2i (ni −1). i. (2.5). Coxov regresijski model sorazmernega tveganja. Regresijski model sorazmernega tveganja po Coxu opisuje zvezo med pojavnostjo dogodka, kot ga izrazimo s funkcijo tveganja (2.3), in naborom spremenljivk X = (X1 , X2 , . . . , Xp ). Zapišemo ga kot [21]:. λ(t, X) = λ0 (t) exp(X1 β1 + . . . + Xp βp ). (2.6). kjer je λ(t, X) pričakovana stopnja tveganja za opazovanca s podanimi spremenljivkami X ob času t, β = (β1 , β2 , . . . , βp ) vektor regresijskih koeficientov in λ0 (t) osnovno tveganje (angl. baseline hazard), ki je ob času t enako za vse in se lahko spreminja skozi čas. Eksponentnemu delu modela pravimo delno tveganje (angl. partial hazard) in zajame učinek spremenljivk na osnovno tveganje..

(24) 12. POGLAVJE 2. PREGLED PODROČJA Skupina 1 Skupina 2. Pre ivetje (%). 1.0. Skupina 1 Skupina 2. 1.0. 0.8. 0.8. 0.8. 0.6. 0.6. 0.6. 0.4. 0.4. 0.4. 0.2. 0.2. 0.2. 0.0. 0.0 0. 1. 2. as. 3. 4. 5. Skupina 1 Skupina 2. 1.0. 0.0 0. 1. 2. as. 3. 4. 5. 0. 1. 2. as. 3. 4. 5. Slika 2.3: Preživetvene podatke (tabela 2.2) smo trikrat ročno razdelili v dve različni skupini, za vsako skupino smo nato izračunali krivuljo preživetja ter preverili ali so med dodeljenimi skupinami bistvene razlike v preživetju. Od leve proti desni si p vrednosti testa log-rank (kot je določeno z 2.5) sledijo kot 0.60, 0.08 in 0.005. Poleg testa je zanimiv tudi podatek o mediani preživetja. Na skrajno levem grafu lahko vidimo, da je razlika v mediani preživetja majhna (mediana preživetja skupine 1 je 2.0, skupine 2 pa 3.5) na skrajno desnem pa se razlika bistveno poveča in je mediana preživetja skupine 1 enaka 4.0, skupine 2 pa 1.0.. 2.3.1. Ocenjevanje parametrov tveganja po metodi delnega verjetja. Pomembna lastnost Coxovega modela je ta, da za oceno učinka spremenljivk na tveganje ni potrebno sklepati o obliki osnovnega tveganja [22]. Avtor tako poleg modela predlaga tudi način kako oceniti parametre modela po metodi delnega verjetja (angl. partial likelihood) [23]. Predpostavimo, da imamo I različnih časov pojavitev dogodkov, ki so urejeni naraščajoče t1 < t2 < . . . tI . Če smo ob vsakem času smo zabeležili največ en dogodek potem delno verjetje.

(25) 2.3. COXOV REGRESIJSKI MODEL SORAZMERNEGA TVEGANJA13 Coxovega modela zapišemo kot:. L(β) =. =. I Y. >. λ0 (ti )eβ Xi β > Xj j:tj ≥ti λ0 (ti )e. P i=1 I Y. e P. j:tj ≥ti. i=1. (2.7). β > Xi. eβ > Xj. Da lažje maksimiziramo funkcijo delnega verjetja običajno zapišemo njen naravni logaritem. Logaritemska funkcija delnega verjetja je:. `(β) = log(L(β)) =. I X. log P. =. >X i. j:tj ≥ti. i=1 I X. eβ. eβ > Xj. (2.8) .  β > Xi − log. X. eβ. >X j. . j:tj ≥ti. i=1. Če funkciji delnega verjetja dodamo še regularizacijski člen, potem optimizacijski problem, odvisno od tipa regularizacije, zapišemo kot: • `1 -regularizacija arg max β. `(β) − α. p X. |βj |. (2.9). αX 2 `(β) − β 2 j=1 j. (2.10). j=1. • `2 -regularizacija p. arg max β. • Regularizacija elastic net arg max β. p X. p. 1−r X 2 `(β) − α r |βj | + β 2 j=1 j j=1. ! (2.11).

(26) 14. 2.4. POGLAVJE 2. PREGLED PODROČJA. Iskanje preživetvenih markerskih genov. Biološki markerji preživetja. V kliničnih študijah nas pogosto zanima odziv opazovancev na nove načine zdravljenja in kako ta vpliva na njihovo preživetje. Metode analize preživetja lahko izkoristimo za pomoč pri odkrivanju bioloških markerjev, to je spremenljivk, ki neposredno vplivajo na preživetje opazovancev. V biomedicni so spremenljivke, ki vplivajo na preživetje, lahko potencialni označevalci biološkega sistema, ki jih lahko merimo objektivno in uporabljamo kot kazalnik stanja opazovanega sistema. Označevalci so lahko klinični, povezani s simptomi ali s stanjem opazovanega sistema, ali pa biološki, kot na primer meritve izraženosti genov. Izraženost gena, kot potencialen biološki marker preživetja. Z visokozmogljivim sekvenciranjem lahko merimo stopnjo aktivnosti genov v bioloških vzorcih. Izmerjeni količini mRNA (angl. messenger RNA) v nekem biološkem vzorcu, ki je povezana z določenim genom, pravimo izraženost gena. Visokozmogljivo sekvenciranje omogoča določitev izraženosti vseh genov v preiskovanem organizmu, kar lahko omogoča boljše računsko napovedavanje uspešnosti zdravljenja oziroma izbire zdravljenja za posameznega pacienta [24]. Določitev mejne točke, ki predstavlja mejo med visoko in nizko izraženostjo gena ali bolj splošno, ki loči med visoko in nizko tveganimi skupinami, je lahko bistvenega pomena za njihovo uporabo pri kliničnem odločanju [25, 26]. Pri obravnavi potencialnih markerskih genov preživetja nas zanima, če je funkcija preživetja drugačna v skupini opazovancev, kjer je gen izražen, v primerjavi s skupino, kjer gen ni izražen. V splošnem, govorimo o določitvi praga izraženosti gena, ki dobro loči dve skupini glede na funkcijo preživetja [27]. Računski izzivi in ožanje nabora genov. Eksperimentalni vzorci so pri kliničnih študijah zaradi njihove kompleksnosti in zahtevanega finančnega vložka lahko precej majhni [28]. Poleg tega nas pri preučevanju kompleksnejših bolezni, kot je rak, zanima delovanje bioloških poti in procesov, ki jih.

(27) 2.4. ISKANJE PREŽIVETVENIH MARKERSKIH GENOV. 15. tvorijo različne skupine genov in ne zgolj posamezni geni. Genov, ki kodirajo proteine, je približno dvajset tisoč [29]. Witten in sod. [30] zato izpostavijo problem iskanja napovednih značilk v visoko dimenzionalnih podatkih. Ko je število spremenljivk mnogokrat večje od števila primerov običajni statistični pristopi analize preživetja ne zadostujejo več. Pri iskanju markerskih genov je v objavljenih delih zaznati mnogo različnih pristopov [31, 32, 33, 34]. Nabor možnih kandidatov zožijo tako, da v prvem koraku obdržijo zgolj statistično značilno diferencialno izražene gene, to je gene, ki dobro ločijo med izbranimi skupinami opazovancev, v drugem koraku pa dodatno zožijo nabor možnih kandidatov tako, da jih razvrstijo na podlagi njihove posamezne statistične pomembnosti pri analizi preživetja z uporabo Coxovega modela (podrobneje predstavimo v poglavju 3.1).. Preiskovanje genskih skupin in ocena tveganja. Nekaj za potek bolezni najbolj značilnih genov lahko uporabimo pri preiskovanju različnih genskih skupin, ki vplivajo na preživetje. Običajna praksa izračunati oceno tveganja (angl. risk score) iz uteži naučenega modela in profila izraženosti preiskovanih genov (podrobneje v poglavju 3.2), na podlagi katere razvrstimo opazovance v visoko ali nizko rizične skupine [35]. Če je število genov, ki jih želimo preveriti malo, potem je mogoče izčrpno preveriti vse njihove možne kombinacije. Sicer pa se avtorji del, ki se ukvarjajo s prepoznavanjem novih markerskih genov, pogosto poslužujejo že znanih tehnik iz strojnega učenja, kot na primer izbiro spremenljivk s postopnim odvzemanjem ali dodajanjem [36]. Pri zapletenih boleznih, kot je rak, so učinki genomskih podatkov na preživetje opazovancev v splošnem nelinearni. Da bi taka razmerja med geni lahko odkrili, so se v zadnjem obdobju pojavili različni pristopi s tehnikami globokega učenja [37]. Za napovedovanje preživetja je bilo predlaganih več različnih modelov globokega učenja, ki vključujejo standardni Coxov model sorazmernega tveganja in pristope, kot so Cox-nnet [38], SurvivalNet [39], DeepSurv [40]..

(28) 16. POGLAVJE 2. PREGLED PODROČJA. Vključevanje podatkovnih baz. Navkljub naprednejšim tehnikam in porastu del, kjer predlagajo številne skupine genov, ki so lahko potencialni biološki markerji, zelo malo rezultatov vodi do dejanske klinične rabe [41]. Shimoni in sod. [42] izpostavijo problem robustnosti napovednih genskih skupin. Izkaže se, da je lahko pri podobnih analizah istega tipa raka, vendar med različnimi skupinami opazovancev, zelo malo sovpadanja med najdenimi potencialnimi genskimi markerji. Med drugim izpostavijo dela, ki so pokazala, da je lahko pri analizi istih podatkov najdenih več različnih a enako dobrih prognostičnih genskih skupin, kar opazimo tudi sami med vrednotenjem implementiranih metod v poglavju 4. To posledično znižuje pomembnost posameznih genov, ker jih lahko nadomestimo z mnogimi drugimi geni brez izgube prognostične moči modela. Slednje poudari potrebo po prepoznavanju genov, ki niso le napovedni ampak so tudi tesno povezani z biološkimi procesi, ki na primer sodelujejo pri napredovanju bolezni. Razne genske anotacije in znanje o genih, ki sodelujejo v molekularnih poteh, bioloških procesih in o njihovih odzivih na različna zdravila so shranjena v podatkovnih bazah, kot so GeneOntology [43], KEGG [44] in drugih. Omejevanje preiskovalnega prostora potencialnih markerskih genov z uporabo ekspertnega znanja [45] ali omenjenih virov informacij ter razlaga genskega nabora z obogatitveno analizo [46] je lahko ključnega pomena. Če so najdeni geni težko razložljivi, v literaturi premalo raziskani, ali pa za njih ne poznamo nobene biološke funkcije, so lahko kljub njihovi obetavnosti za klinično rabo v nadaljnjih obravnavah zavrženi..

(29) Poglavje 3 Iskanje bioloških markerjev s pristopi analize preživetja Podatki o izraženosti genov se pogosto uporabljajo v raziskavah, s katerimi skušamo opisati različne biološke sisteme ali razumeti bolezni, ki jih preiskujemo [47]. Pri običajnih klasifikacijskih problemih se podatke o izraženosti genov uspešno uporablja za razlikovanje med obolelimi in zdravimi tkivi [48] ali pa za razvrščanje oziroma odkrivanje novih skupin tumorjev [49]. V kliničnih študijah se podatki preživetja, to je podatki o času do pojavitve dogodka, pogosto poročajo skupaj s podatki izraženosti genov. Pri obravnavi kliničnih izzidov, kot na primer preživetje pacienta ali čas ponovitve bolezni, zaradi narave podatkov (2.2) ne gre za običajen klasifikacijski problem. Poleg samega dogodka, ki je lahko krnjen, nas zanima tudi pretečen čas od začetka spremljanja poteka zdravljenja. Ker imamo opravka z visokodimenzionalnimi podatki, kjer je potencialnih genskih markerjev na tisoče in njihovih kombinacij eksponencialno mnogo, je bolj kot izbira najboljšega modela pomembna izbira pravih spremenljivk, torej genov, ki jih vključimo v končni model. Izbor spremenljivk (angl. feature selection) je navadno prvi korak, ko imamo opravka z visokodimenzionalnimi podatki. Ker je v sklopu analize podatkov preživetja potrebno upoštevati podatek o krnjenju se dela pri izbiri 17.

(30) POGLAVJE 3. ISKANJE BIOLOŠKIH MARKERJEV S PRISTOPI ANALIZE PREŽIVETJA. 18. spremenljivk preživetja osredotočajo na uporabo Coxovega modela skupaj z različnimi tehnikami preiskovanja vseh možnih markerskih kombinacij (angl. greedy search) [50, 51]. Pri iskanju prognostičnih genskih skupin skušamo najti minimalen izbor genov, ki vplivajo na preživetje saj so kompleksni modeli lahko problematični pri preverjanju ustreznosti genov v nadaljnjih obravnavah ter pri razumevanju njihovega vpliva na preživetje [52].. 3.1. Iskanje markerskih genov. Najbolj neposreden in preprost način spopadanja z visokodimenzinalnimi podatki v analizi preživetja je pristop univariatne analize genov, kjer preučujemo vpliv posameznega gena na preživetje preiskovane populacije. To storimo tako, da za vsak gen naučimo model Coxovega sorazmernega tveganja in gene razvrstimo po vrednostih p, ki jih dobimo iz preizkusa z razmerjem verjetij (angl. likelihood ratio test). S preizkusom z razmerjem verjetij primerjamo razliko verjetja med okrnjenim modelom, to je z modelom, ki ne vključuje gena in modelom, ki vključuje gen, ki ga preiskujemo. Testno statistiko razmerja verjetij zapišemo kot: LR = −2 [L1 − L0 ] ∼ χ21. (3.1). kjer je L1 logaritem verjetja modela, ki vključuje gen in L0 logaritem verjetja okrnjenega modela. Postopek univariatne analize genov predstavimo z algoritmom 1. Saeys in sod. [53] izpostavijo, da so pri analizi podatkov izraženosti genov pristopi z univariatno izbiro spremenljivk precej razširjeni.. Metode. razvrščanja spremenljivk z univariatnimi pristopi so navadno računsko nezahtevne operacije ter dobljeni rezultati intuitivni in enostavni za razumevanje. Rezultati razvrščanja genov po njihovi statistični pomembnosti glede na preživetje lahko domenskim ekspertom pomaga pri razumevanju različnih bolezni in nudi pomoč pri odločanju, ko izbirajo gene za nadaljnje obravnave ter pri potrjevanju njihovih domnev. Vseeno pa je potrebno biti pozoren.

(31) 3.2. ISKANJE SKUPIN MARKERSKIH GENOV. 19. Algoritem 1 Razvrščanje genov z univariatno analizo 1: T ← seznam časov 2: E ← seznam dogodkov 3: X ← meritve izraženosti po posameznih genih 4: for each x ∈ X do 5:. cox ← cox.f it(x, T, E). 6:. p ← preizkus z razmerjem verjetij. 7: end for 8: return urejen seznam genov po vrednostih p. na nekatere neželene učinke. Ker pri izbiranju spremenljivk z univariatno analizo obravnavamo vsako spremenljivko zase, lahko s takimi pristopi zanemarimo možne interakcije spremenljivk. Med drugim, če so spremenljivke med sabo visoko korelirane, kot je to pogosto pri podatkih izraženosti genov, potem lahko to povzroča težave pri multivariatni analizi [30].. 3.2. Iskanje skupin markerskih genov. Preiskovanje različnih skupin markerskih genov je podobno temu, kar že počnemo pri univariatni analizi, le da tu želimo preveriti nekatere možne kombinacije markerskih genov. To lahko na primer dosežemo z gradnjo Coxovih modelov s postopnim odvzemanjem, kjer ob vsakem koraku obdržimo zgolj tiste gene, ki prispevajo k izboljšanju Coxovega modela glede na prejšnje korake. Postopek lahko enostavno opišemo s psevdokodo: Algoritem 2 Izbire genov preživetja s postopnim odvzemanjem 1: Mn ← model ki vsebuje vseh n genov 2: for k = n, n, . . . , 1 do 3:. K ← rezultat vseh coxovih modelov, ki vsebujejo k − 1 genov. 4:. Mk−1 ← najbolši izmed vseh modelov v K. 5: end for 6: Izberi najboljšega izmed M1 , . . . , Mn modelov.. S postopnim odvzemanjem spremenljivk želimo dodatno zožati nabor genov, ki jih preiskujemo. Pomanjkljivost takega pristopa je, da je odvisna.

(32) 20. POGLAVJE 3. ISKANJE BIOLOŠKIH MARKERJEV S PRISTOPI ANALIZE PREŽIVETJA. od velikosti začetnega nabora spremenljivk torej genov, ki so prišli skozi sito univariatne analize. Z večanjem števila začetnih genov povečujemo računsko zahtevnost in možnost pretiranega prilagajanja učnim podatkom. Zavedati se moramo, da nam tak pristop ne zagotavlja najboljše podmnožice genov. Med drugim izpostavimo tudi to, da je Coxov model linearen in z njim ne moremo modelirati zapletenejših genskih interakcij. Pri zapletenih boleznih, kot je rak, številne interakcije genov tvorijo biološke signale povezane z boleznijo. Pojavi se potreba po pristopih s katerimi bi lahko informirano, to je z vključevanjem biološkega in ekspertnega znanja, odkrivali nelinearne interakcije skupin genov, ki so pomembno povezani z boleznijo [54].. 3.2.1. Gradnja večgenskega prognostičnega modela. Najbolj pogost način opredeljevanja večgenskih prognostičnih modelov je na podlagi ocene tveganja (angl. risk score). Oceno tveganja preiskovancev dobimo iz vsote produkta regresijskih koeficientov in izraženosti genov. Oceno tveganja zapišemo kot:. RiskScore =. n X. exp(genei ) ∗ βi. (3.2). i=1. kjer je βi regresijski koeficient naučenega Coxovega modela in exp(genei ) količina izraženosti gena, ki mu pripada. Pričakujemo, da imajo opazovanci z visoko oceno tveganja manjši čas preživetja, kot tisti z nizko oceno tveganja. Običajna praksa je razvrstiti opazovance v visoko in nizko rizične skupine glede na izbran prag ocene tveganja. Mediana je najpogostejša meja za določanje praga, ni pa splošnega dogovora o pravilnosti pragovne izbire [35]. Povezavo med oceno tveganja in časom preživetja preverimo s primerjanjem krivulj preživetja med skupinami opazovancev, ki so bili razvrščeni v visoko ali nizko rizično skupino. Če so preživetveni časi med skupinama bistveno različni (kot je to navedeno v poglavju 2.2.1) pomeni, da smo dobili potencialno zanimiv nabor genov, ki vplivajo na preživetje preiskovane populacije..

(33) 3.2. ISKANJE SKUPIN MARKERSKIH GENOV. 21. Slednje je lahko zanimiva iztočnica za dodatno analizo profilov izraženosti genov, glede na rizične skupine opazovancev [55, 56, 57, 58, 59]..

(34)

(35) Poglavje 4 Vrednotenje Ker je eden izmed glavnih ciljev tega dela vpeljava metod analize preživetja v okolje za interaktivno analitiko smo želeli na konkretnih primerih preveriti delovanje in implementirati nekatere postopke odkrivanja markerskih genov preživetja v programskem okolju Python. V nadaljevanju na kratko predstavimo uporabljene podatke, potrebne korake predpriprave podatkov ter naše ugotovitve.. 4.1. Podatki in njihova predobdelava. Podatke izraženosti genov ter pripadajoče podatke preživetja smo pridobili s portala TCGA (angl. The Cancer Genome Atlas) [60]. Izbrali smo nekaj projektov, ki preiskujejo različne tipe najpogostejših bolezni raka, kot na primer primarni možganski tumor glioblastom (TCGA-GBM) [61], tumor na jetrih [62] (TCGA-LIHC) ter rak sečnega mehurja [63] (TCGA-BLCA) in želodca [64] (TCGA-STAD). Primer takih podatkov, brez predhodne obdelave, vidimo na sliki 4.1. Šum v podatkih, ki je povezan z načinom zbiranja, obdelavo vzorcev ter merjenjem izraženosti genov pri visokozmogljivem sekvenciranju, je lahko visok. Ustrezna predpriprava podatkov je nujno potreben korak pri analizi podatkov sekvenciranja.. 23.

(36) 24. POGLAVJE 4. VREDNOTENJE. Slika 4.1:. Primer podatkov izraženosti genov s pripadajočimi podatki. preživetja. Vsaka vrstica predstavlja posameznega opazovanca z unikatno identifikacijsko kodo. Stolpec preživetja (OS) in dogodka (OS event) sta podatka o času preživetju opazovanca od postavljene diagnoze do morebitne smrti. Sledijo število odčitkov (angl. read counts) posameznega gena po opravljeni analizi sekvenciranja celotnega transkriptoma (angl. RNA-seq).. Z normalizacijo skušamo omiliti dejavnike, ki lahko vplivajo na napake odčitkov posameznih genov in s tem preprečujejo neposredno primerjavo izraznih mer [65]. Ustrezna izbira postopkov normalizacije ima lahko velik vpliv na kasnejše analize podatkov izraženosti genov [66]. Uporabljene podatke smo predpripravili na sledeč način: 1. Pri nekaterih opazovancih imamo zapis vzorca tako bolanega kot tudi zdravega tkiva. V obravnavanih podatkih smo uporabili zgolj zapis bolnega tkiva. 2. Obdržali smo zgolj gene, pri katerih je vrednost zgornjega kvartila večja od 10. Na ta način smo odstranili veliko število nizko izraženih genov, to je tistih genov, ki nimajo izmerjenih odčitkov v večini od vzorcev. 3. Podatke izraženosti genov smo normalizirali po metodi TMM (angl. trimmed mean of M values) [67] ter obdržali zgolj tiste gene za katere poznamo njihova standardna imena..

(37) 4.2. NAČRT VREDNOTENJA. 4.2. 25. Načrt vrednotenja. Pri preučevanju in razlagi vpliva različnih genov na preživetje preiskovane populacije pri tako zapletenih boleznih, kot je rak, bi potrebovali dodatno ekspertno znanje. Zatorej smo se pri naši analizi osredotočili zgolj na preverjanje delovanja in smiselosti predlaganih metod v programskem okolju, ki bo omogočal enostavno vpeljavo v okolje za interaktivno analitiko. Nad zgoraj omenjenimi podatki smo opravili naslednje korake analize preživetja: 1. Začetni nabor genov smo razvrstili glede na njihov posamičen vpliv na preživetje preiskovane populacije, kot je opisano v poglavju 3.1. 2. Najboljših dvajset genov, glede na razvrstitev iz prejšnjega koraka, smo uporabili za izčrpno preiskovanje vseh možnih različnih kombinacij genov pri multivariatni analizi Coxovega modela. 3. Ponovili smo analizo dvajsetih najboljših genov iz drugega koraka, le da smo tu iskali izbor genov z analizo Coxovega modela s postopnim odvzemanjem, kot je opisano v poglavju 3.2. Zanimalo nas je, kako različna sta nabora genov obeh pristopov. 4. Potencialne skupine prognostičnih markerskih genov smo vrednotili z oceno tveganja (poglavje 3.2.1) in z oceno krivulje preživetja po metodi Kaplan-Meier.. 4.3. Ugotovitve in diskusija. Na sliki 4.2 predstavimo rezultate vrednotenja zgoraj opisanega postopka za podatke bolezni raka sečnega mehurja (TCGA-BLCA). V analizo je bilo vključenih 21.669 genov, to je genov, ki so zadoščali merilom postavljenih v sklopu primarne analize podatkov izraženosti, kot je to predstavljeno v poglavju 4.1. Slika 4.2.A prikazuje krivuljo preživetja celotne populacije na sliki 4.2.B pa lahko vidimo primerjavo krivulj glede na oceno tveganja po tem, ko izčrpno preiščemo vse možne kombinacije najboljših genov preživetja (glej.

(38) 26. POGLAVJE 4. VREDNOTENJE. prvi, drugi in četrti korak postopka opisanega v poglavju 4.2). Na sliki 4.2.C so izrisani vmesni koraki analize Coxovega modela s postopnim odvzemanjem genov. Na abscisni osi je število genov, ki so vključeni v model na ordinatni osi pa p vrednosti testa s preizkusom razmerja verjetij. Vrednotenje modela ocene tveganja dobljenega s postopnim odvzemanjem predstavimo na sliki 4.2.D. Najbolj obetavni model dosežemo s šestimi geni, ki so pri pristopu s postopnim odvzemanjem isti kot pri pristopu izčrpnega preiskovanja. Do takega zaključka smo prišli še pri podatkih TCGA-LIHC (slika A.2) in TCGA-STAD (slika A.3) medtem ko smo pri TCGA-GBM dobili precej različna nabora genov (slika A.1). Iz slike 4.2 lahko vidimo, da smo z dobljenim modelom ocene tveganja šestih genov opazovance razdelili v skupine z bistveno različnimi časi preživetja. Medijana preživetja visoko rizične skupine je 593 dni nizko rizične skupine pa 3.183 dni. Vendar pa na tej točki težko sklepamo o smiselnosti uporabljenih genov ter robustnosti modela ocene tveganja. Poleg same biološke interpretacije, kar močno presega obseg tega dela, je dober biološki marker potrebno ovrednotiti tudi na podatkih različnih študij, kar pa ni vedno enostavno narediti. Sposobnost napovedovanja tveganja preživetja pri novih bolnikih lahko vključuje številne dejavnike, kot so na primer različni protokoli študij, tehnologija pridobivanja vhodnih podatkov, obdelava zajetih vzorcev ter, kot smo že omenili predpriprava podatkov. Poleg omenjenih korakov primarne analize smo tekom vrednotenja zaznali tudi morebitne težave v načinu uporabe metod analize preživetja pri sekundarnih analizah podatkov izraženosti genov. Pri testiranju robustnosti razvrščanju genov z univariatno analizo Coxovega modela smo iz podatkov trikrat naključno izbrali vzorec. Vzorec je vsakič vseboval 70 % vseh opazovancev v študiji. V vsakem od vzorcev smo nato razvrstili gene z univariatno analizo ter primerjali množice 50 najbolje razvrščenih genov iz posameznega vzorca. Vennov diagram na sliki 4.3 razkrije, da je med razvrščenimi geni zelo malo prekrivanja. Med drugim smo pri izčrpnem preiskovanju najboljših kombinacij genov ugotovili, četudi.

(39) 4.3. UGOTOVITVE IN DISKUSIJA. 27. A. B. C. D. Slika 4.2:. A. Krivulja preživetja po metodi Kaplan-Meier.. Mediana. preživetja je 1.008 dni. B. Primerjava krivulj preživetja visoko in nizko rizične skupine po modelu ocene tveganja, ki smo ga dobili z izčrpnim preiskovanjem. C. Vmesni koraki Coxovega modela s postopnim odvzemanjem. Na abscisni osi je število uporabljenih genov na ordinatni osi pa vrednost p testa s preizkusom razmerja verjeti. D. Primerjava krivulj preživetja visoko in nizko rizične skupine po modelu ocene tveganja, ki smo ga dobili s postopnim odvzemanjem.. zmoremo preiskati celoten prostor imamo lahko težave pri vrednotenju razlik najboljših modelov. S takim pristopom je med najbolje razvrščenimi modeli težko pojasniti razlike v preživetju med visoko in nizko rizičnimi skupinami opazovancev. K temu ne pripomore niti ugotovitev, da so to modeli z zelo različnimi nabori uporabljenih genov. Zgornje ugotovitve in težave povezane z njimi so v opazovali že Venet in.

(40) 28. POGLAVJE 4. VREDNOTENJE. TCGA-BLCA-vzorec-1. TCGA-BLCA-vzorec-2. 50. 50. 2. 24. 38. 7. 17. 3. 23. TCGA-BLCA-vzorec-3 50. Slika 4.3: Vennov diagram prikazuje primerjavo 50 najbolje razvrščenih genov preživetja, ki so bili rangirani z univariatno analizo v treh okrnjenih vzorcih podatkov TCGA-BLCA. Vsak izmed vzorcev vsebuje 70 odstotkov vseh opazovancev v študiji.. sod. [68]. Poročali so o tem, da je večina naključno izbranih skupin izraženih genov pomembno povezanih z izidom preživetja raka na dojkah. Shimoni in sod. [42] pokažejo, da je ta isti pojav prisoten pri večini od podatkov izraženosti genov v podatkovni zbirki TCGA. Izpostavijo, da so te ugotovitve lahko problematične pri odkrivanju vzročnih genov, ki vplivajo na napredovanje bolezni z uporabo omenjenih podatkovnih virov in da to lahko pojasni težave pri ponovljivosti rezultatov pri delih, ki se ukvarjajo s prepoznavanjem napovednih markerskih genov. Manjang in sod. [5] dodatno potrdijo domneve zgoraj omenjenih del. V svojem delu poročajo o tem, da v številnih objavljeni delih profili izraženost markerskih genov nimajo smiselne biološke razlage v povezavi s preživet-.

(41) 4.3. UGOTOVITVE IN DISKUSIJA. 29. jem opazovane populacije pri bolezni raka dojk. Preverili so 48 objavljenih skupin markerski genov in ugotovili, da je lahko najti genske skupine, ki pripadajo različnim biološkim procesom s katerimi lahko dosežemo enako dobre rezultate. Posledica tega je, da lahko skoraj vsako skupino genov (naključno ali ne) uporabimo za gradnjo prognostičnih Coxovih modelov. Zaradi slednjih ugotovitev v našem delu nismo posvečali pretirane pozornosti pristopom globokega učenja. Z uporabo modelov globokega učenja ter drugih nelinearnih pristopov, ki so bili prilagojeni za delo s preživetvenimi podatki, dodamo nivo kompleksnosti pri gradnji in razlagi prognostičnih modelov s katerimi ne zagotavljamo povečanje točnosti in njihove biološke interpretacije [69]. Vse to pa ne znižuje pomena del, ki uporabljajo omenjene metode ter podatkovne vire temveč postavlja pod vprašaj biološko razlago genskih markerjev in ne njihove primernosti za klinično rabo. Prognostični marker je lahko dober, tudi z njim ne dobimo zanimivega biološkega vpogleda v mehanizem napredovanja bolezni. Omenjene težave in visoko dimenzionalnost prostora podatkov izraženosti genov, kjer je to mogoče, največkrat rešujemo z dodatnim ekspertnim znanjem. Ko zožamo nabor na gene, za katere poznamo biološke procese v katerih sodelujejo, lahko pristope analize preživetja uporabimo za preverjanje domnev o tem ali kateri izmed preiskovanih genov bistveno vpliva na preživetje opazovane populacije (slika 5.8). Iskanje najmanjših možnih podskupin genov, ki jih lahko uporabimo pri napovedovanju učinkovitosti zdravljenja je tudi bistvenega pomena za razne regulatorne agencije pri njihovem potrjevanju za dejansko klinično rabo..

(42)

(43) Poglavje 5 Implementacija v okolju za vizualno analitiko Za analizo podatkov preživetja imamo na voljo nekaj dobrih programskih knjižnic v jezikih R [70] in Python [71], vendar so to nepovezani gradniki, ki za uporabo zahtevajo napredno programersko znanje. Obstoji možnost uporabe naprednih statističnih programov, kot sta SPSS [72] in SAS [73], ki pa sta plačljiva za uporabo. Zheng in sod. [74] so pregledali kar 22 spletnih orodij s katerimi lahko uporabnik oceni prognostičnost preiskovanih genov na več različnih tipih bolezni raka s pomočjo javno dostopnih podatkov, kot je to na primer baza podatkov TCGA. Spletna orodja, kot to omenijo tudi v delu, imajo nekaj pomembnih pomanjkljivosti: • V času pisanja do treh spletnih naslovov ni bilo mogoče dostopati, dva portala zaradi izgube podatkov ne delujeta več, enemu so napovedali prekinitev podpore in do dveh ni mogoče dostopati brez registracije. • Orodja omogočajo opravljati analizo nad vnaprej pripravljenimi podatki in uporabnikom ne omogočajo uvoza lastnih podatkov. Avtorji omenjenega dela so med različnimi orodji opazili znatne razlike v rezultatih, kar nakazuje na razlike v načinu zbiranja in uporabi javnih podatkov. 31.

(44) POGLAVJE 5. IMPLEMENTACIJA V OKOLJU ZA VIZUALNO ANALITIKO. 32. • Spletna orodja se v grobem osredotočajo zgolj na uporabo metod analize preživetja. Uporaba različnih statističnih orodij, obogatitvene analize in metod strojnega učenja za analizo genomskih podatkov uporabnikom niso omogočena. • Spletna orodja pogosto ne predstavljajo primernega okolja za analizo različnih skupin genov ter preverjanju domnev, ki so lahko zaupne narave.. 5.1. Gradniki okolja Orange. Končni uporabniki in domenski strokovnjaki potrebujejo orodja za komunikacijo in raziskovanje podatkov ter predvsem intuitivna orodja s prilagodljivimi in interaktivnimi vmesniki. Program za vizualno podatkovno analitiko Orange [6, 75] se ponaša s preprostim grafičnim vmesnikom s katerim lahko združujemo gradnike različnih analiz in vizualizacij v kompleksnejše analitične procese [76]. Ker Orange že vključuje nekatere gradnike s področja funkcijske genomike1,2 , lahko uporabnik pri analizi podatkov visokozmogljivega sekcenciranja združi znane tehnike podatkovne analitike, analize funkcijske genomike ter analize preživetja. Slednje smo implementirali v sklopu magistrskega dela. Gradnike analize preživetja smo implementirali kot razširitev za program Orange. Izvorna koda, skupaj z navodili namestitve, je objavljena na portalu Github3 . Poleg dveh najbolj pogostih metod analize preživetja, ki sta cenilka Kaplan-Meier (slika 5.1) in Coxov model sorazmernega tveganja (slika 5.2), razširitev vključuje še gradnika za razvrščanje značilk preživetja (slika 5.3) ter uporabo analize Coxovega modela s postopnim odvzemanjem spremenljivk (slika 5.4). Pričakovana oblika vhodnih podatkov je enaka pri vseh gradnikih: podatki preživetja morajo slediti obliki predstavljeni v tabeli 2.2. 1. https://github.com/biolab/orange3-bioinformatics https://github.com/biolab/orange3-single-cell 3 https://github.com/biolab/orange3-survival-analysis 2.

(45) 5.1. GRADNIKI OKOLJA ORANGE. 33. Gradnik Kaplan-Meier. Gradnik združuje postopek ocenjevanja krivulje preživetja po istoimenski metodi ter interaktivno vizualizacijo pripadajočih krivulj preživetja opazovane populacije. Med drugim omogoča uporabniku izbiro nekaterih parametrov ter prikaz statistik povezanih s prikazom krivulj preživetja:. Slika 5.1: Zaslonska slika gradnika Kaplan-Meier, ki uporabniku omogoča interaktiven vpogled v preživetje opazovane populacije. Uporabnik lahko iz vhodnih podatkov izbira različne klinične izide ali skupine v katere so razvrščeni preiskovanci ter spremlja relevantne podatke, kot sta mediana preživetja ter rezultat testa log-rank.. 1 Izbira ustreznih preživetvenih spremenljivk iz vhodnih podatkov. Potrebna je izbira spremenljivk, ki določata preživetveni čas ter pričakovan dogodek. Izbira skupine v katere so razdeljeni opazovanci je opcijska. Če skupine ni se izriše krivulja preživetja celotne opazovane populacije. 2 Možnosti prikaza dodatnih komponent. Vizualizacija podpira možnost prikaza intervalov zaupanja, indikator krnjenih dogodkov in grafični prikaz mediane preživetja izrisanih krivulj. 3 Legenda. S prikazom dodatnih statistik v legendi lahko vidimo skupno število opazovancev N, število dogodkov n in mediano preživetja po po-.

(46) POGLAVJE 5. IMPLEMENTACIJA V OKOLJU ZA VIZUALNO ANALITIKO. 34. sameznih skupinah opazovancev. Če prikazujemo več različnih skupin se izpiše tudi vrednost p, ki jo dobimo s testom log-rank, kot je določeno z enačbo 2.5. 4 Možnost izbire opazovancev na krivulji preživetja. Gradnik dopušča možnost izbire opazovancev, ki so prispevali k oceni krivulje na določenem časovnem intervalu. Gradnik Cox Regression. Gradnik omogoča enostavno uporabo Coxovega model sorazmernega tveganja z možnostjo uporabe regularizacij, kot je določeno z enačbami 2.9, 2.10 in 2.11. Pri izgradnji grafičnega vmesnika smo posnemali izgled in delovanje gradnika za linearno regresijo, ki je že vključen v standardni paket programa Orange. Vhodni podatki so pri tem gradniku opcijski, na izhodu pa uporabniku ponudi:. Slika 5.2: Zaslonska slika gradnika Cox Regression, ki uporabniku omogoča gradnjo Coxovega regresisjkega modela z možnostjo uporabe regularizacijskih členov.. Podatki skupaj s pripadajočo oceno tveganja. Izhodnim podatkom je dodana ocena tveganja, kot je to določeno z enačbo 3.2 in diskretna.

(47) 5.1. GRADNIKI OKOLJA ORANGE. 35. spremenljivka, ki loči opazovance v visoko ali nizko rizično skupino na podlagi srednje vrednosti ocene tveganja. Regresijski koeficienti. Izhodni podatki vsebujejo ime spremenljivke in pripadajoč koeficient naučenega modela. Učni algoritem. Uporabnik lahko uporabi učni algoritem to je, s parametri določen postopek učenja, ki ga lahko podamo gradniku, ki bo izvajal učenje modela. Gradnik Rank Survival Features. Gradnik nad vhodnimi podatki opravi univariatno analizo spremenljivk, kot je zapisano v poglavju 3.1 in jih razvrsti glede na vrednost p, ki jo dobimo iz preizkusa z razmerjem verjetij. Uporabnik lahko nato ročno izbira med razvrščenimi spremenljivkami ter s tem na izhodnih podatkih zoža nabor zanimivih spremenljivk to je tistih spremenljivk, ki posamično najbolj vplivajo na preživetje preiskovane populacije.. Slika 5.3: Zaslonska slika gradnika Rank Survival Features, ki glede na posamično pomembnost razvrsti spremenljivke preživetja ter uporabniku prikaže potrebno statistiko za pomoč pri izbiri spremenljivk.. Gradnik Stepwise Cox Regression. Gradnik omogoča uporabniku gradnjo Coxovega modela s postopnim odvzemanjem vhodnih spremenljivk. Po-.

(48) 36. POGLAVJE 5. IMPLEMENTACIJA V OKOLJU ZA VIZUALNO ANALITIKO. leg pričakovanih podatkov gradnik na vhodu sprejme učni algoritem, ki ga ustvarimo s pomočjo gradnika Cox Regression. Uporabnik lahko navpično prekinjeno črto poljubno premika po x osi ter s tem izbira izhodne podatke, ki imajo pripadajočo oceno tveganja tako, kot je to predstavljeno pri opisu gradnika Cox Regression.. Slika 5.4: Zaslonska slika gradnika Stepwise Cox Regression, ki uporabniku omogoča gradnjo Coxovega modela s postopnim odvzemanjem spremenljivk. Prikazana vizualizacija izrisuje vmesne korake postopka tako, da na abscisni osi izriše število uporabljenih spremenljivk na ordinatni osi pa vrednosti p testa s preizkusom razmerja verjetij. Navpična prekinjena črta privzeto izbere najboljši model, ki smo ga našli na ta način in omogoča uporabniku interaktivno premikanje po ostalih naučenih modelih.. 5.2. Primeri uporabe. Na sliki 5.8 prikažemo primer uporabe novih gradnikov za analizo preživetja s katerimi lahko uporabnik enostavno, brez programerskega znanja, ponovi postopke, ki so predstavljeni v prejšnjem poglavju (4.2). Nad vhodnimi podatki TCGA-BLCA smo izvedli univariatno analizo genov. Dvajset najbolje razvrščenih genov smo nato poslali na vhod gradnika, ki z učenjem Coxovega modela s postopnim odvzemanjem dodatno zoža nabor uporabljenih.

(49) 5.2. PRIMERI UPORABE. 37. genov. Tako dobljen nabor genov nato preverimo v gradniku Kaplan-Meier, kjer preverimo razliko v preživetju visoko in nizko rizične skupine, ki smo jih dobili na podlagi ocene tveganja. Vsaka uporabnikova sprememba se odraža v naslednjem povezanem gradniku, kar uporabniku omogoča interaktivno preiskovanje vhodnih preživetvenih podatkov z uporabo metod analize preživetja. Gradniki analize preživetja skupaj z gradniki za bioinformatiko lahko uporabniku, kot je to razvidno na sliki 5.6, ponudijo orodje za hitro preverjanje potencialnih bioloških markerjev, ki so povezani z različnimi kliničnimi izidi. Na primer, številne študije, so že preučevale različne populacije T-celic. To so celice, ki so vključene v celični imunski odziv. Zanimal jih je vpliv, ki jih imajo na različne klinične izide pri nekaterih bolezni raka [77, 78, 79]. Dodatek za bioinformatiko vključuje nekatere podatkovne zbirke celičnih markerjev, kot je to CellMarker [80], ki jih lahko uporabnik izkoristi pri analizi preživetvenih podatkov, ki jih raziskuje. Na zgornjem primeru smo iz celotnega nabora vhodnih genov izbrali zgolj T-celice CD8+ in opravili multivariatno analizo Coxovega modela, da bi preverili morebitno povezavo s splošnim preživetjem opazovancev iz študije TCGA-GBM. Ko smo že omenili je razumevanje bioloških procesov, ki so povezani z delovanjem genskih markerjev preživetja lahko ključnega pomena pri potrjevanju njihove ustreznosti za klinično rabo. Kot lahko vidimo na sliki 5.7, novi gradniki analize preživetja skupaj z nekaterimi gradniki dodatka za bioinformatiko uporabnikom, ki raziskujejo potencialne genske markerje ponujajo enostaven način vključevanja zunanjih podatkovnih baz pri preučevanju preživetvenih podatkov, ki jih raziskujejo. V spodaj predstavljenem postopku smo z uporabo preživetvenih podatkov iz študije TCGA-BLCA najprej razvrstili gene z univariatno analizo ter nad 500 najbolje razvrščenimi kandidati opravili obogatitveno analizo bioloških poti. Biološke poti, kjer sodelujejo potencialni genski markerji preživetja so domenskim ekspertom lahko v pomoč pri preiskovanju bioloških procesov povezanih z napredovanjem bolezni in dodatni analizi literature izbranih bioloških poti..

(50) 38. POGLAVJE 5. IMPLEMENTACIJA V OKOLJU ZA VIZUALNO ANALITIKO. Slika 5.5: Delokrog se začne z branjem podatkov TCGA-BLCA nakar jih preusmerimo v gradnik Genes, ki prepozna gene iz vhodnih podatkov. V nadaljnjih korakih delokroga z gradnikoma Rank Survival Features in Stepwise Cox Regression zožamo nabor začetnih genov. Prognostični model ocene tveganja šestih genov nato prikažemo v gradniku Kaplan-Meier kjer opazujemo krivulje preživetja visoko in nizko rizične skupine opazovancev..

(51) 5.2. PRIMERI UPORABE. 39. Slika 5.6: Delokrog začnemo z branjem podatkov TCGA-GBM, ki jih preusmerimo v gradnik Genes za lažje delo z geni. Iz vhodnih podatkov s pomočjo gradnikov Marker Genes in Gene Sets izberemo zgolj markerske gene T-celic CD8+. Najbolj obetaven podizbor genov po metodi postopnega odvzemanja nato preusmerimo v gradnik Genes, kjer lahko gledamo kateri geni so prisotni v modelu ter v gradnik Kaplan-Meier s katerim prikažemo krivulje preživetja visoko in nizko rizične skupine, ki smo jih dobili po modelu ocene tveganja.. V okviru magistrske naloge smo sodelovali tudi s podjetjem Genialis, ki je specializirano za podatkovno znanost na področju k posamezniku usmerjene medicine (angl. precision medicine). Genialis potrebuje orodja in vizualizacije za pospešitev njihovih analiz na področju raziskav bioloških markerjev s katerimi bi izboljšali komunikacijo rezultatov s strankami in regulatornimi agencijami. Na sliki 5.8 je predstavljen primer, kjer preiskujejo podatke pacientov želodčnega raka, ki so dobili zdravilo Ramucirumab [81]. Zdravilo deluje kot zaviralec procesa angiogeneze in s tem preprečuje nadaljnjo rast tumorja. Ker je za pacientovo preživetje pomembno, da dobi najboljše možno.

(52) 40. POGLAVJE 5. IMPLEMENTACIJA V OKOLJU ZA VIZUALNO ANALITIKO. Slika 5.7: V prikazanem delokrogu podatke TCGA-BLCA preusmerimo v gradnik Genes s katerim prepoznamo gene iz vhodnih podatkov. Celoten nabor genov preusmerimo v gradnik Rank Survival Features. Nato 500 najbolje razvrščenih genov preusmerimo v gradnik Gene Set Enrichment s katerim opravimo obogatitveno analizo bioloških poti. zdravljenje je področje usmerjene medicine v zadnjem obdobju dobilo precej pozornosti [82]. Podjetjem, kot je Genialis, je bistvenega pomena odkriti biološke markerje s katerimi bi lahko uspešno napovedovali pacientov odziv na različna zdravljenja bolezni, kot je rak. V omenjenih podatkih, je ena izmed metrik uspešnosti delovanja zdravila mera spremembe v masi tumorja: PD. Rast tumorja pomeni, da je bolezen napredovala (angl. progressive disease), PR. Viden upad rasti tumorja nakazuje na pacientov delni odziv na zdravljenje (angl. partial remission or response), SD. Potek bolezni ostaja nespremenjen (angl. stable disease). V podjetju Genialis snovalce prognostičnih modelov s katerimi skušajo napovedovati pacientov odziv na zdravljenje poleg običajnih pristopov stroj-.

(53) 5.2. PRIMERI UPORABE. 41. nega učenja zanima tudi vidik uporabe preživetvenih podatkov ter z njimi povezane metode analize preživetja. Na sliki 5.8 lahko vidimo potek analize, kjer želimo preveriti ali lahko z naborom genov, ki sodelujejo pri procesu angiogeneze [83] odkrijemo morebitne markerske gene, ki bi dobro napovedovali preživetje pacientov. Podatek o preživetju je v tem primeru (slika 5.8) izmerjen kot čas preživetja brez napredovanja bolezni (angl. progression-free survival). Raziskovalci pri podjetju Genialis lahko analizo preživetvenih podatkov v celoti opravijo v interaktivnem okolju programa Orange. Spodaj predstavljen postopek (slika 5.8) preučuje skupino genov povezanih s procesom angiogeneze z že večkrat omenjenim postopkom uporabe metod analize preživetja. Zanimivo je to, da smo z delitvijo pacientov na visoko in nizko rizično skupino na podlagi ocene tveganja uspeli razvrstiti vse paciente, pri katerih je bolezen napredovala v visoko rizično skupino. Podizbor uporabljenih genov ter njihov profil izraženosti je tako lahko nova smer raziskovanja za boljše razumevanje bioloških procesov v katerih sodelujejo geni ali pa kot potrjevanje domnev, ki smo jih dobili pri gradnji napovednih modelov z uporabo običajnih pristopov strojnega učenja..

(54) 42. POGLAVJE 5. IMPLEMENTACIJA V OKOLJU ZA VIZUALNO ANALITIKO. Slika 5.8: V zgornji veji delokroga prek gradnika Genialis Expressions uvozimo podatke, ki so predpripravljeni za delo v okolju Orange. Iz vhodnih podatkov s pomočjo gradnika Gene Sets, izberemo zgolj tiste gene, ki smo jih uvozili na spodnji veji delokroga. V nadaljnjih korakih delokroga z gradnikoma Rank Survival Features in Stepwise Cox Regression dodatno zožamo nabor začetnih genov. Nabolj obetaven podizbor genov po metodi postopnega odvzemanja nato preusmerimo v gradnik Genes, kjer opazujemo gene, ki so prisotni v modelu ter v gradnik Kaplan-Meier s katerim prikažemo krivulje preživetja visoko in nizko rizične skupine, ki smo jih dobili po modelu ocene tveganja. Da preverimo kako so pacienti razporejeni v visoko in nizko rizično skupino, glede na spremenljivko, ki opisuje spremembe tumorja, si pomagamo z gradnikom Box Plot..

(55) Poglavje 6 Zaključek V magistrskem delu smo podrobno preučili vlogo metod s področja analize preživetja pri vrednotenju potencialnih prognostičnih markerskh genov. Kot glavni cilj smo si zadali vpeljavo omenjenih metod v okolje za interaktivno analitiko. Orodja, kjer bi lahko uporabnik brez programerskega znanja uporabljal različne metode analize preživetja, funkcijske genomike ter standardnih pristopov strojnega učenja, v času pisanja pričujočega dela nismo zasledili. Menimo, da lahko taka orodja skupaj z interaktivnimi vizualizacijami bistveno pripomorejo k pohitritvi odkrivanja in vrednotenja bioloških markerjev pri tovrstnih raziskavah ker izboljšajo komunikacijo med podatkovnimi znanstveniki in domenskimi eksperti. Zastavljen cilj smo uresničili z vpeljavo izbranih metod analize preživetja v odprtokodno programsko orodje za podatkovno analitiko Orange. Uspešnost predlaganih metod smo vrednotili na eksperimentalnih primerih in v sodelovanju s podjetjem Genialis ter njihovo razvojno ekipo iz Ljubljane. Pokazali smo, da so metode analize preživetja pri sekundarnih analizah podatkov izraženosti genov lahko bistvenega pomena pri odkrivanju in potrjevanju morebitnih markerskih genov, ki korelirajo s preživetjem opazovane populacije. Kot največjo težavo izpostavimo visoko dimenzionalnost podatkov izraženosti genov. Zato je predvsem pomembna ustrezna izbira genov, ki jih vključimo v prognostični model preživetja. Med vredno43.

(56) 44. POGLAVJE 6. ZAKLJUČEK. tenjem predlaganih metod smo opazili težave pri zagotavljanju robustnosti tovrstnih bioloških markerjev. Za zagotavljanje robustnosti je potrebno biti pozoren tako pri primarnih kot tudi sekundarnih analizah genomskih podatkov. Težava pri vrednotenju različnih bioloških markerjev pridobljenih iz različnih študij je med drugim tudi zagotavljanje dostopnosti podatkov opravljenih študij, ki ji lahko razvijalci uporabijo za razvoj in potrjevanje ustreznosti metod. Na tem mestu izpostavimo pomen projektov, kot je TCGA1 ter sodelovanje s podjetji, ki imajo dostop do takih podatkov. Dodatno delo bi bilo potrebno posvetiti informiranemu preiskovanju potencialnih bioloških markerjev. Dela, ki so se ukvarjala z združevanjem podatkov ter znanjem o molekularnih poteh, bioloških procesih ali pa o odzivih na znana zdravila so že pokazala zanimive rezultate v bioinformatičnih analizah [84, 85, 86], vendar so njihove uporabe na področju odkrivanja bioloških markerskih genov preživetja premalo raziskana.. 1. https://portal.gdc.cancer.gov/.

(57) Dodatek A Rezultati vrednotenja V dodatku prikažemo rezultate vrednotenja, ki ga podrobno opišemo v poglavju 4.2, še za podatke TCGA-GBM (slika A.1), TCGA-LIHC (slika A.2) ter TCGA-STAD (slika A.3). Na slikah je prikažemo krivuljo preživetja celotne populacije, vmesne korake gradnje Coxovega modela s postopnim odvzemanjem ter krivulje preživetja visoko in nizko rizičnih skupin, ki smo jih dobili z izčrpnim preiskovanjem in postopnim odvzemanjem.. 45.

(58) 46. DODATEK A. REZULTATI VREDNOTENJA. A. B. C. D. Slika A.1: Rezultati vrednotenja podatkov preživetja TCGA-GBM. A. Krivulja preživetja po metodi Kaplan-meier. Mediana preživetja je 405 dni. B. Primerjava krivulj preživetja visoko in nizko rizične skupine po modelu ocene tveganja, ki smo ga dobili z izčrpnim preiskovanjem. C. Vmesni koraki Coxovega modela s postopnim odvzemanjem. Na abscisni osi je število uporabljenih genov na ordinatni osi pa vrednost p testa s preizkusom razmerja verjetij. D. Primerjava krivulj preživetja visoko in nizko rizične skupine po modelu ocene tveganja, ki smo ga dobili s postopnim odvzemanjem..

(59) 47. A. B. C. D. Slika A.2: Rezultati vrednotenja podatkov preživetja TCGA-LIHC. A. Krivulja preživetja po metodi Kaplan-meier. Mediana preživetja je 1694 dni. B. Primerjava krivulj preživetja visoko in nizko rizične skupine po modelu ocene tveganja, ki smo ga dobili z izčrpnim preiskovanjem. C. Vmesni koraki Coxovega modela s postopnim odvzemanjem. Na abscisni osi je število uporabljenih genov na ordinatni osi pa vrednost p testa s preizkusom razmerja verjetij. D. Primerjava krivulj preživetja visoko in nizko rizične skupine po modelu ocene tveganja, ki smo ga dobili s postopnim odvzemanjem..

(60) 48. DODATEK A. REZULTATI VREDNOTENJA. A. B. C. D. Slika A.3: Rezultati vrednotenja podatkov preživetja TCGA-STAD. A. Krivulja preživetja po metodi Kaplan-meier. Mediana preživetja je 874 dni. B. Primerjava krivulj preživetja visoko in nizko rizične skupine po modelu ocene tveganja, ki smo ga dobili z izčrpnim preiskovanjem. C. Vmesni koraki Coxovega modela s postopnim odvzemanjem. Na abscisni osi je število uporabljenih genov na ordinatni osi pa vrednost p testa s preizkusom razmerja verjetij. D. Primerjava krivulj preživetja visoko in nizko rizične skupine po modelu ocene tveganja, ki smo ga dobili s postopnim odvzemanjem..

(61) Literatura [1] S. F. Idris, S. S. Ahmad, M. A. Scott, G. S. Vassiliou, J. Hadfield, The role of high-throughput technologies in clinical cancer genomics, Expert Review of Molecular Diagnostics 13 (2) (2013) 167–181. [2] G. Lightbody, V. Haberland, F. Browne, L. Taggart, H. Zheng, E. Parkes, J. K. Blayney, Review of applications of high-throughput sequencing in personalized medicine: barriers and facilitators of future progress in research and clinical application, Briefings in Bioinformatics 20 (5) (2019) 1795–1811. [3] N. L. Henry, D. F. Hayes, Cancer biomarkers, Molecular Oncology 6 (2) (2012) 140–146. [4] W. P. Kuo, E.-Y. Kim, J. Trimarchi, T.-K. Jenssen, S. A. Vinterbo, L. Ohno-Machado, A primer on gene expression and microarrays for machine learning researchers, Journal of Biomedical Informatics 37 (4) (2004) 293–303. [5] K. Manjang, S. Tripathi, O. Yli-Harja, M. Dehmer, G. Glazko, F. Emmert-Streib, Prognostic gene expression signatures of breast cancer are lacking a sensible biological meaning, Scientific Reports 11 (1) (2021) 1–18. [6] J. Demšar, T. Curk, A. Erjavec, Č. Gorup, T. Hočevar, M. Milutinovič, M. Možina, M. Polajnar, M. Toplak, A. Starič, et al., Orange: data 49.

(62) 50. LITERATURA mining toolbox in Python, The Journal of Machine Learning Research 14 (1) (2013) 2349–2353.. [7] R. Singh, K. Mukhopadhyay, Survival analysis in clinical trials: Basics and must know areas, Perspectives in Clinical Research 2 (4) (2011) 145. [8] G. Ostrouchov, D. Maxwell, R. A. Ashraf, C. Engelmann, M. Shankar, J. H. Rogers, Gpu lifetimes on titan supercomputer: Survival analysis and reliability, in: SC20: International Conference for High Performance Computing, Networking, Storage and Analysis, IEEE, 2020, pp. 1–14. [9] N. Carroll, Explaining unemployment duration in australia, Economic Record 82 (258) (2006) 298–314. [10] M. Stepanova, L. Thomas, Survival analysis methods for personal loan data, Operations Research 50 (2) (2002) 277–289. [11] R. Pazdur, Endpoints for assessing drug activity in clinical trials, Oncologist 13 (2) (2008) 19. [12] K.-M. Leung, R. M. Elashoff, A. A. Afifi, Censoring issues in survival analysis, Annual Review of Public Health 18 (1) (1997) 83–104. [13] N. Dwivedi, S. Sachdeva, et al., Survival analysis: A brief note, Journal of Current Research in Scientific Medicine 2 (2) (2016) 73. [14] K. C. Cain, S. D. Harlow, R. J. Little, B. Nan, M. Yosef, J. R. Taffe, M. R. Elliott, Bias due to left truncation and left censoring in longitudinal studies of developmental and disease processes, American Journal of Epidemiology 173 (9) (2011) 1078–1084. [15] Z. Zhang, J. Sun, Interval censoring, Statistical Methods in Medical Research 19 (1) (2010) 53–70. [16] E. L. Kaplan, P. Meier, Nonparametric estimation from incomplete observations, Journal of the American statistical Association 53 (282) (1958) 457–481..

(63) LITERATURA. 51. [17] W. N. Dudley, R. Wickham, N. Coombs, An introduction to survival statistics: Kaplan-meier analysis, Journal of the Advanced Practitioner in Oncology 7 (1) (2016) 91. [18] J. T. Rich, J. G. Neely, R. C. Paniello, C. C. Voelker, B. Nussenbaum, E. W. Wang, A practical guide to understanding kaplan-meier curves, Otolaryngology—Head and Neck Surgery 143 (3) (2010) 331–336. [19] J. M. Bland, D. G. Altman, The logrank test, BMJ 328 (7447) (2004) 1073. [20] R. Peto, J. Peto, Asymptotically efficient rank invariant test procedures, Journal of the Royal Statistical Society: Series A (General) 135 (2) (1972) 185–198. [21] D. R. Cox, Regression models and life-tables, Journal of the Royal Statistical Society: Series B (Methodological) 34 (2) (1972) 187–202. [22] J. Fox, S. Weisberg, Cox proportional-hazards regression for survival data, An R and S-Plus Companion to Applied Regression 2002 (2002). [23] D. R. Cox, Partial likelihood, Biometrika 62 (2) (1975) 269–276. [24] L. J. Van’t Veer, H. Dai, M. J. Van De Vijver, Y. D. He, A. A. Hart, M. Mao, H. L. Peterse, K. Van Der Kooy, M. J. Marton, A. T. Witteveen, et al., Gene expression profiling predicts clinical outcome of breast cancer, Nature 415 (6871) (2002) 530–536. [25] M. Mazumdar, J. R. Glassman, Categorizing a prognostic variable: review of methods, code for easy implementation and applications to decision-making about cancer treatments, Statistics in Medicine 19 (1) (2000) 113–132. [26] J. Monforte, S. McPhail, Strategy for gene expression-based biomarker discovery, BioTechniques 38 (S4) (2005) S25–S29..

(64) 52. LITERATURA. [27] S. Y. Woo, S. Kim, Determination of cutoff values for biomarkers in clinical studies, Precision and Future Medicine 4 (1) (2020) 2–8. [28] L. Martin, M. Hutchens, C. Hawkins, A. Radnov, How much do clinical trials cost, Nature Reviews Drug Discovery 16 (6) (2017) 381–382. [29] A. Piovesan, F. Antonaros, L. Vitale, P. Strippoli, M. C. Pelleri, M. Caracausi, Human protein-coding genes and gene feature statistics in 2019, BMC Research Notes 12 (1) (2019) 1–5. [30] D. M. Witten, R. Tibshirani, Survival analysis with high-dimensional covariates, Statistical Methods in Medical Research 19 (1) (2010) 29– 51. [31] Z. Wang, G. Chen, Q. Wang, W. Lu, M. Xu, Identification and validation of a prognostic 9-genes expression signature for gastric cancer, Oncotarget 8 (43) (2017) 73826. [32] X. Liao, G. Zhu, R. Huang, C. Yang, X. Wang, K. Huang, T. Yu, C. Han, H. Su, T. Peng, Identification of potential prognostic microrna biomarkers for predicting survival in patients with hepatocellular carcinoma, Cancer Management and Research 10 (2018) 787. [33] Y.-Z. Zhang, L.-H. Zhang, Y. Gao, C.-H. Li, S.-Q. Jia, N. Liu, F. Cheng, D.-Y. Niu, W. C. Cho, J.-F. Ji, et al., Discovery and validation of prognostic markers in gastric cancer by genome-wide expression profiling, World Journal of Gastroenterology 17 (13) (2011) 1710. [34] Y.-W. Kim, D. Koul, S. H. Kim, A. K. Lucio-Eterovic, P. R. Freire, J. Yao, J. Wang, J. S. Almeida, K. Aldape, W. A. Yung, Identification of prognostic gene signatures of glioblastoma: a study based on tcga data analysis, Neuro-Oncology 15 (7) (2013) 829–839. [35] H.-C. Chen, R. L. Kodell, K. F. Cheng, J. J. Chen, Assessment of performance of survival prediction models for cancer prognosis, BMC Medical Research Methodology 12 (1) (2012) 1–11..

(65) LITERATURA. 53. [36] R. Kohavi, G. H. John, Wrappers for feature subset selection, Artificial Intelligence 97 (1-2) (1997) 273–324. [37] J. Hao, Y. Kim, T. Mallavarapu, J. H. Oh, M. Kang, Interpretable deep neural network for cancer survival analysis by integrating genomic and clinical data, BMC Medical Genomics 12 (10) (2019) 1–13. [38] T. Ching, X. Zhu, L. X. Garmire, Cox-nnet: an artificial neural network method for prognosis prediction of high-throughput omics data, PLOS Computational Biology 14 (4) (2018) e1006076. [39] S. Yousefi, F. Amrollahi, M. Amgad, C. Dong, J. E. Lewis, C. Song, D. A. Gutman, S. H. Halani, J. E. V. Vega, D. J. Brat, et al., Predicting clinical outcomes from large scale cancer genomic profiles with deep survival models, Scientific Reports 7 (1) (2017) 1–11. [40] J. L. Katzman, U. Shaham, A. Cloninger, J. Bates, T. Jiang, Y. Kluger, Deepsurv: personalized treatment recommender system using a cox proportional hazards deep neural network, BMC Medical Research Methodology 18 (1) (2018) 24. [41] H. B. Burke, Predicting clinical outcomes using molecular biomarkers, Biomarkers in Cancer 8 (2016) BIC–S33380. [42] Y. Shimoni, Association between expression of random gene sets and survival is evident in multiple cancer types and may be explained by sub-classification, PLOS Computational Biology 14 (2) (2018) e1006026. [43] M. Ashburner, C. A. Ball, J. A. Blake, D. Botstein, H. Butler, J. M. Cherry, A. P. Davis, K. Dolinski, S. S. Dwight, J. T. Eppig, et al., Gene ontology: tool for the unification of biology, Nature Genetics 25 (1) (2000) 25–29. [44] M. Kanehisa, S. Goto, Kegg: Kyoto encyclopedia of genes and genomes, Nucleic Acids Research 28 (1) (2000) 27–30..

Reference

POVEZANI DOKUMENTI

V skupini D, ki zajema zdravila za bolezni kože in podkožnega tkiva, zdravniki predpisujejo največ receptov z zdravili, ki vključuje kortikosteroide – dermatike (v letu 2012

Ezért olyan fontos, hogy elegendő rostokban gazdag élelmiszert és folyadékot fogyasszon, valamint hogy eleget mozogjon. Rostokban gazdagok a zöldségek, gyümölcsök,

Povpre č no število receptov otroku mlajšemu od 4 let je bilo nekoliko višje zaradi predpisovanja posameznih skupin zdravil – predvsem, glede na ostale starostne

29 let), in je v zadnjih letih kar 2,7-krat višja v primerjavi z Nizozemsko, ki je ena najvarnejših.. Med smrtnimi in težkimi zastrupitvami prevladujejo zastrupitve s

Najdete jih na tretji, manjši po- lici prehranske piramide. Izbirajte čim bolj pusta oziroma posneta živila iz te police. Gobe narežite na lističe, jih popražite na olju, dodajte

ne zmogljivosti v povezavi s sugestopedijo, razbremenjenost možganov, ki omogoča boljše učenje (alfa stanje), bistvene elemente sugestopedije, kot so sproščanje in

Analizirani so tudi končni preizkusi ob zaključku drugostopenjske srednje šole, in sicer vsi maturitetni naslovi iz slovenščine na slovenskih šolah v Italiji od leta 1969 4 do

Naraščajoča prisotnost otrok neslovenskih staršev v šoli s slovenskim učnim jezikom je izzvala veliko zanimanja tako v sredinah civilne družbe kot v lokalnih slovenskih