• Rezultati Niso Bili Najdeni

Univerza v Ljubljani

N/A
N/A
Protected

Academic year: 2022

Share "Univerza v Ljubljani"

Copied!
63
0
0

Celotno besedilo

(1)

Univerza v Ljubljani

Fakulteta za elektrotehniko, Fakulteta za družbene vede, Biotehniška fakulteta, Ekonomska fakulteta, Medicinska fakulteta, Fakulteta za

matematiko in fiziko, Fakulteta za računalništvo in informatiko

Neža Kregar

Začetni prikazi podatkov v analizi zgodovine dogodkov

Magistrsko delo

Magistrski študijski program druge stopnje Uporabna statistika

Mentor: prof. dr. Gaj Vidmar

Somentorica: asist. dr. Nina Ružić Gorenjec

(2)

(

(3)

Zahvala

Zahvaljujem se mentorju prof. dr. Gaj Vidmarju ter somentorici asist. dr. Nini Ružić Gorenjec za vse predano strokovno znanje, usmeritve in pomoč pri pripravi magistrskega dela. Boljših mentorjev si ne bi mogla zaželeti. Hkrati se zahvaljujem tudi vsem svojim bližnjim, ki so mi na tej poti potrpežljivo stali ob strani.

(4)

(prazna stran)

(5)

Povzetek

Analiza zgodovine dogodkov je sklop metod in testov, ki se uporabljajo, ko nas zanimajo dogodki, stanja, povezave med njimi in spremembe v času. Za podatke v analizi zgodovine dogodkov je značilno, da so sestavljeni iz popolnih in nepopolnih podatkov − dogodek se lahko posamezniku zgodi ali ne, lahko pa zgolj nimamo informacije o tem. Nepopolni podatki se imenujejo krnjeni podatki in jih iz analize ne smemo izpuščati, saj s tem postane ocena pristranska. Za obravnavo krnjenih podatkov so se razvili številni modeli in metode, prikazi tovrstnih podatkov pa se velikokrat zanemarjajo in se jih v analizo pogosto ne vključi. So namreč težavni tako zaradi pomanjkanja informacije kakor tudi številnih spremenljivk, zaradi česar je težko vse na pregleden način uvrstiti v dvorazsežen prikaz. Grafični prikazi nam lahko pomagajo pri odkrivanju napak v podatkih, ki so v analizi zgodovine dogodkov pogoste.

Napake so lahko naključne (napake pri prepisovanju podatkov, nemogoč vrstni red dogodkov) ali sistematične (npr. dodelitev enakih časov več dogodkom iste enote, neosveženi podatki). Podatke je potrebno pred analizo podrobno pregledati, da napake odpravimo in je zato analiza kakovostna in verodostojna.

V magistrskem delu smo pregledali obstoječe prikaze podatkov v analizi zgodovine dogodkov – krivuljo preživetja, kumulativno porazdelitveno funkcijo, kumulativno ogroženost, ogroženost, histogram za krnjene podatke, okvir z ročaji za krnjene podatke, dogodkovni diagram, Lexisov diagram in diagram v obliki svinčnika – ter ocenili njihovo ustreznost. Vse navedene diagrame (razen diagrama v obliki svinčnika) smo narisali tudi na primeru lastnih podatkov. Za risanje histograma za krnjene podatke ter okvirja z ročaji za krnjene podatke smo napisali lastni funkciji v programu R (kodi sta podani v prilogi).

Za risanje krivulje preživetja, kumulativne porazdelitvene funkcije, kumulativne ogroženosti, dogodkovnih diagramov ter Lexisovega diagrama smo uporabili obstoječe funkcije in knjižnice v programu R. Za odkrivanje napak v podatkih pred analizo smo ustvarili uporabniku prijazno interaktivno spletno aplikacijo, ki omogoča pregled vnešenih podatkov z dogodkovnimi diagrami, poleg tega pa izpostavi enote z napako v sosledju dogodkov ter enote z enakimi časi dogodkov. Enote z napako izpiše glede na njihovo identifikacijo, jih izpiše v tabeli ter grafično prikaže z dogodkovnim diagramom. Za izdelavo aplikacije smo uporabili knjižnico Shiny v programu R.

Izvirni doprinos magistrskega dela je hiter in enostaven prikaz podatkov iz analize zgodovine dogodkov, s čimer dobimo okviren vtis o podatkih in njihovi porazdelitvi. Poleg tega lahko v aplikaciji podatke pregledamo na ravni vsakega posameznika, poiščemo napake v podatkih ter jih posledično tudi odpravimo. S tem se bistveno skrajša čas urejanja in preoblikovanja podatkov pred analizo ter omogoči bolj kakovostno analizo brez napak v podatkih.

Ključne besede: analiza zgodovine dogodkov, analiza preživetja, prikazi podatkov, histogram za krnjene podatke, okvir z ročaji za krnjene podatke, dogodkovni diagram.

(6)

Abstract

Event history analysis is a range of methods and tests which are used when events, states, connections between them and time changes are of our interest. What is characteristic for data in the event history analysis is the complete and incomplete data structure – one event can or cannot occur to an individual, or the information about it remains unknown. The incomplete data are called censored data and they should not be left out of the analysis because by doing so, the estimates would become biased. Various models and methods have been developed for censored data, however, visualisation is often neglected or not even included in the analysis. Censored data visualisation is difficult due to the censored information as well as numerous variables, which makes it difficult to display everything in a two-dimensional graphics. Graphical displays can aid in data errors detection, which is a common phenomenon in the event history analysis. The errors can be random (copying data errors, impossible event sequences) or systematic (e.g., assigning the same time to multiple events, unrefreshed data).

The data must be examined in detail before carrying out the analysis in order to eliminate errors and obtain a high-quality and reliable analysis.

In this Master’s thesis, we have examined the existing data visualisations in event history analysis – survival curve, cumulative distribution function, cumulative hazard, hazard, censored data histogram, censored data boxplot, event charts, Lexis diagram and pencil diagram. We have assessed their adequacy and drawn them for our own data (with the exception of the pencil diagram). We have written our own functions in the R software for drawing the censored data histogram and the censored data boxplot (the code is in the appendix). For drawing survival curve, cumulative distribution function, cumulative hazard, event charts and Lexis diagrams, we have applied the existing functions and libraries in the R software. We have created a user-friendly interactive web-based application for detecting data error before carrying out the analysis, which enables an overview of the entered data using event charts and identifies units with errors in the sequence of events or identical event times.

The application lists the units with errors by their identification, displays them in a table and visualises them using the event chart. We have used the Shiny library in R for creating the application.

The original contribution of the Master’s thesis is a fast and simple visualisation of data from event history analysis, which gives us an overview about the data and their distribution. In addition, the application enables looking at each individual’s data, searching for errors and consequently also eliminating them. This markedly shortens the time for editing and transforming the data before the analysis, thus enabling a better analysis without data errors.

Key words: event history analysis, survival analysis, visualisation, censored data histogram, censored data boxplot, event charts.

(7)

Vsebina

1 UVOD ... 1

1.1 Analiza zgodovine dogodkov ... 1

1.2 Prikazi podatkov - vizualizacija ... 2

1.3 Zahteve in cilji magistrskega dela ... 4

2 PREGLED GRAFIČNIH PRIKAZOV V ANALIZI ZGODOVINE DOGODKOV ... 5

2.1 Krivulja preživetja, kumulativna porazdelitvena funkcija in funkcija ogroženosti ... 6

2.2 Histogram za krnjene podatke ... 9

2.3 Okvir z ročaji za krnjene podatke ... 11

2.4 Dogodkovni diagram ... 15

2.4.1 Dogodkovni diagrami kot orodje za iskanje napak ... 17

2.5 Lexisov diagram ... 18

2.6 Diagram v obliki svinčnika ... 21

2.7 Prikazi za primerjavo skupin – čas preživetja glede na opisno spremenljivko ... 24

2.8 Razsevni grafikon – čas preživetja glede na številsko spremenljivko ... 24

3 GRAFIČNI PRIKAZI NA LASTNIH PODATKIH ... 25

3.1 Odkrivanje napak v podatkih s pomočjo dogodkovnih diagramov ... 25

3.1.1 Funkcija za pripravo podatkov ... 25

3.1.2 Funkcija za večjo preglednost podatkov z razbitjem na več delov... 26

3.1.3 Funkcija za izris napačnih enot na podlagi matrike (ne)dovoljenih prehodov ... 26

3.1.4 Funkcija za izris enot z enakimi časi ... 27

3.1.5 Interaktivna spletna aplikacija ... 27

3.2 Uporabni grafični prikazi na primeru lastnih podatkov ... 31

3.2.1 Krivulja preživetja, kumulativna ogroženost in ogroženost ... 31

3.2.2 Histogram za krnjene podatke ... 33

3.2.3 Okvir z ročaji za krnjene podatke ... 34

3.2.4 Dogodkovni diagram ... 37

3.2.5 Lexisov diagram ... 43

4 ZAKLJUČEK ... 45

5 LITERATURA ... 46

6 PRILOGE ... 48

6.1 Koda za histogram za krnjene podatke ... 48

6.2 Koda za okvir z ročaji za krnjene podatke ... 51

6.3 Slovarček uporabljene terminologije ... 54

(8)

Seznam slik

Slika 1: Iskanje izraza "visualizing data" v orodju Google Books Ngram Viewer,

https://books.google.com/ngrams . ... 2

Slika 2: Primer krivulje preživetja za eno skupino z označenimi krnjenji (zgoraj levo), krivulje preživetja za dve skupini z označenimi krnjenji (zgoraj desno) ter dva primera prikazov kumulativne ogroženosti (spodaj levo in desno) [14, 3]. ... 8

Slika 3: Primer histograma za krnjene podatke: na levi histogram časov do okužbe HIV s pozitivnimi protitelesci (0->1), na desni histogram časov do prvih simptomov AIDS (1->2) [17]... 11

Slika 4: Primer okvirjev z ročaji, narisanih po štirih različnih metodah [16]. ... 14

Slika 5: Primer koledarskega, intervalnega in Goldmanovega dogodkovnega diagrama [19]. ... 16

Slika 6: Primer Lexisovega diagrama iz literature [10]. ... 18

Slika 7: Primer Lexisovih diagramov, ki vključujejo barve in simbole [24]. ... 19

Slika 8: Primer Lexisovega diagrama s spremenjenima osema [24]. ... 19

Slika 9: Primer diagrama v obliki svinčnika za poročen par, kjer zgornji dve stranici prikazujeta status zaposlitve (zgornja za žensko, srednja za moškega), spodnja stranica pa starost najmlajšega otroka v gospodinjstvu. [25]. ... 21

Slika 10: Primer dvorazsežnega Lexisovega diagrama v obliki svinčnika [25]. ... 22

Slika 11: Primer trirazsežnega Lexisovega diagrama v obliki svinčnika [13]. ... 23

Slika 12: Primer razsevnih grafikonov [9]. ... 24

Slika 13: Stran v aplikaciji za uvoz podatkov v aplikacijo. ... 28

Slika 14: Stran v aplikaciji za definiranje dogodkov ter preoblikovanje podatkov. ... 28

Slika 15: Stran za pregled podatkov v aplikaciji. ... 29

Slika 16: Stran v aplikaciji za pregled enot z določenim sosledjem dogodkov. ... 30

Slika 17: Stran v aplikaciji za pregled enot z enakimi časi dogodkov. ... 30

Slika 18: Krivulja preživetja (levo) in kumulativna ogroženost (desno) za lastne podatke. ... 31

Slika 19: Ogroženost glede na različno izbrane širine intervalov. ... 32

Slika 20: Histograma za čas do smrti. Na levi je izbrano število intervalov 15, na desni je izbrano število intervalov 10, dodane so še teoretične porazdelitve. ... 34

Slika 21: Simbolični prikaz različnih metod za risanje okvirja z ročaji, meje ročajev so meje za osamelce, križci označujejo najmanjšo in največjo opaženo vrednost na lastnih podatkih. ... 35

Slika 22: Posamični okvirji z ročaji za čas do smrti po štirih različnih metodah (lastni podatki), narisano s funkcijo f.boxplot. ... 36

Slika 23: Legenda simbolov v prikazanih dogodkovnih diagramih (lastni podatki). ... 37

Slika 24: Koledarski dogodkovni diagram za lastne podatke. ... 38

Slika 25: Intervalni dogodkovni diagram za lastne podatke, poravnava glede na diagnozo. ... 39

Slika 26: Intervalni dogodkovni diagram za lastne podatke, poravnava glede na progres. ... 40

Slika 27: Intervalni dogodkovni diagram za lastne podatke, poravnava glede na smrt. ... 41

Slika 28: Goldmanov dogodkovni diagram za lastne podatke. ... 42

Slika 29: Lexisov diagram za lastne podatke. ... 43

Slika 30: Lexisov diagram za prvih 10 enot v podatkih (lastni podatki). ... 44

(9)

Seznam tabel

Tabela 1: Cenilka Kaplan-Meier za podatke iz literature [17]. ... 10 Tabela 2: Izračun višine stolpcev za histogram za krnjene podatke (na dva načina), na primeru podatkov iz tabele 1 [17]. ... 10 Tabela 3: Ocenjene verjetnosti preživetja ob izbranih časih za lastne podatke (IZ = interval zaupanja).

... 31 Tabela 4: Ocenjene opisne statistike za čas do smrti (lastni podatki). ... 34 Tabela 5: Izračun spodnjih in zgornjih mej za osamelce v okvirju z ročaji po štirih različnih metodah. 34

Seznam uporabljenih simbolov

Simbol Pomen

𝑆(t) funkcija preživetja

𝐹(t) kumulativna porazdelitvena funkcija

λ(t) funkcija ogroženosti

𝛬(𝑡) funkcija kumulativne ogroženosti 𝑄1, 𝑄2, 𝑄3 prvi, drugi in tretji kvartil

𝑈, 𝐿 zgornja in spodnja meja za osamelce pri prikazu okvir z ročaji

(10)

1 UVOD

V uvodu je predstavljeno, kaj analiza zgodovine dogodkov je, kakšni podatki so primerni zanjo, kako te podatke prikazujemo ter kakšne težave nastanejo ob tem. Opredeljeni so tudi cilji in zahteve magistrskega dela.

1.1 Analiza zgodovine dogodkov

Analiza zgodovine dogodkov je sklop metod in testov, ki se uporabljajo, ko nas zanimajo dogodki (npr.

srčna kap), stanja (npr. brezposelnost), povezave med njimi in spremembe v času. Razvoj metod in testov se je začel na področju medicine z namenom raziskovanja smrtnosti in merjenja časa do smrti, zamisel pa se je nato razširila še na druga področja, kot so demografija, epidemiologija, sociologija, ekonometrija, ekonomija, politika, strojništvo, psihologija itd. Enaka načela lahko namreč uporabimo tudi na živalih, rastlinah ali strojih – na vsaki stvari, ki se s časom spreminja in ji lahko pripišemo neki dogodek v času. Analiza zgodovine dogodkov se v praksi pogosto uporablja za dokazovanje vpliva zdravil ali metod zdravljenja na izid bolezni, razumevanje dejavnikov tveganja in preprečevanje pojava bolezni, ocenjevanje zanesljivosti tehnične opreme ter spremljanje demografskih pojavov, kot sta ločitev in brezposelnost. [1]

Na prvi pogled bi se lahko merjenje časa do dogodka oziroma ocenjevanje povezanosti merjenih spremenljivk s časom do dogodka (odvisno spremenljivko) ocenjevalo s katero od preprostejših statističnih metod (npr. linearno regresijo), vendar je glavna lastnost podatkov v analizi zgodovine dogodkov, da je podatkovje sestavljeno iz mešanice popolnih in nepopolnih podatkov. Dogodek se lahko posamezniku zgodi ali ne, lahko pa te informacije ni, ker se raziskava že prej zaključi ali posameznik preneha sodelovati. Nepopolni podatki se imenujejo krnjeni podatki in se jih iz analize ne izpušča, saj bi s tem postala ocena pristranska. Podatki so lahko levo krnjeni (posamezniki se ne pojavijo v raziskavi, ker se dogodek zgodi pred začetkom opazovanja), desno krnjeni (posamezniki so vključeni v raziskavo, vendar je čas do dogodka neznan, saj se raziskava prej zaključi ali posameznik preneha sodelovati v raziskavi) ali pa je krnjenje intervalno (vemo, da se je dogodek zgodil znotraj določenega intervala, ne vemo pa točno, kdaj). [2]

Metode v analizi zgodovine dogodkov ocenjujejo delež dogodkov v času in merijo povezanost napovednih spremenljivk in odvisne spremenljivke, ki meri čas do dogodka, pri čemer pravilno upoštevajo krnjene podatke. Najbolj pogoste metode in testi so krivulja Kaplan-Meier, test log-rank, Coxov model sorazmernih ogroženosti in parametrični modeli (eksponentni model, Weibullov model).

Bolj zapleteni modeli (stratificirani modeli, mešani modeli, krhkosti, večstanjski modeli, modeli s časom kot diskretno spremenljivko) pa se uporabljajo, ko se v podatkih pojavijo še drugi dejavniki, npr.

korelacija med enotami v vzorcu, več možnih dogodkov za enoto, možnost prehajanja med stanji, čas kot diskretna spremenljivka in druge. [3]

(11)

1.2 Prikazi podatkov - vizualizacija

Vizualizacija oz. prikazovanje je širok pojem, ki pomeni (po eni od definicij) oblikovanje miselnega modela ali miselne podobe nečesa. Vizualni prikaz informacij sega daleč v zgodovino, kljub temu je vizualizacija šele konec 90. let prejšnjega stoletja postala samostojno raziskovalno področje. Cilj področja je izkoristiti človeške sposobnosti vidnega zaznavanja in ogromne procesorske moči sodobnih računalnikov za najboljše razumevanje podatkov. [4]

Vizualizacija podatkov je v zadnjih dveh desetletjih letih postala zelo popularna (slika 1) – glavni razlog je trend družbe k vseprisotnosti elektronskih naprav, ki vse več uporabnikom omogočajo dostop do vizualnih vsebin in tudi njihovo sodelovanje (»demokratizacija tehnologije«). [5]

Slika 1: Iskanje izraza "visualizing data" v orodju Google Books Ngram Viewer, https://books.google.com/ngrams .

Za najboljši prikaz podatkov morajo biti izpolnjeni trije osnovni kriteriji:

 Ekspresivnost: pokazati je potrebno točno informacijo iz podatkov – prikazano ne sme biti nič več in nič manj.

 Učinkovitost: upoštevati je potrebno stopnjo spoznavne sposobnosti človeškega vidnega sistema in do katere mere jo prikaz dosega – prikaz mora biti intuitiven in interpretabilen.

 Ustreznost: preudariti je potrebno korist oz. vrednost prikaza glede na porabljen čas in prostor.

Pred začetkom izdelave prikaza je potrebno odgovoriti na dve ključni vprašanji: kaj želimo prikazati in zakaj? [4]

Razloge za prikaz podatkov lahko povzamemo v treh točkah (Tukey [6] , Schumann and Müller [7], Few [8]):

Raziskovanje (ang. explorative analysis): Če raziskujemo samo vnaprej določene ideje in predvidevanja, obstaja velika verjetnost, da določene značilnosti podatkov ostanejo neodkrite.

Grafični prikazi podatkov služijo kot temelj in prvi korak, da odkrijemo čim več informacij o podatkih.

Potrditev (ang. confirmative analysis): Z grafičnimi prikazi potrjujemo ali ovržemo hipoteze.

(12)

Grafično prikazovanje podatkov je močno orodje, ki podpira in dopolnjuje analizo podatkov in je izredno uporabno in nepogrešljivo. [9]

Medtem ko so se modeli in metode v analizi zgodovine dogodkov razvijali, je bilo precej manj napredka na področju prikaza tovrstnih podatkov. V večini analiz so podani zgolj najbolj osnovni grafični prikazi, kar bi na kakšnem drugem področju pojmovali kot nepopolno analizo. [9]

Prikazi podatkov v analizi zgodovine dogodkov so zahtevni z več vidikov. Glavni problem so krnjena opazovanja, ki zahtevajo vključitev dodatne informacije o krnjenju in s tem dodajanje še ene dimenzije na dvorazsežni prikaz. Poleg tega so krnjena opazovanja nepopolna – ne podajo informacije o času do dogodka, ampak zgolj informacijo, da resničen čas do dogodka presega čas krnitve. Običajno si želimo raziskovati odnos med časom do dogodka in neko spremenljivko, kar pomeni, da moramo na graf vključiti več dimenzij: dogodek, čas do dogodka, neodvisno spremenljivko in krnjenje. [9] Poleg težav s krnjenimi podatki so prikazi v analizi zgodovine dogodkov torej oteženi tudi zaradi dejstva, da običajno zajemajo številne spremenljivke:

 dogodek, ki ga preučujemo (ima lahko več stanj),

 časovno spremenljivko (čas v raziskavi, starost posameznika ali koledarski čas),

 krnjenje,

 dogodek kot neodvisno spremenljivko, ki je lahko vezana na posameznika (pridobitev vozniškega dovoljenja, smrt staršev) ali je skupna za celoten vzorec (izvolitev nove vlade, zaprtje tovarne),

 druge neodvisne spremenljivke, ki so lahko časovno-odvisne (tedenski zaslužek, zadovoljstvo z zaposlitvijo) ali od časa neodvisne (višina, etnična skupina ali spol posameznika, kraj rojstva).

[10]

Vse te spremenljivke težko umestimo v en grafični prikaz, v primeru enostavnejših prikazov z manj spremenljivkami pa lahko spregledamo pomembne povezave med spremenljivkami in vzorce v podatkovju. Pri prikazovanju podatkov v analizi zgodovine dogodkov sta torej vprašljivi osnovni načeli:

 prikaz mora povedati resnico o podatkih [11],

 prikaz mora pokazati celotno kompleksnost podatkov in omogočiti bralcem, da opazijo posebnosti, povezave in osamelce, ne zgolj videti povzetka, ki ga želi prikazati avtor [12].

Pri prikazih se moramo zavedati človekove sposobnosti vidnega zaznavanja, sporočilo prikaza mora biti za bralca preprosto in jasno. Želimo prikazati trajanja in prehode med stanji v odnosu z vsemi ključnimi spremenljivkami na bralcu razumljiv način. Prikazi morajo omogočiti tudi opazovanje posameznika in njegove zgodovine dogodkov, prav tako pa primerjavo zgodovine dogodkov med posamezniki. [13]

Za začetne prikaze podatkov v analizi zgodovine dogodkov se uporabljajo krivulja preživetja, kumulativna porazdelitvena funkcija, histogram za krnjene podatke, okvir z ročaji za krnjene podatke, dogodkovni diagram, črtni diagram, Lexisov diagram, diagram v obliki svinčnika (ang. pencil diagram) in shematični prikazi. Dvorazsežne prikaze se lahko dopolnjuje s trorazsežnimi in/ali interaktivnimi prikazi.

(13)

Delno rešitev ponudijo večrazsežni grafikoni in interaktivni grafikoni, ki omogočajo obračanje, povečave, izbor elementov, spreminjanje barv in vzorcev, svetlobe, senčenje, kar je omogočeno s sodobnimi računalniškimi programi. Za prikaz na papirju je potreben reprezentativen in nezavajajoč izbor, kar pa je bolj zahtevno. [13]

1.3 Zahteve in cilji magistrskega dela

V magistrskem delu želimo raziskati in pregledati obstoječe prikaze podatkov v analizi zgodovine dogodkov ter oceniti njihovo ustreznost. Zaradi številnih napak, ki se v takih podatkih pogosto pojavljajo, želimo napisati funkcijo v programu R za odkrivanje napak v časovnem sosledju dogodkov v podatkih. Funkcija bi izpostavila napake tako grafično kot tabelarično, s tem pa se bi ključno skrajšal čas urejanja in preoblikovanja podatkov pred samo analizo. Omenjeno funkcijo bi uporabili tudi na lastnih podatkih. Poleg tega želimo na lastnih podatkih v programu R narisati uporabne obstoječe prikaze podatkov in podati kodo, ki smo jo uporabili. Za odkrivanje napak v podatkih želimo ustvariti uporabniku prijazno spletno aplikacijo, ki bi omogočila hiter pregled podatkov pred analizo tudi za manj vešče uporabnike.

(14)

2 PREGLED GRAFIČNIH PRIKAZOV V ANALIZI ZGODOVINE DOGODKOV

Čas preživetja je v analizi zgodovine dogodkov glavna spremenljivka, ki jo želimo prikazati in je številskega tipa, posledično pa je tudi veliko možnosti za prikaz. Najbolj običajna prikaza bi bila histogram in okvir z ročaji, iz obeh dobimo tudi okviren vtis o porazdelitvi podatkov. Zaradi krnjenja sta oba prikaza težavna – v histogramu krnjenih podatkov ne moremo uvrščati v stolpce (vemo zgolj, da je čas do dogodka večji od časa krnjenja), pri okvirju z ročaji pa večinoma ne moremo izračunati tretjega kvartila, včasih niti mediane. Dodaten problem predstavlja tudi asimetričnost v podatkih, zaradi česar so opazovanja lažno prepoznana kot osamelci. Zaradi omenjenih težav se prikaza v analizi zgodovine dogodkov le redko uporabljata. Ko ju uporabimo, je ključno, da narišemo njuni prilagojeni različici za krnjene podatke, ki temeljita na Kaplan-Meierjevi krivulji.

Najpogosteje uporabljana prikaza sta krivulja preživetja, ki je ocena deleža »preživelih« do določenega časa (obdobja), ter kumulativna porazdelitvena funkcija oz. krivulja umrljivosti, ki je ocena deleža

»mrtvih« do določenega časa (obdobja). Prikaza sta si enakovredna, prav tako kot sta enakovredna histogramu za krnjene podatke, torej deležu »mrtvih« v določenem obdobju. Iz vsakega od naštetih prikazov lahko preprosto dobimo tudi druga dva prikaza.

V primeru krnjenih podatkov lahko delež preživelih ocenimo po metodi tablic umrljivosti (aktuarski metodi) ali bolj natančni metodi Kaplan-Meier. [14] Oceno po metodi Kaplan-Meier v nadaljevanju uporabimo tudi za risanje histograma za krnjene podatke in okvirja z ročaji za krnjene podatke.

Vsi omenjeni prikazi podajajo agregirano informacijo; če želimo informacije o vsakem posamezniku, jih lahko prikažemo z dogodkovnim diagramom, Lexisovim diagramom ali diagramom v obliki svinčnika.

Prikazi so podrobneje opisani v nadaljevanju.

(15)

2.1 Krivulja preživetja, kumulativna porazdelitvena funkcija in funkcija ogroženosti

Če je 𝑇 zvezna nenegativna slučajna spremenljivka z gostoto porazdelitve 𝑓(𝑡), potem lahko kumulativno porazdelitveno funkcijo 𝐹(𝑡) definiramo kot verjetnost, da se je dogodek zgodil do časa 𝑡: 𝐹(𝑡) = 𝑃(𝑇 < 𝑡). Kumulativno porazdelitveno funkcijo imenujemo tudi krivulja umrljivosti.

Funkcija preživetja 𝑆(𝑡) je kumulativni porazdelitveni funkciji komplementarna 𝑆(𝑡) = 1 − 𝐹(𝑡), definirana je kot verjetnost, da je čas do dogodka večji od 𝑡: 𝑆(𝑡) = 𝑃(𝑇 > 𝑡) = ∫ 𝑓(𝑥)𝑑𝑥𝑡 . Vrednost funkcije preživetja v danem času je torej delež ljudi, ki so še živi v tem času. Funkcija je z desne zvezna.

Funkcija ogroženosti je definirana kot:

λ(t) = lim

𝑑𝑡→0

𝑃(𝑡 ≤ 𝑇 < 𝑡 + 𝑑𝑡|𝑇 ≥ 𝑡)

𝑑𝑡 =𝑓(𝑡)

𝑆(𝑡) .

V števcu je pogojna verjetnost, da se dogodek zgodi v časovnem intervalu [𝑡, 𝑡 + 𝑑𝑡) pri pogoju, da se do takrat še ni zgodil, v imenovalcu pa je širina tega intervala. Z deljenjem dobimo stopnjo dogodkov v časovni enoti, ko pa gre imenovalec proti 0, je to ocena trenutne ogroženosti v času 𝑡. Iz funkcije ogroženosti lahko nadalje definiramo še funkcijo kumulativne ogroženosti: 𝛬(𝑡) = ∫ λ(t)dt0𝑡 . Funkcija kumulativne ogroženosti je torej »seštevek ogroženosti« do časa 𝑡. Velja 𝑆(𝑡) = exp (−𝛬(𝑡)).

Vsaka izmed navedenih funkcij enolično definira porazdelitev zveznega časa 𝑇.

Funkcije preživetja zaradi krnjenja ne moremo preprosto oceniti kot delež enot s časom, večjim od 𝑡.

Najpogosteje uporabljana je cenilka po metodi Kaplan-Meier, ki sta jo razvila Edward L. Kaplan in Paul Meier leta 1958. Za nepristransko oceno po metodi Kaplan-Meier morajo biti izpolnjene sledeče predpostavke:

 krnjenje ni informativno – posameznik, ki je krnjen, ima enake možnosti za preživetje kot posameznik, ki ostane v raziskavi (te predpostavke ni mogoče testirati, moramo pa pretehtati njeno izpolnjenost na podlagi zasnove raziskave);

 posameznika, ki sta v raziskavo vstopila ob različnih časih (zgodaj/pozno), imata enako verjetnost preživetja (to pogosto ne drži v študijah z dolgim časom spremljanja, npr. pogoji za zdravljenje se v času spremenijo);

 dogodek se zgodi v točno določenem času – tu pride do problema, če je dogodek odkrit kasneje, kot se pojavi (npr. tumor se odkrije ob rednem pregledu in ne v trenutku pojavitve).

Označimo čase dogodkov s 𝑡𝑘, 0 < 𝑡1< 𝑡2< ⋯, 𝑑𝑘 naj bo število dogodkov ob času 𝑡𝑘, 𝑛𝑘 pa število ogroženih ob tem času, tj. preživelih do tega časa, ki so še pod nadzorom raziskave (niso bili krnjeni).

Cenilka Kaplan-Meier za krivuljo preživetja je

𝑆̂(𝑡) = ∏ 𝑛𝑘− 𝑑𝑘 𝑛𝑘

𝑘|𝑡𝑘≤𝑡 .

(16)

Za vsak časovni interval smo torej ocenili verjetnost, da ogroženi na začetku intervala preživijo do konca intervala, tj. 𝑃(𝑇 > 𝑡𝑘|𝑇 > 𝑡𝑘−1), z deležem 𝑛𝑘−𝑑𝑘

𝑛𝑘 . Verjetnost preživetja v določenem v času je enaka produktu navedenih pogojnih verjetnosti.

Kumulativno porazdelitveno funkcijo nato ocenimo kot 𝐹̂(𝑡) = 1 − 𝑆̂(𝑡).

Alternativna ocena za krivuljo preživetja je ocena po metodi Nelson-Aalen. Asimptotsko je ocena enaka kot po metodi Kaplan-Meier, empirično pa so med njima manjše razlike. Za oceno po metodi Nelson- Aalen moramo najprej oceniti kumulativno ogroženost kot

Λ̃(𝑡) = ∑ 𝑑𝑘 𝑛𝑘

𝑘|𝑡𝑘≤𝑡

,

nato pa funkcijo preživetja z S̃(𝑡) = 𝑒−Λ̃(𝑡).

Še en način za oceno krivulje preživetja je po aktuarski metodi oz. metodi tablic umrljivosti. To uporabimo, ko zabeleženi časi dogodkov niso točni – na primer, ko se čas dogodka zabeleži samo ob pregledu oz. kontroli, ne pa v trenutku, ko se je dogodek (npr. bolezen ali okvara) zares zgodil. Podatke organiziramo v tabelo in jih združimo v intervale določene dolžine. Čas do dogodka v tem primeru ni točno določen, imamo pa informacijo, da se zgodi v določenem intervalu. Ocena se v tem primeru spreminja samo na začetku oz. na koncu teh intervalov.

Funkcija ogroženosti je lahko konstantna, monotono narašča, monotono pada ali se v času kako drugače spreminja. Če je porazdelitev eksponentna, je tveganje konstantno: 𝜆(𝑡) = 𝜆; 𝜆 > 0, za vsak 𝑡, velja 𝑆(𝑡) = 𝑒−𝜆𝑡 in 𝑓(𝑡) = 𝜆𝑒−𝜆𝑡. Še ena od pogosto uporabljenih porazdelitev je Weibullova, ki ima lastnost, da ogroženost monotono narašča (𝛾 > 1) ali monotono pada (𝛾 < 1). Za Weibullovo porazdelitev velja 𝑆(𝑡) = 𝑒−(𝜆𝑡)𝛾 in 𝑓(𝑡) = 𝜆𝛾(𝜆𝑡)𝛾−1𝑒−(𝜆𝑡)𝛾. V primeru, da funkcija ogroženosti ni monotona, težko sklepamo o porazdelitvi. Funkcija ogroženosti je pomembna za razumevanje analize preživetja. Če funkcija ogroženosti pada, pomeni, da enote s časom postajajo manj ogrožene, če funkcija ogroženosti narašča, pomeni da s časom postajajo bolj ogrožene.

Funkcijo ogroženosti lahko narišemo oz. ocenimo diskretno. To pomeni, da časovno os razbijemo v izbrane intervale, na vsakem od teh intervalov pa predpostavimo konstantno ogroženost. Na vsakem intervalu ocenimo ogroženost z λ𝑘=𝑑𝑘

𝑛𝑘, pri čemer je 𝑑𝑘 število dogodkov v intervalu, 𝑛𝑘 pa število ogroženih znotraj intervala. Enota, ki je znotraj intervala krnjena, se ne prišteva v celoti med ogrožene – ni ogrožena tekom celotnega intervala. K številu ogroženih je ne prištejemo kot celo enoto, ampak izračunamo delež (čas od začetka intervala do krnitve delimo s širino intervala). Enota, ki je bila krnjena na sredi intervala torej k številu ogroženih prispeva kot 0.5 enote, namesto kot cela enota. Tako dobljeno ogroženost nato narišemo na graf (na vodoravni osi je čas, na navpični osi pa ogroženost).

Graf je stopničast, kljub temu lahko približno ocenimo, ali ogroženost monotono narašča, pada, je konstantno ali nič od tega.

Grafični prikaz krivulje preživetja ima na vodoravni osi čas, na navpični osi pa ocenjeno verjetnost preživetja. Graf je stopničast, ocena verjetnosti preživetja se namreč spremeni samo v tistih trenutkih,

(17)

ko se zgodi dogodek. Pri zveznem času se dva dogodka ne moreta zgoditi v istem trenutku, v vsakem trenutku se zgodi zgolj en dogodek. Dodamo lahko črtice (ali druge oznake), ki označujejo krnjenja. S krnjenjem se v časovnem intervalu ne spremenijo ocene verjetnosti preživetja, zmanjša pa se število ogroženih na začetku naslednjega intervala in s tem število opazovanih enot. S tem se veča standardna napaka ocene oz. dobimo širše intervale zaupanja. Krivulje preživetja lahko rišemo za več skupin na isti prikaz in jih primerjamo. Grafični prikaz kumulativne ogroženosti ima na vodoravni osi čas, na navpični osi pa kumulativno ogroženost. Kumulativna ogroženost nekoliko nakazuje tudi na to, kakšna je ogroženost – graf konveksne oblike kaže na naraščajočo funkcijo ogroženosti, graf konkavne oblike kaže na padajočo funkcijo ogroženosti.

Slika 2: Primer krivulje preživetja za eno skupino z označenimi krnjenji (zgoraj levo), krivulje preživetja za dve skupini z označenimi krnjenji (zgoraj desno) ter dva primera prikazov kumulativne ogroženosti (spodaj levo in desno) [14, 3].

Prednost krivulje preživetja je, da učinkovito povzame informacijo o času do dogodka. Na podlagi tega prikaza lahko tudi opazimo, ali je so v načrtu raziskave napake oziroma ali smo dobro definirali začetni čas 0 (npr. opazimo, da enote v eni izmed skupin na začetku niso mogle imeti dogodka, t.i. pristranost zaradi nemogočega dogodka – ang. immortal bias). Iz krivulje preživetja lahko opazimo tudi, kdaj se je zgodilo največ krnjenj oz. kako so krnjenja razporejena skozi čas (preverjanje predpostavke o neodvisnosti krnjenja). Slabost krivulje je, da nam ne poda nobene informacije o posamezniku oz.

posamezni enoti. Primeri krivulj preživetja so prikazani na sliki 2 [2, 15].

(18)

2.2 Histogram za krnjene podatke

Histogram je pogost prikaz, saj je lažje razumljiv, iz njega pa lahko sklepamo tudi o porazdelitvi podatkov. Običajen postopek za prikaz histograma je, da razdelimo časovno os v intervale, preštejemo število opazovanj v posameznih intervalih in to narišemo.

V analizi zgodovine dogodkov pa pri risanju histograma nastane več težav. Merjenje časa do dogodka je običajno dolgotrajen proces in na čas do dogodka vplivajo še številne druge spremenljivke, ki se lahko v času spreminjajo (kar pa je nemogoče upoštevati v histogramu časa do dogodka). Poleg tega je v praksi zelo redko, da bi dogodek doživeli vsi posamezniki. Verjetnost preživetja (na krivulji preživetja) v tem primeru ne doseže 0, kar se na histogramu odraža tako, da površina stolpcev ne doseže 1 – histogramu manjkajo stolpci v repu. Dodaten izziv predstavlja razvrščanje krnjenih opazovanj v intervale. Prava vrednost krnjenega opazovanja je namreč neznana, vemo zgolj, da je v enakem ali višjem intervalu kot vrednost, pri kateri se je zgodila krnitev [16]. V primeru, da so opazovanja krnjena, moramo to upoštevati – če pri prikazovanju zanemarimo informacijo o krnjenju je narisani histogram napačen in zavajujoč [17].

Kljub naštetim pomanjkljivostim obstaja metoda, s katero lahko narišemo histogram za krnjene podatke. Ta izhaja iz dejstva, da je histogram enakovreden prikaz kumulativni porazdelitveni funkciji in krivulji preživetja, in iz funkcije preživetja, ocenjene po metodi Kaplan-Meier, izračuna višino stolpcev za histogram [14].

Prvi korak je torej ocena funkcije preživetja po metodi Kaplan-Meier, za kar lahko v programu R uporabimo knjižnico survival. Nato podatke razvrstimo v w intervalov enakih širin. Meje intervalov označimo s 𝑡̃𝑗; 𝑗 = 0, … , 𝑤. Za vsakega od intervalov od 0 do w-1 ocenimo pripadajočo verjetnost 𝑃(𝑡̃𝑗< 𝑇 ≤ 𝑡̃𝑗+1) = 𝑃(𝑇 > 𝑡̃𝑗) − 𝑃(𝑇 > 𝑡̃𝑗+1) s cenilko 𝑆 ̂ (𝑡̃𝑗) − 𝑆 ̂ (𝑡̃𝑗+1), pri čemer je 𝑆 ̂ je ocena funkcije preživetja po metodi Kaplan-Meier.

Ta ocena vključuje le desno krajišče vsakega stolpca v histogramu. Druga različica histograma bi bila, da bi vključili le levo krajišče intervala:

𝑃̂(𝑡̃𝑗≤ 𝑇 < 𝑡̃𝑗+1) = 𝑃̂(𝑇 ≥ 𝑡̃𝑗 ) − 𝑃̂(𝑇 ≥ 𝑡̃𝑗+1) = 𝑆 ̂ (𝑡̃𝑗) − 𝑆 ̂ (𝑡̃𝑗+1 ),

kjer je 𝑆̂(𝑡) leva limita ocene 𝑆 ̂ (t). Če krajišči intervala ne sovpadata s časom smrti, sta histograma, izračunana po omenjenih enačbah, enaka, sicer se med seboj nekoliko razlikujeta. Histogram za krnjene podatke izgleda podobno kot običajni histogram, razlika je zgolj v tem, da 𝑆̂ ne pade nujno na 0, v tem primeru histogramu manjkajo stolpci v repu.

Če histogram računamo po prvi enačbi in levo krajišče sovpada z najmanjšim časom smrti, dodamo še en stolpec na levo, in obratno, če računamo po drugi enačbi, tj. če največji čas smrti sovpada z najbolj desnim krajiščem, dodamo en stolpec na desno.

Po eni od navedenih enačb torej ocenimo verjetnost dogodka v vsakem intervalu, nato pa izračunamo še višino stolpca vsakega intervala, in sicer tako, da ocenjeno verjetnost delimo s širino intervala.

(19)

V tabeli 1 so vrednosti ocene funkcije preživetja po metodi Kaplan-Meier, ki jih uporabimo kot primer za ponazoritev izračuna višin stolpca za histogram.

Tabela 1: Cenilka Kaplan-Meier za podatke iz literature [17].

t 𝑆 ̂(𝑡) t 𝑆 ̂ (𝑡) t 𝑆 ̂ (𝑡)

5 0.97143 12 0.64519 19 0.23043

6 0.85714 13 0.55302 20 0.23043

7 0.85714 14 0.36868 28 0.23043

8 0.78857 15 0.32260 29 0.11521

11 0.75273 16 0.23043 43 0

V tabeli 2 je prikazan izračun verjetnosti in višine stolpca posameznega časovnega intervala in sicer na dva načina (glede na prvo in glede na drugo enačbo).

Tabela 2: Izračun višine stolpcev za histogram za krnjene podatke (na dva načina), na primeru podatkov iz tabele 1 [17].

Po prvi enačbi Po drugi enačbi

Interval Verjetnost Višina stolpca Interval Verjetnost Višina stolpca

(0-5] 1-0.971 = 0.029 0.00571 [0-5) 1-1 = 0 0

(5-10] 0.971-0.789 = 0.182 0.03657 [5-10) 1-0.789 = 0.211 0.04229 (10-15] 0.789-0.323 = 0.466 0.09319 [10-15) 0.789-0.369 = 0.420 0.08398 (15-20] 0.323-0.230 = 0.093 0.01843 [15-20) 0.369-0.230 = 0.139 0.02765 (20-25] 0.230-0.230 = 0 0 [20-25) 0.230-0.230 = 0 0 (25-30] 0.230-0.115 = 0.115 0.02304 [25-30) 0.230-0.115 = 0.115 0.02304 (30-35] 0.115-0.115 = 0 0 [30-35) 0.115-0.115 = 0 0

(35-40] 0 0 [35-40) 0 0

(40-45] 0.115-0 = 0.115 0.02304 [40-45) 0.115-0 = 0.115 0.02304

(45-50] 0 0 [45-50) 0 0

(50-55] 0 0 [50-55) 0 0

(55-60] 0 0 [55-60) 0 0

Na podlagi tabele 2 nato narišemo običajni histogram. Pri implementaciji ob tem naletimo na težave, saj so podatki agregirani, za risanje običajnega histograma pa potrebujemo »surove« podatke. Kako smo ta problem rešili pri risanju v programu R, je opisano v razdelku 3.2.2.

Na sliki 3 sta narisana histograma za krnjene podatke na primeru podatkov iz tabele 1 in tabele 2. Na levi je histogram časov od okužbe HIV z negativnimi protitelesci (stanje 0) do okužbe HIV s pozitivnimi protitelesci (stanje 1), na desni pa je histogram časov od okužbe HIV s pozitivnimi protitelesci (stanje 1) do prvih simptomov AIDS (stanje 2).

(20)

Slika 3: Primer histograma za krnjene podatke: na levi histogram časov do okužbe HIV s pozitivnimi protitelesci (0->1), na desni histogram časov do prvih simptomov AIDS (1->2) [17].

Za občutek o porazdelitvi časov so na histogram dodane še teoretične porazdelitve − eksponentna, gama, weibullova in inverzna normalna porazdelitev; vse so ocenjene po metodi največjega verjetja na originalnih podatkih s primerno upoštevanim krnjenjem. Zavedati pa se moramo, da je tovrsten prikaz poveden predvsem, ko dogodek doživi večina enot, če manjka večji del stolpcev v repu pa o porazdelitvah težko sodimo. V praksi je zaradi številnih drugih spremenljivk, ki vplivajo na čas, tudi redko, da bi se čas porazdeljeval povsem v skladu s katero od teoretičnih porazdelitev.

Na sliki 3 (levo) opazimo, da za histogram ni primerna nobena od vrisanih porazdelitev, na sliki 3 (desno) pa opazimo, da je eksponentna porazdelitev neprimerna, med ostalimi pa bi se težko odločili.

Kot pri vsakem običajnem histogramu tudi za histogram za krnjene podatke velja, da je njegova oblika odvisna od števila intervalov, ki si jih izberemo.

Histogram je za marsikoga bolj intuitivna oblika razumevanja podatkov kot krivulja preživetja, vendar se moramo zavedati njegovih pomanjkljivosti.

2.3 Okvir z ročaji za krnjene podatke

Okvir z ročaji je široko uveljavljen prikaz, saj je prav tako kot histogram preprost in poveden. Prikaz je sestavljen iz okvirja (prvi kvartil 𝑄1, mediana 𝑄2 in tretji kvartil 𝑄3) in ročajev, ki segajo do najmanjše oz. največje vrednosti. Če nekatere vrednosti zelo odstopajo od mediane, so te vrednosti definirane kot osamelci. Zgornjo mejo ročaja 𝑈 (ang. upper) in spodnjo mejo 𝐿 (ang. lower) običajno definiramo kot:

𝑈 = 𝑄3+3

2 (𝑄3− 𝑄1) , 𝐿 = 𝑄13

2 (𝑄3− 𝑄1).

Zgornja meja je torej za 1,5-kratno vrednost interkvartilnega razmika višja od tretjega kvartila, spodnja meja pa za enako vrednost nižja od prvega kvartila. Če nobena vrednost ne presega 𝑈, potem ročaj narišemo le do največje vrednosti; enako spodnjo mejo ročaja narišemo do dejanske najmanjše

(21)

vrednosti, če je manjša od 𝐿. V primeru normalne porazdelitve sta meji za osamelce 𝑈 in 𝐿 kvantila 0,9965 in 0,0035, torej osamelci predstavljajo 0,7 % podatkov.

Pri risanju okvirja z ročaji za podatke iz analize zgodovine dogodkov nastopijo težave: prva so krnjeni podatki, zaradi katerih ne moremo enostavno izračunati vrednosti, potrebnih za prikaz. Pogosto tretjega kvartila (ali mediane) kljub upoštevanju krnjenja sploh ni mogoče izračunati, posledično prikaza ne moremo narisati. Druga težava je porazdelitev časov do dogodka, ki je običajno močno desno asimetrična. V običajnem prikazu okvirja z ročaji so meje za osamelce določene na podlagi predpostavke, da je porazdelitev podatkov blizu normalni. V analizi zgodovine dogodkov se tako zaradi asimetričnosti pogosto zgodi, da se daljši časi (višje vrednosti) napačno diagnosticirajo kot osamelci.

Vprašati se moramo tudi o smiselnosti prikaza: kaj nam pove osamelec, ko opazujemo čas do dogodka?

Vsebinsko to pomeni, da nekdo doživi izredno dolg čas ali izredno kratek čas do dogodka (in tega glede na druge lastnosti/spremenljivke ne bi pričakovali). Preveriti je torej potrebno tudi druge spremenljivke.

V analizi zgodovine dogodkov krnjene podatke upoštevamo tako, da izhajamo iz krivulje preživetja (ocenjene po metodi Kaplan-Meier), iz katere določimo vrednosti, potrebne za prikaz. V prvem koraku iz mediane, prvega in tretjega kvartila narišemo okvir. Če tretjega kvartila zaradi krnjenja ni mogoče oceniti, zgornji ročaj rišemo neposredno iz mediane, če iz podatkov ni mogoče oceniti niti mediane, pa tak prikaz ni na voljo. V drugem koraku nato določimo meje za osamelce in narišemo ročaje, za kar pa imamo več možnosti. Lahko narišemo klasični okvir z ročaji, opisan zgoraj, če želimo upoštevati še asimetričnost podatkov, pa lahko uporabimo eno od spodaj opisanih metod.

Eno od metod za prilagoditev asimetričnim podatkom je predlagal Kimber [18]. Pri Kimberjevem okviru z ročaji za izračun zgornje meje 𝑈 namesto interkvartilnega razmika (𝑄3− 𝑄1) uporabimo dvakratno vrednost razlike med tretjim kvartilom in mediano (𝑄3− 𝑄2), torej širino zgornjega dela okvirja, za izračun spodnje meje 𝐿 pa dvakratno vrednost razlike med mediano in prvim kvartilom, torej širino spodnjega dela okvirja. Na tisti strani, kjer so podatki bolj razpršeni, je s tem dovoljeno več odstopanja od mediane oz. je ročaj daljši. Dodatno lahko prilagodimo meje s faktorjem 𝑐, običajno uporabimo vrednost 1,5. Izračun mej po Kimberjevem postopku:

𝑈 = 𝑄3+ 𝑐 · 2(𝑄3− 𝑄2), 𝐿 = 𝑄1− 𝑐 · 2(𝑄2− 𝑄1).

Za simetrično porazdeljene podatke je širina spodnjega dela okvirja enaka širini zgornjega dela, dvakratna vrednost pa enaka interkvartilnemu razmiku, torej se izračun ne razlikuje od običajnega. Za asimetrično porazdeljene podatke pa je Kimberjev okvir z ročaji izboljšan, saj dovoljuje odstopanja, ki so posledica asimetrije, in jih posledično ne označi za osamelce. Kljub temu je tudi po tem postopku zgornja meja prenizka, da bi pokrivala dolg rep na desni, ki je tipičen za podatke v analizi zgodovine dogodkov. Slabost Kimberjevega postopka je tudi, da je za izračun potreben tretji kvartil, ki pa ga zaradi krnjenja pogosto ni mogoče izračunati.

Drugačen pristop sta predlagala Barnett in Cohen [16]. Po njuni metodi izhajamo iz predpostavke o

(22)

porazdelitev. Slabost tega pristopa je, da temelji na predpostavki o porazdelitvi, ki pa je v praksi ne moremo preveriti.

Glede na predpostavljeno Weibullovo porazdelitev se zgornja in spodnja meja izračunata po enačbah

𝑆 = 0,64 log (𝑄3 𝑄1) , 𝑈 = 𝑄3⋅ 4𝑆, 𝐿 = 𝑄1⋅ 0,012𝑆.

Če se zaradi močnega krnjenja tretjega kvartila ne da izračunati, uporabimo prilagoditve in namesto tretjega kvartila za izračun uporabimo mediano:

𝑆 = 1,1 log (𝑄2 𝑄1) , 𝑈 = 𝑄2⋅ 8𝑆, 𝐿 = 𝑄1⋅ 0,012𝑆.

Če izhajamo iz log-normalne porazdelitev, izračunamo zgornjo in spodnjo mejo z enačbami:

𝑈 = 𝑄2(𝑄3 𝑄1)

2

, 𝐿 = 𝑄2(𝑄1

𝑄3)

2

.

Enak postopek izračuna mej bi lahko uporabili za katerokoli porazdelitev, ne zgolj za Weibullovo ali log-normalno. [16]

Če krnjenih podatkov ni, narišemo ročaje iz prvega in tretjega kvartila do najmanjše in največje vrednosti, ki leži znotraj zgornje in spodnje meje, osamelce pa označimo s piko. Če je vrednost na robu ročaja krnjena, ročaje povlečemo do tja in jo dodatno označimo s c, kljub temu, da se nahaja znotraj mej (njena dejanska vrednost je lahko večja in s tem opozorimo na možnost, da je vrednost osamelec).

Krnjene vrednosti y so lahko glede na novo določene meje v sledečem odnosu: (a) y > U, (b) L < y < U, ali (c) y < L. V prvem primeru (y > U) je krnjen podatek zagotovo osamelec, saj je njegova vrednost pred krnjenjem že dovolj visoka, da pade izven zgornje meje. V drugem primeru (L < y < U) y ni definiran kot osamelec, čeprav bi to lahko bil (njegova dejanska vrednost je lahko večja od zgornje meje). V tretjem primeru (y < L) pa je vrednost definirana kot osamelec, čeprav ni nujno, da to tudi dejansko je (njena vrednost je lahko večja od spodnje meje). Opisano je bistvena pomanjkljivost tega grafičnega prikaza, ki se je moramo zavedati.

Za razlikovanje med krnjenimi in nekrnjenimi opazovanji so krnjeni označeni s c (iz ang. censored), nekrnjeni pa s piko ali z zvezdico. [16]

Na sliki 4 so podatki simulirani iz eksponentne porazdelitve; prikazani so običajni okvir z ročaji, okvir z ročaji, prilagojen po Kimberjevi metodi, ter okvirja z ročaji, prilagojena po metodi Barnetta in Cohena – izhajajoč iz Weibullove in log-normalne porazdelitve.

(23)

Slika 4: Primer okvirjev z ročaji, narisanih po štirih različnih metodah [16].

(24)

2.4 Dogodkovni diagram

Dogodkovni diagrami (ang. eventcharts) v nasprotju z doslej opisanimi prikazi ne prikazujejo agregirane informacije, ampak informacije o vsakem posamezniku posebej (na individualni ravni). Na dogodkovnem diagramu lahko prikazujemo informacije o več dogodkih v času za vsakega posameznika, hkrati pa tudi informacijo o krnjenju. Zelo so uporabni tudi za odkrivanje napak in pomanjkljivosti v podatkih. Dogodkovni diagrami dopolnjujejo standardne prikaze, kot so krivulje preživetja in kumulativne porazdelitvene funkcije. [19]

Prvi je tovrstni diagram (imenovan črtni) predlagal Dex leta 1984 [20] na primeru predstavitve zgodovine dela posameznikov; na vodoravni osi je bil čas, posameznik predstavljen s črto (nanizane na osi y), oznake pa so predstavljale različne dogodke v zgodovini posameznika (npr. poroka, rojstvo otroka ipd.). Kategorije poklicne poti so bile predstavljena z vrsto črte (polna/prekinjena/prazna črta).

Prikaz je praktičen za manjšo količino podatkov, pri večjem številu posameznikov v vzorcu in številnih dodatnih informacijah pa je interpretacija težja. Podobno je potrdil Blossfield leta 1989 [21], ki je poskušal z risanjem različnih stanj in prehodov med njimi glede na čas in poudaril, da jasnost grafa z večanjem števila stanj in spremenljivk upada. [13]

Kasneje je bil črtni diagram v analizi preživetja poimenovan dogodkovni diagram. Glede na informacijo, ki je prikazana na vodoravni in navpični osi, delimo dogodkovne diagrame na koledarskega, intervalnega in Goldmanovega. Skupna lastnost vseh je, da je posameznik prikazan kot vodoravna črta, njegovi življenjski dogodki pa so označeni z različnimi simboli vzdolž te črte. Koledarski dogodkovni diagram ima na vodoravni osi datum, na navpični osi pa identifikacijsko oznako posameznika; razmiki med posamezniki na navpični osi so enaki, dodana je navpična »trenutna črta« (ang. the now line).

Intervalni dogodkovni diagram izhaja iz časa prvega dogodka (npr. časa, ko je bil posameznik vključen v raziskavo oz. registriran); na vodoravni osi je čas, ki teče od tega dogodka (intervalni čas), na navpični osi je identifikacijska oznaka posameznika. Razmiki med posamezniki na navpični osi so enaki, ne vidimo pa trenutne črte in datuma. Goldmanov dogodkovni diagram prikazuje intervalni čas na vodoravni osi in datum na navpični osi. Trenutna črta je vidna kot diagonala na grafikonu. Razmiki med posamezniki na navpični osi niso enakomerni, ampak odvisni od datuma, identifikacijska oznaka posameznika običajno ni vidna, lahko pa jo na grafikon dodamo. Na sliki 5 so narisani dogodkovni diagrami na vse tri načine, in sicer na podatkih bolnikov z rakom.

(25)

Slika 5: Primer koledarskega, intervalnega in Goldmanovega dogodkovnega diagrama [19].

Osnovne dogodkovne diagrame lahko za večjo učinkovitost razširimo, urejamo in dograjujemo.

 Posameznike lahko uredimo na navpični osi glede na čas do določenega dogodka (npr. najprej posameznike z najkrajšim časom do smrti, nazadnje posameznike z najdaljšim časom do smrti).

 Posameznike lahko uredimo glede na skupine ali opisne časovno-neodvisne spremenljivke (glede na spol, status ipd.).

 Posameznike lahko uredimo glede na številsko spremenljivko, npr. starost – številska spremenljivka je narisana na navpični osi. Če pride do prekrivanja, vrednostim dodamo slučajne vrednosti oz. jih umetno nekoliko razmaknemo. Identifikacijska oznaka se v tem primeru ne vidi.

 V intervalnih dogodkovnih diagramih lahko za začetni dogodek izberemo katerikoli dogodek in ostale poravnamo v skladu s tem.

 Spremembe neodvisnih spremenljivk lahko ponazorimo z različnimi tipi črt, širino črte in z barvami. [19]

Vsak od dogodkovnih diagramov ima svoje prednosti in slabosti.

 V koledarskem dogodkovnem diagramu zlahka izločimo in prepoznamo posameznika, prepoznavamo morebitno ogroženost glede na čas vključitve v raziskavo, omogočeno je razvrščanje glede na dogodek, čas med dogodki ali druge spremenljivke (npr. spol ali starost).

Če so identifikacijske oznake dodeljene glede na čas vstopa v raziskavo, lahko pogostost dogodkov (stopnjo pojavnosti oz. incidenco) vidimo v naklonu (večji naklon pomeni več dogodkov v kratkem času). Če posameznika vstopita v raziskavo ob istem času, ne pride do prekrivanja. Ne moremo pa prepoznavati ogroženosti glede na intervalni čas ali poravnati posameznikov glede na dogodke na vodoravni osi.

 V intervalnem dogodkovnem diagramu zlahka izločimo in prepoznamo posameznika,

(26)

drug izbran dogodek (čas 0 na grafu je lahko čas vstopa v raziskavo ali kakšen drug dogodek, npr. ponovitev bolezni), v primeru enakih datumov dogodkov ne pride do prekrivanja. Ne moremo prepoznavati ogroženosti glede na čas vključitve, slabo pa je tudi, da pogostost dogodkov (stopnja pojavnosti) ni vidna.

 V Goldmanovem dogodkovnem diagramu lahko prepoznavamo ogroženost glede na datum in glede na intervalni čas ter poravnavamo glede na dogodke na vodoravni osi. Pogostost dogodkov (stopnja pojavnosti) je vidna v gostoti črt. Posameznika lahko prepoznamo v primeru, da je med črtami dovolj prostora, v primeru izenačenih referenčnih datumih pa moramo za razpoznavnost dodati slučajne vrednosti. Sam po sebi diagram torej izenačenih vrednosti ne obravnava dobro, prav tako ni omogočeno razvrščanje glede na dogodek, čas med dogodki in spremenljivko na navpični osi.

2.4.1 Dogodkovni diagrami kot orodje za iskanje napak

Dogodkovni diagrami odlično služijo kot orodje za spremljanje posameznikov v raziskavah in opazovanje dogajanja »v živo«, hkrati pa za ocenjevanje kakovosti podatkov in iskanje napak. Gre za napake v podatkih, kot je npr. napačno vnešen datum dogodka, nemogoč vrstni red dogodkov (npr.

pojav bolezni kasneje, kot je zabeležena smrt), neosveženi podatki (že več let ni podatka, kaj se s posameznikom dogaja – je umrl ali krnjen). Spremljamo lahko tudi, če je posameznik redno prisoten na morebitnih testiranjih, ter število posameznikov, ki se vključijo v raziskavo. Take napake se v agregiranih prikazih razgubijo, v dogodkovnih diagramih pa so dobro vidne in jih lahko preverimo in odpravimo. Diagrami lahko razkrijejo tudi shemo vzorčenja in odkrijejo morebitno pristranost v izboru vzorca (ang. selection bias). Prednost je tudi, da dogodkovni diagrami predstavljajo surove podatke brez kakršnih koli predpostavk. Slabost dogodkovnih diagramov je, da ob večjem številu enot prikaz postane nepregleden oz. je pregledovanje zamudno, zlahka pa se tudi zgodi, da kaj spregledamo.

(27)

2.5 Lexisov diagram

Lexisov diagram je dvorazsežni prikaz dogodkov v življenju posameznikov. Na vodoravni osi je koledarski čas, na navpični osi starost posameznikov, vsak posameznik pa je na grafu prikazan z daljico z naklonom 45 stopinj, saj se obe koordinati enakomerno povečujeta s časom. [22]

Lexisov diagram se je razvil v 19. stoletju, ko so se demografi prvič začeli ukvarjati s problemom, kako bi prikazali tri demografske komponente (datum, starost in čas rojstva) v eni ravnini. Diagram je poimenovan po Lexisu, za razvoj diagrama pa so zaslužni še drugi avtorji: Knapp, Zeuner, Becker, Brasche in Verwey. Od vseh si je Lexis ustvaril največji ugled, saj je na tem področju delal več kot 30 let, objavil številne članke, predlagal različne načine uporabe, dodajal različne oblike in barve, zato se je ime Lexisov diagram obdržalo do danes. [23]

Lexisov diagram se obširno uporablja v demografiji in analizi preživetja. Tipičen primer uporabe v demografiji je prikaz rojstva in smrti. Na vodoravni osi je koledarski čas in posameznikova črta se prične ob njegovem datumu rojstva, na navpični osi pa je čas do smrti oz. starost posameznika. Tipičen primer uporabe v analizi preživetja je prikaz skupine pacientov v klinični raziskavi. Na vodoravni osi je koledarski čas in posameznikova črta se prične ob datumu vstopa v raziskavo, na navpični osi pa je čas do dogodka. Vsaka enota je predstavljena z daljico z naklonom 45 stopinj. [10]

Slika 6: Primer Lexisovega diagrama iz literature [10].

Na sliki 6 je prikazanih osem posameznikov. Označeni posameznik je v raziskavo vstopil ob času T in ostal do časa T+A. V raziskavi je bil torej vključen A dni.

Lexisov diagram se lahko prilagodi na različne načine. Lahko se dodaja simbole in barve: simboli podajo informacijo o dogodkih, barve pa ponazarjajo različna stanja in prehode med njimi. Prilagodi se lahko tudi vodoravna os: če je na njej spremenljivka, ki je od časa neodvisna (npr. datum vstopa v raziskavo ali datum rojstva), so črte enot na diagramu navpične in je diagram enak kot dogodkovni diagram z

(28)

zamenjanima koordinatnima osema. Na vodoravni osi je lahko tudi kakšna druga časovna spremenljivka. [10]

Na sliki 7 (levo) lahko vidimo Lexisov diagram, ki ima končni dogodek (smrt) označeno s krogcem, barve krogca pa kažejo razlog za smrt. Z drugačnimi simboli so nato označeni drugi dogodki (ponovitev bolezni, operacija, odložena operacija). Na vodoravni osi je označeno leto diagnoze in dodana še informacija o pojavnosti bolezni glede na leta, na navpični osi so leta od diagnoze. Na sliki 7 (desno) so obarvane črte, in sicer barve ponazarjajo vrsto bolezni. Krogec ponazarja smrt, barva krogca pa vzrok smrti. Vodoravna os je datum operacije, navpična pa čas od operacije. Ob vodoravni osi je dodano še število operiranih posameznikov v tistem letu [24].

Slika 8: Primer Lexisovega diagrama s spremenjenima osema [24].

Slika 7: Primer Lexisovih diagramov, ki vključujejo barve in simbole [24].

(29)

Na sliki 8 je vodoravna os leto diagnoze, navpična os pa starost posameznika. Obe osi imata torej enake enote (leta), vendar razmaki med enotami na oseh niso enaki. Posledično je naklon črt drugačen (v tem primeru manjši) od 45 stopinj. Preživeli so označeni s svetlo sivo črto, mrtvi pa s temno sivo črto. Razlogi za smrt so ponovno označeni z barvami, kot je opisano v legendi. [24]

V Lexisov diagram lahko nenehno dodajamo nove enote in ter opazujemo, kako so dogodki razporejeni skozi čas. Ni določenih specifičnih pravil ali mej, potrebna je presoja strokovnjakov obravnavanega področja, da opazijo v podatkih omembe vredno informacijo. Možnost, da se črte in oznake pobarvajo, pomembno pripomore k razumevanju informacij.

V analizi zgodovine dogodkov se večinoma uporabljajo zgolj krivulje preživetja, ki prikazujejo dogajanje na skupinski ravni, ni pa informacije o okoliščinah in posamezniku. Dopolnitev z Lexisovim diagramom je uporabna, saj nudi vpogled v več informacij.

Negativne plati Lexisovega diagrama so, da lahko delujejo kaotično, sploh če je v diagram vključenih preveč dejavnikov. Prikaz v tem primeru lahko postane neberljiv oziroma nerazumljiv tudi za bolj izkušene bralce, zato je pomembno, da se prikaže samo bistvene informacije. Nadgradnja v primeru številnih dejavnikov so interaktivni prikazi. [24]

(30)

2.6 Diagram v obliki svinčnika

Pri diagramu v obliki svinčnika se kot osnova uporabijo premočrtne konstrukcije za časovno-odvisne spremenljivke, vendar se zložijo ena ob drugo v tri dimenzije, tako da se ustvari objekt v obliki svinčnika.

En svinčnik predstavlja eno enoto, vsaka stranica svinčnika predstavlja drugo časovno-odvisno spremenljivko, dolžina svinčnika pa časovno spremenljivko (npr. koledarski čas, starost). Spremembe v vsaki stranici se lahko prikazuje na različne načine – z velikostjo, vrednostjo, strukturo, barvo, obliko.

Opisne spremenljivke se najlažje prikaže z barvo, strukturo ali vzorcem. Številske spremenljivke se lahko prikaže s kontinuirano spremembo barve ali redkeje s spremembo velikosti vzdolž stranice svinčnika (višina izbočenosti predstavlja vrednost spremenljivke), vendar se v praksi pokaže, da je tak prikaz težje razumljiv. Dogodki se označijo z obroči okrog svinčnika (ang. filled rings), z različno barvo obroča za različen tip dogodka. Spremenljivke, neodvisne od časa, se lahko predstavijo z različnimi barvami ali simboli na koncu svinčnika, lahko pa tudi z dodatno stranico na svinčniku. Informacijo o krnjenju se lahko poda z dodatnim simbolom čez vrh svinčnika (npr. puščico), ali s prekrivanjem (ang.

superimposing), manjkajoče informacije časovno-odvisnih spremenljivk pa z nevtralno barvo (npr.

sivo). Če je v kakšnem trenutku v zgodovini posameznika stanje, v katerem se nahaja, neznano, se lahko namesto nenadne spremembe v barvi praznino med predhodnim in naslednjim stanjem zapolni s postopnim bledenjem barve med stanjema [25, 13].

Slika 9: Primer diagrama v obliki svinčnika za poročen par, kjer zgornji dve stranici prikazujeta status zaposlitve (zgornja za žensko, srednja za moškega), spodnja stranica pa starost najmlajšega otroka v gospodinjstvu. [25].

Slika 9 prikazuje diagram v obliki svinčnika za poročen par. V legendi so predstavljene barve, ki so uporabljene za različne vrednosti spremenljivk, podane na treh stranicah svinčnika. Če bi želeli opazovati še druge spremenljivke, npr. selitev, najem stanovanja, stopnjo izobrazbe ipd., bi na graf dodali nove stranice svinčnika. [10]

V večini primerov je zaželeno prikazati vse enote v vzorcu, ne zgolj ene – v tem primeru se svinčnike razvrsti glede na vrstni red v vzorcu, starost, koledarsko leto ali kako drugače (izbere se za primerjavo najbolj ustrezno razvrščanje) in se jih prikaže enega ob drugem, kar je pravzaprav sodobnejša oblika Lexisovega diagrama. Tovrsten prikaz se od Lexisovega diagrama razlikuje po izboru koordinatnih osi, namesto črt pa se tu nariše svinčnike. [10]

(31)

Slika 10: Primer dvorazsežnega Lexisovega diagrama v obliki svinčnika [25].

Na sliki 10 vidimo primer dvorazsežnega Lexisovega diagrama v obliki svinčnika: gre za 42 obtožencev, obtoženih zločina v letu 1973, vodoravna os so prestopniki, rangirani po starosti, navpična os pa čas, ki je minil od obtožbe tega leta. Vsak svinčnik predstavlja enega obtoženca. Svinčnik ima zgolj eno stranico, na kateri se s trakom (obročem) barve prikaže vrsta zločina (pojasnjeno v legendi). To je primer slabega prikaza, enako bi namreč narisali z Lexisovim diagramom. Širina svinčnika je odveč, saj nima pomena in krši pravilo o razmerju informacije in črnila (pravilo narekuje, da za prikaz potrebne informacije porabimo čim manj prostora oz. črnila, nepotrebne elemente na prikazu pa odstranimo).

Še ena slabost prikaza je, da so si barve med seboj podobne in je težko razbrati, za katere dogodke gre.

Pri večjem številu enot bi tudi hitro prišlo do prekrivanja, tako da bi bil prikaz še slabše berljiv. [10]

Trirazsežni Lexisov diagram v obliki svinčnika je logična nadgradnja, dodana je še tretja koordinatna os.

Osnovno ravnino tvorita vodoravna in globinska os (običajno starost posameznika ter koledarski čas), navpična os pa je čas raziskave. Na sliki 11 so svinčniki zasidrani na ravnini glede na čas prvega dogodka (npr. začetek raziskave) in starost osebe ob prvem dogodku ter se nadaljujejo navzgor pod kotom 45 stopinj. Če sta vodoravna in globinska os določeni kot čas prvega dogodka in starost osebe ob prvem dogodku, sta obe konstanti in potekajo svinčniki navpično. Če ni nobene druge časovne spremenljivke, je lahko globinska os tudi kakšna druga številska spremenljivka, npr. starost na vodoravni in rangirana starost na globinski osi – na ta način se svinčniki razmaknejo vzdolž krivulje, ki je kumulativna porazdelitvena funkcija starosti, gledano pravokotno na osnovno ravnino.

(32)

Slika 11: Primer trirazsežnega Lexisovega diagrama v obliki svinčnika [13].

Trirazsežni Lexisov diagram v obliki svinčnika je zahteven in samo en pogled na trirazsežno sliko ne zadostuje za pregled podatkovja. Rešitev je v interaktivnih programih, ki uporabniku omogočajo izbor spremenljivk, spremembe barv in struktur, širino stranic svinčnikov, rotacije, približevanje/oddaljevanje, filtriranje glede na spremenljivke (podvzorčenje) in drugo. [10]

(33)

2.7 Prikazi za primerjavo skupin – čas preživetja glede na opisno spremenljivko

Če želimo primerjati čase do dogodka med različnimi skupinami, lahko narišemo krivulje preživetja za vsako skupino posebej na isti prikaz. Prednost prikaza je, da opazimo morebitno pristranost zaradi nemogočega dogodka, prav tako lahko razberemo iz grafa mediano in kvartile (če potegnemo vodoravne črte). Slabost je, da so razlike med skupinami manj očitne, če je krivulj preveč ali postanejo preveč razbite [9, 26].

Druga možnost je, da bi narisali dva histograma za krnjene podatke (za dve skupini) na isti prikaz.

Prednost histograma je, da razberemo tudi porazdelitev, problem pa nastane, če je skupin več in se prekrivajo – prikaz postane nepregleden oz. slabše berljiv. Prav tako je problem, če se zaradi krnjenja podatkov ne da oceniti mediane ali kvartilov, saj so histogrami nepopolni – jim manjkajo stolpci v repu (kot je opisano v poglavju histogram za krnjene podatke). Če je skupin več, je boljša izbira okvir z ročaji – narišemo lahko več okvirjev z ročaji enega poleg drugega. Prednost okvirjev z ročaji je, da zlahka razberemo mediano in kvartile, pomanjkljivost okvirjev z ročaji pa je, da jih lahko rišemo samo takrat, ko iz podatkov lahko ocenimo mediano, kar pogosto ni mogoče.

2.8 Razsevni grafikon – čas preživetja glede na številsko spremenljivko

Z razsevnim grafikonom lahko narišemo čas do dogodka v odnosu do spremenljivke v dveh razsežnostih. Na vodoravni osi je številska spremenljivka, na navpični osi pa čas preživetja. Informacijo o krnjenju podamo z obliko, barvo ali velikostjo [27].

Na sliki 12 sta prikazana dva načina za predstavitev podatkov o pacientih s cirozo jeter (navpična os prikazuje čase preživetja, vodoravna os pa logaritem bilirubina). Na levem prikazu so krnjena opazovanja prikazana kot prazni krogi, nekrnjena pa kot križi, torej so uporabljeni različni simboli. Na desnem prikazu so krnjena opazovanja prikazana kot prazni krogi, nekrnjena pa kot črno obarvani krogi: oblika je torej enaka, barva pa ne [9].

Slika 12: Primer razsevnih grafikonov [9].

Podoben prikaz dobimo, če narišemo Lexisov diagram in dogodek (smrt oz. krnjenje) označimo s simbolom določene barve. Na eni osi imamo namreč starost (številska spremenljivka), na drugi pa čas do dogodka (smrti). V Lexisovem diagramu so sicer dodane še črte za vsakega posameznika.

(34)

3 GRAFIČNI PRIKAZI NA LASTNIH PODATKIH

V prvem razdelku tega poglavja predstavimo funkcije za odkrivanje napak v podatkih s pomočjo dogodkovnih diagramov in pripadajočo spletno interaktivno aplikacijo. V drugem razdelku predstavimo izbrane grafične prikaze iz prejšnjega poglavja na lastnih podatkih, pri čemer izpostavimo težave pri implementaciji in kako smo jih rešili v programu R. Lastna koda za histogram in okvir z ročaji za krnjene podatke je podana v prilogi.

Uporabljeni izbrani podatki vključujejo spremenljivke spol, starost, datum diagnoze bolezni, datum progresa bolezni, status progresa bolezni (1 ali 0), datum smrti in status smrti (1 ali 0), in sicer za 70 preiskovancev.

V podatkih imamo 38 moških (54 %) in 32 žensk (46 %). Povprečna starost ob diagnozi je 63 let, najnižja starost je 32 let, najvišja pa 89 let. Delež preiskovancev, ki so v času raziskave umrli, je 66 % (46 preiskovancev), preostalih 34 % je bilo v času raziskave ali na koncu raziskave krnjenih (24 preiskovancev). Od 46 preiskovancev, ki so umrli, jih je 39 doživelo tudi progres bolezni (85 % umrlih), 7 pa jih je umrlo ne da bi prej doživeli progres (15 % umrlih). Trije so doživeli progres, smrti pa ne, 21 preiskovancev ni doživelo ne progresa ne smrti.

3.1 Odkrivanje napak v podatkih s pomočjo dogodkovnih diagramov

V podatkih za analizo zgodovine dogodkov se v primeru več dogodkov lahko pojavljajo napake v časovnem sosledju dogodkov ali druge napake, ki nastanejo bodisi sistematično (dodelitev enakih časov več dogodkom iste enote, neosveženi podatki) ali naključno (pri prepisovanju podatkov). Pri odkrivanju tovrstnih podatkov si pomagamo z dogodkovnimi diagrami; za prikaze v programu R uporabimo obstoječo funkcijo event.chart iz knjižnice Hmisc, za njeno uporabo pa moramo pripraviti podatke. Nadalje smo za odkrivanje napak v podatkih pripravili dodatne funkcije, ki jih tu kratko opišemo, v zadnjem podrazdelku pa predstavimo interaktivno spletno aplikacijo, ki vse navedene funkcije uporablja.

3.1.1 Funkcija za pripravo podatkov

Funkcija event.chart z glavnim argumentom data zahteva podatkovno tabelo, v kateri ima vsak dogodek svoj stolpec, kot vrednost posameznega dogodka pa je zapisan čas, ob katerem se je ta dogodek zgodil (v numerični obliki). V primeru, da se dotični dogodek ni zgodil, je namesto časa zapisana manjkajoča vrednost (NA). Krnjenje tako zahteva svoj stolpec, v katerem je shranjen čas krnjenja. Surovi podatki običajno (in tudi v izbranih podatkih) izgledajo tako, da je za vsak dogodek podan stolpec z datumom ter stolpec status, ki označuje, ali se je dogodek zgodil ali ne. Če se dogodek ni zgodil, je v stolpcu z datumom dogodka zapisan datum krnjenja. V našem primeru je za dogodek "smrt" to datum, ko so raziskovalci v registru preverili, da je oseba še živa, za dogodek

"progres" pa datum zadnje kontrole, ob kateri so ugotovili, da pacient nima progresa. Posledično je potrebno podatke preoblikovati v zahtevano obliko. Poleg dogodkov moramo dodati stolpec za

Reference

POVEZANI DOKUMENTI

Osredotočila sem se na spol izhodiščnih oseb, njihov kraj rojstva, domovinsko pravico, starost, kjer sem ugotavljala tudi njihovo povprečno starost glede na spol,

Glede na zgoraj povedano bi bilo dobro razmisliti o ustanovi (zaen- krat je to samo moja ideja), ki bi se lahko imenovala Jurčičev inštitut ali Inštitut Josipa Jurčiča, njene naloge

Prav tako je bil osrednji namen ugotoviti, ali obstajajo statistično pomembne razlike v stopnji javne ozaveščenosti o jezikovnih motnjah v Sloveniji glede na starost, spol, izobrazbo

V podobnem duhu naj bi tudi država, s katero Ruska pravoslavna cerkev sicer dobro sodeluje, spodbujala teološke ustanove, naj svoje štu- dente bolj pripravljajo na poklic učitelja

V nalogi sem se ukvarjala s tremi ugotovitvami in sicer zanimalo me je, ali v Sloveniji obstaja uradna baza podatkov, kjer lahko pridobimo podrobne informacije

Hipoteza H2 se glasi: Znotraj skupine zaposlenih invalidov obstajajo razlike pri motivaciji za izobraževanje glede na spol, starost in izobrazbo. Kot je bilo v poglavju 5.1.4

stavlja, je, ali to velja zgolj za Srbijo in srbske skladateljice ali pa bi lahko to posplošili tudi na druge

iz učinkov, to je pojavnih gibanj nebesnih teles, lahko v tem primeru sicer sklepamo na vzroke, to je na ekcentre in epicikle, vendar pa je nemogoče obrniti smer sklepanja, se pravi