Preglednica 4: Zakon moči pred in po čiščenju podatkov

4 Odkrivanje zakonitosti v podatkih v okviru modela

4.1 Preglednica 4: Zakon moči pred in po čiščenju podatkov

UDK Število vseh zajetih poizvedb pred čiščenjem = 13613 (100 %)

Poizvedovalni šum UDK 4 pred čiščenjem = 152 poizvedb (1,12 %) Število besed po čiščenju na podlagi K = 4764 (100 %)

Šum UDK 4 po čiščenju = 0 besed (0,00 %)

Preglednica 4 in slika 13 prikazujeta zakon moči s pomočjo primerjave med rangiranimi UDK področij in desetiško logaritmiranimi frekvencami. Gre za prikaz stanja podatkov pred čiščenjem (poizvedbe) in po čiščenju (postopek čiščenja poizvedb s pomočjo dejavnika K, pri katerem sem kot izid dobil pomembne ključne besede). V preglednici 4 sem predstavil naslednje podatke:

a.) Pred čiščenjem

- Vodoravno: razvrščene poizvedbe po UDK področjih od 0, 1, 2, 3, 5, 6, 7, 8 in 9 - Navpično: NP (število ali frekvenca poizvedb), log NP (logaritmirane frekvence poizvedb), RP (rang poizvedb) in % P (odstotni delež poizvedb po posameznih UDK področjih).

b.) Po čiščenju

- Vodoravno: razvrščene ključne besede po UDK področjih od 0, 1, 2, 3, 5, 6, 7, 8 in 9 - Navpično: NB (število ključnih besed), log NB (logaritmirane frekvence ključnih besed), RB (rang ključnih besed z ozirom na posamezna UDK področja) in % B (odstotni delež ključnih besed). Spodnji del preglednice 4 prikazuje še podatke o celokupni frekvenci vseh poizvedb (N = 13613 ali 100,00 %), podatek za poizvedovalni šum tj. področje UDK 4 (152 poizvedb ali 1,12 %), skupna frekvenca vseh pomembnejših ključnih besed (4764 ali 100,00 %) in učinkovito čiščenje neopredeljenih poizvedb z nizko stopnjo pomena t.j področje UDK 4 (0 besed ali 0,00 %). V preglednici 4 bom pri opisu izpostavil podatke, ki se nahajajo v obarvanih območjih (log NP, RP, log NB in RB), kajti tovrstni podatki so za opis slikovnega prikaza 13 ključnega pomena.

Poizvedbe (rang; UDK; log NP): Pomembnejše ključne besede (rang; UDK; log NB) 1. ali vrhnja Skupina

Na podlagi razvrščenih podatkih po rangih je možno sedaj izračunati za posamezna UDK področja rangirne razdalje. Rangirne razdalje za podatke pred in po čiščenju nam povedo, za koliko rangirnih enot je določeno UDK področje porastlo ali pa pojemalo. Osnovni matematični obrazec za izračun rangirne razdalje je naslednji: ∆ R_UDK = R_pUDK– R_bUDK

∆ RUDK ... Rangirna razdalja določenega UDK področja; RpUDK ... Rang določenega UDK področja z ozirom na poizvedbe; R_bUDK ... Rang določenega UDK področja z ozirom na moč ključnih besed.

∆ RUDK 9 = RpUDK 9 – RbUDK9 = 1 – 1 = 0 Rang področja UDK 9 se tudi po čiščenju

podatkov ni spremenil, tako da je področje UDK 9 ohranilo prvo mesto in se tako uvršča v prvo ali vrhnjo skupino visokega vsebinskega pomena. Prav tako je razlika med

logaritmiranima frekvencama dokaj nizka, saj znaša 0,1555.

∆ RUDK 6 = RpUDK 6 – RbUDK6 = 2 – 6 = -4 Rang področja UDK 6 se je po čiščenju podatkov precej spremenil, tako da je področje UDK 6 z drugega mesta padlo na šesto mesto. Po čiščenju podatkov se je vsebinski pomen tovrstnih podatkov precej znižal, tako da se področje UDK 6 po čiščenju podatkov uvršča v drugo ali srednjo skupino. Prav tako je razlika med logaritmiranima frekvencama precej višja, saj znaša 0,8158. Prav to nas posledično napelje na ogromno razliko med logaritmiranima frekvencama med UDK 9 in UDK 6 po čiščenju podatkov, ki znaša 0,8728! Prav to razliko je možno še posebej nazorno opaziti na slikovnem prikazu 13.

∆ RUDK 5 = RpUDK 5 – RbUDK5 = 3 – 2 = 1 Področje UDK 5 je porastlo za eno mesto navzgor. Razlika med logaritmiranima fekvencama znotraj tega področja znaša 0,5791, kar je dokaj visoka vrednost. Če zdaj med sabo primerjam logaritmirane frekvence po čiščenju podatkov med UDK 9 in UDK 5 dobim kot izid vrednost 0,6485! Tudi tovrstno razliko je možno lepo videti na sliki 13. Pred čiščenjem podatkov ta razlika ni bila tako očitna, saj je znašala vrednost samo 0,2249! Kakovostno gledano se je področje UDK 5 obdržalo v prvi ali vrhnji skupini.

∆ RUDK 3 = RpUDK 3 – RbUDK3 = 4 – 5 = -1 Področje UDK 3 je padlo za eno rangirno mesto.

Razlika med področjema UDK 9 in UDK 3 je prav tako zelo očitna (gl. sliko 13).

Kakovostno gledano se je področje UDK 3 obdržalo v srednji ali drugi skupini.

∆ RUDK 8 = RpUDK 8 – RbUDK8 = 5 – 4 = 1 Področje UDK 8 se je dvignilo za eno rangirno enoto in prav tako ohranilo mesto v drugi ali srednji skupini.

∆ RUDK 7 = RpUDK 7 – RbUDK7 = 6 – 3 = 3 Področje UDK 7 se je dvignilo za tri rangirna mesta, tako da se je kakovostno gledano povzpela v prvo ali vrhnjo skupino. Na slikovnem prikazu 13 je možno ta dvig zelo lepo videti.

∆ RUDK 1 = RpUDK 1 – RbUDK1 = 7 – 8 = -1 Področje UDK 1 je padlo za eno rangirno mesto in tako ohranilo mesto v tretji ali spodnji skupini.

∆ RUDK 0 = RpUDK 0 – RbUDK0 = 8 – 7 = 1 Področje UDK 0 se je povzpelo za eno rangirno enoto navzgor, vendar kljub temu po vsebinski moči ostalo v tretji skupini.

∆ RUDK 2 = RpUDK 2 – RbUDK2 = 9 – 9 = 0 Področje UDK 2 je hranilo tako tudi po čiščenju podatkov, saj je ohranilo rang 9 kot tudi mesto v tretji ali spodnji skupini.

Sklep 1: razlike med logaritmiranimi frekvencami po čiščenju podatkov dosegajo največji odmik takrat, kadar med sabo primerjam področje UDK 9 z drugimi UDK področij.

Sklep 2: ko primerjam med sabo razlike logaritmiranih frekvenc po čiščenju podatkov med različnimi UDK področij razen UDK 9 prihajam do spoznanja, da so dokaj nizke razlike.

Sklep 3: S kakovostnega vidika je možno ugotoviti, da sta po primerjavi pred in po čiščenju podatkov zgolj področji UDK 7 in UDK 6 spremenili skupini, tako je področje UDK 7 prispelo v vrhnjo, medtem ko je področje UDK 6 padlo v srednjo skupino (gl.

velike rangirne razdalje). Z vidika pomembnosti ali moč ključne besede (K) lahko ocenjujem, da so podatki po postopku čiščenja s področja UDK 7 pridobili na pomenu, medtem ko so podatki s področja UDK 6 po postopku čiščenja UDK 6 izgubili na pomenu.

Sklep 4: če je možno za levi del slike 13 trditi, da obstaja v zvezi s poizvedovanjem na UDK leksikonu neko stabilno stanje, tega ni možno trditi za desni del slike 13, kajti pomen ključnih besed, ki spadajo v področje UDK 9 je izjemno visok nasproti drugim ključnim besedam z drugih UDK področij. Postopek čiščenja podatkov je tako izpostavil pomembne ključne besede in izločil mnogo manj pomembnih. Prav tako je postopek čiščenja podatkov izločil tudi poizvedbe (poizvedovalni šum), ki sem jih pred čiščenjem podatkov razvrstil pod UDK 4.

Sklep 5: ocenjujem, da je možno na podlagi dobljenih izidov vzpostaviti globalni miselni model poizvedovalcev oziroma spletnih obiskovalcev, kajti na podlagi področnih

(izobraževalnih) interesov, ki so jih izrazili s poizvedbami na notranjem iskalniku je le-te že možno razvrstiti v določene interesne UDK skupine. Prav tako bi bilo že možno, še zlasti pridobljene pomembne ključne besede med sabo povezovati in tako ustvariti

In document Model adaptivne digitalne knjižnice na podlagi izdelave interesnih profilov uporabnikov (Strani 69-73)