• Rezultati Niso Bili Najdeni

na testni mnoˇzici, ampak jih celo malo izboljˇsa.

Opaˇzanja o parametrih C in γ so v sploˇsnem manj koristna, ker je pri uˇcenju klasifikatorjev po metodi podpornih vektorjev najprimernejˇsa vre-dnost teh parametrov moˇcno odvisna od podatkov, s katerimi delamo, od ˇstevila atributov v vektorjih, od njihove zaloge vrednosti ipd. (to, kateri je najprimernejˇsiC, pa je poleg tega odvisno tudi od izbora jedra in morebitnih parametrov v njem), zato izkuˇsenj iz enega konkretnega nabora podatkov ne moremo preprosto prenesti na druge. Pri naˇsem problemu se je izkazalo, da tako za C kot za γ obstaja precej ˇsirok interval, s katerega lahko zaja-memo vrednosti teh dveh parametrov, ne da bi dobili klasifikator, ki bi bil veliko slabˇsi od tistega pri najboljˇsih vrednostih parametrov. Presenetljivo pri parametruCpa je, da nas preˇcno preverjanje po vsem videzu sodeˇc rahlo zavaja: veˇcje vrednostiCso dajale pri preˇcnem preverjanju slabˇse rezultate, pri testiranju pa boljˇse.

4.5. ZAKLJU ˇCKI IN MO ˇZNOSTI ZA NADALJNJE DELO 79 doloˇcenimi pogoji. Med dodajanji, ki jih nismo pokrili, so na primer tista, pri katerih nova kategorija ne vsebuje (skoraj) nobenih takih dokumentov, ki so bili ˇze od prej v ontologiji, paˇc pa vsebuje nekaj popolnoma novih do-kumentov. Takˇsna dodajanja bi lahko poskuˇsali napovedati, ˇce bi si ogledali tudi zaporedje novih dokumentov, ki prihajajo v ontologijo v ˇcasu od enega do naslednjega posnetka; med temi dokumenti bi skuˇsali poiskati tiste, ki se ne prilegajo dovolj dobro nobeni od obstojeˇcih kategorij (npr. s pomoˇcjo klasifikatorjev za obstojeˇce kategorije); z razvrˇsˇcanjem takˇsnih dokumentov v skupine bi lahko poskusili odkriti kandidate za nove kategorije.

Druga glavna skupina strukturnih sprememb (poleg dodajanj), ki smo jih opazili v ontologiji odp, so premiki in zlivanja kategorij. Te bi lahko poskuˇsali napovedovati tako, da obstojeˇce kategorije primerjamo med se-boj (preprost in mogoˇce preveˇc naiven primer takega pristopa bi bil npr.

raˇcunanje kosinusa kota med centroidi kategorij). S tem bi lahko ugota-vljali, ˇce se neka kategorija dovolj dobro prilega svoji sedanji nadkategoriji ali bi jo bilo bolje premakniti kam drugam v drevesu.

Se ena operacija, ki je aktualna vsaj za ontologijoˇ odp, pa je preimeno-vanje kategorij. To sicer ni zares strukturna sprememba, je pa v hierarhiji odprazmeroma pogosta. Moˇzen pristop za ta problem bi deloval na nivoju posameznih besed: vlogo posamezne besede v neki kategoriji lahko posku-simo opisati z mnoˇzico atributov in nato nauˇciti nek napovedni model, ki bi iz takˇsnih atributov napovedoval, ali bi bila neka beseda primerna kot ena od kljuˇcnih besed v imenu kategorije. Atributi bi morali upoˇstevati ne le prisotnost oz. pogostost opazovane besede v dokumentih dane kategorije, paˇc pa tudi v dokumentih njenih otrok, sester in starˇsa v drevesu — ime kategorije naj bi jo namreˇc pomagalo loˇciti od vseh teh sosednjih kategorij.

S takˇsnim modelom bi lahko za vse besede ocenili, kako primerne se zdijo za kljuˇcne besede pri dani kategoriji; ˇce bi videli, da se v dosedanjem imenu kategorije pojavljajo besede z izrazito nizko oceno (oz. jim ta ocena skozi ˇcas pada), bi lahko priporoˇcili, naj se jih zamenja s kakˇsnimi drugimi besedami, ki dobijo v napovedih naˇsega modela viˇsjo oceno. Ima pa takˇsen pristop pomembno slabost: imena kategorij, sploh takih blizu vrha hierarhije, lahko vsebujejo kakˇsne bolj abstraktne besede, ki v konkretnih dokumentih iz te kategorije (in njenih podkategorij) niso nujno zelo pogoste. Mogoˇce bi bilo treba uporabiti WordNet ali kakˇsno podobno zbirko podatkov o nad- in pod-pomenkah, da bi odkrili povezave med takˇsnimi bolj abstraktnimi besedami in tistimi besedami, ki se dejansko pojavljajo v dokumentih.

O problemu napovedovanja strukturnih sprememb lahko govorimo tudi v semantiˇcno bogatejˇsih ontologijah. Naˇs sedanji pristop predpostavlja, da je ontologija zelo preprosta, saj vsebuje le eno hierarhijo razredov (kategorij), v vsakem od njih pa je niˇc ali veˇc instanc (dokumentov). Nekatere ontolo-gije pa vsebujejo tudi druge relacije, atribute, logiˇcne stavke (ki opisujejo instance in razrede) in tako naprej. Pri takˇsni ontologiji je nabor moˇznih strukturnih sprememb precej veˇcji, pa tudi napovedovati takˇsne spremembe

je veliko teˇzje. Vpraˇsljivo je, ˇce lahko pristope, podobne temu, ki smo ga tukaj uporabili za napovedovanje dodajanja kategorij v preprosto hierar-hijo, uporabimo tudi za napovedovanje strukturnih sprememb v semantiˇcno bogatejˇsih ontologijah.

Poglavje 5

Mera za primerjanje ontologij

5.1 Uvod

V sodobnih informacijskih sistemih se poudarek marsikje pomika od klasiˇcne obdelave podatkov proti obdelavi

”konceptov“, pri ˇcemer torej osnovna enota obdelave ni veˇc nek atomarni kos podatkov, paˇc pa bolj in bolj nek semantiˇcno opremljen koncept, ki mu pripada tudi neka interpretacija in ki obstaja v nekem kontekstu, torej v povezavah z drugimi koncepti. Ontologija je pri takˇsnih sistemih struktura, ki zajema znanje o nekem problemskem podroˇcju in hrani za to podroˇcje relevantne koncepte in relacije med njimi.

Pri gradnji, vzdrˇzevanju in uporabi ontologij ima pomembno vlogo tudi avtomatska analiza tekstovnih podatkov, sploh glede na naraˇsˇcajoˇco prilju-bljenost polavtomatske gradnje ontologij (oz. uˇcenja ontologij, kot jo tudi imenujejo). Za polavtomatsko gradnjo ontologij so predlagali ˇze razliˇcne po-stopke odkrivanja zakonitosti v podatkih, med drugim [28]: nenadzorovano, pol-nadzorovano in nadzorovano uˇcenje na zbirkah besedil; vizualizacijo be-sedil; uporabo tehnik obdelave naravnega jezika za gradnjo semantiˇcnega grafa posameznega besedila; uporabo ekstrakcije informacij za odkrivanje relevantnih konceptov; in vizualizacijo konteksta posamezne imenske enti-tete v neki zbirki besedil.

Ontologije so temeljna podatkovna struktura za konceptualizacijo znanja o nekem podroˇcju, to pa je v praksi

”mehko“ in ga je mogoˇce zajeti in izraziti na razliˇcne naˇcine. Zato je v sploˇsnem mogoˇce za neko problemsko podroˇcje zgraditi veliko razliˇcnih ontologij in koristno je, ˇce lahko ugotovimo, katera od njih bolje ustreza nekemu vnaprej izbranemu kriteriju. Zato je evaluacija ontologij pomemben problem, o katerem moramo razmiˇsljati, ˇce hoˇcemo, da se bodo ontologije na ˇsiroko uveljavile na semantiˇcnem spletu in v drugih semantiˇcno usmerjenih aplikacijah. Uporabniki, ki se znajdejo pred mnoˇzico ontologij, morajo imeti moˇznost oceniti te ontologije in ugotoviti, katera

naj-81

bolje ustreza njihovim potrebam. Tudi ljudje, ki gradijo ontologijo, potre-bujejo naˇcin, kako oceniti dobljeno ontologijo in s takˇsnimi ocenami mogoˇce tudi usmerjati sam postopek gradnje in izboljˇsevanja ontologije. ˇSe pose-bej pa efektivne mere za ocenjevanje ontologij potrebujejo avtomatski in polavtomatski postopki uˇcenja ontologij, saj lahko s pomoˇcjo takˇsne mere poiˇsˇcejo

”najboljˇso“ izmed veˇc moˇznih ontologij, nastavijo vrednosti para-metrov kakˇsnega uˇcnega algoritma ali pa usmerjajo postopek uˇcenja, ˇce je ta zastavljen kot proces preiskovanja nekega prostora moˇznosti.

V nadaljevanju tega poglavja najprej predstavljamo dosedanje delo na podroˇcju evaluacije ontologij (razdelek 5.2) z glavnimi pristopi k ocenje-vanju ontologij in razliˇcnimi tehnikami za ocenjevanje razliˇcnih vidikov ali nivojev ontologije; v razdelku 5.3 kaˇzemo, kako lahko ocenjevanje ontolo-gije vkljuˇcimo v enega od formalnih ogrodij za definicijo ontologije; v raz-delku 5.4 opisujemo naˇs pristop za merjenje podobnosti med dvema hie-rarhiˇcnima ontologijama; v razdelku 5.5 predstavljamo poskuse, ki ugota-vljajo, kako naˇsa mera podobnosti odreagira na razliˇcne spremembe v onto-logiji, in to na primeru velike tematske ontologije iz prakse.