• Rezultati Niso Bili Najdeni

V 4. poglavju se na osnovi pravkar prikazanih orodij za semantizacijo lotimo pro-blema gradnje domenskih predlog (domain template construction). Cilj je zgraditi sistem, ki na vhod prejme mnoˇzico dokumentov iz iste domene (npr. novice o bomb-nih napadih), nato pa avtomatsko generira atribute, ki jih lahko pripiˇsemo veˇcini dokumentov iz vhodne mnoˇzice (npr. ˇstevilo smrtnih ˇzrtev; ˇstevilo ranjenih; kraj napada; organizacija, ki je privzela odgovornost). Za te atribute ˇzelimo najti tudi tipoloˇski opis (npr. “kraj napada” je vedno tipa “geografska lokacija”).

Predstavimo dva nova algoritma za reˇsevanje tega problema; oba sta osnovana na semantiˇcni reprezentaciji vhodnih besedil.

“To understand and appreciate the Bush administration’s policy regarding

Israeli Prime Minister Sharon’s disengagement plan, we must briefly reexamine the record.”

MSRL:

(#$objectImproved #$Comprehending*#$OrganizationPolicy*) (#$performedBy #$Comprehending* (#$ObjectDenotedByFn“we”)*) (#$evaluationInput #$Evaluating*#$OrganizationPolicy*)

(#$performedBy #$ExercisingAuthoritativeControlOverSomething*

(#$ObjectDenotedByFn“we”)*)

(#$performedBy #$PurposefulAction* (#$ObjectDenotedByFn“Sharon”)*) SDP:

understand.v.01−−−−→object policy.n.01

we.n.00←−−−−subject review.v.01−−−−→object attitude.n.01

Slika B.1: Dejanski primer izpisa metod SDP in MSRL na vzorˇcnem stavku.

Metoda FGS (pogosti posploˇseni podgrafi – Frequent Generalized Su-bgraphs) Vhodno besedilo pretvorimo v semantiˇcne okvirje z metodo SDP, kot smo opisali v razdelku B.2. Okvirje nato ˇse dodatno poenostavimo: zavrˇzemo vse atribute razen akterja, tarˇce in akcije oz. imena okvirja. Te predstavimo kot trojice oblike akter−−−→akcija tarˇca . Na primer, stavek “Vˇceraj je Marko jedel golaˇz” postane

Marko−−→jesti golaˇz .

Takˇsne trojice nato poveˇzemo v graf – akterji in tarˇce so vozliˇsˇca, akcije pa (oznaˇcene) povezave. Za vsak vhodni dokument konstruiramo po en graf. Kljuˇcna intuicija, na kateri temelji metoda FGS, je zdaj tale: v veˇcini dokumentov bo podana veˇcina kljuˇcnih atributov zgodbe (ˇstevilo ˇzrtev, kraj napada itd.), in med seboj bodo povezani s semantiˇcno podobnimi relacijami. V grafovski terminologiji to pomeni, da priˇcakujemo, da se v veˇcini grafov ponovijo vozliˇsˇca enakega tipa2, povezana z enako oznaˇcenimi povezavami. ˇSe bolj formalno: iˇsˇcemo tak (majhen) graf, katerega oznake so nadpomenke, njegove specializacije (t.j. kopije tega grafa, kjer so oznake vozliˇsˇc morda nadomeˇsˇcene s podpomenkami) pa se pojavijo v vhodnih grafih. Ta mali graf predstavlja “bistvo” oz. iskano predlogo vhodne domene. Idejo ilustriramo na sliki B.2

Implementacija takˇsne hevristike ni preprosta, ker je kombinatoriˇcni prostor vseh podgrafov vhodnih dokumentov ter njihovih posploˇsitev velik. Problem reˇsimo v grobem tako, da oznake vhodnih grafov najprej posploˇsimo (t.j., vsako vozliˇsˇce pred-stavimo z njegovim kar se da sploˇsnim tipom). Nato v posploˇsenih grafih poiˇsˇcemo ponavljajoˇce se podgrafe; tudi to trivialno, vendar izvedljivo; priredili smo algoritem Nijssena in sodelavcev [126]. Kot zadnji korak najdene podgrafe spet specializiramo,

2A verjetno ne s ˇcisto enakimi oznakami. Na primer, pri vhodnih dokumentih o bombnih napadih bo en graf vseboval vozliˇce z oznako Kabul, en Karaˇci, en pa New York. To so razliˇcna oznake, vendar imajo skupnonadpomenko oziroma tip, v tem primeru “mesto”.

kolikor se da, da pri tem njihove oznak ˇse vedno ostanejo nadpomenke oznak vhodnih grafov.

Algoritem je podrobneje opisan v razdelku 4.2.

Slika B.2: Primer delovanja metode FGS na umetno ustvarjenem, zelo majhnem primeru. Grafi G1...3 predstavljajo vhodne dokumente, graf H pa iskano predlogo.

Vidimo, da vsako vozliˇsˇce v H ustreza po enemu vozliˇsˇcu v G1...3; npr., “attacker” ustreza vozliˇsˇcem “bomber” v G1, “attacker” v G2 in “terrorist” v G3. Ta vozliˇsˇca so med seboj v vseh vhodnih grafih povezana na enak naˇcin. PredlogoH na koncu interpretiramo takole: v vsaki vhodni zgodbi se pojavi entiteta tipa “attacker”, ki detonira (“detonate”) eksploziv (“explosive”) in ubije (“kill”) entiteto tipa oseba (“person”). Entitete na sliki so vzete iz WordNeta in zato predstavljene z original-nimi angleˇskimi oznakami.

Metoda CT (karakteristiˇcne trojice – Characteristic Triplets) Tudi ta metoda semantiˇcne okvire najprej predstavi s trojicami, a nekoliko drugaˇce: ak-cija okvirja in vsak od njegovih atributov porodita po eno trojico. Uporabimo isi primer kot prej: stavek “Vˇceraj je Marko jedel golaˇz” postane jesti−akter−−→Marko ,

jesti−tarˇ−−ca→golaˇz , jesti−→ˇcas vˇceraj .

Metoda na vhodu priˇcakuje dokumente iz domene (npr. novice o bombnih na-padih), pa tudi negativne primere, t.j. dokumente, ki ne spadajo v domeno. Vse

Slika B.3: Primer usmerjenega acikliˇcnega grafa, kot ga skonstruira metoda CT.

Vsak okvirˇcek prikazuje trojico in ˇstevilo njenih pojavitev v domenskih dokumentih f+. Domena v tem primeru so bombni napadi. Sivi okvirˇcki predstavljajo tro-jice, ki se v dokumentih pojavljajo neposredno, ter stavke, ki so jih porodili; znak Xpredstavlja domenske, znak z pa izvendomenske dokumente. Puˇsˇcice kaˇzejo od manj do bolj specializiranih trojic. Odebeljeni okvirˇcek je tista trojica, ki bo izbrana v konˇcno domensko predlogo. Vrednosti okvirov na sliki niso prikazane, vendar ko-relirajo s f+.

trojice iz vseh vhodnih dokumentov nato poveˇzemo v usmerjen acikliˇcen graf: tro-jice so toˇcke, dve trojici pa sta povezani, ˇce so vsi elementi prve trojice nadpomenke elementov druge trojice (ali pa so si med seboj enaki). Primer takega grafa je na sliki B.3. Za vsako trojico si nato zapomnimo ˇstevilo njenih pojavitev v domenskih in izvendomenskih dokumentih. ˇStevila pojavitev propagiramo po grafu navzgor (t.j. proti nadpomenkam) in za vsako trojico izraˇcunamo njeno vrednost; ta pozi-tivno korelira s ˇstevilom pojavitev v domenskih dokumentih in negapozi-tivno s ˇstevilom pojavitev v izvendomenskih dokumentih. Trojice z najviˇsjo vrednostjo na koncu proglasimo za domensko predlogo.

Intuitivno se bodo preveˇc specializirane trojice (npr. eksplozija −akter−−→avtobomba ) pojavile v premajhnem ˇstevilu vhodnih dokumentov, zato bo njihova vrednost nizka;

presploˇsne (npr. uˇcinkovanje−akter−−→fiziˇcen objekt ) bodo nastopale v izvendomen-skih dokumentih, kar bo spet ˇskodovali njihovi vrednosti; tiste ravno prav sploˇsne, ki si jih ˇzelimo v domenski predlogi (npr. poˇskodovanje−akter−−→eksplozivno sredstvo )), pa bodo uravnovesile oba faktorja, ki nastopata v formuli za vrednost.

Rezultati Da bi ocenili kvaliteto obeh metod, smo za pet domen (novice o avi-onskih nesreˇcah, bombnih napadih, potresih, diplomatskih obiskih, ter kazenskih obsodbah) najprej razvili zlato evaluacijsko mnoˇzico, t.j. nabor desetih atributov, ki naj jih ima idealna predloga za posamezno domeno. Nato smo algoritem pognali na nekaj sto dokumentih iz vsake domene. Rezultati so v tabeli B.1

Domain FVM FGS CT

airplane 0.53 0.24 0.57

bomb 0.52 0.26 0.44

earthquake 0.38 0.50 0.54

visit — 0.15 0.30

sentence — 0.15 0.59

Tabela B.1: Recall@20, t.j. deleˇz atributov iz zlate evaluacijske mnoˇzice, vsebovanih tudi v izhodu algoritmov. Primerjamo se tudi s sodobno konkurenˇcno metodo FVM [37].

Ceprav je variacija precejˇsnja, je razvidno, da algoritem FGS vsaj ni slabˇsi odˇ konkurenˇcne FVM. Pri tem FGS za izhodne atribute predpiˇse natanˇcen tip – kva-litativna prednost, ki iz tabele zgoraj ni oˇcitna. Algoritem CT se obnese slabˇse predvsem na raˇcun veˇcje koliˇcine zavrˇzenih informacij pri pretvorbi semantiˇcnih okvirov v graf, ter premoˇcne predpostavke o strukturni regularnosti vhodnih grafov.

Evaluacijsko mnoˇzico in natanˇcno metodologijo primerjave izhodnih podatkov algoritma z evaluacijsko mnoˇzico smo javno objavili (glej prilogo A), s ˇcimer spod-bujamo hitrejˇsi razvoj in transparentnejˇso primerjavo algoritmov na tem podroˇcju v bodoˇce.