• Rezultati Niso Bili Najdeni

The NewsFeed stream is available on a case by case basis, strictly for research purposes. Due to copyright concerns, we cannot grant access to the general public.

The NewsFeed continues to be maintained by the Artificial Intelligence Laboratory at Jozef Stefan Institute. If interested in the data, visit the NewsFeed homepage at http://newsfeed.ijs.si to find up-to-date contact information.

131

Dodatek B

Razˇ sirjen povzetek v slovenˇ sˇ cini

B.1 Uvod

Pisana beseda je v zgodovini ˇcloveˇstva igrala pomembno vlogo: je trajen, razme-roma enoliˇcno razumljiv sistem prenosa idej in znanj, ki nam omogoˇca vsakovrstne napredke. Z iznajdbo tiskalnega stroja, ˇse toliko bolj pa z razmahom interneta, je koliˇcina napisanega besedila postala neobvladljiva za posameznega ˇcloveka1. Teˇzavo skuˇsamo danes militi med drugim s pomoˇcjo raˇcunalnikov, natanˇcneje z metodami s podroˇcja tekstovnega rudarjenja. Te metode znajo oceniti podobnost dveh bese-dil, izluˇsˇciti iz besedila kljuˇcne podatke, sestaviti povzetek besedila, oceniti njegov sentiment ali temo, prevajati med jeziki, iskati dokumente po kljuˇcnih besedah, in ˇse marsikaj.

Zgodovinsko veˇcina teh metod temelji na sintaktiˇcnih znaˇcilkah – grobo poeno-stavljeno, uporabljajo statistike o tem, ali se doloˇcene besede pojavijo v besedilu, kolikokrat si sledijo doloˇceni pari besed, kolikokrat se v besedilu pojavijo razliˇcne konˇcnice besed ipd. V zadnjih letih pa so bile veliko pozornosti deleˇzne tudi se-mantiˇcne metode. Namesto z besedami operirajo z logiˇcnimikoncepti; ti so predsta-vljeni z enoznaˇcnimi oznakami, ki jih lahko uporabimo znova in znova, na razliˇcnih problemih. Na primer, “pes”, “psu”, “kuˇza” in “Hund” so na sintaktiˇcnem nivoju popolnoma loˇcene besede, v semantiˇcni predstavitvi pa vse dobijo isto oznako, saj predstavljajo isti koncept. Prednost tega je, da lahko razliˇcni problemi in njihove reˇsitve med seboj delijo znanje, uporabijo pa lahko tudi t.i. predznanje (backgro-und knowledge), ki je bilo zbrano z izrecnim namenom pomagati raznovrstnim se-mantiˇcnim metodam. Na primer, ˇce delamo avtomatski povzetek besedila, ki vsebuje stavek “Pes Fik je tehtal 70 kilogramov,” ˇzelimo, da raˇcunalnik ta stavek vkljuˇci v povzetek, ker opisuje nekaj nenavadnega – a dejstvo, da sedemdesetkilogramski psi niso nekaj vsakdanjega, je raˇcunalniku neznano, razen ˇce ima dostop do predznanja v obliki baze podatkov o psih. Da lahko takˇsno bazo uporabi, pa mora biti sposoben asociirati besedo “pes” iz besedila z ustreznimi podatki v bazi; to je mnogo laˇzje, ˇce tako baza kot besedilo psa oznaˇcita z enotno, semantiˇcno oznako.

1http://what-if.xkcd.com/76/

133

Ceprav je bilo na podroˇˇ cju semantiˇcnih metod narejenega ˇze veliko, ostaja precej smeri ˇse vedno neraziskanih. Izkaˇze se, da je semantizacija besedil, t.j. pretvorba iz sintaktiˇcne v semantiˇcno obliko, vse prej kot enostavna, in veliko raziskav poteka prav na tem podroˇcju. Kot opiˇsemo v razdelku 2.2 (Related Work), se raziskovalci v glavnem omejijo na izluˇsˇcanje posameznih konceptov ali relacij, npr. vseh oseb ali vseh parov podjetje—direktor. Manjˇse ˇstevilo drznejˇsih projektov (npr. NELL [20]) poskuˇsa izluˇsˇciti ˇcim veˇcje ˇstevilo entitet in parov, s ciljem, da bi zgradili bazo univerzalnega predznanja, na primer “stol je tip pohiˇstva” ali “pes je ˇzival”.

Takˇsnemu predznanju pravimo tudi “zdrava pamet” (common sense).

Projekti, ki gradijo takˇsno predznanje, se osredotoˇcijo na natanˇcno izloˇcanje dej-stev iz ogromnih koliˇcin teksta, dejstva pa nato zdruˇzijo, da izloˇcijo ˇsumne podatke.

Ker pregledajo velike koliˇcine teksta, si lahko privoˇsˇcijo, da je priklic na nivoju dokumentov nizek: iz marsikakˇsnega dokumenta npr. ne izluˇsˇcijo sploh nobenega dejstva. V priˇcujoˇci disertaciji se za razliko od teh projektov osredotoˇcimo na me-tode, ki pri semantizaciji besedil doseˇzejo veˇcji priklic za ceno manjˇse natanˇcnosti ali manj strogo strukturiranih izhodnih podatkov. Ker je gostota tako pridobljenih semantiˇcnih oznak mnogo veˇcja, upamo, da bodo tvorile tako informativno predsta-vitev posameznih dokumentov ali celo stavkov, da se bomo z njihovo pomoˇcjo lahko lotili manj makroskopskih nalog kot je grajenje “zdrave pameti”.

Natanˇcnost naˇsih metod preverimo najprej intrinziˇcno (pomerimo natanˇcnost in priklic), bolj obetavno od metod pa ˇse ekstrinziˇcno: rezultat semantizacije besedila s to metodo uporabimo kot osnovo za reˇsitev dveh nalog v tekstovnem rudarjenju;

eno, ki iˇsˇce, kaj je mnoˇzici dokumentov skupnega, in eno, ki iˇsˇce, v ˇcem se sorodni dokumenti razlikujejo.

Disertacija je razdeljena na sledeˇca poglavja:

ˆ 1. poglavje predstavi raziskovalno podroˇcje in poda motivacijo in uvod.

ˆ 2. poglavje opiˇse obstojeˇce delo in rezultate na podroˇcju ter orodja in po-datkovne zbirke, ki se jih posluˇzimo v naˇsem delu. Opiˇse tudi sistem za trajno zajemanje novic z interneta, ki smo ga razvili in ki priskrbi podatke za veˇcino analiz v preostalih poglavjih. Kljuˇcne dele tega poglavja v slovenˇsˇcini povza-memo sproti, ko vpeljemo posamezne koncepte v razdelku B.2.

ˆ 3. poglavje predstavi in primerja dve metodi za semantizacijo besedila. V slovenˇsˇcini to poglavje povzamemo v razdelku B.2.

ˆ 4. poglavje vpelje in ovrednosti dve metodi za grajenje domenskih predlog, temeljeˇci na semantiziranem tekstu. V slovenˇsˇcini to poglavje povzamemo v razdelku B.3.

ˆ 5. poglavje predstavi sistem za odkrivanje razliˇcnih staliˇsˇc in pogledov na medijske dogodke iz spletnih novic, prav tako temeljeˇc na semantiˇcnih podat-kih. V slovenˇsˇcini to poglavje povzamemo v razdelku B.4.

ˆ 6. poglavjena podlagi prejˇsnjih poglavij povzame prednosti in slabosti upo-rabe semantiˇcnih reprezentacij.