Prva faza raziskave - Potek raziskave - Slovenska skladnja v skladenjsko označenih korpusih slo

1.1 Potek raziskave

1.1.1 Prva faza raziskave

V prvi fazi raziskave smo za vsako od izbranih 20 glagolskih lem⁸⁰ iz korpusa FidaPLUS izločili vzorec 350 naključnih konkordanc⁸¹ in jih (ročno) analizirali, pri čemer smo besedilne segmente obravnavali kot niz korpusnih dokazov, ki prek pogostnostnih podatkov ponazarjajo tipično pomensko in slovnično vedenje leme in njenega sobesedilnega okolja. Poudarek je bil na raziskovanju pomenov oz. pomenskih tendenc leme, hkrati pa tudi njenega kolokacijskega in koligacijskega potenciala pri njenih posameznih pomenih in podpomenih. Izhajamo namreč iz predpostavke, da so skladenjske in pomenske lastnosti jezikovnih elementov soodvisne (prim. Hunston in Francis 2000; Sinclair 1991), zato je opazovanje zgolj enega od sklopov omenjenih lastnosti manj produktivno. Za analizo 350 konkordanc pri posamezni lemi smo se odločili na osnovi raziskave (Gantar et al. 2009a) o obsegu konkordančnega niza, katerega jezikoslovna interpretacija je potrebna za vzpostavitev jedrne pomenske strukture posamezne leme. Raziskavo so opravili sodelavci projekta Sporazumevanje v slovenskem jeziku za

80 V analizi smo raziskovali slovnično-pomensko okolje pomenov in podpomenov glagolskih lem, ker z metodami avtomatske analize jezika posameznih leksemov ni mogoče izločiti, hkrati pa se korpusno jezikoslovje izkazovanju zlasti homonimije v številnih leksikografskih in njim sorodnih opisih vse pogosteje odpoveduje (prim. Sinclair 1987b: 88; Atkins in Rundell: 281, 282). Kot ena lema sta v tem smislu npr.

obravnavana glagola, ki bi ju sicer najverjetneje opredelili kot homonimna (lema ravnati bi v naši analizi torej vključevala najmanj okvirna pomena 'delati ravno' in 'kazati do česa odnos, kot se kaže zlasti v dejanjih', lema trditi pa najmanj okvirna pomena 'delati, da kaj postane trdo' in 'izražati kako misel, kot da je v skladu z resničnostjo').

81 Konkordančni nizi ter besedne skice, ki smo jih v doktorski raziskavi analizirali, so dodani na zgoščenki, ki je besedilu priložena.

potrebe oblikovanja leksikalne baze za slovenščino, o smiselnem naboru konkordanc, potrebnem za izoblikovanje pomenske strukture leme, pa pravijo:

V raziskovalni fazi projekta smo za leksikalno obravnavo konkordanc tipično analizirali med 250 in 300 konkordanc za vsako geslo. Izkazuje se, da se pri večini gesel, ki jih uvrščamo v leksikalno bazo za slovenščino, pomenske smernice pri približno 100-200 konkordancah izrazijo dovolj očitno. Na njihovi podlagi lahko postavimo semantično strukturo gesla, zato pri sestavljanju novih gesel izhodiščno analiziramo 150 konkordanc, pri semantično kompleksnih geslih pa do 350 konkordanc. (Gantar et al. 2009a: 40.)

Na podlagi interpretacije podatkov v konkordančnem nizu smo oblikovali nekakšen ustreznik slovarskega sestavka (ki ga v nadaljevanju imenujemo slovnično-pomenska shema) za vsak pomen ali podpomen leme, pri čemer smo lemo pomensko razčlenili v skladu s cilji raziskave (prim. razdelek III-2.2.1). Vsako konkordanco smo analizirali tudi z vidika slovnič no-pomenske strukture, katere del je lema v konkretnem pomenu ali podpomenu. Za vsak pomen in podpomen leme smo nato v slovnično-pomenskih shemah navedli tipične slovnič no-pomenske strukture, ki posamezen pomen v korpusnih besedilih uresničujejo. Tipologija podatkov v slovnično-pomenski shemi je natančneje predstavljena v razdelku III-2.

Tako dobljene podatke smo v nadaljevanju dopolnili še na osnovi analize in interpretacije statističnih podatkov o tipičnem kolokacijsko-koligacijskem okolju izbrane leme, kot jih izkazuje funkcija besedne skice orodja Sketch Engine, pri čemer so (lahko) bile izhodiščne slovnično-pomenske strukture dopolnjene oz. razširjene, in sicer zlasti s segmenti z nižjo stopnjo površinskoizrazne ustaljenosti v tipičnem besedilnem okolju pomena ali podpomena leme (prim. razdelek III-2.2.3). V tej fazi raziskave smo opredelili tudi tipičen nabor kolokatorjev za posamezen segment slovnično-pomenskih struktur. Pri ugotavljanju vzorcev slovnično-pomenske povezovalnosti jezikovnih elementov v korpusnih besedilih je bilo za vsako od 20 lem s slovničnega in pomenskega vidika ročno pregledanih približno 6000 konkordanc.

Pri analizi smo, kot rečeno, uporabljali orodje Sketch Engine (Kilgarriff in Rundell 2002;

Kilgarriff et al. 2004; Kilgarriff et al. 2008), ki je bilo izhodiščno ustvarjeno za leksikografsko analizo korpusa, na osnovi katerega je bil oblikovan slovar Macmillan English Dictionary.

Program je bil izdelan za raziskovanje korpusa angleškega jezika, vendar je bil kasneje na pobudo uporabnikov prilagojen še za analizo drugih jezikov, tudi slovenščine (Krek in

Kilgarriff 2006). Prednost programa z vidika drugih konkordančnikov je, da njegova funkcija besedne skice (Word Sketches) omogoča prikaz na korpusu temelječih in statistično relevantnih podatkov o kolokacijskem in koligacijskem okolju besede, in sicer v obliki (kolokacijsko-)koligacijsko sorodnih skupkov pojavnic, ki se tipično pojavljajo v besedilnem okolju iskane leme. Del podatkov o leksikalnem profilu leme pripravljati prikazuje Slika 21.

Korpus mora biti za uporabo programa, zlasti za uporabo funkcije besedne skice, ustrezno pripravljen, pri čemer je potrebno sodelovanje tako razvijalcev programa kot njegovih potencialnih uporabnikov. Za omenjeno analizo mora biti korpus oblikoskladenjsko označen oz. lematiziran ali skladenjsko označen (z odvisnostnimi modeli), hkrati morajo biti pripravljene tudi specifikacije slovničnih relacij, na katerih temeljijo bistvene funkcije orodja Sketch Engine, t. i. slovnica besednih skic (prim. Krek in Kilgarriff 2006). Ta določa, katere metajezikovne informacije naj program pri izdelavi besednih skic upošteva, ko s pomočjo regularnih izrazov izloča podatke, zahtevane na osnovi vnaprej določenih slovničnih relacij.

Slovnica besednih skic, ki jo uporabljamo pri analizi korpusa FidaPLUS za potrebe raziskave v disertaciji, je bila revidirana v okviru projekta Sporazumevanje v slovenskem jeziku (specifikacije skupaj z opisom tipov relacij so natančneje predstavljene v Gantar et al. 2009a).

Zgled ene od slovničnih relacij v slovnici besednih skic prikazuje slika 20.

# SR-12 ######

*DUAL

=koga-kaj/v_tožil

2:[tag="Gp.*"] [tag!="[GD].*"]{0,5} 1:[tag="So..t.*"]

[tag!="D.*"][tag!="D.*"] 1:[tag="So..t.*"] 2:[tag="Gp.*"]

<s>1:[tag="So..t.*"] 2:[tag="Gp.*"]

Slika 20: Prikaz ene od slovničnih relacij v slovnici besednih skic (korpus FidaPLUS SLD)

Poleg funkcije besedne skice smo pri analizi korpusnega gradiva uporabljali tudi funkcijo konkordance, ki vključuje možnosti iskanja podatkov, značilne za velik del konkordančnikov.

Razen z orodjem Sketch Engine smo si pri analizi konkordanc pomagali še z orodjem Pretvornik, namenjenim preoblikovanju jezikovnih podatkov v formatu XML, ki jih dobimo iz besedilnega korpusa FidaPLUS, v obliko, primerno za uporabo v MS Wordu ali MS Excelu

(Gantar et al. 2009a). Program zaradi primernejšega formata, v katerem so podatki uporabniku na voljo, olajšuje ročni pregled konkordančnega niza.

Slika 21: Prikaz dela podatkov o leksikalnem profilu leme pripravljati (korpus FidaPLUS SLD)

In document Slovenska skladnja v skladenjsko označenih korpusih slovenščine (Strani 94-97)