Analizazvoˇcnihposnetkovglasnegabranjazapresejalnitestdisleksije TajdaUrankar

(1)

Univerza v Ljubljani

Fakulteta za raˇ cunalniˇ stvo in informatiko Fakulteta za matematiko in fiziko

Tajda Urankar

Analiza zvoˇ cnih posnetkov glasnega branja za presejalni test disleksije

DIPLOMSKO DELO

INTERDISCIPLINARNI UNIVERZITETNI ˇSTUDIJSKI PROGRAM PRVE STOPNJE

RA ˇCUNALNIˇSTVO IN MATEMATIKA

Mentor : doc. dr. Jure ˇ Zabkar

Somentor : doc. dr. Milena Koˇsak Babuder

Ljubljana, 2021

(2)

Copyright. Rezultati diplomske naloge so intelektualna lastnina avtorja in matiˇcne fakultete Univerze v Ljubljani. Za objavo in koriˇsˇcenje rezultatov diplomske naloge je potrebno pisno privoljenje avtorja, fakultete ter mentorja.

Besedilo je oblikovano z urejevalnikom besedil L^ATEX.

(3)

Kandidat: Tajda Urankar

Naslov: Analiza zvoˇcnih posnetkov glasnega branja za presejalni test disleksije

Vrsta naloge: Diplomska naloga na interdisciplinarnem univerzitetnem pro- gramu prve stopnje Raˇcunalniˇstvo in matematika

Mentor: doc. dr. Jure ˇZabkar

Somentor: doc. dr. Milena Koˇsak Babuder Opis:

Disleksija je specifiˇcna uˇcna teˇzava, ki jo pri otrocih obiˇcajno najprej opazimo kot motnjo branja. Zaradi slabˇsega razumevanja besedila imajo otroci z disleksijo pogosto tudi druge uˇcne teˇzave, zato je zgodnje prepoznavanje znakov disleksije zelo pomembno za otrokov razvoj. S pomoˇcjo aplikacije za presejalni test disleksije analizirajte glasno branje otrok; podatkovna mnoˇzica vsebuje zvoˇcne posnetke glasnega branja otrok z bralnimi teˇzavami in kontrolno skupino otrok iste starosti. Naredite transkripcijo zvoˇcnih posnetkov iz katere konstruirajte mnoˇzico atributov za strojno uˇcenje, pri ˇcemer za razred uporabite oceno specialnega pedagoga, ki je otroke uvrstil bodisi v skupino

“z bralnimi teˇzavami” bodisi v kontrolno skupino. Uporabite ustrezne algoritme strojnega uˇcenja in metode vrednotenja rezultatov, ter jih komentirajte s pomoˇcjo domenskega eksperta.

Title: Audio recordings analysis of aloud reading for a dyslexia screening test

Description:

Dyslexia is a specific learning disorder, which usually presents in children as a reading difficulty. Due to poor understanding of texts, children with dyslexia often struggle with other learning difficulties as well. Therefore, early detection of dyslexia is very important for their development. Using a dyslexia screening app, analyze children’s reading aloud; the data set contains

(4)

audio recordings of reading aloud by children with reading difficulties and a control group of children of the same age. Transcribe the audio recordings and construct a set of machine learning attributes; use the domain expert assessment as the class variable - the domain expert classified the children either in “have reading difficulties” group or control group. Use appropriate machine learning algorithms and evaluation methods, and comment on the results with the help of the domain expert.

(5)

Iskreno se zahvaljujem mentorju, doc. dr. Juretu ˇZabkarju za hitro odzivnost ter vse koristne nasvete in pomoˇc pri izdelavi diplomske naloge. Zahvala gre tudi somentorici doc. dr. Mileni Koˇsak Babuder za pomoˇc in vse nasvete.

Poleg tega se zahvaljujem svoji druˇzini ter prijateljem za podporo in spodbudo med ˇstudijem in pri nastajanju diplomskega dela.

(6)

(7)

Kazalo

Povzetek Abstract

1 Uvod 1

1.1 Opredelitev problema . . . 1 1.2 Cilji naloge . . . 3

2 Pregled literature 5

2.1 Sorodna dela . . . 5 2.2 Disleksija v Sloveniji . . . 7

3 Metodologija 9

3.1 Podatki . . . 9 3.2 Uporabljene metode . . . 13

4 Rezultati 19

5 Zakljuˇcek 35

Literatura 37

(8)

(9)

Seznam uporabljenih kratic

kratica angleˇsko slovensko

CSV Comma Separated Values Podatki, loˇceni z vejico WAV Waveform Audio File For-

mat

Oblika zvoˇcne datoteke v va- lovni obliki

XGBoost Extreme Gradient Boosting Ekstremno gradientno spod- bujanje

LOO Leave-One-Out Metoda izloˇci enega

(10)

(11)

Povzetek

Naslov: Analiza zvoˇcnih posnetkov glasnega branja za presejalni test disleksije

Avtor: Tajda Urankar

Disleksija spada med specifiˇcne uˇcne teˇzave in je genetsko pogojena. Zgodnje prepoznavanje prvih znakov je zelo pomembno in v diplomskem delu smo pokazali, da lahko z razliˇcnim izborom atributov in algoritmi to tudi storimo.

Razliˇcni raˇcunalniˇski sistemi bi lahko ˇze danes hitro in objektivno odkrili riziˇcne znake za nastanek disleksije v zgodnjih letih in tako bi lahko otrokom nudili ustrezno pomoˇc ˇze v zaˇcetku ˇsolanja, ko teˇzave ˇse niso tako izrazite.

V tem diplomskem delu se osredotoˇcimo na prepoznavanje oseb z disleksijo z analizo podatkov pridobljenih iz transkripcije zvoˇcnih posnetkov glasnega branja. Med seboj primerjamo in analiziramo razliˇcne algoritme in metode strojnega uˇcenja in podamo rezultate. V nalogi smo ugotovili, da z razliˇcnimi algoritmi strojnega uˇcenja ˇze na manjˇsem ˇstevilu primerov v uˇcni mnoˇzici dobro napovemo nagnjenost k disleksiji.

Kljuˇcne besede: disleksija, presejalni test, napovedovanje, strojno uˇcenje, analiza podatkov.

(12)

(13)

Abstract

Title: Audio recordings analysis of aloud reading for a dyslexia screening test

Author: Tajda Urankar

Dyslexia is a specific learning difficulty that is genetic in origin. It is very important to predict the predisposition to dyslexia at an early age. In this thesis, we show that we can predict dyslexia with a different attributes and machine learning algorithms. Various computer systems could quickly and objectively detect the predisposition to dyslexia at an early age and thus be able to offer children appropriate help at the very beginning of their education when the problems are not yet noticeable. In this thesis, we focus on the identification of children with dyslexia by analyzing data obtained from the transcription of audio recordings of reading aloud. We compare and analyze different algorithms and machine learning methods and give results. In the thesis, we found that we can predict the predisposition to dyslexia well with different machine learning algorithms even with a small number of cases.

Keywords: dyslexia, screening test, prediction, machine learning, data analysis.

(14)

(15)

Poglavje 1 Uvod

1.1 Opredelitev problema

Disleksija spada med specifiˇcne uˇcne teˇzave in je genetsko pogojena. Zanjo so znaˇcilni nevrofizioloˇsko pogojeni primanjkljaji na ravni sluˇsno-vizualnih procesov. Osebe z disleksijo imajo izrazite teˇzave pri branju, pisanju in raˇcunanju, hkrati pa je njihova inteligentnost v okviru povpreˇcja ali pa celo nadpovpreˇcna. Disleksija je povezana predvsem z obvladovanjem in uporabo jezika in povzroˇca ˇstevilne vseˇzivljenjske teˇzave. Je najbolj razˇsirjena spe- cifiˇcna bralno-napisovalna motnja. Pojavlja se pri pribliˇzno 10% svetovnega prebivalstva [16].

Vsi otroci imajo neko obliko zaˇcetnih teˇzav pri uˇcenju branja, vendar te teˇzave sˇcasoma pri otrocih z disleksijo ne izvenijo. Slabo avtomatizirano branje in razumevanje prebranega lahko otrokom ovirata razvoj in ˇsirjenje be- sediˇsˇca in prepreˇcita, da z odraˇsˇcanjem doseˇzejo svoj potencial. Pomembno je, da se disleksijo prepozna v zgodnjih letih in da se otrokom, ki kaˇzejo zgodnje znake disleksije, ustrezno pomaga pri usvajanju veˇsˇcine branja in odpravljanju uˇcnih primanjkljajev, istoˇcasno pa se spodbuja in razvija njihove potenciale in talente [6].

Motnjam pri branju in pisanju so pridruˇzeni pomanjkanje pozornosti, teˇzave pri delu s simboli, slaba jezikovna razvitost, dezorientacija, motnje v

1

(16)

2 Tajda Urankar doˇzivljanju ˇcasa in prostora ter slabo pomnjenje zaporedij. Vsak ˇclovek z disleksijo nosi svojstven zbir simptomov, zaradi ˇcesar je motnjo vˇcasih teˇzko prepoznati. Najbolj zaznamuje otroka v ˇsolskem obdobju. Morda se na prvi pogled zdi, da je motnja tako oˇcitna, da jo prepozna vsak, pa vendar se dogaja, da je starˇsi in uˇcitelji ne prepoznajo [6].

Bralci z disleksijo berejo zatikajoˇce, saj gre veˇcina njihove moˇci in energije za dekodiranje besed. Poslediˇcno imajo teˇzave z razumevanjem prebranega, zato se izogibajo branju. ˇSe vedno veliko otrok z disleksijo pripoveduje, kako s strahom ˇcakajo, da jih uˇciteljica pokliˇce k branju pred celim razredom.

Pripovedujejo o stiskah, ki jih doˇzivljajo pri glasnem branju pred celotnim razredom, ter o neskonˇcnem obˇcutku olajˇsanja, ko se branju uspejo izogniti in o mnogih zvitih strategijah, s katerimi se branju izogibajo [6]. Osebe z disleksijo pogosto posamezne besede preberejo dokaj dobro. Ker pa vso ener- gijo usmerijo v branje, ki navzven deluje pravilno in tekoˇce, slabo razumejo prebrano.

Slika pomena povedi nastaja, medtem ko beremo. Razvoj slike, ki naj bi se ustvarila na osnovi povedi, se ustavi vedno, kadar pomena neznane besede ne moremo vkljuˇciti v celotno sliko. Vsakokrat, ko oseba z disleksijo naleti na besedo, katere pomen nima ustrezne miselne slike, poveˇca nesmisel povedi.

Isti stavek mora prebrati veˇckrat, da dobi iz njega kakˇsen pomen kar pov- zroˇca zmedenost in dezorientacijo. Dezorientacija pomeni, da je zaznavanje simbolov spremenjeno in izkrivljeno, branje in pisanje pa postane oteˇzeno ali onemogoˇceno. To vodi v iskanje prisilnih reˇsitev (npr. moˇcna koncentracija), ki jih osebe z disleksijo razvijajo do konca ˇzivljenja [6].

Razliˇcne ˇstudije kaˇzejo, da so uˇcne teˇzave povezane z razlikami v anatomiji moˇzganov [2, 3, 7, 18]. V raziskavi [9, 12] so uspeli napovedati nagnjenost k disleksiji v zgodnji dobi odraˇsˇcanja, ˇze pred samo pismenostjo. Uˇcne teˇzave zaradi razlik v delovanju moˇzganih ne smemo zamenjevati z uˇcnimi teˇzavami, ki so lahko posledice slabovidnosti, sluha ali motorike. Pojasnitev nevroloˇske podlage za specifiˇcne uˇcne teˇzave je resen cilj raziskav v zadnjih 20 letih.

Kljub velikemu napredku pa vzroki specifiˇcnih uˇcnih teˇzav ˇse vedno niso

(17)

Diplomska naloga 3 dobro razumljeni.

1.2 Cilji naloge

Postopki prepoznavanja zgodnjih znakov disleksije so lahko teˇzavni, saj so zelo dolgotrajni in subjektivni. V ta namen so se zaˇceli razvijati in upora- bljati raˇcunalniˇski sistemi, ki na razliˇcne naˇcine izvajajo presejalne teste med dislektiki in nedislektiki. Taki sistemi omogoˇcajo razlikovanje med otroci z viˇsjim ali niˇzjim tveganjem za disleksijo.

V tem diplomskem delu se osredotoˇcimo na prepoznavanje oseb z mo- tnjami branja z analizo transkripcije zvoˇcnih posnetkov glasnega branja. S to analizo poskuˇsamo loˇciti med osebami, ki so nagnjeni k disleksiji oz. motnjam branja in tistimi, ki niso. Ideja je, da s pridobitvijo znaˇcilnosti, ki jih dobimo iz transkripcije zvoˇcnih posnetkov, med seboj primerjamo razliˇcne algoritme in metode strojnega uˇcenja, ki bi lahko pripomogli pri presejal- nemu testu disleksije in s katerimi bi lahko podali mnenje o nagnjenosti k disleksiji.

(18)

4 Tajda Urankar

(19)

Poglavje 2

Pregled literature

2.1 Sorodna dela

V avstralski ˇstudiji [17] so opisali, da je disleksijo mogoˇce prepoznati z visoko zanesljivostjo, ˇceprav natanˇcen izvor in narava disleksije ˇse vedno nista znana. Disleksijo so definirali kot uˇcno motnjo, ki vpliva na sposobnost branja posameznika. Posebej so definirali ˇse pojem disgrafija, ki predstavlja uˇcno motnjo, ki vpliva na sposobnost pisanja posameznika. V svojem delu so ˇzeleli raziskati tehnike strojnega uˇcenja za oceno disleksije in disgrafije s pomoˇcjo pisanja (slika rokopisa) in branja (zvoˇcni posnetki). Tako kot v tem diplomskem delu, so se oprli na hipotezo, da bi pravilno nauˇcen model strojnega uˇcenja lahko razlikoval med otroci, ki so riziˇcni za nastanek disleksije ali disgrafije in tistimi, ki niso, z uporabo skritih lastnosti dobljenih iz zvoˇcnih posnetkov in slik rokopisa. Za prepoznavanje disleksije je vsak otrok moral prebrati 32 besed, ki so bile ali resniˇcne ali pa izmiˇsljene besede (samo besede, niˇc povedi). Ker je za otroke z disleksijo znaˇcilno, da imajo teˇzave s prepoznavanjem novih besed, so generirali seznam izmiˇsljenih besed, ki ne obstajajo v angleˇskem slovarju, ampak izgledajo kot angleˇske besede.

Besede so morale biti izgovorljive, zato so naredili nevronsko mreˇzo (ang.

Long-Short Term Memory neural network), ki je bila nauˇcena generirati izgovorljive besede.

5

(20)

6 Tajda Urankar Razvili so mobilno aplikacijo, s pomoˇcjo katere so pridobili posnetke.

Sodelovalo je 69 ljudi, od tega 41 oseb diagnosticiranih z disleksijo. Vsak otrok je naglas prebral 16 resniˇcnih besed in 16 izmiˇsljenih. Otroke so raz- delili na 3 starostne skupine (6-8 let, 9-13 let, 14 in starejˇsi) in jim glede na starost prilagodili dolˇzino besed. Za vsakega bralca so si shranili naslednje znaˇcilnosti: starost bralca, ˇstevilo napak, ˇstevilo poskusov ponovnega branja besede, bralni ˇcas, ˇstevilo napak pri angleˇskih besedah, ˇstevilo poskusov ponovnega branja angleˇskih besed, ˇcas branja angleˇskih besed, ˇstevilo napak pri izmiˇsljenih besedah, ˇstevilo poskusov ponovnega branja izmiˇsljenih besed in ˇcas branja izmiˇsljenih besed.

Za analiziranje so uporabili naivni Bayesov klasifikator, logistiˇcno regresijo in nakljuˇcne gozdove. Najboljˇse rezultate so dobili z uporabo nakljuˇcnih gozdov, ki klasificirajo pravilno z 90 % natanˇcnostjo. Opaˇzajo ˇse nekaj ˇsuma v podatkih, ki bi se ga delno dalo premagati z veˇc podatki. Njihovi rezultati so pokazali, da je ˇze njihov preprost test uˇcinkovit za presejalni test disleksije.

Raziskava je tudi dokazala, da izmiˇsljene besede osebe z disleksijo veliko teˇzje berejo kot osebe brez disleksije.

Februarja 2021 [16] so se v Avstraliji lotili povsem novega in zanimivega pristopa prepoznavanja oseb z disleksijo. Zbrali so zvoˇcne posnetke glasnega branja otrok, ki so prebrali 32 besed (zopet 16 resniˇcnih in 16 izmiˇsljenih). Te podatke so potem uporabili v nevronski mreˇzi s ˇstirimi nivoji in dobili rezultate z 81,72 % natanˇcnostjo. Naredili so tudi spletno aplikacijo Dyscreen [1], kjer lahko uporabniki opravijo test.

Veˇcina strokovnjakov uporablja enostavne metode brez uporabe sodob- nih tehnologij za razlikovanje med osebami z disleksijo in osebami brez disleksije. Modeli strojnega uˇcenja se lahko nauˇcijo simulirati znanje strokovnjakov in dobro opravljajo presejalne teste. V raziskavi v Maleziji [10] so opisali raˇcunalniˇski sistem, ki bi podal mnenje o nagnjenosti k disleksiji. Sis- tem je osnovan na podatkih 857 osnovnoˇsolskih otrok, ki so opravili ˇstevilne teste, med drugim so brali seznam 10 besed. Njihov raˇcunalniˇski sistem je sestavljen iz treh komponent: iz modula, ki bi pomagal strokovnjakom ali

(21)

Diplomska naloga 7 starˇsem pri ugotavljanju disleksije pri otrocih, drugi modul klasificira otroke v dve skupini (otroke brez disleksije in otroke, riziˇcne za nastanek disleksije), tretji modul pa je namenjen raziskovalcem za analiziranje podatkov. Rezul- tati njihove ˇstudije so pokazali, da njihov sistem deluje z 99 % natanˇcnostjo.

Od testne mnoˇzice 257 otrok, se je izkazalo da je 20.7 % riziˇcnih za nastanek disleksije. Te rezultate so potrdili tudi njihovi strokovnjaki.

2.2 Disleksija v Sloveniji

Disleksija je v Sloveniji enako pereˇc problem kot kjerkoli v razvitem svetu.

Zahteve, da beremo in potem uporabljamo informacije iz besedila hitro in uˇcinkovito, so veˇcje kot kdaj prej. Bralec je sooˇcen s poplavo razliˇcnih vrst besedil, slogov, zahtevnosti, pisav, formatov [6]. V naˇsem ˇsolskem sistemu je teˇzko pridobivati znanje brez branja in pisanja. Pomembno je, da starˇsi predvsem pa uˇcitelji in svetovalni delavci na ˇsolah disleksijo pri otroku prepoznajo in pravoˇcasno ukrepajo. V Sloveniji se starˇsi z otrokom, ki ima disleksijo, lahko obrnejo po nasvet in pomoˇc na strokovnjake v svetovalnih centrih za otroke in mladostnike, v vzgojnih posvetovalnicah, mentalnohigi- enskih oddelkih v zdravstvenih ustanovah ipd. Pri teˇzjih oblikah je uˇcenca z disleksijo moˇzno usmeriti kot otroka s posebnimi potrebami v izobraˇzevalni program s prilagojenim izvajanjem in dodatno strokovno pomoˇcjo, s ˇcimer mu omogoˇcimo prilagajanje podajanja, utrjevanja in preverjanja znanja, uporabo pripomoˇckov ter dodatno strokovno pomoˇc na ˇsoli. Pomembno je, da otrok, starˇsi in uˇcitelji ne ostanejo sami z motnjo, temveˇc poiˇsˇcejo pomoˇc strokovnjaka [6].

Disleksija se pojavlja pri pribliˇzno 10 % svetovne populacije. Leta 2017 je bilo v Sloveniji v osnovnih in srednjih ˇsolah skoraj 16.000 t.i. usmerjenih otrok (veˇc kot 6 % ˇsolajoˇcih), med katerimi so zajeti tudi otroci z disleksijo [15].

(22)

8 Tajda Urankar

(23)

Poglavje 3 Metodologija

3.1 Podatki

3.1.1 Pridobitev podatkov

Podatke smo pridobili na ljubljanskih osnovnih ˇsolah, med 9. in 18. junijem 2021. Sodelovalo je 6 osnovnih ˇsol: osnovna ˇsola Vita Kraigherja, Hinka Smrekarja, Preˇzihovega Voranca, Alojzija ˇSuˇstarja, Kolezija in Viˇzmarje.

Za sodelovanje so starˇsi otrok predhodno podpisali soglasja, s katerimi so potrdili sodelovanje in hranjenje podatkov otrok za nadaljnjo analizo v tem diplomskem delu. Reˇsevanje je bilo anonimno, imen in priimkov otrok nismo beleˇzili. Beleˇzili smo samo starost in ali je bila otroku ˇze dodeljena odloˇcba ali pa je trenutno v postopku pridobivanja odloˇcbe.

Zeleli smo pridobiti zvoˇˇ cne posnetke glasnega branja otrok, zato smo izbrali 6 besedil razliˇcnih dolˇzin ter teˇzavnosti in jih vkljuˇcili v aplikacijo, ki je nastala v okviru diplomskega dela Katje Kunej [13]. Aplikacijo smo uporabili pri snemanjih na ˇsolah. Na prenosnem raˇcunalniku smo odprli nalogo za glasno branje, kjer so bila na zaslonu prikazana izbrana besedila in pripravili zunanji snemalnik zvoka Zoom H4n Pro.

Zoom H4n Pro je 4-kanalni roˇcni digitalni snemalnik. Lahko posname do ˇstiri hkratne zvoˇcne kanale z visoko loˇcljivostjo in hitrostjo vzorˇcenja. Signale

9

(24)

10 Tajda Urankar zajema v oblikah WAV in MP3. Za shranjevanje uporablja kartico SDHC in povezavo USB za prenos materiala na raˇcunalnik.

Posnetke glasnega branja je snemalnik shranil v obliki WAV. Pridobili smo zvoˇcne posnetke 27 otrok tretjega in ˇcetrtega razreda, starih od 8 do 10, od tega jih ima 12 odloˇcbo (ali pa so v pridobivanju le-te), 15 otrok pa odloˇcbe nima.

3.1.2 WAV

WAV je standard za format zvoˇcne datoteke, ki sta ga razvila IMB in Mi- crosoft za shranjevanje zvoˇcnega bitnega toka v osebnih raˇcunalnikih. WAV datoteke so velike, zato je izmenjava preko interneta redka. Zaradi visoke loˇcljivosti formata je primeren za ohranjanje datotek z visoko kakovostjo, ˇse posebej je primeren za urejanje zvoˇcnih datotek, pri katerih je pomembno, da se pri pretvorbi in procesiranju podatkov pojavi ˇcim manj izgub.

3.1.3 Audacity

Audacity je brezplaˇcna in odprtokodna digitalna programska oprema za urejanje zvoka in snemanje, na voljo za Windows, macOS, GNU/Linux in druge operacijske sisteme. Ustvarjena je bila leta 1999, ampak ˇse vedno ostaja po- pularna aplikacija za ustvarjanje in urejanje glasbe in za druge audio projekte.

Vmesnik Audacity je preprost in uporabniku prijazen. Ponuja zdruˇzljivost z veˇc platformami in podpira veliko knjiˇznic za izboljˇsano funkcionalnost. V tem diplomske delu uporabimo Audacity pri transkripciji zvoˇcnih posnetkov v tekstovno obliko.

3.1.4 CSV

CSV (Comma Separated Values ali tudi Character Separated Values) datoteka je tekstovna datoteka, ki vsebuje podatke, ki so med seboj najpogosteje loˇceni z vejicami, lahko pa tudi z drugimi znaki. CSV datoteke imajo preprosto strukturo. So sestavljene iz veˇc vrstic, ki vsebujejo enega ali veˇc atributov,

(25)

Diplomska naloga 11 loˇcenih z nekim znakom. Lahko vsebujejo tudi glavo, kamor zapiˇsemo imena atributov. CSV se pogosto uporablja za izmenjavo podatkov, saj omogoˇca hitro izvaˇzanje in uvaˇzanje iz datotek. Zaradi enostavne oblike in ker omogoˇca hiter prenos podatkov, uporabimo CSV datoteke pri transkripciji zvoˇcnih posnetkov.

3.1.5 Transkripcija

Podatke iz zvoˇcnih posnetkov smo s pomoˇcjo Audacity roˇcno pretvorili v CSV datoteke. V glavi CSV datoteke smo doloˇcili 4 atribute (start - zaˇcetek, word - beseda, end - konec, mistake - napaka). Vsaka vrstica datoteke se nanaˇsa na branje ene besede iz besedila. Atribut start oznaˇcuje ˇcas, kdaj je bralec zaˇcel naglas brati to besedo, end oznaˇcuje ˇcas, kdaj je za- kljuˇcil z branjem te besede. Obe vrednosti smo v CSV datoteko zapisali v obliki{MM:SS.mmm}, kjerMMoznaˇcuje minute,SSsekunde inmmmmilisekunde.

Atributword oznaˇcuje, katera beseda je bila prebrana (zapisali smo vse gla- sove, ki jih je bralec naglas prebral, ko je bral doloˇceno besedo), z atributom mistake pa smo definirali vrsto napake, ki se je pojavila med branjem te besede. Definirali smo 7 najpogostejˇsih napak, ki smo jih oznaˇcili s ˇstevili od 1 do 7:

• prebrana napaˇcna beseda (1, npr. “balon” namesto “bonbon” ),

• n-krat prebrana beseda (2:n, npr. “... ko ko... ” oznaˇcimo z 2:2),

• n-krat prebran odsek (3:n, npr. “... ki ˇzivijo v ki ˇzivijo v...” oznaˇcimo z 3:2 pri vsaki besedi tega ponovljenega odseka),

• vleˇcenje posameznih ˇcrk v besedi (4),

• zatikanje, jecljanje (5, npr. “zazabavni” namesto “zabavni”),

• narobe naglaˇsena beseda (6),

• izpuˇsˇcena beseda (7).

(26)

12 Tajda Urankar Atributa startinendsmo pridobili s pomoˇcjo aplikacije Audacity. Vsak zvoˇcni posnetek smo roˇcno obdelali. Kot je prikazano na sliki 3.1 smo v Audacity oznaˇcili polje, v katerem je bralec prebral besedo (brez predhodne tiˇsine pred zaˇcetkom branja besede in brez dihanja). ˇZeleli smo dobiti ˇcim bolj natanˇcne ˇcase, ki bi pokazali, koliko ˇcasa je vsak bralec porabil za branje doloˇcene besede in koliko ˇcasa je bralec porabil med branjem dveh zaporednih besed (tiˇsina med trenutno brano besedo in predhodno besedo). ˇCas, ki ga je bralec porabil za oznaˇceno polje, smo izpisali v CSV datoteke. Na koncu smo dobili 27∗6 (ˇstevilo otrok ∗ ˇstevilo besedil) CSV datotek. Primer ene CSV datoteke je prikazan v tabeli 3.1.

Slika 3.1: Prikaz pridobivanja atributovstart inend, izpis zaˇcetka in konca oznaˇcenega polja (spodaj).

(27)

Diplomska naloga 13

3.2 Uporabljene metode

3.2.1 Python in knjiˇ znice

V diplomski nalogi uporabimo programski jezik Python. Python je interpre- tni visokonivojski veˇcnamenski programski jezik, ki vsebuje razliˇcna orodja za pripravo grafike kot matematiˇcne module za izraˇcunavanje. Poleg stan- dardnih analitiˇcnih orodij kot sta na primer Pandas in Numpy, v nalogi uporabimo tudi knjiˇznico scikit-learn, ki vsebuje metode strojnega uˇcenja.

Python uporabimo tudi za vizualizacijo podatkov.

3.2.2 Izbira atributov

Pri gradnji matrik smo uporabili kar nekaj atributov, ki smo jih vse pridobili iz napisanih CSV datotek. Sestavili smo 6 matrik, za vsako besedilo posebej, potem pa smo ˇse vse matrike zdruˇzili v eno.

Za vsako besedilo smo izraˇcunali Levenshteinovo razdaljo (3.2.3) med originalno besedo in prebrano besedo. Upoˇstevali smo vrste napak, ki smo jih zapisali v 4. stolpcu v CSV datotekah. Veˇckrat prebrane odseke in posamezne besede smo posebej oznaˇcili in ˇsele na novih besedah izraˇcunali Leven- shteinovo razdaljo. Podatke smo tudi normalizirali za primerljivost. Vsak stolpec (atribut) tako predstavlja originalno besedo, vrednost pa razdaljo prebrane besede do originalne besede.

V naslednjem koraku smo pridobili ˇcasovne atribute. Izraˇcunali smo dolˇzino branja posamezne besede za vsakega bralca posebej. Vsak stolpec predstavlja besedo, vrednosti pa oznaˇcujejo, koliko ˇcasa je to besedo bral.

Vrednosti smo dobili tako, da smo med seboj odˇsteli vrednost end instart v CSV datoteki. Doloˇcili pa smo tudi koliko razmaka (tiˇsine) je bilo med besedami. Vrednosti smo dobili z odˇstevanjem vrednostistartvi-tem primeru in vrednostjoend v (i−1)-tem primeru v CSV datoteki.

(28)

14 Tajda Urankar

3.2.3 Levenshteinova mera

Nekaj atributov v tabeli predstavlja Levenshteinova mera, ki ponazarja koliko sta si dve besedi podobni. Izraˇcunana razdalja med dvema besedama nam pove, koliko sta si besedi podobni/razliˇcni in koliko korakov bi potrebovali, da bi prvo besedo spremenili v drugo besedo ali obratno. Levenshteinova mera izraˇcuna podobnost med besedama s ˇstevilom popravkov, ki jih potre- buje za preobrazbo ene besede v drugo. Kot popravki se ˇstejejo: vstavljanje ˇcrke, izbris ˇcrke, menjava ˇcrke. Vsaka taka menjava se ˇsteje kot 1, konˇcna razdalja pa je vsota vseh potrebnih transformacij. Mero smo implementirali dinamiˇcno, s pomoˇcjo matrike razdalj v Pythonu za vsako besedilo za vsako besedo. Tako smo dobili matrike za vsa besedila, kjer stolpec (atribut) predstavlja prebrano besedo (kar je prebral bralec), vrstice pa posamezne bralce (primere). Vrednost na mestu a[i][j] predstavlja koliko transformacij bi po- treboval braleci za spremembo prebrane besede v originalno besedo j, ki bi jo v resnici moral prebrati.

3.2.4 Izbrani modeli

Odloˇcitveno drevo

Odloˇcitveno drevo (ang. Decision tree) je eno najbolj osnovnih in enostavnih orodij za gradnjo napovednih modelov. Z drevesno strukturo ponazarja rela- cijo med vhodnimi vrednostmi (atributi) in odloˇcitvijo (ciljna spremenljivka - razred). Ideja algoritma je, da zaˇcetno mnoˇzico podatkov razbije na ˇcim bolj razredno ˇciste podmnoˇzice. Zaˇcetno mnoˇzico razdeli skladno z vrednostmi najbolj informativnega atributa na podmnoˇzice vse do listov, ki ponazarjajo razrede (ciljne spremenljivke). Za vsak list iz pripadajoˇcih primerov oceni, kateri razred je najbolj pogost in reˇcemo, da list uvrˇsˇca v ta razred. Cilj je zgraditi ˇcim manjˇse drevo, ki je konsistentno z uˇcnimi podatki in izbere take atribute, ki razdelijo mnoˇzico v najbolj razredno ˇciste [4, 20].

(29)

Diplomska naloga 15 Mero entropije oz. mero neˇcistoˇce izraˇcunamo po enaˇcbi

I =−X

k

p_k log₂(p_k), (3.1)

kjerp_k predstavlja verjetnost, da nakljuˇcno izbran primer predstavlja razred k. Zanima nas zniˇzanje entropije ob delitvi uˇcne mnoˇzice glede na vrednosti atributa A, zato ˇzelimo najti tak atribut A, ki maksimizira informacijski prispevek. Informacijski prispevekGain(A) izraˇcunamo kot

Gain(A) = I−I_res(A), (3.2)

I_res(A) =−X

vi∈A

p_v_iX

c

p(c|v_i) log₂(p(c|v_i)). (3.3) Ker ima vsak atribut v naˇsem primeru razliˇcno ˇstevilo vrednosti, moramo uporabiti relativni informacijski prispevek, ki se izraˇcuna po enaˇcbi

GainRatio(A) = Gain(A)

I(A) . (3.4)

Odloˇcitvena drevesa je preprosto interpretirati s pomoˇcjo vizualizacije.

So pa nestabilna, saj vsaka majhna sprememba v podatkih lahko vodi do gradnje povsem drugaˇcnega drevesa.

Nakljuˇcni gozd

Nakljuˇcni gozd (ang. Random forest) je sestavljen z ansambelsko metodo (ang. ensemble method) iz veˇc skupin klasifikacijskih dreves in je eden od naˇcinov za zmanjˇsanje nestabilnosti odloˇcitvenih dreves. Ideja algoritma je, da zgradi ˇcim veˇc razliˇcnih (ˇcim manj koreliranih) dreves in uvrsti primer v razred, kamor primer uvrˇsˇca veˇcina klasifikacijskih dreves v gozdu. Algori- tem za vsakega izmed dreves nakljuˇcno izbere vzorec vhodnih primerov iste velikosti in na njem zgradi drevo, podobno kot pri odloˇcitvenih drevesih, le da sedaj ne poiˇsˇce najboljˇsega izmed vseh, ampak izbere nakljuˇcno mnoˇzico atributov izmed katerih potem izbere najboljˇsega.

Nakljuˇcni gozd je danes ena najbolj zanesljivih tehnik uvrˇsˇcanja, ker ima po navadi najboljˇse napovedne toˇcnosti. Ima pa slabost, da izgubi moˇznost

(30)

16 Tajda Urankar interpretacije modela, saj model sedaj sestavlja veˇc modelov, katerih vpliv na odloˇcitve ni jasen in je odvisen od konteksta [20].

Naivni Bayesov klasifikator

Naivni Bayesov klasifikator predpostavlja pogojno neodvisnost vrednosti atributov pri danem razredu. Nov primer (v₁, v₂, ..., v_n) naivni Bayesov klasifikator klasificira tako, da za vsak razred ci po naivni Bayesovi formuli izraˇcuna verjetnost da pripada razredu c_i, to zapiˇsemo kot p(c|v₁, v₂, ..., v_n). Naivna Bayesova formula:

p(c|v₁, v₂, ..., v_n) = p(c)∗Y

i

p(c|v_i)

p(c) . (3.5)

Primer potem klasificira v razred, kjer je bila verjetnost najveˇcja.

Za laˇzjo razlago rezultatov, ki jih dobimo s pomoˇcjo naivnega Bayesovega klasifikatorja uporabimo nomogram. Nomogram je grafiˇcna upodobitev nu- meriˇcnih odnosov med spremenljivkami in uporabniku omogoˇca grafiˇcno pridobiti rezultat brez raˇcunanja. Prikazuje pomembnost posameznih vrednosti vsakega atributa in pomembnost posameznih atributov na ciljni razred.

XGBoost

XGBoost (ang. eXtreme Gradient Boosting) algoritem je napovedna ansam- belska metoda, sestavljena iz odloˇcitvenih dreves, ki uporablja princip gra- dientnega spusta. Je odprtokodna optimizirana knjiˇznica, ki v zadnjem ˇcasu prevladuje v uporabnem strojem uˇcenju in tekmovanjih Kaggle. Omogoˇca paralelizirano gradnjo veˇcjega ˇstevila odloˇcitvenih dreves na eni napravi. Za- radi sistemskih optimizacij, skalabilnosti, vzporednega izvajanja je algoritem tako ˇcasovno kot prostorsko bolj uˇcinkovit kot metoda Gradient Boo- sting. Nekaj znaˇcilnosti XGBoost: avtomatsko obravnava manjkajoˇce vrednosti v podatkih, ima bloˇcno strukturo, ki podpira paralelizacijo gradnje odloˇcitvenih dreves, zagotavlja pa tudi kontinuirano uˇcenje, tako da lahko na novih podatkih okrepi ˇze zgrajen model [5, 14, 19].

(31)

Diplomska naloga 17 Gradient Boosting je ena izmed ansambelskih metod, ki iz veˇc ˇsibkejˇsih modelov, najpogosteje odloˇcitvenih dreves, zgradi moˇcnejˇsi model. Poskuˇsa minimizirati funkcijo izgube z gradientnim spustom. Ta funkcija ocenjuje, kako dober je napovedni model. Gradientni spust uporablja prve odvode pri iskanju smeri najveˇcjega spusta, torej smeri v kateri je padanje vrednosti funkcije izgube najhitrejˇse. XGBoost za razliko od Gradient Boostinga uporablja druge parcialne odvode, kar mu omogoˇca, da dobi veˇc informacij o tem, kako priti do minimuma funkcije izgube [8].

Cilj boosting algoritmov je zgraditi modele na podlagi informacij o prej zgrajenih drevesih, eno za drugim. Na teh modelih se potem poˇcasi uˇci in poskuˇsa ugotovi pomembnost znaˇcilk in parametrov. Na podlagi teh ugotovi- tev se zgradi nov, moˇcnejˇsi model, ki poskusi zmanjˇsati zgreˇsene klasifikacije prejˇsnjih modelov.

Preˇcno preverjanje

Preˇcno preverjanje je poseben primer veˇckratnega uˇcenja in testiranja. Pri deljenju mnoˇzice podatkov na testno in uˇcno mnoˇzico smo uporabili preˇcno preverjanje (ang. cross validation), ki ga izvedemo n-krat (n predstavlja ˇstevilo primerov v mnoˇzici podatkov). V vsaki iteraciji za testno mnoˇzico vzamemo en primer (ang. leave-one-out, LOO), ostale primere pa uporabimo kot uˇcno mnoˇzico. Metodo “izloˇci enega” smo uporabili zato, ker je vzorec podatkov dokaj majhen in smo ˇzeleli ˇcim veˇc podatkov vkljuˇciti v uˇcenje modela.

Metoda je najbolj stabilna ocena glede uˇcinkov razbitja na podmnoˇzice, ker pa je ˇcasovno zelo zamudna, je primerna izkljuˇcno za manjˇse mnoˇzice podatkov [4].

Pri uporabi preˇcnega preverjanja in metodi “izloˇci enega” se moramo zavedati, da je klasifikacijska toˇcnost pribliˇzna, saj ne testiramo dejanske konˇcne hipoteze, ampak veˇc razliˇcnih hipotez, ki so bile zgrajene na nekoliko manjˇsih uˇcnih mnoˇzicah [11].

(32)

18 Tajda Urankar zaˇcetek beseda konec vrsta napake

00:00.000 Mladiˇc 00:01.107 1 00:01.788 goregorske 00:04.420 5 00:05.016 gorile 00:06.342

00:06.342 se 00:06.871

00:06.871 radi 00:07.583

00:08.247 iigrajo 00:10.188 5

00:10.188 z 00:10.600 1

00:10.838 druˇzino 00:11.711 1

00:11.711 s 00:12.012

00:12.129 prijatelji 00:13.192 00:15.600 Podnevi 00:17.195

00:17.289 se 00:17.716

00:17.716 zabzabavajo 00:19.340 5 00:19.906 plezajo 00:20.862

00:21.007 po 00:21.241

00:21.248 drevju 00:21.978

00:21.978 se 00:22.345

00:22.345 lovijo 00:22.886

00:22.966 in 00:23.258

00:23.258 gugajo 00:23.836

00:24.442 na 00:25.116 2:2

00:25.116 vejah 00:25.716 00:25.991 Gorske 00:26.745 00:26.745 gorile 00:27.243

00:27.243 so 00:27.507

00:27.507 ogroˇzena 00:28.471 00:28.471 ˇzivalska 00:29.370 00:29.370 vrsta 00:29.964

Tabela 3.1: Primer CSV datoteke za eno besedilo, v obliki tabele.

(33)

Poglavje 4 Rezultati

Za klasifikacijo smo uporabili odloˇcitveno drevo, nakljuˇcni gozd, naivni Baye- sov klasifikator in XGBoost. Klasifikacijska toˇcnost (ang. Classification accu- racy, CA) je osnovna mera za vrednotenje klasifikacijskih metod. Izraˇcuna se po enaˇcbi CA= stevilo pravilno klasif iciranih primerov^ˇ

ˇ

stevilo vseh primerov .

Zanimalo nas je, ˇce z naˇsimi izbranimi atributi algoritmi lahko razlikujejo med otroci z disleksijo in otroci brez disleksije. Metode smo prvo uporabili na vsakem besedilu posebej, potem pa smo zdruˇzili vse atribute in uporabili metode ˇse na teh podatkih.

Rezultati (klasifikacijska toˇcnost) pokaˇzejo s kolikˇsno toˇcnostjo posamezen algoritem napove razred enemu primeru iz testne mnoˇzice, saj smo na vseh podatkih uporabili deljenje na testno in uˇcno mnoˇzico z uporabo metode LOO. V tabeli 4.1 so prikazani rezultati za vsako besedilo posebej.

V tabeli 4.1 opazimo, da z besediloma 4 in 6 v povpreˇcju najbolj na- tanˇcno uvrstimo primer ali v razred otrok brez disleksije ali v razred otrok z disleksijo. Verjetno so se otroci proti koncu preizkusa ˇze utrudili, otroci s teˇzavami ˇse toliko bolj, sama dolgotrajnost testa pa je vplivala tudi na kon- centracijo. Podaljˇsal se jim je ˇcas branja besed in razmislek pred zaˇcetkom branja vsake besede in poslediˇcno tudi natanˇcnost branja posamezne besede.

Na uvrstitev primera v razred so najmanj vplivala besedila 1 (28 besed), 2 (57 besed) in 3 (36 besed), kar je sploh opazno, ko smo uporabili odloˇcitveno

19

(34)

20 Tajda Urankar

algoritem 1 2 3 4 5 6

odloˇcitveno drevo 55.6 63.0 29.6 81.5 66.7 92.6 nakljuˇcni gozd 81.5 74.1 81.5 70.4 77.8 74.1 naivni Bayes 74.1 70.4 85.2 70.4 74.1 77.8 XGBoost 70.4 70.4 74.1 77.8 77.8 88.9

Tabela 4.1: Klasifikacijska toˇcnost algoritmov na ˇsestih besedilih posamiˇcno, v odstotkih.

besedilo soglasniˇski sklopi dolˇzina besed

1 0.54 5.07

2 0.58 4.61

3 0.69 5.0

4 0.49 4.78

5 0.48 4.58

6 0.35 4.15

Tabela 4.2: Tabela prikazuje povpreˇcno ˇstevilo soglasniˇskih sklopov in pov- preˇcno dolˇzino besed za posamezno besedilo.

drevo. Zanimalo nas je, ˇce je mogoˇce na uspeˇsnost branja vplivala teˇzavnost besedil, zato smo preverili povpreˇcne dolˇzine besed v posameznih besedilih in povpreˇcno ˇstevilo soglasniˇskih sklopov v besedah (npr. beseda “mladiˇcki”

ima 2 soglasniˇska sklopa, “ml” in “ˇck”). Rezultati so prikazani v tabeli 4.2.

Opazimo, da ima besedilo 3 najviˇsje povpreˇcje soglasniˇskih sklopov. Skle- pamo lahko, da je besedilo 3 povzroˇcilo teˇzave tako bralcem brez disleksije, kot tudi bralcem z disleksijo. Zaradi tega je besedilo 3 najmanj vplivalo na razlikovanje med otroci z disleksijo in brez disleksije. Vpliv dobrih bralcev se je najbolj poznal pri ˇsestem besedilu. Iz tabele lahko razberemo, da ima besedilo 6 v povpreˇcju najmanj soglasniˇskih sklopov in najkrajˇse besede, zato je bilo besedilo bolj berljivo. Otroci, ki tekoˇce berejo, pri besedilu 6 niso imeli

(35)

Diplomska naloga 21 teˇzav in so besedilo prebrali hitro, medtem ko so bralci z bralnimi teˇzavami za branje porabili veˇc ˇcasa in naleteli na veˇc teˇzav. Na berljivost besedil pa lahko vpliva tudi razporeditev besed na zaslonu.

V povpreˇcju sta se za najboljˇsa izkazala algoritem XGBoost in nakljuˇcni gozd. Odloˇcitveno drevo je s ˇsestim besedilom uspeˇsno klasificiralo kar 92.6 % primerov. Naslednji najboljˇsi rezultat je bil pridobljen z algoritmom XGBo- ost, ki je v ˇsestem besedilu klasificiral z 88.89 % natanˇcnostjo.

Ce si bolj natanˇˇ cno ogledamo drevo za besedilo 6, prikazano na sliki 4.2, ki

Slika 4.1: Odloˇcitveno drevo za besedilo 6.

smo ga vizualizirali s pomoˇcjo programa Orange3, opazimo, da algoritem za najpomembnejˇsi atribut izbere atribut ki reading time.1, ki pove, koliko ˇcasa je vsak posamezen bralec bral besedo “ki” v ˇsestem besedilu. Beseda je kratka, enozloˇzna, a najbolje razlikuje med bralci z disleksijo in bralci brez disleksije. Preverili smo, katere napake so se dogajale pri tej besedi in ali je mogoˇce na daljˇse branje besede “ki” vplivala naslednja beseda, ki bi lahko bila teˇzja in bi prispevala k temu, da so bralci besedo “ki” podaljˇsali, dokler niso dekodirali naslednje besede. Sklepamo, da je bralcem, ki imajo ˇze odrejeno odloˇcbo, teˇzavo pri branju najverjetneje povzroˇcil preskok v novo vrstico, zato so podaljˇsali “ki”, dokler z oˇcmi niso poiskali pravilne nove vrstice za nadaljevanje branja. Za osebe z disleksijo je znaˇcilno, da pri branju

(36)

22 Tajda Urankar

Slika 4.2: Prikaz zaslona za besedilo 6 iz aplikacije [13]. Atribut, ki opisuje ˇcas branja obkroˇzenega “ki” je najbolje razlikoval med osebami z dileksijo in osebami brez disleksije.

izgubijo orientacijo in da imajo teˇzave pri prehajanju iz vrstice v vrstico.

Hitro se lahko zgodi, da izpustijo kakˇsno vrstico ali pa besedo v besedilu.

Preskok v novo vrstico je oˇcitno povzroˇcil, da so dislektiˇcni bralci izpustili zaˇcetne besede v novi vrstici, ker so z oˇcmi ˇse vedno iskali nadaljevanje, poslediˇcno pa podaljˇsali izgovorjavo “ki”-ja. Bralci brez teˇzav pri “ki”-ju niso naleteli na teˇzave, saj so kratke enozloˇzne besede hitro prebrali, ravno tako so hitro poiskali nadaljevanje povedi v novi vrstici. Teˇzave v besedilu 6 je povzroˇcila tudi beseda “nekdaj”, bralci s teˇzavami so besedo veˇckrat naglas prebrali, ali pa jo priredili v: nekokdaj, nekega, nenekdaj, od nekdaj itd.

Atributnekdaj levenshteintako pove, kolikˇsna je Levenshteinova razdalja do originalne besede.

Odloˇcitveno drevo je dobro delovalo tudi na besedilu 4 (42 besed). V razrede je uspeˇsno uvrstil 81.5 % primerov. Drevo na sliki 4.3 je za najpo- membnejˇsi atribut v tem besedilu vzelo avstralskim silence before, ki pove, koliko milisekund tiˇsine je bilo pred naglas prebrano besedo “avstralskim”. Beseda “avstralskim” je relativno dolga z veliko soglasniki, kar je bil verjetno vzrok teˇzav. Vsebuje dva soglasniˇska sklopa “vstr” in “lsk”, kar je pri otrocih z disleksijo povzroˇcilo teˇzave in podaljˇsalo ˇcas preden so naglas

(37)

Diplomska naloga 23

Slika 4.3: Odloˇcitveno drevo za besedilo 4.

prebrali besedo. Atribut pribliˇzno reading time pove, koliko milisekund so bralci porabili za branje besede “pribliˇzno”. Najpogosteje se je bralcem pri tej besedi zataknilo, verjetno zaradi dolˇzine besede. Beseda vsebuje tudi 3 soglasniˇske sklope, “pr”, “bl” in “ˇzn”. Nekateri so namesto “pribliˇzno” prebrali “pridliˇzno” in potem besedo veˇckrat prebrali, saj jim ni prav zvenela.

Menjava ˇcrke d in b je tipiˇcna napaka, ki se pojavi pri dislektiˇcnih bralcih.

Odloˇcitveno drevo je najslabˇse delovalo na besedilu 1 in 3 vendar so na teh dveh besedilih ostali algoritmi delovali relativno dobro, sploh naivni Ba- yesov klasifikator na besedilu 3. Njegov nomogram je prikazan na sliki 4.4.

Zanimalo nas je, ˇce je ta nomogram sploh reprezentativen, saj v primeru nomograma lahko pride do seˇstevanja pozitivnih vplivov in poslediˇcno do nere- levantnih rezultatov. Preverili smo rezultate nakljuˇcnega gozda in sklepamo, da ne more obstajati samo eno drevo, ki bi znalo prepoznati in razloˇziti vse teˇzave ter razlikovati med osebami z disleksijo in osebami brez disleksije. Ob- staja pa veˇc dreves, ki vsako na svojem podroˇcju to zna narediti, zato dobimo toliko boljˇse rezultate pri nakljuˇcnem gozdu. Dobri rezultati pri nakljuˇcnem gozdu lahko opraviˇcijo tudi dobre rezultate pri naivnem Bayesovem klasifika- torju, tako da je tudi nomogram 4.4 reprezentativen. Na klasifikacijo najbolj vplivajo tisti atributi v nomogramu, ki imajo veˇcji razpon, na primer prvi trije: izredno reading time, pametni reading time,so reading time.

Ko smo zdruˇzili vse atribute vseh ˇsestih besedil, smo dobili rezultate,

(38)

24 Tajda Urankar

Slika 4.4: Nomogram za besedilo 3.

prikazane v tabeli 4.3. Toˇcnost klasifikacije je pri odloˇcitvenem drevesu in nakljuˇcnem gozdu niˇzja, kot ˇce bi uporabili samo besedilo 6. Zanimalo nas je, kateri atributi so sedaj najbolj vplivali, zato smo vizualizirali drevo, ki je prikazano na sliki 4.5. Za najpomembnejˇsi atribut je odloˇcitveno drevo ponovno izbralo besedo “ki” iz besedila 6. Razporeditev besedila 6 in preskok v novo vrstico je oˇcitno povzroˇcil najveˇc teˇzav pri bralcih z disleksijo.

Atribut in levenshtein je vezan na besedo “in” iz prvega besedila. Atri- but nam pove, koliko je razdalja od originalne besede do prebrane besede.

Bralcem s teˇzavami se je tukaj najveˇckrat zgodilo, da so odsek “... se radi igrajo in druˇzijo s prijatelji...” prebrali kot “ ... se radi igrajo z druˇzino s prijatelji...”, saj se pri branju gleda tudi besede, ki sledijo. Veˇcina ljudi bere na pamet in tako prebere le del besede in na pamet poiˇsˇce najbolj smiselno.

Ker si pri branju pomagamo s sopomenom besed, se osredotoˇcamo na prvi del besede, naprej pa preberemo na pamet po svoje. V omenjenem odseku

(39)

Diplomska naloga 25 algoritem rezultati

odloˇcitveno drevo 88.9 nakljuˇcni gozd 77.8 naivni Bayes 77.8

XGBoost 81.5

Tabela 4.3: Klasifikacijska toˇcnost algoritmov na zdruˇzenih atributih, v odstotkih.

Slika 4.5: Odloˇcitveno drevo za vse atribute skupaj.

pride pri branju do majhnih razlik v izgovorjenih besedah, ki pa imajo ˇcisto drugaˇcen pomen. Bralci so tako besedo “druˇzijo” delno dekodirali do petega mesta in prebrali “druˇzino” in skladno zamenjali “in” z “z”. Izrisali smo tudi nomogram, ki ga dobimo iz naivnega Bayesovega klasifikatorja za vse atribute skupaj, prikazan je na sliki 4.6.

Veliko besed se je skozi besedila ponovilo, zato smo ˇzeleli ustvariti nove atribute. Novi atributi bi nam povedali, ali so kasnejˇse ponovitve besed otroci brali hitreje ali poˇcasneje in ali bi lahko na podlagi teh novih atributov raz- likovali med osebami z disleksijo in osebami brez disleksije. Zanimalo nas je, ˇce bralci besede, ki se veˇckrat ponovijo in so jih pred kratkim prebrali,

(40)

26 Tajda Urankar

Slika 4.6: Nomogram za vse atribute skupaj.

preberejo hitreje. Nove atribute smo pridobili s pomoˇcjo linearne regresije.

Besede, ki so se skozi naˇsa besedila veˇckrat ponovile in ˇstevilo njihovih ponovitev smo si shranili. V naslednjem koraku smo dodali ˇcase branja vseh teh besed. Ko je bila beseda prviˇc prebrana smo njen ˇcas branja shranili in na podlagi tega ˇcasa, raˇcunali ˇcase branja naslednjih ponovitev te besede.

Vrednosti ostalih ponovitev izbrane besede smo izraˇcunali kot razliko v ˇcasu branja do prve pojavitve besede. Rezultat je bila pozitivna ali negativna vrednost, ki je prikazovala, ali je bila naslednja ponovitev besede prebrana hitreje ali poˇcasneje kot prviˇc.

Nadaljevali smo z oblikovanjem vrednosti v toˇcke 2D prostora. Vsako zaporedno ponovitev smo oznaˇcili s ˇstevilko, kdaj se je pojavila (vrednost na osi x), razlika do prvega branja pa predstavlja vrednost na osi y. Skozi dobljene toˇcke smo za vsako besedo narisali premico, ki se je toˇckam najbolje

(41)

Diplomska naloga 27 prilegala. Dobili smo jo z uporabo linearne regresije, tako da smo izraˇcunali najbolj optimalni prosti ˇclen in koeficient. Koeficient in prosti ˇclen dobimo po enaˇcbah 4.1 in 4.2:

ˆb = Pn

i=1(X_i−X) (Y¯ _i−Y¯) Pn

i=1(X_i−X)¯ ² , (4.1)

ˆ

a= ¯Y −ˆb X.¯ (4.2)

Izraˇcunali smo tudi konfidenˇcne intervale za prosti ˇclen pri stopnji zna- ˇcilnosti α = 0.05. Njegovo ˇsirino smo shranili kot nov atribut. Vse novo pridobljene atribute smo zdruˇzili z atributi Levenshteinove razdalje in na njih preizkusili algoritme. Rezultati so prikazani v tabeli 4.4. Na sliki 4.7

algoritem rezultati odloˇcitveno drevo 70.4 nakljuˇcni gozd 63.0 naivni Bayes 85.2

XGBoost 85.2

Tabela 4.4: Klasifikacijska toˇcnost algoritmov na novih atributih pridobljenih z linerano regresijo. Rezultati so prikazani v odstotkih.

sta prikazana dva primera narisanih premic in toˇck. Rezultati so v pov- preˇcju malce slabˇsi kot pri prejˇsnji kombinaciji atributov. Dodali smo ˇse prikaz odloˇcitvenega drevesa 4.8 in nomograma 4.9, da smo ugotovili, katere atribute algoritma vzameta za najpomembnejˇse. Odloˇcitveno drevo je za najpomembnejˇsi atribut izbralo atributgorile coefficient, ki predstavlja naklon (ang. slope) premice, ki opisuje ˇcas padanja ali naraˇsˇcanja branja posamezne ponovljene besede. Iz drevesa smo razbrali, da so najvplivnejˇsi atributi, ki prikazujejo naklon premice. Na sliki nomograma 4.9 smo opazili, da poleg atributa gorile coefficient in ki coefficient na klasifikacijo naivnega Bayesovega klasifikatorja najbolj vpliva ˇse ˇsirina konfidenˇcnega in- tervala in prosti ˇclen besede “se”.

(42)

28 Tajda Urankar

(a) (b)

Slika 4.7: Na slikah so prikazani ˇcasi branja besede “je” dveh primerov v milisekundah. Modre toˇcke prikazujejo odstopanja v ˇcasu branja besed, ki so se kasneje ponovile. Rdeˇca premica prikazuje premico, ki smo jo izraˇcunali s pomoˇcjo linearne regresije, zeleni premici pa prikazujeta konfidenˇcni interval za prosti ˇclen. Na prvi sliki opazimo, da se ˇcas branja besede pri kasnejˇsih ponovitvah zmanjˇsuje, na desni pa rahlo naraˇsˇca.

Slika 4.8: Odloˇcitveno drevo za vse atribute skupaj. Atributi so sestavljeni iz atributov, ki smo jih pridobili z linearno regresijo in Levenshteinovih razdalj.

(43)

Diplomska naloga 29

Slika 4.9: Nomogram za vse atribute skupaj. Atributi so sestavljeni iz atributov, ki smo jih pridobili z linearno regresijo in Levenshteinovih razdalj.

Casovni atributi so se v rezultatih pokazali kot najpomembnejˇsi atributi,ˇ kar je bilo seveda priˇcakovano. Nagnjenost k disleksiji lahko pri otrocih pre- poznamo takoj, ko se otrokom pojavijo teˇzave pri hitrosti pri branju in zato ni potreben kakˇsen poseben test. ˇCasovne atribute smo zato izloˇcili in pogle- dali kateri ostali atributi najveˇc vplivajo na klasifikacije. Zanimalo nas je ali lahko samo z atributi, ki opisujejo razdalje med besedami dovolj dobro napovemo nagnjenost k disleksiji in ali imajo dislektiˇcni otroci podobne teˇzave pri istih besedah in odsekih v besedilih. Algoritme smo sedaj izvedli samo na atributih, ki prikazujejo Levenshteinovo razdaljo od prebrane besede do originalne besede. Rezultati za vsako besedilo so prikazani v tabeli 4.5 za zdruˇzene atribute pa v tabeli 4.6. Rezultati so precej slabˇsi kot pri uporabi ˇcasovnih atributov. Oˇcitno samo z uporabo atributov Levenshteinove razdalje ne moremo dobro napovedati ali je bralec nagnjen k disleksiji ali

(44)

30 Tajda Urankar

algoritem 1 2 3 4 5 6

odloˇcitveno drevo 59.3 70.4 66.7 63.0 77.8 51.9 nakljuˇcni gozd 55.6 70.4 63.0 63.0 63.0 63.0 naivni Bayes 63.0 55.6 63.0 85.2 59.3 70.4 XGBoost 66.6 66.6 48.2 59.2 40.74 48.2

Tabela 4.5: Klasifikacijska toˇcnost algoritmov samo na atributih, ki opisujejo Levenshteinovo razdaljo prebrane besede do originalne na 6 besedilih posamiˇcno, v odstotkih.

algoritem rezultati odloˇcitveno drevo 51.9 nakljuˇcni gozd 55.6 naivni Bayes 66.7

XGBoost 55.6

Tabela 4.6: Klasifikacijska toˇcnost algoritmov samo na atributih, ki opisujejo Levenshteinovo razdaljo prebrane besede do originalne v odstotkih.

ne. Vseeno smo pregledali, katere atribute izbere za najpomembnejˇse naivni Bayesov klasifikator na besedilu 4, saj je klasificiral z najviˇsjo klasifikacijsko toˇcnostjo 85.2 %. Nomogram je prikazan na sliki 4.10.

Vkljuˇcili smo tudi odloˇcitveno drevo in nomogram za atribute vseh ˇsestih besedil. Iz odloˇcitvenega drevesa 4.11 lahko razberemo, da so bralcem najveˇc teˇzav povzroˇcile daljˇse besede kot npr. “leoparda”, “nemoˇcno”, “zadrˇzuje”,

“odliˇcni”. Te besede vsebujejo vsaj po en soglasniˇski sklop. Iz slike nomograma 4.12, pa lahko razberemo, da je najvplivnejˇsi atribut postala beseda

“koal” in “avstralskim”. Sledi jima beseda “bonbon”, katero je veliko otrok prebralo kot “dondon”. Kot smo omenili ˇze prej, je pri branju menjava ˇcrke b in d pri osebah z disleksijo znaˇcilna. Nekaj otrok pa je besedo “bonbon”

prebralo kot “balon”.

(45)

Diplomska naloga 31

Slika 4.10: Nomogram za besedilo 4. Atributi so sestavljeni samo iz Leven- shteinovih razdalj od originalne besede do prebrane besede.

Zanimalo nas je ˇse, katere besede so povzroˇcile najveˇc teˇzav pri branju v vsakem besedilu. Izbrali smo pet najpogostejˇsih besed, kjer je imelo teˇzave najveˇc otrok in izpisali najpogostejˇsi napaki, ki sta se pojavili pri branju teh besed. Rezultate smo prikazali v tabeli 4.7.

(46)

32 Tajda Urankar

Slika 4.11: Odloˇcitveno drevo za zdruˇzene atribute Levenshteinove razdalje za vseh ˇsest besedil.

Slika 4.12: Nomogram za vseh ˇsest zdruˇzenih besedil. Atributi so sestavljeni samo iz Levenshteinovih razdalj od originalne besede do prebrane besede.

(47)

Diplomska naloga 33 besedilo beseda ˇstevilo otrok napake

1

drevju 13 zatik, ponovitev

ogroˇzena 12 vleˇcenje, zatik

gorske 10 zatik, ponovitev

mladiˇcki 10 ponovitev

ˇzivalska 8 napaˇcna beseda

2

leoparda 17 zatik, napaˇcno prebrana zadrˇzuje 16 napaˇcno prebrana, ponovitev pragozdov 13 zatik, vleˇcenje

obˇcasno 10 zatik, napaˇcno prebrana

zvleˇce 10 zatik

3

deblih 20 napaˇcno prebrana, ponovitev

brijejo 13 zatik

pragozdovih 13 zatik, ponovitev

dreves 12 ponovitev

ˇsimpanzi 11 napaˇcno prebrana

4

vreˇcarji 12 zatik, ponovitev

koal 11 ponovitev

koale 10 zatik, ponovitev

malim 9 napaˇcno prebrana, ponovitev

avstralskim 9 napaˇcno prebrana, ponovitev

5

najedo 14 zatik

najprej 10 napaˇcno prebrana

krdela 10 zatik

starejˇsi 8 zatik

samcev 8 napaˇcno prebrana

6

je 18 ponovitev

ji 12 ponovitev, izpuˇsˇcena

nekdaj 11 ponovitev, zatik

Soˇce 11 zatik, napaˇcno prebrana dobra 10 ponovitev, napaˇcno prebrana

Tabela 4.7: Tabela prikazuje 5 besed iz vsakega besedila, ki so vsebovale najveˇc napak pri branju. Stolpcu ˇstevilo otrok pove, koliko otrok je imelo pri posamezni besedi teˇzave, v stolpcu napake pa so napisane najpogostejˇse teˇzave s posamezno besedo.

(48)

34 Tajda Urankar

(49)

Poglavje 5 Zakljuˇ cek

V okviru diplomske naloge smo analizirali podatke zvoˇcnih posnetkov glasnega branja, ki smo jih pridobili s pomoˇcjo transkripcije in z algoritmi strojnega uˇcenja ˇzeleli ugotoviti ali lahko napovemo, ali so bralci nagnjeni k disleksiji ali ne. Izbirali smo razliˇcne atribute in ugotovili smo, da na loˇcevanje najbolj vplivajo ˇcasovni atributi, ki predstavljajo, koliko ˇcasa je posamezen bralec bral neko besedo in koliko ˇcasa je minilo med prejˇsnjo prebrano besedo in naslednjo besedo.

Cilj diplomske naloge je bil pokazati, da se ˇze z enostavnimi algoritmi in atributi lahko predvidi nagnjenost k disleksiji, samo z analiziranjem zvoˇcnih posnetkov. V nalogi smo ugotovili, da z razliˇcnimi algoritmi strojnega uˇcenja ˇze na manjˇsem ˇstevilu primerov v uˇcni mnoˇzici dobro napovemo nagnjenost k disleksiji. Moˇznosti za izboljˇsavo je ˇse veliko. V prihodnosti bi lahko na primer cel postopek zelo poenostavili in pohitrili s pomoˇcjo avtomatske transkripcije in veˇcjim ˇstevilom posnetkov. Rezultate bi ravno tako lahko izboljˇsali z uporabo sledilca oˇcesnih gibov ang. eyetracker, ki sledi oˇcem in shrani koordinate, kamor so otroci gledali med glasnim branjem. Tako bi si lahko laˇzje razlagali, zakaj je pri posameznih besedah in odsekih prihajalo do veˇc napak.

Napoved nagnjenosti k disleksiji je v zgodnjih letih zelo pomembna in v diplomskem delu smo pokazali, da lahko z razliˇcnim izborom atributov in

35

(50)

36 Tajda Urankar algoritmi to tudi storimo. Razliˇcni raˇcunalniˇski sistemi bi lahko ˇze danes hitro in objektivno odkrili nagnjenost k disleksiji v zgodnjih letih in tako bi lahko otrokom nudili ustrezno pomoˇc ˇze v zaˇcetku ˇsolanja, ko teˇzave ˇse niso tako izrazite.

(51)

Literatura

[1] Dyscreen. URL https://dystech.com.au/. [Dostopano 21. 7. 2021].

[2] Caroline Beelen, Jolijn Vanderauwera, Jan Wouters, Maaike Vander- mosten, and Pol Ghesquiere. Atypical gray matter in children with dyslexia before the onset of reading instruction. Cortex, 121, 2019.

URL https://www.researchgate.net/publication/336453727_

Atypical_gray_matter_in_children_with_dyslexia_before_the_

onset_of_reading_instruction. [Dostopano 29. 5. 2021].

[3] Caroline Beelen, Jan Wouters, Pol Ghesquiere, and Maaike Van- dermosten. Brain-behavior dynamics between the left fusiform and reading. 2021. URL https://www.researchgate.net/

publication/349199624_Brain-Behavior_Dynamics_Between_

The_Left_Fusiform_and_Reading. [Dostopano 29. 5. 2021].

[4] Zoran Bosni´c. Zapiski predavanj predmeta osnove umetne inteligence.

2020.

[5] Jason Brownlee. A gentle introduction to xgboost for applied machine learning. 2016. URL https://machinelearningmastery.com/

gentle-introduction-xgboost-applied-machine-learning/. [Do- stopano 22. 7. 2021].

[6] Ronald Davis and Eldon Braun. Dar disleksije. V.B.Z Ljubljana, 2009.

[7] Sara Dawley Beach. Predictive coding in typical speech perception and 37

(52)

38 Tajda Urankar dyslexia. URL https://app.dimensions.ai/details/grant/grant.

8684775. [Dostopano 29. 5. 2021].

[8] Klara Drofenik. Razlaga napovedi strojnega uˇcenja z bioloˇskim predznanjem. PhD thesis, Univerza v Ljubljani, Fakulteta za raˇcunalniˇstvo in informatiko, 2021. URL https://repozitorij.uni- lj.si/IzpisGradiva.php?lang=slv&id=125528.

[9] John Kershner. Neurobiological systems in dyslexia. Trends in Neuroscience and Education, 14, 12 2018. URL https://www.

researchgate.net/publication/329697736_Neurobiological_

Systems_in_Dyslexia. [Dostopano 29. 5. 2021].

[10] Rehman Ullah Khan, Julia Lee Ai Cheng, and Oon Yin Bee. Machine learning and dyslexia: Diagnostic and classification system (dcs) for kids with learning disabilities. International Journal of Engineering Tech- nology, 7(3.18):97–100, 2018. URL https://www.sciencepubco.com/

index.php/ijet/article/view/19022. [Dostopano 29. 5. 2021].

[11] Igor Kononenko and Marko Robnik ˇSikonja. Inteligentni sistemi. 2010.

Fakulteta za raˇcunalniˇstvo in informatiko.

[12] Ulrike Kuhl, Nicole Neef, Indra Kraft, Gesa Schaadt, Liane Dorr, Jens Brauer, Ivonne Czepezauer, Bent Muller, Arndt Wilcke, Holger Kirsten, Frank Emmrich, Johannes Boltze, Angela Frie- derici, and Michael Skeide. The emergence of dyslexia in the developing brain. NeuroImage, 211:116633, 02 2020. URL https://www.researchgate.net/publication/339225283_The_

emergence_of_dyslexia_in_the_developing_brain. [Dostopano 29.

5. 2021].

[13] Katja Kunej. Diplomsko delo. 2021. Fakulteta za raˇcunalniˇstvo in informatiko.

(53)

Diplomska naloga 39 [14] Dimitris Leventis. Xgboost mathematics explained. 2089.

URL https://towardsdatascience.com/xgboost-mathematics- explained-58262530904a. [Dostopano 22. 7. 2021].

[15] Polona Malovrh. Zdaj pa beri, ˇce moreˇs. Delo, 2018. URL https:

//www.delo.si/novice/slovenija/zdaj-pa-beri-ce-mores/. [Do- stopano 29. 5. 2021].

[16] Jim Radford, Gilles Richard, Hugo Richard, and Mathieu Serrurier.

Detecting dyslexia from audio records: An ai approach. pages 58–

66, 2021. URL https://www.scitepress.org/Papers/2021/101960/

101960.pdf. [Dostopano 21. 7. 2021].

[17] Gilles Richard and Mathieu Serrurier. Dyslexia and dysgraphia prediction: A new machine learning approach. CoRR, abs/2005.06401, 2020.

URL https://arxiv.org/abs/2005.06401. [Dostopano 29. 5. 2021].

[18] Daniel Sharoh, Tim van Mourik, Lauren J. Bains, Katrien Segaert, Kir- sten Weber, Peter Hagoort, and David G. Norris. Laminar specific fmri reveals directed interactions in distributed networks during lan- guage processing. Proceedings of the National Academy of Sciences, 116 (42):21185–21190, 2019. URL https://www.pnas.org/content/116/

42/21185. [Dostopano 29. 5. 2021].

[19] Great Learning Team. Understanding xgboost algorithm. 2020. URL https://www.mygreatlearning.com/blog/xgboost-algorithm/

?fbclid=IwAR3hDEVvRQ6wXUWoBvz3MvK3X4-VnUNy_ZqfFQesvCttJmT- 9YPkqi14S8c/. [Dostopano 22. 7. 2021].

[20] Blaˇz Zupan. Zapiski predavanj predmeta uvod v odkrivanje znanj iz podatkov. 2020.