maturitetna seminarska naloga pri informatiki

(1)

ZAVOD SV. STANISLAVA

maturitetna seminarska naloga pri informatiki

Kandidat: Anamarija Hauptman Mentor: Helena Starc Grlj Somentor: Katarina Gašperlin

Ljubljana Šentvid, april 2020

(2)

2

POVZETEK

Za maturitetno seminarsko nalogo smo si zadali gradnjo modela s pomočjo umetne inteligence, ki bo na podlagi podanih realnih primerov iz območja Washingtona napovedoval okvirne cene nepremičnin glede na število spalnic, kopalnic, površino, lego …

Namen te naloge je na preprostejšem primeru raziskati, kako deluje umetna inteligenca, o kateri je v zadnjem času vedno več govora.

Praktični del naloge smo izvedli v sodelovanju z Katarino Gašperlin, podatkovno znanstvenico pri IBM Slovenija, ki nam je omogočil tudi uporabo orodja Watson Studio.

ABSTRACT

For the term paper that is part of matura examination we set ourselves to build models with the help of artistic intelligence (AI). Based on real-life examples from the Washington area AI announced indicative real estate prices based on the number of bedrooms, bathrooms, floor, space, location …

The purpose of this term paper is to explore how AI works on a simpler example. AI is lately mentioned quite often.

The practical part of this term paper was carried out in collaboration with Katarina Gašperlin, a data scientist at IBM Slovenia, who also enabled us to use the Watson Studio tool.

KLJUČNE BESEDE

umetna inteligenca strojno učenje IBM Watson Studio nepremičnine predikcija cen

(3)

3

KAZALO

1. Uvod ... 5

1.1.Kaj je umetna inteligenca ... 5

1.2.Opis okolja za izvedbo ... 5

1.3.Potrebno znanje ... 6

2. Jedro ... 8

2.1.Opis problema ... 8

2.2.Urejanje podatkov ... 9

2.3.Gradnja modela ... 10

2.4.Končni model ... 15

3. Zaključek... 20

3.1.Izboljšave ... 20

3.2.Sklep ... 22

4. Literatura ... 23

(4)

4

STVARNO KAZALO

CHAID ... 13, 15, 17, 19 model ... 5, 6, 9, 10, 12, 13 Nominal ... 11, 23

odločitveno drevo ...15

Ordinal ... 11, 23 podatkovna baza ... 8

umetna inteligenca ... 2, 5 Watson Studio ... 2, 5, 6, 7

KAZALO SLIK

Slika 1: Primer modela v orodju IBM Watson Studio ... 6

Slika 2: Preglednica s podatki ... 9

Slika 3: Vnos podatkov ... 10

Slika 4: Določanje tipov podatkov ... 11

Slika 5: Filtriranje podatkov ... 11

Slika 6: Deljenje podatkov ... 12

Slika 7: Izbira tipa modela ... 12

Slika 8: Zagon modela ... 13

Slika 9: Model z nevronskimi mrežami ... 14

Slika 10: CHAID model - splošne informacije ... 15

Slika 11: CHAID model - vpliv določenih podatkov na napoved cene ... 15

Slika 12: CHAID model - najpomembnejša odločitvena pravila ... 16

Slika 13: CHAID model - prikaz odločitvenega drevesa ... 17

Slika 14: Model z nevronskimi mrežami - splošne informacije ... 18

Slika 15: Model z nevronskimi mrežami - vpliv določenih podatkov na napoved cene ... 19

Slika 16: Model z nevronskimi mrežami - nevronska mreža ... 19

Slika 17: Primer podobnih zapisov z različno ceno ... 20

Slika 18: Histogram odstopanj realna cena - cena po NN modelu pri prvem modelu ... 21 Slika 19: Histogram odstopanj realna cena - cena po NN modelu po dodatni obdelavi poda 21

(5)

5

1. UVOD

1.1. KAJ JE UMETNA INTELIGENCA

V zadnjem času v računalniških in informacijskih vedah vse večkrat slišimo izraz umetna inteligenca. Gre za proces obdelave ogromnih količin podatkov med katerimi obstajajo neke logične povezave, ki pa jih človek sam zelo težko ali pa jih sploh ne more razvozlati in zato s pomočjo računalniških programov med njimi iščemo določene povezave, na podlagi katerih lahko približno napovemo vrednost za podoben primer, ki pa ga ni v prvotni bazi podatkov, ki smo jih posredovali programu.

Graf 1: Najpomembnejše prednosti rešitev, ki jih ponuja umetna inteligenca

1.2. OPIS OKOLJA ZA IZVEDBO

Svoj model za napovedovanje cen hiš bom izdelala v IBM Watson Studio. Gre za programsko okolje v oblaku, ki omogoča obdelavo podatkov, gradnjo modelov umetne inteligence, globoko učenje, vrednotenje modelov in implementacijo modelov v druga programska okolja.

V osnovni verziji je brezplačen, z vsemi funkcionalnostmi, vendar z omejenimi strojnimi viri (1 procesor in 4 GB RAM). Za kompleksnejše naloge je potrebna večja procesna moč, kar pa je plačljivo. Ob registraciji omogoča vsakemu uporabniku izdelavo različnih modelov, z nadgradnjo pa je ta program uporaben tudi za lastnike večjih podjetij.

Večina orodij za gradnjo modelov umetne inteligence se nahaja v oblaku, saj le ta za svoje delovanje potrebujejo zelo velik in močan procesor, da lahko izvedejo vse kompleksne

0 5 10 15 20 25 30 35 40

Drugo Priporočila v zvezi z notranjimi vprašanji Izboljšava komunikacije s strankami Spremljanje in opozorila za oceno stanja podjetij Avtomatizacija ponavljajočih se nalog Raznorazne napovedi

(6)

6

funkcije, ki se sestavljajo model in da lahko sploh obdelajo ogromne količine podatkov, s katerimi imamo pri umetni inteligenci večinoma operiramo.

Za gradnjo modela moramo najprej v program naložiti datoteko s podatki. IBM Watson Studio nam omogoča tudi obdelavo teh podatkov, v primeru, da tega nismo že predčasno storili v kakšnem drugem urejevalniku preglednic (npr. Excel). Nato začnemo z gradnjo modela in sicer tako, da med ponujenimi gradniki izberemo tiste, ki jih potrebujemo in s pomočjo funkcije povleci in spusti (angleško drag-and-drop) sestavimo poljuben model.

Tabela 1: Strojna oprema

računalnik Lenovo T520

procesor Intel Core i5-2540M CPU 2.60GHz

RAM 4.00 GB DDR3

grafična kartica (integrirana) Intel HD Graphics 3000

disk Samsung SSD 850 EVO 250GB

Tabela 2: Programska oprema

gradnja modela IBM Watson Studio

urejanje podatkov Microsoft Excel 2013

pisanje dokumentacije Microsoft Word 2013

Slika 1: Primer modela v orodju IBM Watson Studio

1.3. POTREBNO ZNANJE

Preden se lotimo izdelave modela, ki bo napovedoval cene nepremičnin, moramo razumeti, kaj določeni podatki, s katerimi se bomo ukvarjali, sploh predstavljajo. Prav tako se moramo naučiti med kupom podatkov izločiti tiste, ki so nesmiselni ali pa bi zaradi nenavadnih

(7)

7

odstopanj zmanjšali natančnost našega modela pri napovedovanju cen. Tega seveda ne bomo mogli narediti brez ustreznega predznanja o uporabi katerega izmed programov za urejevanje preglednic (npr. Excel). Prav tako se moramo naučiti uporabljati sam program Watson Studio, v katerem bomo sestavljali model, predvsem to, kaj vse omogočajo različni gradniki pri sami gradnji modela ter kakšne so glavne razlike med njimi.

Da bi pridobili to znanje, smo se pred pričetkom izdelave maturitetne naloge lotili gradnje nekega lažjega modela, ki bi uporabniku (načeloma naj bi to bil bančni delavec) pomagal pri odločitvi, ali naj neki osebi na podlagi določenih osebnih podatkov (npr: starost, zaposlenost, plača…) odobri kredit ali naj ga raje zavrne, saj so možnosti, da ga bo lahko odplačal, zelo majhne. Za to nalogo smo dobili podrobna navodila po korakih. Vsi koraki so bili tudi jasno razloženi.

(8)

8

2. JEDRO

2.1. OPIS PROBLEMA

V praksi običajno podatke z nekega področja zbiramo skozi daljše časovno obdobje. Ker pa v tem primeru za to nismo imeli dovolj časa, smo se odločili za pridobitev podatkov kar na spletu.

Zbirke podatkov iz najrazličnejših področij je možno najti na več različnih spletnim mestih, kjer si jih ljudje med seboj izmenjujejo. Bazo podatkov, ki smo jo uporabili za to seminarsko nalogo, smo našli na spletnem mestu www.kaggle.com. Poleg same podatkovne baze, pa imamo na tem spletnem mestu tudi komentarje in nasvete ljudi, ki so se s to bazo že ukvarjali pred nami ter kratko predstavitev samih podatkov. Izbrali smo bazo podatkov o cenah nepremičnin, saj se nam je ta zdela dovolj razumna in nazorna za to nalogo. Gre za podatkovno bazo v *.csv formatu, ki zajema 4.600 zapisov o prodanih nepremičninah v zvezni državi Washington v obdobju od maja do julija 2014. Ta podatkovna baza ima v dveh letih, odkar je bila ustvarjena in naložena na to spletno mesto, že preko 4.500 prenosov. Podatke smo nato uvozili v Excelovo datoteko, prevedli opise podatkov, pretvorili enote površin iz ft² v m² ter uredili formate podatkov. Podatki, ki so zajeti v uporabljeni podatkovni bazi so:

• ID: zaporedna števila od 1 do 4600

• ID smo zaradi lažje obdelave podatkov vsaki prodaji pripisali naknadno.

• Kraj: kraj

• Postna_st: poštna številka

• Parcela_m2: površina parcele v m² – celo število med 59 in 99798

• Skupaj_neto_povrsine_m2: vsota površin stanovanjskih in servisno-kletnih prostorov

• Stanovanjske_povrsine_m2: površina stanovanjskih prostorov v m²

• Servisno-kletne_povrsine_m2: površina servisno-kletnih prostorov v m²

• St_nadstropij: kadar so v enem nadstropju vse ostale spalnice, razen glavne, štejejo za 0,5 nadstropja

• St_spalnic: število spalnic – celo število med 0 in 9

• St_kopalnic: število kopalnic – med 0 in 8, s korakom 0,25

• Na spletu smo našli razlago, da če želimo kopalnico šteti kot eno celo, moramo v njej imeli lijak, WC, banjo ter tuš in vsak izmed teh delov naj bi štel za 0,25.

Takoj ko v kopalnici ni veh teh štirih elementov, pa za vsak manjkajoči element od 1 odštejemo 0,25. Tako je na primer kopalnica, v kateri imamo zgolj WC in lijak označena z vrednostjo 0,5.

• Priobalno_obmocje: Če se določena nepremičnina nahaja v priobalnem območju, ima ta podatek vrednost 1, v nasprotnem primeru ima vrednost 0.

• St_prostorov_s_pogledom_na_morje: število prostorov s pogledom na morje – celo število med 0 in 4

• Leto_gradnje: leto, ko je bila nepremičnina zgrajena – obdobje med 1900 in 2014

• Leto_zadnje_prenove: leto, ko je bila nepremičnina zadnjič prenovljena – obdobje med 1912 in 2014; ponekod je vrednost tega podatka tudi 0

(9)

9

• Ocena_stanja_nepremicnine: subjektivna ocena stanja nepremičnine – celo število med 1 in 5

• Datum_prodaje: datum prodaje v formatu D.MM.YYYY

• Prodajna_cena_USD: cena v ameriških dolarjih

• Enote iz $ nismo spreminjali v €, ker to ne bi nič doprineslo k našemu modelu.

2.2. UREJANJE PODATKOV

Slika 2: Preglednica s podatki

Ko smo bazo podatkov prenesli s spleta, smo morali najprej vse pregledati in urediti. Tega smo se lotili tako, da smo podatke najprej uvozili v Excel in jih razporedili v posamezne stolpce. Vse to bi verjetno lahko naredili tudi v Watson Studio, vendar se nam je zdelo v Excelu lažje. Že pri uvozu podatkov so se pojavile težave, saj je Excel nekatere podatke napačno interpretiral. Zato smo s pomočjo Notepada vse vejice, ki med seboj ločijo različne podatke, nadomestili s tabulatorjem, namesto decimalne pike pa smo uporabila decimalno vejico. V Excelu smo dodali še en stolpec z ID prodaje. Nato smo se urejanja podatkov lotili še iz vsebinskega vidika.

Enote ft² smo pretvorili v m², ceno pa smo še vseeno pustili v ameriških dolarjih (USD), saj gre pri teh podatkih za cene nepremičnin v nekem območju v ZDA, natančneje v zvezni državi Washigton. Nato smo še izbrisali vse vrstice podatkov, kjer je bila prodajna cena enaka 0. To sicer predvidevamo, da pomeni, da nepremičnina ni bila prodana, vendar pa bi takšno odstopanje verjetno precej pokvarilo naš model. Opazili smo tudi, da število kopalnic v večini primerov sploh ni celo število, temveč se pojavljajo tudi vrednosti na ,25 ali ,5 ali pa ,75. Na

(10)

10

spletu smo našli razlago, da če želimo kopalnico šteti kot eno celo, moramo v njej imeli lijak, WC, banjo ter tuš in vsak izmed teh delov naj bi štel za 0,25. Takoj ko v kopalnici ni veh teh štirih elementov, pa za vsak manjkajoči element od 1 odštejemo 0,25. Tako je na primer kopalnica, v kateri imamo zgolj WC in lijak označena z vrednostjo 0,5. Preverili smo še podvojene zapise, le da pri tem nismo upoštevali datuma, cene, ocene ter leta obnove.

Ugotovili smo, da je bilo šest nepremičnin (2500 Mulberry Walk NE Issaquah WA 98029, 23620 SE 243rd Pl Maple Valley WA 98038, 2803 SW Bataan St Seattle WA 98126, 23620 SE 243rd Pl Maple Valley WA 98038, 9507 Ashworth Ave N Seattle WA 98103 ter 2803 SW Bataan St Seattle WA 98126) v obdobju iz katerega so vzeti podatki, prodanih dvakrat po podobnih, a različnih cenah. Zato smo vse te podatke pustili.

2.3. GRADNJA MODELA

Slika 3: Vnos podatkov

1. Preden lahko karkoli nadaljujemo, moramo v naš model vnesti podatke, ki jih želimo uporabiti.

(11)

11

Slika 4: Določanje tipov podatkov

2. Nato z gradnikom Type določimo, kakšni so tipi podatkov, ki jih bomo uporabili v našem modelu. V našem primeru smo uporabili le Nominal ter Ordinal. Nominal se uporablja za podatke, ki nimajo nikakršne količinske vrednosti (npr: spol, barva las, ali se nepremičnina nahaja v priobalnem območju). Ordinal pa se uporablja za podatke, pri katerih je vrstni red pomemben (npr: ocena zadovoljstva z neko storitvijo od 1 – zelo nezadovoljen do 5 – zelo zadovoljen, ocena stanja nepremičnine).

Slika 5: Filtriranje podatkov

(12)

12

3. S pomočjo gradnika Filter izločimo podatke, za katere predvidevamo, da so za naš model nepotrebni. V našem primeru so bili to podatki o državi (saj je povsod USA), ulici ter ID_nepremičnine.

Slika 6: Deljenje podatkov

4. Podatke moramo vedno razdeliti na podatke, na katerih se naš model uči ter na podatke, ki jih naš model nato testira. To določimo s pomočjo gradnika Partition. Največkrat se za učenje uporabi 70% podatkov, za testiranje pa preostalih 30%. Zato smo takšno razdelitev uporabili tudi v našem primeru.

Slika 7: Izbira tipa modela

(13)

13

5. Ko tako uredimo in nastavimo vse parametre v zvezi s podatki, sledi gradnja modela. V razdelku Modeling lahko izbiramo med več različnimi načini, kako želimo zgraditi model. V našem primeru smo uporabili gradnik CHAID, saj se nam je ta zdel izmed vseh najpreprostejši ter najlažje razumljiv. CHAID (kratica za Chi-squared Automatic Interaction Detection) je metoda razvrščanja, ki določa optimalne delitve pri gradnji odločitvenih dreves. Vendar pa ima tudi ta način gradnje modela kar nekaj možnosti nastavljanja parametrov. Ponovno lahko določimo, kateri podatki se upoštevajo pri gradnji modela in kateri ne, kolikšna je največja globina drevesne strukture, kaj je kriterij za novo vejanje, kako dolgo naj traja gradnja in optimizacija modela…

Slika 8: Zagon modela

6. Ko prilagodimo vse parametre našim željam in potrebam, lahko z desnim klikom in izbiro funkcije Run naš model zaženemo.

7. Pojavi se nov gradnik, ki predstavlja naš model.

8. Nato med različnimi možnostmi prikaza podatkov izberemo tistega, ki je za naše rezultate najprimernejši. V našem primeru je to bila tabela (ang. Table).

(14)

14

Slika 9: Model z nevronskimi mrežami

9. Ker se je prvi model izkazal za zelo nenatančnega, smo ponovili korake 6, 7 in 8 ter naredili še enega z nevronskimi mrežami.

(15)

15

2.4. KONČNI MODEL

Slika 10: CHAID model - splošne informacije

Pri CHAID modelu vidimo, da je odločitveno drevo sestavljeno iz štirih nivojev, znotraj katerih je vse skupaj 10 vejišč.

Slika 11: CHAID model - vpliv določenih podatkov na napoved cene

(16)

16

Na model vplivajo le štirje izmed podanih podatkov. V 75% vpliva podatek o skupni površini stanovanja, vsi ostali podatki imajo precej manjšo vrednost. Na drugem mestu je podatek o številu kopalnic, nato podatek o površini servisno-kletnih prostorov, na četrtem mestu pa je z malo manj kot 2% vpliva podatek o poštni številki.

Slika 12: CHAID model - najpomembnejša odločitvena pravila

Na sliki 12 lahko vidimo dve izmed šestih pravil, ki odločajo o ceni, ki nam jo na koncu predlaga CHAID model. Pravilo številka 5 velja v primeru, ko je skupna neto površina manjša ali enaka 183,0 m² in hkrati je število kopalnic večje od 1,0. Pri takšnih nepremičninah, ki jih je bilo v našem primeru kar 1085 oziroma 34,2%, nam model napove ceno 435.874,38 $. Pri pravilu številka 7 so vse nepremičnine, pri katerih je skupna neto površina večja od 183,0 m² in hkrati manjša ali enaka 309,0 m² in hkrati ima nepremičnina tudi servisno-kletne površine (oz. so večji od 0 m²). V tem primeru je cena, ki jo napove model, enaka 663.192,37 $, ne glede na vse ostale podatke o nepremičnini.

(17)

17

Slika 13: CHAID model - prikaz odločitvenega drevesa

Odločitveno drevo na sliki 13 prikazuje vozlišča, ki so označena s številko pravila iz slike 12 in s prodajno ceno tega, med seboj pa so povezana z vejami, ki predstavljajo posamezno pravilo.

Obrazloženi pravili 5 in 7 sta končni, skupno pa ima drevo 6 končnih vozlišč. To pomeni, da model vsako nepremičnino po pravilih iz slike 12 porazdeli v eno izmed 6 končnih vozlišč in tako pripiše nepremičnini eno izmed šestih možnih prodajnih cen. Odločitveno drevo ima tudi začetno in vmesna vozlišča. Začetnemu vozlišču 0 je pripisana prodajna cena, ki bi bila neodvisna od pravil in je v bistvu enaka povprečni ceni nepremičnin. Logika je pri gradnji modela ugotovila, da je najbolj vpliven parameter neto površina, katerega vrednost 183 m² naredi najbolj očitno razmejitev med nepremičninami z vidika prodajne cene. Iz vozlišča 0 izhajajo tri veje – gornja zajame nepremičnine z neto površino manjšo ali enako 183 m², srednja nepremičnine z neto površino večjo od 183 m² in hkrati manjšo ali enako 309 m² ter spodnja nepremičnine z neto površino večjo od 309 m². V vozlišču 1 je povprečna prodajna cena nepremičnin z neto površino manjšo ali enako 183 m² ne glede na ostale parametre enaka 401.418 $. Iz vozlišča 1 izhajata drugi dve veji, ki sta povezani z drugim najpomembnejšim pravilom – če je število kopalnic večje od 1, pridemo v končno vozlišče 5, če je manjše ali enako, pridemo v končno vozlišče 4. Tu je algoritem za gradnjo dosegel nek prednastavljen kriterij, zato teh dve vozlišč ni nadalje delil. Kot vidimo, imajo končna vozlišča vsebovana vsa pravila vseh vej od začetnega do končnega vozlišča. Podobna razlaga velja tudi za vsa ostala vozlišča in veje.

Če bi se bolj poglobili v vse parametre, ki nam jih ponuja CHAID, bi verjetno dobili bolj razčlenjeno drevo in tako tudi več končnih možnosti, kar bi pripomoglo k večji natančnosti našega modela. Tako pa je naš model za vsako izmed nepremičnin zgolj sledil tem preprostim pravilom in za napoved izbral eno izmed možnih šestih cen.

(18)

18

Vendar pa se nam ravno to, da ima model na izbiro samo šest končnih cen, ne zdi realno in dovolj natančno. Zato smo zgradili še en model, pri katerem pa smo uporabili nevronske mreže. Tudi pri tem modelu se nismo poglabljali v nastavitve in parametre, ampak smo večino pustili kar na privzetih vrednostih.

Slika 14: Model z nevronskimi mrežami - splošne informacije

Model z nevronskimi mrežami sestavljata dva nivoja nevronov. V prvem nivoju je 10, v drugem pa 4 nevroni, kakor smo že med gradnjo modela določili v nastavitvah. Aktivacijska funkcija je hiperbolični tangens. Mreža se zaključi z enim samim nevronom.

(19)

19

Slika 15: Model z nevronskimi mrežami - vpliv določenih podatkov na napoved cene

Pri CHAID modelu smo opazili, da ima podatek o skupni površini stanovanja zelo veliko vrednost, medtem ko vsi ostali podatki skupaj na končni rezultat vplivajo mnogo manj. Pri modelu z nevronskimi mrežami pa na končno ceno približno enakomerno vpliva več podatkov.

Tokrat sta na prvih dveh mestih podatka o površini stanovanjskih prostorov in skupni površini, oba s približno 17%, na tretjem mestu pa je podatek o številu kopalnic.

Slika 16: Model z nevronskimi mrežami - nevronska mreža

(20)

20

3. ZAKLJUČEK

3.1. IZBOLJŠAVE

Model bi lahko precej izboljšali že samo s tem, da bi se že pred zbiranjem podatkov bolj poglobili v to, katere podatke je sploh smiselno zbirati in katere ne. Pri našem primeru smo ugotovili, da se med podatki pojavijo tudi prodaje dveh ali več zelo podobnih nepremičnin, cene pa so si med seboj popolnoma različne.

Slika 17: Primer podobnih zapisov z različno ceno

V primeru na sliki 17 vidimo štiri različne, a zelo podobne nepremičnine. Vse štiri se nahajajo v kraju Seattle, velikost parcele je pri vseh približno enaka, prav tako nobena izmed njih nima servisno-kletnih prostorov, vse štiri pa imajo oceno stanja 3. V predzadnjem stolpcu lahko vidimo ceno, po kateri se je nepremičnina prodala. Pri prvi je ta vrednost mnogo višja, kot pri ostalih treh. V zadnjem stolpcu pa imamo cene, ki jih je za vsako izmed teh štirih nepremičnin napovedal naš model. Vidimo lahko, da so si med seboj zelo podobne. Iz tega lahko sklepamo, da v realnosti na ceno vpliva še marsikaj, česar pri naših podatkih nimamo popisanega (npr:

pohištvo, bazen, sorodstveni odnos med prodajalcem in kupcem…).

Takšni podatki so naš model verjetno kar precej zmedli, zato smo želeli preveriti za koliko po našem modelu napovedane cene odstopajo od realnih cen, po katerih so bile nepremičnine prodane. S pomočjo Excela smo narisali graf, pri katerem je na navpični osi navedeno število primerov v določenem intervalu, na vodoravni osi pa so intervali odstopanj cene v ameriških dolarjih, ki jo je napovedal naš model z nevronskimi mrežami, od realne cene, po katerih je bila nepremičnina prodana. Pričakovali bi Gaussovo krivuljo, vendar pa graf, ki smo ga dobili, izgleda takole:

(21)

21

Slika 18: Histogram odstopanj realna cena - cena po NN modelu pri prvem modelu

Predvideli smo, da bi bil model natančnejši, če bi podatke, ki na grafu odstopajo za največ neko vrednost, odstranili iz naše baze in na podlagi novih podatkov zgradili nov model. Nato smo na enak način s cenami, ki jih je napovedal nov model, narisali nov graf in tako dobili mnogo boljšo Gaussovo krivuljo.

Slika 19: Histogram odstopanj realna cena - cena po NN modelu po dodatni obdelavi podatkov

(22)

22

Vendar pa bi se gotovo dalo tudi s temi podatki narediti še boljši model. Če bi dodobra raziskali vse možne načine gradnje modela (ne samo CHAID in nevronske mreže), gotovo obstaja še kakšen boljši za naš primer. Watson Studio nam omogoča kar 50 različnih gradnikov za gradnjo modela, vendar pa bi za vse to potrebovali tudi mnogo več znanja s področja informatike.

Kar nekaj pa bi verjetno lahko naredili že samo s tem, da bi se pri gradnikih CHAID in nevronske mreže poglobili še v vse parametre, ki jih lahko nastavljamo. Verjetno bi se pri CHAID ravno med temi nastavitvami dalo nastaviti tudi to, da bi na koncu dobili bolj razvejano drevo z več možnimi končnimi cenami.

3.2. SKLEP

S sodobno tehnologijo so orodja za umetno inteligenco, vsaj z osnovnimi funkcijami, dostopna vsem. S to nalogo pa smo dokazali, da je uporaba le teh do neke mere mogoča že samo z srednješolskim znanjem informatike in matematike. Vendar pa smo naš primer, kot smo ugotovili tudi že v poglavju Izboljšave, zgradili zgolj z uporabo osnovnih zmožnosti umetne inteligence, za kaj več pa bi potrebovali še več in bolj poglobljeno znanje informatike.

(23)

23

4. LITERATURA

Kaggle (online). [Uporabljeno 8.3.2020] Dostopno na https://www.kaggle.com/shree1992/housedata

My market research methods: Types of Data & Measurement Scales: Nominal, Ordinal, Interval and Ratio (online). [Uporabljeno 8.3.2020] Dostopno na

https://www.mymarketresearchmethods.com/types-of-data-nominal-ordinal-interval-ratio/

Finances online: 50+ Vital Artificial Intelligence Statistics: 2020 Data Analysis & Market Share (online). [Uporabljeno 20.3.2020] Dostopno na

https://financesonline.com/artificial-intelligence-statistics/

Quora (online). [Uporabljeno 8.3.2020] Dostopno na https://www.quora.com/Whats-a-1-75-bathroom

Prediction machines: the simple economics of artificial intelligence. 1. izdaja. Boston, Harvard Business School Publishing, 2018