OMOGUĆAVA MASTERCARD

#SMARTSPENDING MACHINE LEARNING Prvi put u Hrvatskoj analiziramo potrošnju uz pomoć strojnog učenja

    AUTOR:
    • Mirko Sužnjević

  • OBJAVLJENO:
  • 20.11.2018. u 10:30

Zagreb, 171018.
Morana Zibar, lovkinja iz kviza Potjera, fotografirana na Tresnjevci.
Foto: Boris Kovacev / CROPIX
Boris Kovačev / CROPIX

Morana Zibar, lovkinja iz kviza Potjera


U specijal serijalu #SMARTSPENDING DNEVNIK NOVCA donosimo analize i preporuke desetero stručnjaka za monetarnu politiku, osobne financije i digitalni shopping koji istražuju kako pametnije trošiti online, kako kontrolirati osobni proračun i kako će izgledati budućnost bez papirnatog novca. Prvi Smartspending planer potrošnje i Smartspending planer štednje otkrili su nam koliko trošimo u usporedbi s prosječnim Hrvatom i koliko trebamo štedjeti da bismo mogli ostvariti naše ciljeve. Više od 8500 ljudi sudjelovalo je u evaluaciji načina svoje potrošnje i štednje, a podatke iz dva smartspending planera analizira dr.sc. Mirko Sužnjević, istraživač postdoktorand sa Zavoda za telekomunikacije FER-a. Ovo je prvi put da se potrošnja građana Hrvatske i podaci dobiveni kroz online projekt analiziraju na temelju machine learninga ili strojnog učenja.

Više od 8800 ljudi sudjelovalo je u evaluaciji načina svoje potrošnje u okviru #Smartspending planera potrošnje i #Smartspending planera štednje na Jutarnji.hr. Građani su unosili podatke o svojim mjesečnim primanjima, štednji i kreditima te koliko troše na hranu i piće, stan i režije, prijevoz, odjeću i obuća, rekreaciju i kultura, komunikacije, stvari za kuću, alkoholna pića i duhan, restorane i hotele i ostalo. Svatko je mogao usporediti svoju s potrošnjom prosječnog Hrvata – koji je oslikan na temelju podataka o potrošnji Državnog zavoda za statistiku, kao i provjeriti koliki mu je omjer štednje i potrošnje u odnosu na preporučene vrijednosti.

Osim informacija koje su relevantne za svakog pojedinačnog građanina, statističkom obradom cijele baze ovih podataka može se izvući novo, dodatno znanje koje može donijeti novu korisnu informaciju. Može li se utvrditi koji tipovi potrošača postoje i kako su oni povezani? Mogu li se pronaći poveznice u podacima koje možda nisu na prvu očite? Primjerice, prosječan student bi trebao trošiti relativno malo na stanovanje zbog subvencioniranih cijena studentskih domova, ali će vjerojatno uživati u čarima studentskog života te više trošiti u kategorijama rekreacije i kulture ili možda alkoholnim pićima i duhanu. Samci će možda više trošiti na restorane i hotele jer im nije financijski i vremenski isplativo kuhati za samo jednu osobu, dok je pretpostavka da će obitelji s djecom više novca koristiti za hranu i piće, kao i za smještaj pošto im je potrebniji veći stan. Pojednostavljeno - možemo li iz podataka koje su korisnici dali identificirati grupe korisnika i modele potrošnje po grupama? Da bismo dobili odgovore na ovakva pitanja iskoristili smo algoritme strojnog učenja iz kategorije nenadziranog učenja s obzirom da stroj lakše može uhvatiti poveznice koje su čovjeku na prvu ruku teško uočljive i jednostavnije mu je vizualizirati višedimenzionalne podatke.

Mirko Sužnjević

 

SMARTSPENDING MACHINE LEARNING KORAK PO KORAK

Algoritmom strojnog učenja iz kategorije nenadzirano učenje moguće je identificirati pravilnosti u podacima i na temelju njih napraviti grupiranje podataka (clustering). Jedan od najpoznatijih algoritama u ovom području je k-means clustering koja iterativnom procedurom identificira grupe u podacima. Pojednostavljeno ovakav algoritam može funkcionirati na sljedeći način:

  1. Svakoj podatkovnoj točki na slučajan način dodijeli se jedna od grupa;
  2. Izračuna se prosjek svake od grupa;
  3. Izvršava se preraspodjela svake od grupa na način da svaka točka dobiva pripadnost onoj grupi čiji joj je prosjek najbliži (u smislu euklidske udaljenosti).

Potom se koraci 2) i 3) ponavljaju dok izračuni prosjeka svake grupe u dva uzastopna izračuna ne budu isti što indicira da je algoritam konvergirao do rješenja. Sam postupak je ilustriran na animiranoj slici. Prilikom svake obrade podataka, pogotovo onih koji su sakupljeni u nenadziranom mrežnom okruženju od velikog broja korisnika (crowdsourcing) potrebno je detaljno pregledati podatke te ispraviti ikakve greške u formatiranju ili jednostavno podatke koji nemaju smisla, previše odstupaju ili nisu kompletirani. Primjerice, za ovu obradu izuzeti su podaci korisnika koji nisu unijeli podatke na više od polovice kategorija.

ŠTO JE POKAZALO SMARTSPENDING STROJNO UČENJE

Prvi rezultati strojnog učenja indiciraju da postoje 3 skupine korisnika. Kao što se može vidjeti na slikama kao najvažniji parametar prema kojima su korisnici podijeljeni nameću se mjesečna primanja. Na prve dvije slike iscrtan je odnos mjesečnih prihoda i potrošnje u restoranima  i potrošnje na stanovanje. Vidi se čista granica između grupa korisnika s prihodima od 7500 kuna i 12500 kuna. Treća slika ilustrira odnos pirmanja i potrošnje na hranu i piće te na stvari za kuću te je jasno da nikakvo vidljivo razgraničenje ne postoji.

Odnos mjesečnih prihoda i potrošnje u restoranima

Odnos mjesečnih prihoda i potrošnje na smještaj

Odnos potrošnje na hranu i piće te potrošnje na stvari u kući

Kako bi uklonili utjecaj samih mjesečnih primanja potrebno je normalizirati podatke. Normalizacija se izvršava tako da su svi elementi potrošnje podijeljeni s primanjima korisnika. Nakon normalizacije promatramo situaciju kao da svi potrošači imaju ista primanja te se mogu istražiti odnosi u potrošnji između pojedine kategorije. Algoritam strojnog učenja je ponovno identificirao tri osnovne grupacije. Grupacije ćemo nazvati zelena, crvena i plava radi lakšeg snalaženja na grafovima koji slijede s tim da je važno napomenuti da – to nisu iste grupacije kao na prethodnim slikama.

Za ilustraciju karakteristika pojedine grupe za određenu kategoriju potrošnje može se koristiti graf koji prikazuje kumulativu funkciju distribucije (engl. Cumulative Distribution Function – CDF) koja za svaku točku distribucije neke slučajne varijable prikazuje vjerojatnost primanja te ili manje vrijednosti.

Na primjer, slika 4. pokazuje da je vjerojatnost da će pripadnici crvene grupe potrošiti 25% i manje od svog budžeta na hranu i piće jednaka 0 – svi sudionici ove grupe troše više od četvrtine budžeta na hranu i piće. S druge strane, vjerojatnost da će pripadnici plave grupe potrošiti 25% i manje od svog budžeta na hranu i piće je oko 75%, a vjerojatnost da će pripadnici zelene grupe potrošiti 25% svog budžeta i manje na hranu je oko 87%.

CDF potrošnje na hranu i piće

Kroz proučavanje CDF-ova potrošnje po određenom parametru mogu se identificirati parametri u kojima se kategorije potrošača najviše razlikuju. Osim hrane i pića – značajna razlika vidljiva je još u kategoriji stan i režije.

Potrošnja na stan i režije

Dok crvena grupa korisnika najviše troši na hranu, plava najveći dio budžeta troši na stan i režije. Zelena grupa korisnika troši najmanji dio svog budžeta u obje ove kategorije. Što se tiče svih ostalih parametara razlike između sudionika plave, crvene i zelene grupe su male. Pogotovo su male razlike u kategorijama ostalo, alkoholna pića i duhan te prijevoz.

Srednje značajne razlike u potrošnji koju možemo vidjeti su u kategorijama rekreacije i kulture, te restorani i hoteli. Za rekreaciju i kulturu zelena grupa troši nešto više od plave i crvene – negdje oko 40% pripadnika plave i crvene grupe uopće ne troše na rekreaciju i kulture dok je to slučaj u samo 25% za pripadnike zelene grupe. Slično ponašanje zelene skupine može se identificirati i za restorane.

ŠTO SE MOŽE ZAKLJUČITI ANALIZOM STROJNOG UČENJA

Analizom podataka vidi se da postoje tri distinktne grupe potrošača koje se najviše razlikuju u omjerima potrošnje za stanovanje te za hranu i piće. Moglo bi se pretpostaviti da zelena grupacija ima veliki broj studenata koji troše u restoranima studentske prehrane, više se bave rekreacijom i kulturom, a manje troše na smještaj te kupovinu hrane i pića. Plava kategorija bi mogli biti građani koji iznajmljuju stan ili su ga kupili na kredit te im najveći dio troškova odlazi na podmirivanje tih potraživanja, dok bi crvenu kategoriju mogle predstavljati obitelji koje imaju svoju nekretninu, a najveći dio troše na hranu i piće.

ŠTO GRAĐANIN DOBIVA STROJNIM UČENJEM

Kontinuiranim korištenjem ovakvog modela može se svakom novom korisniku odrediti pripadajuća skupina te se on može usporediti s korisnicima unutar slične skupine koji su za njega relevantniji. Takvome usporedbom svatko može bolje optimizirati svoj budžet, a i mogu se izraditi modeli koji mogu indicirati koja od kategorija potrošnje najviše treba optimizaciju. Kontinuiranim dodavanjem podataka modeli bi također postali precizniji.

ŠTO POKAZUJE ANALIZA O ŠTEDNJI

Podaci o štednji obrađeni su na sličan način kao i podaci o potrošnji. Nakon normalizacije k-means algoritam za tipove štednje identificira četiri grupe koje su iscrtane na slici. Tri grupe štede u pravilu manje od 12 posto mjesečnih primanja, a najčešće oko 5 posto do 7 posto što znači da većina Hrvata koji su sudjelovali u ovom istraživanju štedi manje od preporučenih 10 posto. Četvrta identificirana grupa (plava) ima štednju koja iznosi više od 25 posto mjesečnih primanja, a njih, jasno, ima najmanje. Kad bismo algoritmu nadziranog strojnog učenja omogućili da nauči što je dobro, a što loše financijsko ponašanje on bi kontinuiranim praćenjem financijskog ponašanja korisnika mogao predvidjeti u kojem trenutku će korisnik prijeći u negativno financijsko ponašanje i na vrijeme ga upozoriti o riziku.


Prilog je napravljen u produkciji Native Ad Studija Hanza Medija i Mastercarda, u skladu s najvišim profesionalnim standardima Jutarnjeg.

 

Više na Jutarnjem...


Izdvajamo