Jep: Day 44

Täna käisime Kamiliga koos kahel loengul. Esimene oli "Ranking algorithms on directed random networks", mis oli väga keeruline, aga põhiline idee oli VIST selles, et ülisuurte graafide pealt arvutatud page rank on sama kui sellise graafi pisikeste osade pealt arvutatud page rank. Nojah.

Teine oli palju huvitavam. Onu rääkis sellest kuidas Stanfordis ja mujal tegeletakse liikluse ummikute vähendamisega. Singapuris on nad süsteemi püsti pannud (Insinc), mis annab kasutajatele punkte selle eest kui nad tipptunnivälisel ajal ühistransporti kasutavad. Punktide eest saab mänge mängida ja pärisraha võita. Süsteem töötab päris hästi ja alles kogub tuure, nähtavad muutused ühistranspordi kasutamises on toimunud ja toimumas.

Eelneva jätkuks või vahele seesama onu mainis seda, et nad tegid Singapuri süsteemi kasutajate hulgas küsitluse. Küsitlusele vastas 28% rahvast, mis on muidugi väga hea protsent. Aga sinna juurde mainis ka asja, millest ma ei olnud varem kuulnud - dominating set. Selle tähendus ja rakendus antud kontekstis on selline, et kui kõigi käest küsida "Kas sinu sõbrad on enamuses mehed või naised?" (vabariiklased / demokraadid, abielus / üksikud, keskharidusega / kõrgharidusega, ekstraverdid / introverdid, misiganes) ja küsimustikule vastab veerand inimestest, siis info saadakse kätte 75-85% inimeste kohta! Nad tegid ka Twitteri ja Facebooki mõnekümnetuhandese valimi peal analüüsi ja leidsid, et dominating set on kõigest 10% rahvast. Dominating set on sisuliselt selliselt valitud inimesed, et nemad + nende sõbrad kataksid ära maksimaalse hulga kõigist kasutajatest. Kõik neist muidugi ei vasta küsimustikule, aga kui sul on kord juba kõigi käest küsitud, siis järgmise korra jaoks saab dominating seti ehitada juba nende põhjal, kelle kohta on teada, et nad vastavad ja läheneda "uutele" dominating seti liikmetele teisel viisil. Minuarust jube lahe idee :)

Ja päev on alles poole peal :)
Teine pool päeva möödus mitmekesiselt. Esmalt õnnestus ülikiire vastus saada mingi teise ülikooli professorilt koos minu poolt palutud tarkvara ja selle kasutamise juhendiga. Ja kurat, hea tarkvara on! 3 minutiga käis üle mu 5.1 miljonist reast ja hindas ära! Andmete ettevalmistamine ja programmi kasutamaõppimine võttis küll tunnikese, aga nüüd on ka suhteliselt selge.

Mõnikümmend lauset vaatasin üle ja 1-2 ilmset viga oli, mis on nagu ülihea tulemus. Homme jõuab täpsemalt vaadata kuipalju sellest kõigest kasu on. Tegemist on word countingu tipptasemega, aga teadaolevalt peaks recursive neural network (RNN) lähenemine paremini toimima. Samas RNNi kasutamist peab ilmselt ise ehitama ja treenima hakkama ja praegu küll selle jaoks aega pole.

Ahjaa, WANTED: Neuro-quants!

Tuesday, August 13, 2013

Day 44