Monday, July 15, 2013

Day 15

Lõuna paiku kirjutatud, ei peagi olema arusaadav, aga et ma ise pärast aru saaks :)
Juttu on facebooki andmetest. LDA tulemus on iga "topicu" kohta jaotusfunktsioon likede põhjal ja iga kasutaja kohta jaotusfunktsioon topicute järgi. Asi teeb kokku k topicut ja k on ette antud. Tekkivad topicud on komplektid likedest, mis võiks olla suhtelist hästi "seletatavad", a'la topic nimega "rahvas, kellele meeldivad mõistatustega telesarjad" või "christian power" või misiganes.

K saab valida suvalise ja me nuputasimegi selle üle, et kas on võimalik kuidagi arvuliselt hinnata seda, et kas valitud k on "hea" või "halb". Mõtlesime välja, et see niiöelda "goodness-of-fit" mõõdik võiks olla selle järgi, et kuipalju see mudel inimesi "ära seletab". Idee on selles, et vaadata kui "laiali" on inimese kohta käivad topicud... oeh ma ei saa ise ka aru sellest enam. Ehk sisu on umbes selles, et olukord kus inimese kõik facebooki like-mised jaotuvad kahte üldisesse teemasse, a'la "memes" ja "dubstep" on oluliselt "parem" kui see kus inimese liked jaotuvad ühtlaselt 40 erineva teema vahel. Või midagi taolist. Selle hindamiseks on mitmeid erinevaid viise, aga üks otseselt selle jaoks mõeldud on Gini indeks. Kamil nüüd möllab selle asjaga edasi. "Goodness-of-fit" mõõdiku jaoks on meil ka teisigi ideid, mida saab hiljem katsetada.

Kogu tegevuse tulemus võiks olla see, et meil tekib erinevaid k-sid, mille puhul nende "seletav jõud" on hea. Iga k puhul on need alguses kirjeldatud topicud erinevad, näiteks k=2 puhul saab need topicud väga üldiselt kokku võtta kui "race=black" või "race=white". K=1000 puhul on need aga sellised nagu alguses välja toodud, mis jaotab inimesi gruppidesse telesarjade või mingite kitsamate usuliste veendumuste läbi või veel midagi taolist. Need on lihtsalt kaks näidet k valimisest. Järgmine samm ongi lasta see asi käima vahemikus k=10...10000 ja vaadata, millised k väärtused eriti häid tulemusi annavad. Seejärel saab vaadata iga k väärtuse kohta, et mis need teemad siis on, mille järgi liked ära grupeeriti (ja inimesed gruppidesse jagunevad).

Kogu idee point on muidugi kahepoolne - kuna Kamil on computer science tegelane, siis tal on vaja nende algoritmidega möllata; ja kuna mina olen psühholoogia tegelane, siis mulle on huvitav, et kas sellest ka midagi asjalikku välja tuleb. Asjalik minu jaoks oleks midagi sellist, et need "teemad", mis välja tulevad haakuvad minu mingite muude teadmistega psühholoogia vallast :D

Mõni tund hiljem...
Rääkisime siin ühe põhivennaga ja ta tõmbas vee peale sellele ideele sisuliselt. Ütles, et ta on neid LDA-tulemuste analüüse teinud ja tulemuseks on see, et parim on 4 kategooriat (ehk k=4), jaotusega mehed-naised-mustad-valged või midagi taolist. Mudeli hindamiseks on scree plot analoogid ka head variandid, ehk siis kuskilt maalt tuleb kiirelt piir ette, et kas on mõtet mudelisse muutujaid juurde lisada või mitte. Mõtleme edasi.. :)

Paar tundi päevast kulus LDA kohta video vaatamisele. Teise osa keskel lõpetasin ära, siis läks ikka liiga kaugelt juba üle pea. Aga no põhipoint sai selgeks.

Lõpuks pöördusin tagasi oma võrgustike juurde, seekord facebooki andmete põhjal. Üks huvitav lähenemine neile asjadele on vaadata sõpruskonda ilma selle keskse tüübita. Effekt on järgmine:


Vasakpoolne neist on koos "minuga" (siia on võetud täiesti suvaline inimene), parempoolne on sama sõpruskond, aga seda number ühte pole. Asja point on selgemalt välja tuua, kes on niiöelda kesksed kujud :)