Jep: Cambridge

Showing posts with label Cambridge. Show all posts

Sunday, September 1, 2013

Day 62, 63

Laupäeval sai viimased poodlemised tehtud ja päris mitut filmi vaadatud, ehk siis puhkepäev.

Täna panin oma kola kokku ja astusin üüritoast välja kella 9 ajal hommikul. Praegu on kell 10:40, olen tööjuures, teen kohvi, pakin viimased asjad ja asun koduteele.

Blogi sellega siiski otsa ei saa. Leian, et see on hea koht kus oma mõtteid lahti kirjutada ja märk maha jätta oma tegevustest. Eks näis kuidas kujuneb.

Friday, August 30, 2013

Day 61

Täna on selle seikluse viimane päev. Tõin kooki, oli hea.
Kirjad on kirjutatud, failid on kopeeritud, tass on pestud, varsti läheme kambaga puntingut tegema.

Viimased paar päeva olen kõvasti tööd teinud, mis näitab seda et R on vaikselt saama töövahendiks. Õppimist on muidugi lõputult, aga nüüd on see õppimine nihkumas üldiselt keele funktsioneerimisest aru saamisest rohkem konkreetsete pakettide kasutamisele. Hea vahend on see R, soovitan. Õppima on seda mõtet hakata varakult kuna ma olen jätkuvalt oma esialgse arvamuse juures, et see on üks päris keeruline keel.

Cambridges olen veel paar päeva - lennuk läheb pühapäeval. Saan niisama ringi vaadata ja šoppamas käia ja hakata vaatama, et mis mind koju jõudes kõik ees ootab.

Ahjaa, lehmad:

Thursday, August 29, 2013

Day 60

Käisin jälle raamatukogus ühte Cronbachi raamatut lugemas - Essentials of Psychological Testing. Miks? Ühes vanemas artiklis esitati üks huvitav väide ja anti see raamat viiteks. Raamatukogus oli viitest erinev edition ja lehekülje numbrid ei läinud kokku, seega sai päris paras tükk seda loetud. Samas jube hästi ja selgelt kirjutatud, lugemine läks kiiresti.

Leidsin ka ühe toreda-naljaka koha sellest kuidas arvutid võivad abiks olla :)

Õhtune kokkuvõte - täna sai meeletult tööd tehtud. St. kell on 23:20 hetkel ja ma jätsin kõrvaloleva võimsa arvuti tekstitöötlust tegema, hommikul saan nende andmetega edasi mässata. Aga kuskil kella kahest päeval alates on täiesti katkematu tegevus käinud. Õppisin juurde jälle kuidas R-s suurte andmetega ringi käia ja kuidas keerulisemaid graafikuid joonistada. Need hakkavad juba päris asjalikud välja nägema, ise olen rahul :) Üks näidis ka siia alla. Veel sain teada, et wordcloudi ehitamine on täpselt üks käsk: wordcloud()

Day 59

Oeh. Terve päev sai andmetega mängitud ja lõpuks ma ei saanud üldse enam aru mis toimub ja kirjutasin ühe R-i package autorile. Selgus, et mu andmed olid valed, aga tema funktsioonid töötasid õigesti. Ma oleksin saanud selle ise ka avastada muidugi kui ma oleks natuke kriitilisemalt neid algandmeid vaadanud. Antud juhul olid andmeteks geograafilised koordinaadid ja ajatsoon, mis olid mõlemad eelnevalt salvestatud, aga reaalsuses ei klapi kokku. Täiesti rahulikult saab koordinaatide järgi ajatsooni leida, aga see oli just see osa mis mul kontrollimata jäi. Kasulik õppetund ja jääb eriti hästi meelde kuna ma kaks päeva selle jama peale kulutasin.

Tuesday, August 27, 2013

Day 58

Panen enda jaoks kirja siia, et ära ei unustaks - stringsAsFactors=F !!!

Aga muidu oli nii, et tegin täna peaproovi kohvripakkimises. Õnnestus. Väike kohver 9kg (limiit 10), suur kohver 17kg (limiit 20). Ainuke pisiprobleem on see, et selga peab panema kampsuni ja jaki ja tegelt on veel suvi. Samas seda peab vist tegema ainult lennujaamas väravast läbi minemise jaoks, niiet on lootust mitte ära sulada.

R-i õppimine käib ka kõvasti nagu esimesest lausest ka näha oli. Suurte andmemahtude puhul tuleb hoopis teistsuguseid lähenemise kasutada kui niisama mõne- või mõnekümnetuhandeste tabelitega. Paralleliseerimiseni pole veel jõudnud kuna selle ehitamine võtaks kauem aega kui niisama ühe prose peal jooksvat asja paar tundi oodata. Aga ega see aeg ka kaugel pole.

Monday, August 26, 2013

Day 57

Eile käisime väikse eestlaste pundiga ühel kohalikul eesti perel külas. Väga mõnus õhtu oli :)

Neil on väga suur loom nimega Oskar :) Ma sain ka kaela ja pool pead pestud ja särgi/püksid täis ilastatud õhtu jooksul :D

Sunday, August 25, 2013

Day 56

Ajee! Korralik uni, korralik hommikusöök, vähe muretsemist ja pühapäev :)

Mõtlesin mõned pildid üles laduda siia, mis on saanud viimase paari nädala jooksul jäädvustatud.

Nurgataga on tänavale väljuvad kliimaseadmete tunnelid, kust alati sooja õhku tuleb.
Tähelepanelik vaataja näeb ka ühte lisa-paari jalgu magamiskoti alt välja paistmas.

Sir Isaac Newton matemaatikute maja, kus sai paari loengut kuulamas käidud.
Väga lahe maja on :)

Loomaõiguslaste demonstratsioon. Terve see mass on korraga pildi peal näha muide.
Politseid ja turvasid oli linna peal kümmenkond korda rohkem kui meeleavaldajaid.

Sõna otseses mõttes selle oksa saagimine, mille peal istud.

Kursuselt anti paber ka.

Ja siis mõned pildid jalgratastest ja jalgratastusest kuna mõned on otseselt huvi tundnud. Kõik on tehtud laupäeva päevasel ajal, augusti lõpus kus linn on väga-väga tühi. Pildil nähtavad aiad ja postid ja võred ja kõik muud kohad on siin tööpäevadel rattaid täis, kusjuures arvesse tuleb võtta, et tudengid jõuavad siia alles septembri lõpus.

Saturday, August 24, 2013

Day 54, 55

Viimased kaks päeva on möödunud IELTSi tähe all. Reedel sai õpitud ja harjutatud jätkuvalt. Täna oli test terve päeva. Tulemused tulevad 6. septembril.

IELTSil on neli osa, sellises järjekorras: kuulamine, lugemine, kirjutamine, rääkimine. Esimesed kolm on järjest, koos instruktaažiga 3h45m, mille jooksul pissil käimine on ainult oma aja raiskamine, ühtegi ametlikku pausi ei ole. Kuulamise osas tuleb lindilt jutt ainult ühe korra ja infokildude paiknemine on väga tükati, vahepeal on mitu lauset kahe järjestikuse lahtri täitmise vahel, aga mõnes kohas on neid ühes lauses kaks tükki. Kuulamise osa on 45m. Lugemise osa on 1h ja seal on kolm teksti, mille kohta on erinevat stiili küsimused. Eriti nõmedad on need yes/no/not given variandid, kus peab ikka väga näpuga järge ajama, et kas ikkagi on info olemas või ei ole. Mõlemad testid algavad kergemate osadega ja lähevad järjest raskemaks, PÄRIS raskeks. Ajaline piirang on just see, mis põhilise probleemi tekitab. Kusjuures küsimustega püstitamisega üritatakse ka tõmmata korralikult - "kirjuta üks sõna ja/või üks number". Ja siis kõnest on kuulda kellaaeg "5:30". Selle peab kirjutama kujul "5 kolmkümmend" kuna see on ainus võimalus järgida ka ülesande juhendit.

Sealt edasi tuleb kirjutamine, kus on kaks ülesannet. Esimeses on vaja mingit graafikut kirjeldada 150 sõnaga ja teises mingit teemat lahata 250-sõnalise esseega. Aega jällegi täpselt üks tund. Ma kulutasin mõtlemiseks kogu sellest ajast vast 4-5 minutit, ülejäänud aja koguaeg kirjutasin. Sõnade limiit tuli loodetavasti täis, aga napilt. Kui sõnu pole piisavalt, siis loetakse seda kui "ei saanud ülesandest aru" ja siis üle poolte punktide pole loota. Ja nii edasi...

Intervjuu oli ka omajagu nõme. Tegemist ei ole intervjuuga, kus ühte teemat arendatakse vaid intervjueerija järgib oma küsimusi ja sisuliselt katkestab iga mõttelõnga millega sa oled alustanud. Ma ei ole üldse rahul.

Igatahes saab nüüd varsti rahvaga minna õhtust sööma ja Elyseumi vaatama ja maha rahuneda.

Ahjaa, sain teada misasi on paanikahoog ja kuidas on tunne sellise asja peale üles ärgata keset ööd. Ei ole hea tunne.

Thursday, August 22, 2013

Day 53

Täna sai veel andmetega mängitud ja leidsin, et seda asja mis ma otsisin, seda ei ole :)
Suhteliselt hea tunne on sellegipoolest kuna ma püstitasin hüpoteesid, töötlesin andmeid, rakendasin analüüse, tegin graafikuid ja sain oma küsimustele vastused. Kõige selle käigus veel kõvasti R-i juurde õppides.

Nüüd saab paar päeva lugemise ja kirjutamisega tegeleda ja siis laupäeval eksamit tehtud. Uueks nädalaks on uued plaanid.

Day 52

Päev möödus andmetega mängides ja ggplot-i tundma õppides. Panen lihtsalt ühe graafiku siia üles, kus on kujutatud erinevate Suure Viisiku aspektide muutust ajas ühe inimese kohta. Muutused tulevad sellest, et ta on sama testi päris mitu korda teinud.

Tuesday, August 20, 2013

Day 51

Täna sai veidi eilse lugemisega jätkatud ja siis andmetega mängitud. R-i sees on graafikute joonistamiseks loomulikust olemas funktsioon plot , aga juurde on ehitatud pakett nimega ggplot2 , mille kohta on isegi raamatuid kirjutatud.

Igatahes paari tunni nikerdamise peale, millest pool oli andmete ehitamine ja teine pool graafikuga mängimine tuli selline tulemus:

Selle genereerimiseks on vaja esmalt andmeid ja siis järgnevat koodi:
ggplot(a, aes(dow, m)) +
geom_errorbar(limits, width=0.25) +
geom_line(aes(a$dow, a$m)) +
labs(x="Day of week", y="Average sentiment score", title="Sentiment on test taking days") +
scale_x_continuous(limits=c(0.5,7.5), breaks=c(1:7), labels=a$dname) +
scale_y_continuous(limits=c(-0.2,0.7)) +
theme(
text = element_text(size=20),
plot.margin=unit(c(40,40,40,40),"points"),
plot.title = element_text(vjust=3),
axis.title.y = element_text(vjust=-0.2),
axis.title.x = element_text(vjust=-0.6))

Tundub jube pikk ja keeruline, aga tegelikult on väga hea ja lihtne. Esmalt tehakse plot andmemassiivi a veergudest dow ja m. Ja siis hakatakse seda muutma, lisades error barid, keskmisi ühendava joone, pealkirjad, nihutades skaalade otspunkte, muutes päevade numbrid nende nimedeks ja nihutades/muutes pealkirju. Kogulugu. Kui andmetes a midagi ära muuta, siis täpselt sama koodilõiku käima pannes saab täpselt samamoodi kujundatud graafiku. Kõige selle jaoks on korralik dokumentatsioon ja muidugi on abiks ka google.

Aga nüüd liigun tähistama tänast päeva koos teiste siikandis elavate kaasmaalastega.

PS. Näites toodud andmed data.frame-s a:
dow m min max sd dname
1 1 0.2724508 -0.4868 1.6863 0.2880627 Mon
2 2 0.2625737 -0.3471 1.4592 0.2818810 Tue
3 3 0.2568868 -0.4868 1.4825 0.2966397 Wed
4 4 0.2695618 -0.5030 1.6863 0.2942292 Thu
5 5 0.3063566 -0.4380 1.0142 0.2747129 Fri
6 6 0.2563224 -0.4868 1.1947 0.2969103 Sat
7 7 0.2753576 -0.4380 1.6863 0.2983870 Sun

Monday, August 19, 2013

Day 50

Täna algas huvitavalt - käisin kuulamas loengut teemal Fast and Guaranteed Learning of Overlapping Communities via Tensor Methods. Võib päris kindalt öelda, et ma ei saanud suurt midagi aru. Samas on neil mingid ülihead tulemused leidmaks üles varjatud gruppe mingil kindlal viisil kirjeldatud võrgustikust, näiteks erinevad sotsiaalsed võrgustikud. Ma panen enda jaoks siia ka video lingi, kus sama tütarlaps annab vist sama loengut - link. Kamil tagasi tuleb, siis saab arutada seda asja, ta saab osast sellest teemast paremini aru.

Üle-eelmine nädal oli kursus, sellest pandi täna üks pilt ka üles:

Muidu oli tore päev, sai artikleid loetud ja mõtteid mõlgutatud siin erinevate kaastöölistega. Sel nädalal on viis erinevat teemat korraga õhus, millega kõigiga sai täna ka tegeletud ja on ilusti järje peal. Või noh.. ilusti järje peal antud juhul tähendab seda, et on väga vähe aega ja väga palju teha, aga ise olen rahul :D

Sunday, August 18, 2013

Day 48, 49

Laupäev oli rahulik. Mängisin pisut andmetega, tsillisin niisama, oli skaibi vahendusel osaline ühest sünnipäevast ja käisin õhtul vaatamas "Only God Forgives". Film on omajagu veider ja erakordselt jõhker, aga üldiselt oli päris hea elamus. Käisin seda vaatamas kolmandas Cambridge kinos - PictureHouse Cinema, mis on selline õhustikuga ja kohvikuga kino, pisut nagu Artis Tallinnas.

Öösel koju jalutada oli ka tuttavlik, umbes nagu Tallinna vanalinn nädalavahetuse öösel - täis purjus ja räuskavaid noori, kellest osa on väga veidralt riides. Samas on kõik rahulik ja kui mitte sõbralik, siis vähemalt mitte-tüli-noriv, mis on omajagu erinev Tallinna vanalinnast.

Täna on Cambridge eestlastega kerge piknik ja muidu saab õppida inglise keelt IELTSi jaoks ja äkki on aega ka andmetega mängida. Hommikul pakkisin kohvrit, et näha kas mul on vaja osa asju postiga tagasi saata või mitte - hetkel tundub, et mahub ära. Aga mul on plaanis endale veel mõned püksid ja särgid soetada kuna siin on kõik 5-10 korda odavam kui Eestis ja valik on ka oluliselt suurem.

Jätk..
Ühesõnaga VÕEH. See IELTS on mingi räkit põhimõtteliselt. "Take our practice tests!" - "These tests are only for full subscription." - "It's only $49.99!". Õnneks on youtubes ja mujal veebis päris palju materjali selle kohta. Harutatakse jupphaaval lahti kuidas erinevate ülesannete puhul igal skaalal kõrge skoor saada. Ja viimaks ja seda rõhutab IELTS ise ka - test ei hinda teadmisi või intelligentsust, ehk siis kiire sõnavulin on mitu korda parem kui läbimõeldud vastus!

Saturday, August 17, 2013

Day 47

Lihtne ja rahulik päev oli. Osa päevast sai isegi päris praktikandi tööd teha, nimelt ühte raamatut sisse skaneerida. Varem pole sellega kokku puutunud, aga selgub, et VÄGA hea vabavaraline pakett on olemas, mis skaneeringutest tekstikujul PDFi oskab jälle teha. Aega võtab pisut, aga tulemus on muidugi oluliselt parem kui lihtsalt hunnik pilte - Homer Book Scanner. Seal pakutakse kasutada fotokat ja karpi, mis töötab, aga kui on skänner olemas, siis see töötab ka ilusti. Meie instituudi näitsikud võiksid selle tarkvara kasutusele võtta :)

Õhtul käisime Davidiga koos Kick-Ass 2 vaatamas ja täitsa tore oli :)

Thursday, August 15, 2013

Day 45, 46

Eile ei olnud tulemuslik päev.
Täna ka ei ole olnud seni.

Võtsin vahelduseks midagi muud ette ja siin on graafik sellest kuidas 17000 facebooki kasutajat ennast keskmiselt nädalapäevadel emotsionaalselt tunnevad.

Ja sama asi aasta lõikes, aastad 2009-2011.

Tuesday, August 13, 2013

Day 44

Täna käisime Kamiliga koos kahel loengul. Esimene oli "Ranking algorithms on directed random networks", mis oli väga keeruline, aga põhiline idee oli VIST selles, et ülisuurte graafide pealt arvutatud page rank on sama kui sellise graafi pisikeste osade pealt arvutatud page rank. Nojah.

Teine oli palju huvitavam. Onu rääkis sellest kuidas Stanfordis ja mujal tegeletakse liikluse ummikute vähendamisega. Singapuris on nad süsteemi püsti pannud (Insinc), mis annab kasutajatele punkte selle eest kui nad tipptunnivälisel ajal ühistransporti kasutavad. Punktide eest saab mänge mängida ja pärisraha võita. Süsteem töötab päris hästi ja alles kogub tuure, nähtavad muutused ühistranspordi kasutamises on toimunud ja toimumas.

Eelneva jätkuks või vahele seesama onu mainis seda, et nad tegid Singapuri süsteemi kasutajate hulgas küsitluse. Küsitlusele vastas 28% rahvast, mis on muidugi väga hea protsent. Aga sinna juurde mainis ka asja, millest ma ei olnud varem kuulnud - dominating set. Selle tähendus ja rakendus antud kontekstis on selline, et kui kõigi käest küsida "Kas sinu sõbrad on enamuses mehed või naised?" (vabariiklased / demokraadid, abielus / üksikud, keskharidusega / kõrgharidusega, ekstraverdid / introverdid, misiganes) ja küsimustikule vastab veerand inimestest, siis info saadakse kätte 75-85% inimeste kohta! Nad tegid ka Twitteri ja Facebooki mõnekümnetuhandese valimi peal analüüsi ja leidsid, et dominating set on kõigest 10% rahvast. Dominating set on sisuliselt selliselt valitud inimesed, et nemad + nende sõbrad kataksid ära maksimaalse hulga kõigist kasutajatest. Kõik neist muidugi ei vasta küsimustikule, aga kui sul on kord juba kõigi käest küsitud, siis järgmise korra jaoks saab dominating seti ehitada juba nende põhjal, kelle kohta on teada, et nad vastavad ja läheneda "uutele" dominating seti liikmetele teisel viisil. Minuarust jube lahe idee :)

Ja päev on alles poole peal :)
Teine pool päeva möödus mitmekesiselt. Esmalt õnnestus ülikiire vastus saada mingi teise ülikooli professorilt koos minu poolt palutud tarkvara ja selle kasutamise juhendiga. Ja kurat, hea tarkvara on! 3 minutiga käis üle mu 5.1 miljonist reast ja hindas ära! Andmete ettevalmistamine ja programmi kasutamaõppimine võttis küll tunnikese, aga nüüd on ka suhteliselt selge.

Mõnikümmend lauset vaatasin üle ja 1-2 ilmset viga oli, mis on nagu ülihea tulemus. Homme jõuab täpsemalt vaadata kuipalju sellest kõigest kasu on. Tegemist on word countingu tipptasemega, aga teadaolevalt peaks recursive neural network (RNN) lähenemine paremini toimima. Samas RNNi kasutamist peab ilmselt ise ehitama ja treenima hakkama ja praegu küll selle jaoks aega pole.

Ahjaa, WANTED: Neuro-quants!

Monday, August 12, 2013

Day 43

Täna oli palju lugemist ja märkmete tegemist. Närisin ennast uude teemasse sisse, ühtegi rida andmeid ei vaadanud. Möödunud sügisel oli Jaanus Harro poolt meile loetud psühhofarmakoloogia aine, millest täna kasu oli :) Vähemalt niipalju klassifitseerisin ära, et mis on aju osad ja mis on neurotransmitterid ja retseptorid ja et kõik on omavahel seotud :) Seda pilti veel päris ette ei tule, et kuskohas täpsemalt ajus need eri jupid on, aga otseselt vaja ka ei olnud.

Lisaks jäi ette eriti hea selgitus interneti meditsiinilisest sõnaraamatust: ventrolateral /ven·tro·lat·er·al/ (-lat´er-al) both ventral and lateral. No pilt kohe selgem, tänud! :D

Ahjaa, kui kellelgi on kunagi ette jäänud mingeid uurimusi kirjaliku teksti produtseerimisest, siis oleks tänulik kui suuna kätte näitaks :) Autistidest ja afaasiatest pole hetkel huvitatud, aga muu kõik sobib küll.

Sunday, August 11, 2013

Day 41, 42

Laupäev oli rahulik. Krdi pinge-peavalu oli tekkinud jälle ja jooks aitab selle vastu, seega sai joostud ja mingi kella ühe paiku alles endale hommikusöök tehtud. Siis sai Eestis olevate inimestega juttu aetud, mis oli vahelduseks väga tore :)

Õhtuks olime (keskuse rahvas) kutsutud Michali juurde, kus oli grill ja chill. Lõbus oli, õhtu lõpetuseks vaatasime veel Dictatorit, mis on ikka väga jõhkra huumoriga. Aga kuna meil oli ainult meeste seltskond, siis oli päris naljakas :)

Täna on pühapäev ja lugemise päev enamasti. Hommikul oli ka kerge peavalu, aga seekord mitte pingest :) Õhtupoole on Cambridge eestlastega õhtusöök ühes pubis, ma vist lähen tutvun ka inimestega. Lugemise juures sattusin probleemi otsa - ei saanud PDFi sisse märkmeid teha kuna see oli (SECURED). Aga selline veebiteenus nagu PDFUnlock aitas väga kiirelt ja lihtsalt hädast välja. Ilm on ilus, kõht on täis, kohv on sees ja tuju hea :)

Friday, August 9, 2013

Day 40

Täna on siin ainult märkmed kursusest.

Hästi diskrimineerivad JA õige raskusega küsimused annavad maksimaalse info, seega kogu testi infohulga saab kätte ka hästi valitud üksikute palju-infot-andvate küsimustega.

Prioriks kasutatakse enamasti normaaljaotust, st. alguses võetakse aluseks, et theta on jaotatud normaalselt, seega iga küsimus hakkab seda jaotust nihutama mingis suunas, mitte ei hakka tühjast kohast ehitama. Prior võib ka mingi muu jaotus olla, a'la bimodaal või misiganes. Priori kasutamine tähendab muidugi seda, et tegemist on Bayesian lähenemisega. Maximum likelihoodi puhul priorit ei ole, mis lükkab peale esimese küsimuse õigesti/valesti vastamist ML väärtuse ühte- või teistpidi lõpmatusse, aga no teine küsimus juba tekitab mingi väärtuse, jne.

Järgmise itemi valimiseks on mitu võimalust, aga sisu on selles, et anda küsimus, millest saab kõige rohkem infot. Kõige rohkem infot saab sellise küsimusega, mille raskus (difficulty ehk see koht theta skaalal, kus kurv on kõige järsem ehk diskrimination kõige suurem) on kõige sobivam. Võib valida ka selle põhjal, et näiteks ühte uut itemit on vaja testida parameetrite leidmiseks. Seal on igasugu muid lähenemisi ka võimalik teha, näiteks valides küsimuse, millele kasutaja vastab õigesti 75% tõenäosusega. Sellisel puhul uut infot niipalju juurde ei saa, aga testi täitja on ise pigem rohkem rahul.

Stopping pointi valimiseks on ka hulk võimalusi mängida nende asjadega: standard error, itemite hulk, info hulk / kasvu kiirus, ajalised piirangud, tõenäosuslikud piirangud (näiteks, et olla 95% kindel, et theta on mingist punktist suurem/väiksem).

Võib teha ka "adapting behind", ehk siis kui läheb valesti, siis alles mõne küsimuse pärast keerad raskust üles/alla.
Adaptive learning on ka hea mõte. St. mõte on selles, et adaptiivset lähenemist online-õppes kasutada, vaadates seni õpitud asjade raskust ja valides järgmised ülesanded/teemad selle järgi.

Graded response model võib ka olla, a'la "üldse ei ole nõus" kuni "täiesti nõus". Sellisel puhul on iga valikuga seotud "response function" ja oma theta ja seega ka oma scoring. (polythomous response model vs. dichotomous response model)

CAT on ~50% kiirem kui tavaline test. Kui tegemist on mitmedimensionaalse IRT ja CAT-ga, siis on kiirus 70-80% kiirem. Mitmedimensionaalsuse all mõeldakse siin seda, et iga item mõõdab korraga mitut varjatud omadust (latent trait).

Thursday, August 8, 2013

Day 39

Item Response Theory (IRT) siis. Hästi lühidalt on idee selles, et eeldatakse, et eksisteerivad erineva raskusega küsimused ja arvatakse, et sellega peaks arvestama. Kõige parem on seda demonstreerida vastandudes tavalisele lähenemisele. Oletame, et meil on matemaatika test, kus on küsimused ühekohaliste arvude liitmisest kuni eksponentfunktsiooni integreerimiseni. Tavaline test võtab kätte ja liidab kõik punktid kokku ja leiab mingi skoori. Sama skoor võib tulla suvalisest kombinatsioonist õigetest vastustest - st. täpselt sama tulemuse saavad vennad, kes vastavad õigesti ühekohaliste arvude liitmisele ja kõigele muule valesti võrreldes nende vendadega, kes ei viitsi midagi muud peale integreerimise üldse tehagi, aga seda teevad hästi. IRT teeb seda asja teistmoodi, võttes arvesse nende küsimuste erineva raskusastme. Kuidas see kõik toimub ei olegi niiväga keeruline, aga siinkohal lahti seletama hakata pole ka mõtet.

Põhilised märkmed päevast:

theta tuleb sellest kuipalju standardhälvet on keegi alla või üle keskmise. theta = 1 siis kui skoor on keskmine + 1 SD. theta = 2 siis kui skoor on keskmine + 2 SD. theta = -1 siis kui skoor on keskmine -1 SD
theta funktsioon on kumulatiivne tõenäosusfunktsioon
theta on "ability", mitte total score

Üldiselt oli täna VÄGA huvitav. Ma olin IRT-st enne lugenud wikipediast, aga eriti mitte aru saanud. Täna võeti väga üksi-pulgi see asi lahti ja selgitati ja vastati küsimustele, seega sai palju selgemaks. Tegelesime kaheparameetrilise mudeliga, mis tähendab seda, et lisaks küsimuste erineva raskusastme eeldusele tehakse veel eeldus, et erinevad küsimused on erineva "diskrimineeriva" ehk eristava jõuga. Näide oleks eesmärk teada saada suitsiidiriski nende küsimuste võrdluses: "Kas sa oled täna tahtnud ennast tappa?" versus "Kuidas sa ennast tunned?". Mõlemad küsimused justkui uurivad, et kui hästi-halvasti inimene ennast tunneb, aga esimene küsimus neist teeb väga konkreetset vahet suitsiidiriskiga inimeste ja teiste vahel kui teine küsimus ilmselt ka eristab suitsiidiriskiga inimesed, aga üldse mitte nii hästi. Ehk siis mudeli parameetrid on küsimuse raskus ja diskrimineerimisvõime.

Kursusepäeva teine pool oli praktiline osa, kus me võtsime ette ühe R-i koodijupi, genereerisime testandmed ja proovisime IRT funktsioone selle peal. David leidis paaril korral, et on hea idee kasutada "Lauri-methodit", ehk siis peale seda kui ta ise oli kõik ära seletanud lasi minul uuesti üle seletada. Ma olin rahul - ma sain ise asjast palju paremini aru ja teised olid minult rohkem valmis küsima kui Davidilt, seega vähemalt paari inimese jaoks oli veel sellest kasu peale minu :)

Peale kursusepäeva tagasi kontorisse tulles jätkasime arutelu veel tunnikese jagu, kus ma oma intuitsiooni pealt arvasin, et ikka täiesti niisama ei saa IRT puhul küsimustikus küsimusi vahetada ja Michal (kes on sel teemal oma magistritöö teinud) vaidles mulle vastu. Või noh, pisut keerulisem vaidlus oli, aga sisu oli selles. Tõestamiseks ta simuleeris hunniku andmeid ja lõpuks jäi ikkagi nõusse minuga. Ma olen jätkuvalt väga rahul :)

Homme viimane päev, kus me eile õpitud Concerto oskused ja täna õpitud IRT oskused paneme kokku ja ehitame Concertos valmis adaptiivse testi, mis annabki kokku selle lühendi CAT - Computer Adaptive Testing.

Lõpetuseks - "A Day at the Park"