Sunday, August 4, 2013

Day 35

Mulle ilmselgelt meeldib ennast targana tunda. Vahepeal (ja ma ei tea kui tihti) väljendub see soov selliselt, et ma loen-uurin-õpin mingit suvalist kraami, millest hiljem nagu üldse midagi kasu pole. Või noh, kasu võib olla ka puhtalt selles, et ma ennast hästi tunnen ja mulle on suhteliselt oluline ennast hästi tunda :)

Tänast hommikut alustasin Fourier teisenduse kohta lugemisega. Tegemist on ühe artikliga, mis proovib tavaeluga intuitiivsel tasemel seda asja ära seletada. Suht-koht õnnestuski, põhipoint sai selgeks ja rohkem mulle vaja pole ka. Reedel ma möllasin mingite periodogrammide ja muu taolise stuffiga, mis minuteada kõik põhineb Fourier teisendustel, seega võib hommikust lugemist isegi asjalikuks pidada.

jätkub...
No nüüd tuli küll täislaks virgutusvõimlemist ära ajule - hierarhilised teemade mudelid ja pesastatud(?) hiina restorani protsess (Hierarhical Topic Models and the Nested Chinese Restaurant Process). See on edasiarendus asjale, millest ma ennast eile läbi närisin.

Aga alustame algusest (võimalik, et ma olen seda kõike juba varem ka kirjutanud) - kellelgi tekkis mõte, et kui meil on hunnik dokumente, siis äkki on kuidagi võimalik automaagiliselt neist dokumentidest välja võluda see, et millistest teemadest need üldiselt räägivad. Selgub, et on küll võimalik, aga nagu unsupervised learningu (ehk ilma inimesepoolse sisendita algoritmi) puhul ikka, siis selle tulemuse tõlgendamine on keeruline. Ühelt poolt on see väga lihtne - tulemus on see, mida algoritm tegi. Samas sellise selgitusega pole midagi peale hakata. Teiselt poolt võib võtta algoritmi väljundi ja vaadata millistest sõnadest erinevad teemad on kokku saanud ja seda siis tõlgendada. Olles sellega nüüd mõnda aega möllanud ja kõrvalt ka Kamili tegevust näinud, siis aeg-ajalt on need välja settuvad teemad päris huvitavad ja mõistlikud.

Hierarhilised teemade mudelid on sisuliselt samad asjad, aga algoritm tekitab teemadest ka hierarhia ehk puu. Sellise puu juur (ehk kust kõik hargenam hakkab) tuli tüüpide näites (ühe teadusajakirja paarikümne aasta artiklite abstraktide põhjal) koosnema sõnadest "the, of, a, to, and, in, is, for". Nagu ei oleks "teema", aga sisuliselt näitab, et need on sõnad, mida kõik dokumendid kasutavad. Teine tase tuli juba sisuline jaotus, millest on päris hästi näha, et tolles ajakirjas jaotuvad teemad laias laastus neuroteaduseks ja masinõppeks.

Mõtlesin jupp aega, et mis sellest kõigest kasu on, aga võib-olla ikka on ka. Ehk on väga suvaline mõte, aga eriti kaugelt vaadates (ja ühe silma kinni pigistades) võiks see kuidagi ehk analoogne olla Aaro mõistete struktuuri teooriaga. No umbes nii, et iga inimese keelekasutuse kohta saab teha teemade puu ja need võiksid olla erineva mõistete struktuuriga inimestel erinevad, just puu kuju ja sügavuse plaanis. Neid teemade puid peab muidugi terve hunniku tegema, varieerides puu sügavust ja teemade arvu ja sinna juurde välja mõtlema mingid mõõdikud hindamaks saadud puu "headust" (see kõik on tegelikult lihtsam kui tundub). Nojah, nüüd asja lahti kirjutades tundub küll, et nende ideede analoogia nägemiseks peab mõlemad silmad kinni pigistama ja ehk ka mõned maagilised seened ära sööma. Vähemalt sai mõte praeguse teadmiste taseme juures lõpuni mõeldud ja üles tähendatud :)

jätkub...
Jätkub nii, et käisin kinos, oli lõbus :)
Siis vaatasin Top Geari viimast osa, otse telekast, see oli päris lahe :)
Ja lõpuks leidsin, et tunniplaan on üles pandud terveks sügissemestriks ja tegin sellest copy-paste oma kalendrisse. Suhteliselt tihe tegutsemine tuleb jälle. "Andmeanalüüsi interpreteerimist" ei leidnud sealt, aga võimalik, et nad jätavad selle hoopis kevadeks, eks näis. See sügis on kõik oma instituudi rahvas + kaks päeva Lehtmetsa novembri alguses. Arvestades kui kiiresti aeg seni on läinud, siis tundub see magistri lõpetamine juba päris lähedal :)