Täna on ikka kohe hommikul vaja blogima hakata :)
Läksin plaastreit otsima, leidsin ristikujulise sümboli ja maja, mille peale oli suurelt kirjutatud PHARMACY. Astun sisse - kosmeetikapood. Astun välja - jep, PHARMACY, opening hours ja kogu see stuff ka ilusti. Astun sisse tagasi ja no on kosmeetikapood, mis kosmeetikapood, servast serva. Küsisin siis ühe teenindaja käest, et väljas silt on, aga sees on muu sisu, et mis värk. Siis suunati teisele korrusele, kus pidi päriselt apteek olema. Teine korrus tervitas mind fotode printimise, patareide, iTunesi kinkekaartide muu taolise stuffiga. Kaugemal oli õnneks näha ka midagi, mis meenutas meie apteekides leiduvaid kaupu. Ühesõnaga tundub, et siin "pharmacy" tähendab suurt poodi, kus ühes nurgas on ka apteegikaubad.
Kui juba poodlemisest rääkida, siis paar päeva tagasi astusin vihma eest varju Marks & Spencer poodi, mis ei müünud mitte rõivaid vaid toitu. Terve suur saal, nagu keskmise suurusega Rimi, ainult toidukaubad. Väga veider. Täna käisin sealt uuesti läbi ja no päris hea valikuga toidupood on. Kallis muidugi, aga no see käib ilmselgelt südalinnas asuva suure toidupoega kokku.
Kokkuvõtteks võib öelda, et nime või sildi järgi siin küll poe kohta midagi otsustada ei saa. Ahjaa, välja arvatud ühes kohas avastasin nurgataguse "Polish grocery store", kus räägitigi poola keelt ja kaupadel olid poolakeelsed sildid. Ma isegi ei tea, mida ma ootasin.
Õhtune update: täna oli jällegi data assembly päev. Eile õhtul otsisin välja hunniku materjale sentiment analysise kohta, mille sisu on see, et teksti üritatakse hinnata emotsionaalse laetuse seisukohast.. või midagi taolist. Igatahes need meetodid väga keerulised ei ole ja lihtsamate kohta on netis olemas ka koodinäidised. Kõige lihtsam on muidugi emotsioone kirjeldavaid sõnu kokku lugeda, mis aga ei tee mingit vahet lausetel "I like him" ja "I don't like him", andes mõlemale lausele positiivse väärtuse tänu sõnale "like". Järgmine samm sellest on neid kokku lugeda mingite kaaludega. Sisuliselt sama lahendus, aga sõnad on mingile skaalale laiali jaotatud, lugedes oluliselt tugevamaks negatiivseks väljendiks "hate" võrreldes näiteks "dislike"-ga. Veel paremini aru saamiseks on vaja hakata vahet tegema alusel, öeldisel ja sihitisel, millest siis moodustatakse mingid action chainid ja sealt võlutakse see emotsioon välja. Ja tänapäeval kõige vingemad süsteemid lihtsalt vaatavad kogu lauset ja konteksti ja otsivad oma suurest andmebaasist välja, et kas on teada mis sellise lause emotsionaalne väärtus võiks olla ja mis otsesed ja varjatud emotsioonid seal on, jne. See viimane on kasutusel näiteks (palju muu hulgas) high-frequency tradingus. Niipalju siis taustast.
Mina tegelesin sellega, et leidsin koodijupid kaaludega sõnade lugemise kohta ja olin sellega rahul. Rahul sellepärast, et tegemist on vähemalt praegu alles pisikese projektiga ja nende paremate süsteemide koodi ma ei leidnud ka esimese otsimise peale kuskilt netist avalikult kätte. Lisaks üks ülevaate- ja võrdlusartikkel näitas, et kaaludega sõnade lugemine on peaaegu kõigil juhtudel peaaegu sama hea tulemusega kui keerulisemad algoritmid. Minu jaoks täiesti piisav :)
Päev seega kulus teiste meeste koodis sorides ja oma vajadustele kohendades. Lõpuks selgus, et see kood millest ma alustasin oli täiesti mõttetu ja asjast ei jäänud järgi mitte ühtegi rida, kõik sai sujuvalt ringi kirjutatud. Õhtuks sai valmis kood, mis arvutas tekstide kohta emotsionaalset väärtust. Päris kiiresti töötas, keskmiselt umbes 300 teksti kohta sekundis arvutas välja ja kirjutas andmed baasi. Kokku on aga 6,4 miljonit teksti :D Veel tunnike ja kood sai ringi tehtud nii, et lähenes sellele mahule väikeste ampsude kaupa. Lõpuks tõstsin selle üle ka ühte kohalikku lauaarvutisse, mis siis asja ketrama jäi. Homme hommikuks on kindlasti valmis, oletatav tööaeg on 6-7 tundi. Homme saab siis hakata vaatama, et kas ja mis nende emotsionaalsete väärtustega peale hakata :)