Tegnap elött végre kiadták a tesztet az idén harmadjára megrendezésre kerülő WePS-n. A lényeg az, hogy van egy név, rákeresnek a yahoo-n, és a találatokat fel kell dolgozni. Idén a találatokat (az első 200) klaszterezni kell, és az egyes HTML-n található attributumokat ki kell nyerni. 16 különböző attributum van. Összesen 300 ember a teszt, vagyis csaknem 60.000 dokumentum van, ami nem kevés. Már a nulladik fázissal meggyűlt a bajom, a html-k feldolgozása meglepően nehézkesen ment, de végül csak sikerült az éjszaka lefutnia, igaz muszáj volt 5 részre bontsam az egészet, h értelmes időben végezzen. Meglepő amúgy, hogy borzasztó egyszerűnek tűnő weboldal, vagy e-mail címet is, milyen baromi nehéz kinyerni jól. Körülbel 40-50%-s F mértékkel tudtam csak a trainen, ami a tavalyi teszt és train volt. Az affiliácó és a foglalkozás, már-már reménytelennek tűnő vállalkozásnak tűnik, ott 10% körüli eredmény is jónak számít sajnos... Szóval most fut az attributum kinyerés épp, aztán holnap kalszterezek, hétvégén talán tudok egy megoldást beküldeni. A kiértékelést amúgy a lehető legjobban el van kúrva, mivel nem volt elég léjük a szervezőknek, ezért a tesztenk csak egy részét fogják kiértékelni. Azt se normális módon, ugyanis minden klaszterhez egy attributumtípusból csak egyet lehet megadni. Tehát, hiába van egy embernek 2-3 e-mail címe amit tegyük fel meg is találok, akkor is csak egyet kell megadni, és azt az egyet fogják kiértékelni. Zseniális. Utánna pedig egymással fogják összevetni a beküldők eredményeit. nemigazán értem, hogy akarják, majd meglássuk. Remélem azért majd sikerül jól szerepelni...