Web People Search 3 - részeredmények

Szóval elindultunk ezen a bizonyos versenyen. A cél, mint már említettem valami olyasmi volna, hogy adott egy személy név és az azokhoz tartozó yahoo találatok (első 200). Ezeket az oldalakat kéne klaszterezni, annak függvényében, hogy az azonos nevű, de különböző emberekhez tartozó dokumentumokat csoportosítottuk. Továbbá szükséges volt 16 különböző életrajzi jellemző kinyerése az adott dokumentumokból, majd ezeket aggregáltuk a klaszterek szerint.
A verseny kiértékelés végül botrányba fullad. Több mint egy hónap (!!!) csúszás után megkaptuk az eredményeket. A kiértékelés úgy működött, hogy annotátorokkal kézzel klaszterezték az egy névhez tartozó találatokat. Persze nem a szokványos módon, hanem csak két emberre, (personA és personB) amennyiben egy dokumentum egyikhez se tartozott azt egyszerűen csak egy other klaszterbe sorolták. Kicsit megkérdőjelezhető ez klaszterezési eljárás szerintem. A lényeg, hogy vették a beküldéseket, és annak a klaszternek a jellemzőit értékelték ki, amelyek legjobban hasonlított az gold-annotation klaszterezéhez. A hasonlóságot recall és F mérték szerint adták meg. Az eredmények a következők voltak (RGAI a mi rendszerünk):
F mérték alapú klaszterezés:
System precision recall f-measure
RGAI_AE_3 0,1188 0,1268 0,1090
Intelius_AE_UNOFFICIAL 0,0933 0,1494 0,0973
RGAI_AE_2 0,0706 0,0824 0,0653
BYU 0,0617 0,0853 0,0642
RGAI_AE_1 0,0599 0,0779 0,0565
WOLVES_AE_1 0,1025 0,0468 0,0552
RGAI_AE_4 0,0478 0,0799 0,0536
RGAI_AE_5 0,0506 0,0588 0,0454
WOLVES_AE_2 0,0485 0,0396 0,0380

Recall alapú klaszterezés:
Intelius_AE_UNOFFICIAL 0,1311 0,3113 0,1533
RGAI_AE_3 0,0475 0,0488 0,0425
WOLVES_AE_2 0,0373 0,0374 0,0339
WOLVES_AE_1 0,0369 0,0342 0,0313
RGAI_AE_4 0,0251 0,0533 0,0300
RGAI_AE_5 0,0284 0,0417 0,0290
RGAI_AE_1 0,0238 0,0470 0,0284
BYU 0,0280 0,0385 0,0276
RGAI_AE_2 0,0259 0,0364 0,0241

Intelius egy olyan cég, akik komolyan foglalkoznak a témával. Látszik, h sikerül rájuk verni, ha F mérték alapú a kiértékelés, amúgy csúnyán elvernek. Nagyon nem is érdemes boncolgatni az eredményeket, ugyanis kaptunk egy levelet a kedves szervezőktől, hogy bizony találtak egy jó nagy bugot a kiértékelésben, és a tesztnek csak 1/8-n futtatták le a kiértékelést... Szal, most várom, mit is sikerült elérni...