megirtam a validatort is. hat ez jobb lett, mint vartam, a v4-es adatokkal lefuttatva, az input kb 100 ujsagcikk szovege:
# wc test.txt
4557 275081 2177299 test.txt
# ./validate_map.py
1148141 554111
Counters: ALL=249405 found=128124 (14808 multi) good=127086 same=117573 notfound=121281
Hits: 1:1=113076 (bad:240) pair:4251/776 (bad:188) alternatives:6677/2306 (bad:610)
Stats: found: 128124 good: 127086 bad: 1038 = 0.810 %
Stats: not found: 121281 same: 117573 bad: 3708 = 3.057 %
Total: 98.097 %
tehat ha megtalalta a szot a szotarban, akkor az 99.2%-ban jo is volt! egyebkent az egeszre vetitve 98% a pontossaga (mivel sok szot nem ismert / nem talalta meg a szotarban).
az is latszik, hogy a gyakori parok felismerese az esetek 96%-aban jo eredmenyt adott, es az alternativak kozul az elso valtozat 3x gyakrabban jo.