Felraktam egy v5 verziot. Javitva lett az URL-ek kezelese (ne ekezetesitse a domaint :)) es a zarojelek is, uj tokenizalo altal. A validacio eredmenye is javult picit emiatt, amelyik szot ismeri ott mar csak 0.4% a tevedes. Az ismeretlenek jelentos resze is eliras vagy nev volt, vagy olyan ritka szavak mint pl. múzeum-labirintusnak, piacikapitalizmus-barát, orbáni-Alaptörvény, joguralom-követelménnyel stb... meg annyit lehetne tenni, hogy a kotojeles ismeretlen osszetett szavakat szetbontani es kulon-kulon megnezni.
Counters: ALL=248957 found=128908 (15108 multi) good=128399 same=117483 notfound=120049
Hits: 1:1=113557 (bad:243) pair:4688/795 (bad:192) alternatives:6993/2366 (bad:74)
Stats: found: 128908 good: 128399 bad: 509 = 0.395 %
Stats: not found: 120049 same: 117483 bad: 2566 = 2.137 %
Total: 98.765 %
http://thot.banki.hu/ekezet/v5/
szerk: beleirtam a kotojel-splittelest (ha nem ismeri az "a-b" format akkor megnezi kulon a es b), de nem lett sokkal jobb:
Counters: ALL=250090 found=129810 (15294 multi) good=129239 same=118283 notfound=120280 split=1093
Hits: 1:1=114258 (bad:258) pair:4716/799 (bad:195) alternatives:7054/2412 (bad:118)
Stats: found: 129810 good: 129239 bad: 571 = 0.440 %
Stats: not found: 120280 same: 118283 bad: 1997 = 1.660 %
Total: 98.973 %