( arpi_esp | 2022. 07. 03., v – 23:47 )

Szerkesztve: 2022. 07. 04., h – 00:04

megirtam a validatort is. hat ez jobb lett, mint vartam, a v4-es adatokkal lefuttatva, az input kb 100 ujsagcikk szovege:

# wc test.txt
   4557  275081 2177299 test.txt

# ./validate_map.py

1148141 554111
Counters:  ALL=249405  found=128124 (14808 multi)  good=127086  same=117573  notfound=121281
Hits:  1:1=113076 (bad:240)  pair:4251/776 (bad:188)  alternatives:6677/2306 (bad:610)
Stats:      found: 128124  good: 127086  bad: 1038 = 0.810 %
Stats:  not found: 121281  same: 117573  bad: 3708 = 3.057 %
Total:  98.097 %

tehat ha megtalalta a szot a szotarban, akkor az 99.2%-ban jo is volt! egyebkent az egeszre vetitve 98% a pontossaga (mivel sok szot nem ismert / nem talalta meg a szotarban).

az is latszik, hogy a gyakori parok felismerese az esetek 96%-aban jo eredmenyt adott, es az alternativak kozul az elso valtozat 3x gyakrabban jo.