( uid_16401 | 2010. 12. 15., sze – 19:07 )

Be tudod bizonyítani azt hogy a clapf inverz chi-négyzet alpú algoritmusa 99.5% -al szűri a SPAM-eket? Itt elsősorban matematikai bizonyításra gondolok, nem pedig tapasztalati úton szerzett adatokra. Erősen megkérdőjelezem a 99.5%-ot is, saját tapasztalatból kapott eredmények nem ezt mutatták a clapf esetében.
A Bayes-szűrést használó programok pl. SpamAssassin optimális esetben sem adnak jobb eredményt mint 95%. Másrészt a Bayes-szűrés igen könnyen kijátszható lásd Bayesian-mérgezés. Persze állításod szerint clapf a SpamAssassinhoz képest "legitim". nem vagyok biztos abban sem, hogy a tokenizálási módszered nem támadható.

Ugyan fenntartásaim vannak a statisztikai elméletekre alapozó spam szűrőkkel kapcsolatban, de nagyon kiváncsi lennék mit kezdenél pl. kínai szöveggel, ahol gyakotlatilag minden szó 1 karakter hosszú.