Hogyan gyozzuk le a statisztikai spamszuroket? Spoiler jon!!!

Ne rodd fel nekem, de felhaborit az, amikor olyan nagyokosok osztjak az eszt, hogy a bayes-i szurok mekkora *ostalicskak, akiknek szemmel lathatoan kihivast okoz maganak a koncepcionak a felfogasa is. Ezert leleplezem az egyetlen valodi tamadast, amivel le lehet gyozni a bayes-i szuroket.

Hozzászólások

Már-már kezdem sajnálni hogy nem tudok statisztikai szűrőket csinálni. Lebilincselő olvasmány volt a mai is! :)

+1 Es csak annyit fuznek hozza hogy a legjob blog a sj blogja (legalabbis szamomra, sot az egyetlen blog amit rendszeresen olvasok - olvasmanyos, erdekes es nagyon informaciogazdag meg hasznos). Ha nagyot akarnek villantani a cegnel talan az altalad fejlesztett spamszurot kene beuzemelni a mail szerverunkon. Mar reg forgatom a fejemben, talan a csendesebb december - januari idoszakban probalkozok vele. Mindenkepp gratulaluk es csak igy tovabb.
--
The worst or stupidest ideas are always the most popular.

Lehetne a kovetkezo blogod egy clapf-howto?
En is mar regota szemezek vele, de meg nem szantam ra magam. Valahogy mindig tartottam tole, hogy bonyolult beuzemelni, tobb progi kodjat is at kell turni..
---------------------
AFPer: We've missed you, did you miss us?
Pratchett: Yes, but I think I have time to reload.

:-) lehet. Igazabol mar van is egy (relative up-to-date) how-to-szeruseg a http://wiki.hup.hu/index.php/Clapf cimen, de ha az alabbi kerdesekre valaszolsz, irok neked egy testreszabott (magyar nyelvu) howto-t.

- Milyen kornyezetbe akarod? Pl. postfix-szel after-queue content filter, vagy LDA-bol (preferaltan maildrop) spamdrop? Esetleg egy gateway-t akarsz epiteni, ami szures utan tovabbitja a levelet az igazi mail szervernek?
- Milyen token adatbazis backend-et akarsz hasznalni, pl. sqlite3, mysql? (nagyobb kornyezetbe inkabb az utobbit ajanlom)
- Egy nap kb. hany levelet kell feldolgozni?
- Akarsz-e spam karantent?
- Van-e mar egy halom ham ill. spam leveled a kezeti tanitashoz?
- Kb. hany felhasznalorol van szo? System user-ek vagy virtualis user-ek?
- Mindenki kozos token adatbazist hasznaljon vagy mindenkinek sajat, a tobbieketol fuggetlen token adatbazisa legyen?

ASK Me No Questions, I'll Tell You No Lies

- Milyen kornyezetbe akarod? Pl. postfix-szel after-queue content filter, vagy LDA-bol (preferaltan maildrop) spamdrop? Esetleg egy gateway-t akarsz epiteni, ami szures utan tovabbitja a levelet az igazi mail szervernek?
egyelore itthonra, 1 db Ubi gep, jelenleg eximet allitottam be.. egy egyszeru pop3 serveren keresztul erem el a helyi fiokot thunderbirdbol, szures nelkul
van egy masik user is, a netszolgaltato postafiokjahoz csatlakozik kozvetlenul pop3-al, de egyelore oda nem jon spam.. ha egyszeruen megoldhato, akkor belevennem ezt a usert is, ha nem, akkor nem.. nagyon faragni nem akarok
- Milyen token adatbazis backend-et akarsz hasznalni, pl. sqlite3, mysql? (nagyobb kornyezetbe inkabb az utobbit ajanlom)
mysql mar van a gepen, de sqlite is felmehet csomagbol, igazabol lenyegtelen, ami egyszerubb
- Egy nap kb. hany levelet kell feldolgozni?
alig valamit, napi 10-20 spam jon +hetente par ertelmes mail (de ez a levelezes max. 10%-a)
- Akarsz-e spam karantent?
userenkent lebontva levelezokliensen beluli karanten az johet (ezt mondjuk kliensen belul konnyen meg lehet oldani, egyszeruen a spamszuro altal headerbe beszurt uj sort nezi, es aszerint teszi kulon csoportba)
kulon userrel nem nezegetnem az osszesitett spam-aradatot, mert nincs annyi felhasznalo, hogy megerje
- Van-e mar egy halom ham ill. spam leveled a kezeti tanitashoz?
ez az egyik fo gond.. mondjuk levlistalistaarchivumbol tudnek szerezni ham-et, de az elegge egyoldalu lenne.. a spameket meg eddig toroltem, szoval nincs kulonvalogatva 2 mbox file-ba, ahogy azt illene
- Kb. hany felhasznalorol van szo? System user-ek vagy virtualis user-ek?
2 felhasznalo van jelenleg, de regebben csinaltam kulon mailboxot a levlista-usernek, meg egyet kulon regisztraciokhoz
(ez devnull neven futott, es amikor nem regisztraltam epp sehova, a /dev/null-ra volt symlink a /var/mail/devnull :) )
anno mindegyik normalis user volt, es pop3-on keresztul a hozza tartozo user/pass-al toltottem at a leveleket.. igy kelloen elkulonult, es eleg sok beallitast meg tudtam oldani
- Mindenki kozos token adatbazist hasznaljon vagy mindenkinek sajat, a tobbieketol fuggetlen token adatbazisa legyen?
nincs sok level, ezert a kozos szerintem jobb lenne.. a spam-ek valoszinuleg nem ternek el annyira, ham-bol meg ugye nincs sok..

nem a spam-ek mennyisege a gond, csak egyszeruen unom torolni, foleg, hogy geppel felgyorsithato..

koszi
---------------------
AFPer: We've missed you, did you miss us?
Pratchett: Yes, but I think I have time to reload.

Ok, 2 megoldas jutott eszembe:

a) egy pop3 proxy segitsegevel toltod le a leveleidet, ami pl. a localhost-on futhat. Ebben az esetben a tanitast kellene okosan megoldani. A legegyszerubb (IMHO) az lenne, ha a thunderbird-ben egy jobb klikk utan lehetne egy olyat mondani, hogy tanuld meg az adott levelet ham-kent, vagy spam-kent. Ehhez pedig egy extension kell.

b) de ha mar extension, akkor az is megoldhato (elvben), hogy amikor a thunderbird letolti a leveleket, akkor egyuttal nezze meg o maga az extension segitsegevel, hogy a level ham vagy spam.

Szoval a jo hir az, hogy megoldhato a dolog, a rossz pedig az, hogy ilyen fejlesztesben (meg) nincs tapasztalatom. Azert megprobalom, aztan lesz, ami lesz.

ASK Me No Questions, I'll Tell You No Lies

TB nem kovetelmeny, ha mas klienssel egyszerubb (ez volt keznel, de export/import egy masik kliensbe megoldhato)
Firefox extensiont mar irtam, Thunderbirdot meg nem, de elvileg elegge hasonlit.
---------------------
AFPer: We've missed you, did you miss us?
Pratchett: Yes, but I think I have time to reload.

Tettem par lepest egy TB extension-nel, es egy olyat tudnek kesziteni, hogy a clapf egy pop3 proxy kontosebe bujik, es localhost-on egy magas porton figyel (pl. 1100/tcp), egy TB kiterjesztessel pedig tanitani lehet az sqlite adatbazist.

Egy dolgot azonban nem tudtam megoldani: hogy tanitas utan a levelet a megfelelo mappaba atmozgassa. Pl. ha nem ismert fel egy spamet, de te tanitod ezzel, akkor egyuttal tegye is at a trash folderbe.

Noha enelkul is mukodokepes a dolog, de ezzel azert sokkal aszabb lenne. Irtam is egy levelet egy hasonlo projekt fejlesztojenek, de ha nem tud segiteni, akkor ez a feature sajnos kimarad.

Btw. Polesz megemlitette, hogy o ir(hat) egy claws mail plugint a clapf-hoz a bogofilter mintajara.

ASK Me No Questions, I'll Tell You No Lies