SpamRecognizer Bayesian támogatással

Címkék

Elkészült a SpamRecognizer új verziója a 0.3.3. A release tartalmaz több javítást és új feature-t is. Most már a Bayesian szűrésre is "megtanítható" a rendszer.

Hozzászólások

Működik valakinek ez a cucc?

Nekem még 1 spamet nem ismert föl.

Lehet, hogy érdemes lenne pár szót írni ide róla, hogyan kell használni, és hogyan kell tanítani...

Hi!

Hamarosan közzéteszem a teljes dolgozatot amit ebben a témában írtam, csak előbb megpróbálom megvédeni ;-)

A betanításról addig is annyit, hogy a -b paraméter mindig szükséges, amikor a bayesian szűrést akarod használni vagy tanítani akarod a szűrőt. A betanításra való a --spamlearn és --nonspamlearn paraméter. Minél több levelet feldolgoztatsz vele, annál pontosabban dönti el egy levélről, hogy spam vagy ham. Bővebben 'man spamrecognizer'!

Elnezest kerek, de a "Bayesian filtering"-et nem egyszeruen "Bayes-szures"-nek vagy "Bayes-fele szures"-nek kellene forditani?

Ezt az allitasomat (pontosabban kerdesemet) a kovetkezovel szeretnem alatamasztani: ha jol emlekszem, akkor volt egy (Thomas) Bayes nevu matematikus, aki a valoszinusegszamitas teruleten alkotott nagyokat, es pont a spam szureseben is az o modszerenek implementaciojat hasznaljak. Ebbol merem

gondolni, hogy ez akkor a Bayes-szures.

De semmikeppen se Bayesian...

Valoban Thomas Bayes nevehez fuzodik! Ha jol tudom magyarul egyszeruen Bayes-formulanak hivjak azt az eljarast, amely soran ket enymastol fuggetlen esemeny bekovetkeztebol egy harmadik bekovetkeztenek valoszinuseget ki lehet szamolni! Mivel nem vagyok nyelvujito en tartom magam a "Bayesian szureshez", de egyetertek veled es valoszinuleg a "Bayes-szures" a helyes :)

Ma nézegettem egy amavisd-new jelentést, amiben szerepeltek SpamAssassin analizálások is, és láttam benne Bayesian elemzésen alapuló pontot. Nem foglalkoztam eddig vele, mit jelent, de kíváncsi lettem, és a google azonnal ide hozott.
Tudom, hogy ez nem amavis vagy SpamAssassin témakör, így egy kicsit OFF, amit leírok, de maga a Bayes tétel szóba került. Nos, nem tegnap szigorlatoztam matematikából, de a valszám. könyvem még megvan, és belenéztem. Mit ad Isten, a könyvemben jócskán akadnak példák, feladatok, amiket anno bekarikáztam, lévén kidolgoztam. :) Mik vannak??? :)
Van erre egy remek példa: van három gép, B1, B2, B3. A B1 az összes termelésnek 50, B2 a 30, B3 a 20 %-át gyártja. B1 5, B2 2, B3 7 % selejtet gyárt. A Bayes tétellel arra kaphatunk választ, hogy mi annak a valószínűsége, hogy a késztermékek közül egyet kiválasztva az selejtes.
Lehet, hogy rosszul gondolkodom, de ez a SPAM-elemzéskor arra lehet használni, hogy több jellemvonás együttes megjelenése egy levélben már nagy valószínűséggel SPAM-re utaló nyom.