spam szűrés - programozás probléma - help!

Adott probléma: Spam-t kéne szűrni a következőképpen: adott egy nagy adatbázis, 80.000 e-mailel, ez a tanulóadatbázis, majd van 9000 e-mail amiről majd jó volna eldönteni, hogy micsoda (spam v ham). A gond az, hogy hétvégén nem volt időm foglalkozni a dologgal, mivel tesómék itt nálunk voltak és mivel évente kb egyszer látom őket, ezért nem épp ezzel foglalkoztam. Ma kiderült, hogy a jónak vélt algoritmus lófaszt se ér. néha még az 50%-t se éri el, ami ugye elég vicces. Csupán a szerencsének volt köszönhető, hogy 90% fölötti eredményt ért el az első tesztnél. (nem véletlenül szégyeltem leírni az algoritmust, igaz nem is az én ötletem volt) Szóval ha van kedve valakinek, vagy foglalkozott ilyesmivel, szívesen fogadnék építő jellegű ötleteket a problémára méghozzá olyan kikötéssel, hogy minnél egyszerűbb és hatékonyabb legyen a dolog. Sajnos új algoritmus áttanulmányozásra nem nagyon van időm. Bár ha valakinek van kedve egy igen részletest leírást írni vagy valami hasznos linket, esetleg java kodot vagy valamit, azt is nagyon szívesen venném.
Jelenleg azzal próbálkozok, hogy megnézem mik a spam-kben és ham-kben a leggyakoribb szavak, és ez alapján eldöntöm hogy adott file micsoda. Ha ez sem lesz eredményes, felállítok néhány szabályt lesz néhány feturem és abból építek döntési fát weka segítségével és a döntést rábízom a weka-ra. Ez volna a legjobb, csak elég időigényes volna, ha ennek így neki kéne fussak...
SEgítséget előre is köszi!

Szerk.: No, új témát akartam nyitni ennek, nem blognak. Mostmár lett mind a 2.

Hozzászólások

Spemeknél a 10 leggyakoribb szó közt szerepel a Microsoft, úgy hogy From, To: stb is néztem... vagyis ez a leggyakoribb...

----
Bárcsak...

Leggyakoribb szavaknal vigyazz arra is, hogy the, and stb. Ezek azert eleg sokszor elofordulnak minden spamben, meg ugye normalis levelezesben is. Igazabol en legeloszor is a feladot neznem meg. Bizonyos mennyisegu szam, ill betu lehet csak, egymas utan lehet csak, keverve mint pl e34fr@... mar nem johetne. Ja valamilyen szohosszusagot is megkene nezni, hogy csak afolott nezze a szavakat. Bar a dick meg ilyenek akkor is atjohetnek. Szerintem a leghatasosabb modszer az lenne, ha a spammeloket programoznad at, mondjuk fatestapoloval :).

megvan az első eredmény, egyenlőre nem rossz, nem is túl jó. De mivel a kiértékelő progi egy exe ezért nem nagyon van kedvem tesztelni, windowsra macerás átteni a fáljt. Majd holnap tesztelem windowson, meg hangolok még rajta, aztán feltezsem a forrást. Meg leírom az elvet ami pofon egyszerű. Persze magamtól kurvára nem jutott eszembe.
----
Bárcsak...