spam szűrés - programozás probléma - help!

Java

Adott probléma: Spam-t kéne szűrni a következőképpen: adott egy nagy adatbázis, 80.000 e-mailel, ez a tanulóadatbázis, majd van 9000 e-mail amiről majd jó volna eldönteni, hogy micsoda (spam v ham). A gond az, hogy hétvégén nem volt időm foglalkozni a dologgal, mivel tesómék itt nálunk voltak és mivel évente kb egyszer látom őket, ezért nem épp ezzel foglalkoztam. Ma kiderült, hogy a jónak vélt algoritmus lófaszt se ér. néha még az 50%-t se éri el, ami ugye elég vicces. Csupán a szerencsének volt köszönhető, hogy 90% fölötti eredményt ért el az első tesztnél. (nem véletlenül szégyeltem leírni az algoritmust, igaz nem is az én ötletem volt) Szóval ha van kedve valakinek, vagy foglalkozott ilyesmivel, szívesen fogadnék építő jellegű ötleteket a problémára méghozzá olyan kikötéssel, hogy minnél egyszerűbb és hatékonyabb legyen a dolog. Sajnos új algoritmus áttanulmányozásra nem nagyon van időm. Bár ha valakinek van kedve egy igen részletest leírást írni vagy valami hasznos linket, esetleg java kodot vagy valamit, azt is nagyon szívesen venném.
Jelenleg azzal próbálkozok, hogy megnézem mik a spam-kben és ham-kben a leggyakoribb szavak, és ez alapján eldöntöm hogy adott file micsoda. Ha ez sem lesz eredményes, felállítok néhány szabályt lesz néhány feturem és abból építek döntési fát weka segítségével és a döntést rábízom a weka-ra. Ez volna a legjobb, csak elég időigényes volna, ha ennek így neki kéne fussak...
SEgítséget előre is köszi!

930 megtekintés