Nemi spam elemzgetes, kulonos tekintettel a kepekre.

Gyujtom a spamet ami az sa-eximbol lepattan.
Aztan idonkent csinalok belole idetlen szamsorokat.
Most a kepekkel foglalkoztam egy cseppet.
Ez a cikk volt az apropoja: http://lwn.net/Articles/196704/

SPAM corpus merete: 27612db
kifeszegetett kepek: 3400db
Egyedi kepek: 3227db
Kepe ismetlodese:
Ehhez keptelen vagyok epeszu fejlecet irni. A bal oldali oszlop tartalmazza, hogy hanyszor fordult elo az adott ismetlesszam.
A jobb oldali, pedig hanyszor ismetlodott a kep. Szoval a harmadik sor aszongya, hogy 2 kep ismetlodott hatszor a corpusban.
Elnezest :)

1 10
1 9
2 6
2 8
3 7
7 5
8 3
12 4
36 2
Ez alapjan sok haszna nincs a FuzzyOCR image hash db hasznalatanak... Alig ismetlodnek a kepek.
Osszesen 1 kepet kaptam meg 10 peldanyban.

A kivalogatott (csak egyedi kepeket tartalmazo) corpus kiterjesztesek szerinti eloszlasa:
26 jpg
220 png
2981 gif

Erdekessegek:
1. Zaj a kepeken
2. transzparens kepek
3. szetvagdosott, htmlbol osszerakott kepek
4. Serult kepek hasznalata (nem tudom direkt, vagy csak igy sikerult nekik...)
5. animalt kepek (valahogy ezt is ki kellene valogatni. Nincs valakinek otlete hogyan?)

Egyeb az utobbi idoben tapasztalt kedvessegek:
1. bayes poison es a kepek egyideku hasznalata
2. AWL poison: A paraszt kuld egy levelet, ami tenyleg nem spam.
Aztan kuld meg egyet, amin meg image spam van, vagy valami hatareseti spam. Ami aztan az AWL - pontszama miatt bejon.

kerdes: Hogy kell itt tablazatot csinalni?

Ha valakit erdekel az eredeti, vagy a levalogatott kepallomany, szivesen tovabb adom.

Hozzászólások

"AWL poison: A paraszt kuld egy levelet, ami tenyleg nem spam."

Dehogynem spam, csak olyan értelmetlen levél amivel nem hirdet, csak megpróbál rendkívül közel kerülni a hamhez. Ez csak azért sikerül neki mert nincs hirdetés a kéretlen levelében.

spam == kéretlen levél.

Egyébként graylisting uber alles.

greylist hasznos, de nem elegendo...
Raadasul a spammerek is tanulnak. Olvasd el a cikkhez kapcsolodo beszelgetest az LWN-es linken.
Sajnos a greylist rohamosan veszit a hatekonysagabol, es en szemely szerint utalom is. :)

spam == ebben a kontextusban level, amit nem lattam spamnek a tartalma alapjan. (vers, idiota szolanc)
A szuro szemszogebol tekintve az ugyet. Nem az enyembol.

Egeszen pontosan spam == keretlen, "tomeges(?)" level. (unsolicited bulk e-mail)