SPAM corpus merete: 27612db
kifeszegetett kepek: 3400db
Egyedi kepek: 3227db
Kepe ismetlodese:
Ehhez keptelen vagyok epeszu fejlecet irni. A bal oldali oszlop tartalmazza, hogy hanyszor fordult elo az adott ismetlesszam.
A jobb oldali, pedig hanyszor ismetlodott a kep. Szoval a harmadik sor aszongya, hogy 2 kep ismetlodott hatszor a corpusban.
Elnezest :)
1 10
1 9
2 6
2 8
3 7
7 5
8 3
12 4
36 2
Ez alapjan sok haszna nincs a FuzzyOCR image hash db hasznalatanak... Alig ismetlodnek a kepek.
Osszesen 1 kepet kaptam meg 10 peldanyban.
A kivalogatott (csak egyedi kepeket tartalmazo) corpus kiterjesztesek szerinti eloszlasa:
26 jpg
220 png
2981 gif
Erdekessegek:
1. Zaj a kepeken
2. transzparens kepek
3. szetvagdosott, htmlbol osszerakott kepek
4. Serult kepek hasznalata (nem tudom direkt, vagy csak igy sikerult nekik...)
5. animalt kepek (valahogy ezt is ki kellene valogatni. Nincs valakinek otlete hogyan?)
Egyeb az utobbi idoben tapasztalt kedvessegek:
1. bayes poison es a kepek egyideku hasznalata
2. AWL poison: A paraszt kuld egy levelet, ami tenyleg nem spam.
Aztan kuld meg egyet, amin meg image spam van, vagy valami hatareseti spam. Ami aztan az AWL - pontszama miatt bejon.
kerdes: Hogy kell itt tablazatot csinalni?
Ha valakit erdekel az eredeti, vagy a levalogatott kepallomany, szivesen tovabb adom.
- uid_1062 blogja
- A hozzászóláshoz be kell jelentkezni
- 815 megtekintés
Hozzászólások
Teljesen beteg :o)
- A hozzászóláshoz be kell jelentkezni
"AWL poison: A paraszt kuld egy levelet, ami tenyleg nem spam."
Dehogynem spam, csak olyan értelmetlen levél amivel nem hirdet, csak megpróbál rendkívül közel kerülni a hamhez. Ez csak azért sikerül neki mert nincs hirdetés a kéretlen levelében.
spam == kéretlen levél.
Egyébként graylisting uber alles.
- A hozzászóláshoz be kell jelentkezni
greylist hasznos, de nem elegendo...
Raadasul a spammerek is tanulnak. Olvasd el a cikkhez kapcsolodo beszelgetest az LWN-es linken.
Sajnos a greylist rohamosan veszit a hatekonysagabol, es en szemely szerint utalom is. :)
spam == ebben a kontextusban level, amit nem lattam spamnek a tartalma alapjan. (vers, idiota szolanc)
A szuro szemszogebol tekintve az ugyet. Nem az enyembol.
Egeszen pontosan spam == keretlen, "tomeges(?)" level. (unsolicited bulk e-mail)
- A hozzászóláshoz be kell jelentkezni