Spamek aránya forrásországok szerinti megoszlásban

Címkék

A spameket és azok küldőit kevesen szeretik, de vajon milyen országokban lévő számítógépektől jön a legtöbb?
Kiket utáljunk jobban, az afgánokat, vagy a kiribatiakat? Nepálra mérjünk inkább atomcsapást, vagy a Saint Vincent-Grenadines szigetekre?
Mekkora a spam-penetráció Dzsibutiban?
Mondjuk-e a bantu négereknek, ha Sváziföldön járunk, hogy büdös spammerek?
Van-e zombi Vatikánban?

Ilyen, és ehhez hasonló kérdések vezéreltek, amikor megírtam azt a pár soros scriptet, ami több, mint 100 GB-nyi maillog átrágása után büszkén jelenthette nekem mire jutott.

Erre:

Ez a spamradar, amely megmutatja, hogy egy adott országból érkező levélforgalom hány százaléka spam (a spamszűrő szerint, persze).

Ahhoz, hogy megértsük, hogy Magyarország például miért szerepel csak kb. 8%-kal (ami nevetségesen alacsony) célszerű tudni, hogy milyen környezetben is készült a felmérés és mivel.

Az illető levelezőszerveren érvényben van pár SMTP szintű szűrés (greylisting, DNS alapú ellenőrzések és hasonlók), amelyek nem a levéltartalomból, hanem annak kézbesítési környezetéből próbálnak okoskodni, így eldobva -remélhetőleg- rengeteg spamet.

Ezek után persze azt is mondhatjuk, hogy a felmérés nem feltétlenül érvényes, hiszen figyelmen kívül hagy egy nagy csomó spamet, amely amúgy megérkezett (megérkezhetett) volna, ha a mogorva SMTP szerver nem lőtte volna fejbe a küldőjét, még mielőtt az elérhette volna a kaput. Mondhatjuk, de nem érdemes, hiszen én arra voltam kíváncsi, hogy ezen a vonalon mennyi és milyen spamek jönnek át (pontosabban itt arra, hogy milyen országokból milyen arányban).

A képre kattintva egy javás (demo :) alkalmazásban lehet megtekinteni grafikus formában (két randa csíkkal) az eredeti adatokat. Az országkódok megfelelnek az ISO 3166-ban leírtaknak és azok azonosítása a MaxMind ingyenes adatbázisából (a küldő SMTP szerver IP címét megkeresve benne) történt.

Az értékek számításának módja a spamszűrő(k) által spamnek gondolt levelek aránya az adott országból érkező teljes e-mail mennyiségben. Ahol ez nulla, ott nem jött spam, ahol 100, ott csak spam jött.
Fontos, hogy a lista csak olyan bejegyzéseket tartalmaz, ahonnan valóban jött is levél, azaz olyan országok nem szerepelnek rajta (se hiányzó értékkel, se nullával), amelyekből nem érkezett levél a vizsgált periódus alatt.

A bevezetőben feltett kérdéseket sem hagyom válasz nélkül. A legtávolabbi országokból jött a legtöbb spam, a kiribatiak szenyóbbak, mint az afgánok (spamküldés szempontjából persze, amúgy nem tudom), a Saint Vincent-Grenadines szigetek érdemlik az atomot (környezettudatos polgárként helyesbítek EMP-re és a spammereknek három év uránbányára), Dzsibuti szánalmasan leszerepelt a spamkérdésben -bár a dídzséjkommunitiben még érdeklődésre tarthat számot a TLD nevéből kifolyólag-, a sváziföldi bantu négerek büdös spammerek, viszont a Vatikánban istenien működik Joseph Alois Ratzinger tűzfala (amelynek a beceneve Szentháromság, egy georedundáns (a szerverszoba egyik része átlóg Rómába), nagy rendelkezésreállású tűzfal-cluster, amelynek tagjai (az Atya, a Fiú és a Szentlélek) bár minden gonosz csomagnak hajlandóak megbocsátani, de csak alapos gyóntatás után -addigra meg úgyis eltimeoutol minden gonosz TCP kapcsolat-), hiszen az onnan jövő levelek csupán fél százaléka spam.
Halleluja!

Hozzászólások

Opsz, ez megzabbantja a gépem erőforrásait. Nincs egy alternatív png, vagy jpeg helyette?

+ Honor az írás stílusáért.
J.A.R. georedundáns Szentháromság-tűzfala különösen tetszett, azóta azon töprengek, vajon hogyan is vallja meg bűneit egy nem katolitus spam?
Már ha gyóntatják, persze...

sh.

:D ecsém, de ráérsz :) amúgy frappáns írás és érdekes kísérlet! ;)

Akkor az arányok nem valós értékeket fejeznek ki az adott országból kiinduló spamek arányára: pl. a Magyarországról kiinduló nem spam levelek nagyobb arányban érkeznek egy magyar mail szerverre, mint az UK-ból kiindulók, de még onnan is nagyobb arányban, mint Szváziföldről, míg a spameknél ilyen aránykülönbség sokkal kevésbé van. A magyar levelek jelentős hányada nem spam, míg ami Dzsibutiból érkezik, az nagyon nagy valószínűséggel az.

Egy szóval sem mondtam, hogy ez a kimutatás az egész világra nézve reprezentatív. Van valamennyi (néhol kevesebb, néhol több) hatása annak, amit írsz, ez kétségtelen, ugyanakkor ennyi információ alapján nem jelentheted ki, hogy ezen a mailszerveren nagyobb a Magyarországról jövő levelek spamhez mért hányada, mint máshonnan, mert nem tudod, hogy a normál levelezés milyen arányban történik országokra lebontva.

A Magyarországról érkező levelek egyébként (ha nincs SMTP szűrés) kb. 60-70%-ban tartalmaznak spamet (legutóbb, mikor néztem így volt, nagyon sok zombi PC öntötte befelé a szemetet), de ezt eltünteti a (cikkben is írt) közepesen szigorú megoldás.

mogorva SMTP szerver

kijutott a forráskód? és van ahol már élesben fut??? pedig még csak készül a cucc....

Legjobb. :)

220 minekjosszide.domain.hu ESMTP (mogorva!)
help
502 5.5.2 Kösd magad sorba egy V43-mal, ha nem ismered az SMTP-t, miért vagy itt?
mail from:bela@bela.hu
503 5.5.1 Hát köszönni meg ki fog, he?
ehlo paraszt
250-minekjosszide.domain.hu, egyébként meg tényleg az vagy
mail from:bela@bela.hu
501 5.1.7 Apám, most jöttél a földekről, vagy mi van? Helyesen írd már azt a címet, te.
mail from:
250 2.1.0 Tudsz te, ha akarsz.
rcpt to:jozsi@jozsi.hu
501 5.1.3 Szándékosan szórakozol velem, és tényleg ekkora gyökér vagy?
rcpt to:
451 4.1.2 : Józsi most nem akar veled levelezni, menjél inkább kapálni.

Nem túl bölcs dolog atomcsapást mérni bárkire is e bolygón. Olyan mint beragadt liftben a fingás.
--
Degradálódjunk kicsit visszább!

levelezel vatikánnal, hogy jött onnan nem spam is?

A logból milyen módszerrel határozod meg hogy egy levél spam?

Erre a kérdésre tulajdonképpen sibike válaszolt is helyettem, bár azért némi tévedés van a dologban, a hup tartalma ugyanis nem szűrt, vagyis itt masszívan keveredik egymással a minőségi és a használhatatlan tartalom.

Ha volna igény a csak szűrt tartalomra, akkor lenne értelme elindítani újra a lapot.
---
Science for fun...

Természetesen.

A szűrést maga az olvasó is el tudja végezni. Ha éppen ráér, ha éppen van hozzá kedve és türelme, és ha éppen nem olyan helyen próbál értelmes információt találni, ahol tízből kilenc hozzászólás kiszűrendő, mert mondjuk nem a témához tartozik, mert a válaszadóról messziről látszik, hogy fogalma sincs, miről beszél, vagy mert egyszerűen csak flame az egész.

Aki ráér, az az interneten ma már mindent megtalál. Aki ráér...

Welcome to the real world! :-)

---
Science for fun...