ujra tamad a "magyar spam"

bizonyara mindenki talalkozott az elmult 3 evben az olcso gagyi kinai termekeket DoS-szeru email bombazassal (2400 fiokra 1 honap alatt 197000 jott belole) hirdeto magyar spam-el. kerti locsolocso, szunyogriaszto, stb... altalaban 1-1 temat hetekig nyomattak.

a szoveg minden levelben mas volt, ezt ugy ertek el, hogy minden mondatot 10-20 felekeppen megfogalmaztak, majd ezt permutaltak veletlenszeruen. meg 30% egyezeses deduplikacioval is megmaradt 10k+ kulonbozo level...

sok kozos nem volt bennuk, de a felado (from) domainje mindig ugyanarra az IP cimre, vagy szuk (/26-/28) tartomanyra mutatott, ami par havonta valtozott ugyan, de viszonylag kis energiaval lehetett szurni.

na hat most strategiat valtottak. most epp traffipaxdetektoros temaban tamadnak kb 2 hete, hasonlo a stilus, de mostmar a from ip-je is eleg random. a benne levo url-t lehetne csak megfogni, de hogy ezt megnehezitsek, van levelenkent vagy 100 url benne, a legtobb 5-6 karakteres random string + pont + 2 random betu + /? + ujabb 5-6 random betu. ezzel DoS-oljak az url blacklisteket, akik sok query miatt elobb utobb letiltanak ugyis... viszont ez a vesztuk is, eleg jol lehet regex-el szurni, parszazat mar megfogtam 1 nap alatt, eddig nincs false positive se.  procmail szintaxissal igy nez ki, ha mind a 4 regex match-el (random http es https url-eket hasznalnak), akkor van hit:

* http://[a-z][a-z][a-z][a-z][a-z][a-z]\.[a-z][a-z]/\?[a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z]*.
* http://[a-z][a-z][a-z][a-z][a-z]\.[a-z][a-z]/\?[a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z]*.
* https://[a-z][a-z][a-z][a-z][a-z][a-z]\.[a-z][a-z]/\?[a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z]*.
* https://[a-z][a-z][a-z][a-z][a-z]\.[a-z][a-z]/\?[a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z]*.

Hozzászólások

Szerkesztve: 2021. 08. 16., h – 20:57

Ebben számomra az az ijesztő, hogy megéri csinálni, mert az emberek megveszik ezeket a hulladékokat!

Sőt, valószínűleg ezerszámra veszik.

nekem bogofilter egy 4-5 ezres mintán való tanítás után szépen megfogja őket.

Machine learning technológiákkal elég jól megfoghatóak a spam-ek. Természetesen kombinálva a klasszikus szűrő-technológiákkal, heuristic spam filter, Adaptív, tartalom alapú stb. Ha sok user visszajelzés van spamről az természetesen nagy előny. De ha nincs sok, akkor is elég alacsonyabb órabérű kollégának kiadni a spam figyelést ha jön egy új trükk. Nem kell elemeznie a spammer módszereit, elég ha bejelöli és még jobb ha bejelöl hasonló de nem spam emaileket is. Lényeg, hogy legyen célzott tanítóminta amit oda lehet adni gépi tanulásra. Elég jól használható erre. 

https://www.sciencedirect.com/science/article/pii/S2405844018353404

> Machine learning technológiákkal elég jól megfoghatóak a spam-ek

tudom, mert en is irtam ilyet (deepspam) :)

viszont ezt tudjak a spammerek is, es eloszeretettel hasznaljak a bayes-poisoning technikat (telerakjak random szavakkal a levelet), vagy - gondolom a neuralis halok ellen - pl. komplett ujsagcikkeket masolnak be a levelbe, hogy elvigyek az AI szurot az erdobe.

a fenti magyar spamet siman megfogja a spamassassin is, nem is arrol szolt a post, inkabb csak erdekesseg, hogy 3 ev utan modszert valtottak, es akarhogy erolkodnek a randomizalassal, epp ez lett a vesztuk.

amugy ahova napi 100ezres mennyisegben jon az ilyen, ott mar erdemes belenezni es beallitani par regex-et, ami azert nagysagrendekkel kevesebb eroforrast igenyel mint egy bayes vagy NN, nem is beszelve a sok RBL queryrol.

Miért így használod a regexeket, miért nem [a-z]{5} formában?

Igazad van, csak a patternre koncentráltam, a magyarázatra felette már nem. Ettől függetlenül a {} használatával jóval könnyebben olvashatóak lennének a patternek.

http://[a-z]{5}\.[a-z]{2}/\?[a-zA-Z]{5,}
http://[a-z]{6}\.[a-z]{2}/\?[a-zA-Z]{5,}
https://[a-z]{5}\.[a-z]{2}/\?[a-zA-Z]{5,}
https://[a-z]{6}\.[a-z]{2}/\?[a-zA-Z]{5,}