ujra tamad a "magyar spam"

bizonyara mindenki talalkozott az elmult 3 evben az olcso gagyi kinai termekeket DoS-szeru email bombazassal (2400 fiokra 1 honap alatt 197000 jott belole) hirdeto magyar spam-el. kerti locsolocso, szunyogriaszto, stb... altalaban 1-1 temat hetekig nyomattak.

a szoveg minden levelben mas volt, ezt ugy ertek el, hogy minden mondatot 10-20 felekeppen megfogalmaztak, majd ezt permutaltak veletlenszeruen. meg 30% egyezeses deduplikacioval is megmaradt 10k+ kulonbozo level...

sok kozos nem volt bennuk, de a felado (from) domainje mindig ugyanarra az IP cimre, vagy szuk (/26-/28) tartomanyra mutatott, ami par havonta valtozott ugyan, de viszonylag kis energiaval lehetett szurni.

na hat most strategiat valtottak. most epp traffipaxdetektoros temaban tamadnak kb 2 hete, hasonlo a stilus, de mostmar a from ip-je is eleg random. a benne levo url-t lehetne csak megfogni, de hogy ezt megnehezitsek, van levelenkent vagy 100 url benne, a legtobb 5-6 karakteres random string + pont + 2 random betu + /? + ujabb 5-6 random betu. ezzel DoS-oljak az url blacklisteket, akik sok query miatt elobb utobb letiltanak ugyis... viszont ez a vesztuk is, eleg jol lehet regex-el szurni, parszazat mar megfogtam 1 nap alatt, eddig nincs false positive se. procmail szintaxissal igy nez ki, ha mind a 4 regex match-el (random http es https url-eket hasznalnak), akkor van hit:

* http://[a-z][a-z][a-z][a-z][a-z][a-z]\.[a-z][a-z]/\?[a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z]*.
* http://[a-z][a-z][a-z][a-z][a-z]\.[a-z][a-z]/\?[a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z]*.
* https://[a-z][a-z][a-z][a-z][a-z][a-z]\.[a-z][a-z]/\?[a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z]*.
* https://[a-z][a-z][a-z][a-z][a-z]\.[a-z][a-z]/\?[a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z][a-zA-Z]*.

arpi_esp blogja
A hozzászóláshoz be kell jelentkezni
523 megtekintés

Ebben számomra az az ijesztő, hogy megéri csinálni, mert az emberek megveszik ezeket a hulladékokat!

Sőt, valószínűleg ezerszámra veszik.

3 szavazat

A hozzászóláshoz be kell jelentkezni

Egyaltalan megerkeznek a termekek?

0 szavazat

A hozzászóláshoz be kell jelentkezni

amig vannak olyanok, akik nem ismerik a wish/aliexpresst, vagy nem tudnak angolul, addig lesz aki ezektol rendel, tobbszoros aron.

1 szavazat

A hozzászóláshoz be kell jelentkezni

nekem bogofilter egy 4-5 ezres mintán való tanítás után szépen megfogja őket.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Machine learning technológiákkal elég jól megfoghatóak a spam-ek. Természetesen kombinálva a klasszikus szűrő-technológiákkal, heuristic spam filter, Adaptív, tartalom alapú stb. Ha sok user visszajelzés van spamről az természetesen nagy előny. De ha nincs sok, akkor is elég alacsonyabb órabérű kollégának kiadni a spam figyelést ha jön egy új trükk. Nem kell elemeznie a spammer módszereit, elég ha bejelöli és még jobb ha bejelöl hasonló de nem spam emaileket is. Lényeg, hogy legyen célzott tanítóminta amit oda lehet adni gépi tanulásra. Elég jól használható erre.

https://www.sciencedirect.com/science/article/pii/S2405844018353404

0 szavazat

A hozzászóláshoz be kell jelentkezni

> Machine learning technológiákkal elég jól megfoghatóak a spam-ek

tudom, mert en is irtam ilyet (deepspam) :)

viszont ezt tudjak a spammerek is, es eloszeretettel hasznaljak a bayes-poisoning technikat (telerakjak random szavakkal a levelet), vagy - gondolom a neuralis halok ellen - pl. komplett ujsagcikkeket masolnak be a levelbe, hogy elvigyek az AI szurot az erdobe.

a fenti magyar spamet siman megfogja a spamassassin is, nem is arrol szolt a post, inkabb csak erdekesseg, hogy 3 ev utan modszert valtottak, es akarhogy erolkodnek a randomizalassal, epp ez lett a vesztuk.

amugy ahova napi 100ezres mennyisegben jon az ilyen, ott mar erdemes belenezni es beallitani par regex-et, ami azert nagysagrendekkel kevesebb eroforrast igenyel mint egy bayes vagy NN, nem is beszelve a sok RBL queryrol.

1 szavazat

A hozzászóláshoz be kell jelentkezni

Miért így használod a regexeket, miért nem [a-z]{5} formában?

3 szavazat

A hozzászóláshoz be kell jelentkezni

Én is csak ennyit vettem észre. :) Szerintem ugyanaz lehet az ok, amiért átcsúsznak nála ezek a levelek. :P

1 szavazat

A hozzászóláshoz be kell jelentkezni

Akkor a 4 regexből simán lehetne egyet csinálni:

https?://[a-z]{5,6}\.[a-z]{2}/\?[a-zA-Z]{5,}

2 szavazat

A hozzászóláshoz be kell jelentkezni

nem, mert pont az a lenyeg, hogy mind a 4 kulon kulon matcheljen, tehat nem OR hanem AND van koztuk!

azaz kell legyen http es https is, 5 es 6 karakteres domainnev is. kulonben matchelne az index.hu/?abcdef-re is

0 szavazat

A hozzászóláshoz be kell jelentkezni

Igazad van, csak a patternre koncentráltam, a magyarázatra felette már nem. Ettől függetlenül a {} használatával jóval könnyebben olvashatóak lennének a patternek.

http://[a-z]{5}\.[a-z]{2}/\?[a-zA-Z]{5,}
http://[a-z]{6}\.[a-z]{2}/\?[a-zA-Z]{5,}
https://[a-z]{5}\.[a-z]{2}/\?[a-zA-Z]{5,}
https://[a-z]{6}\.[a-z]{2}/\?[a-zA-Z]{5,}

1 szavazat