- arpi_esp blogja
- A hozzászóláshoz be kell jelentkezni
- 523 megtekintés
Hozzászólások
Ebben számomra az az ijesztő, hogy megéri csinálni, mert az emberek megveszik ezeket a hulladékokat!
Sőt, valószínűleg ezerszámra veszik.
- A hozzászóláshoz be kell jelentkezni
Egyaltalan megerkeznek a termekek?
- A hozzászóláshoz be kell jelentkezni
amig vannak olyanok, akik nem ismerik a wish/aliexpresst, vagy nem tudnak angolul, addig lesz aki ezektol rendel, tobbszoros aron.
- A hozzászóláshoz be kell jelentkezni
nekem bogofilter egy 4-5 ezres mintán való tanítás után szépen megfogja őket.
- A hozzászóláshoz be kell jelentkezni
Machine learning technológiákkal elég jól megfoghatóak a spam-ek. Természetesen kombinálva a klasszikus szűrő-technológiákkal, heuristic spam filter, Adaptív, tartalom alapú stb. Ha sok user visszajelzés van spamről az természetesen nagy előny. De ha nincs sok, akkor is elég alacsonyabb órabérű kollégának kiadni a spam figyelést ha jön egy új trükk. Nem kell elemeznie a spammer módszereit, elég ha bejelöli és még jobb ha bejelöl hasonló de nem spam emaileket is. Lényeg, hogy legyen célzott tanítóminta amit oda lehet adni gépi tanulásra. Elég jól használható erre.
https://www.sciencedirect.com/science/article/pii/S2405844018353404
- A hozzászóláshoz be kell jelentkezni
> Machine learning technológiákkal elég jól megfoghatóak a spam-ek
tudom, mert en is irtam ilyet (deepspam) :)
viszont ezt tudjak a spammerek is, es eloszeretettel hasznaljak a bayes-poisoning technikat (telerakjak random szavakkal a levelet), vagy - gondolom a neuralis halok ellen - pl. komplett ujsagcikkeket masolnak be a levelbe, hogy elvigyek az AI szurot az erdobe.
a fenti magyar spamet siman megfogja a spamassassin is, nem is arrol szolt a post, inkabb csak erdekesseg, hogy 3 ev utan modszert valtottak, es akarhogy erolkodnek a randomizalassal, epp ez lett a vesztuk.
amugy ahova napi 100ezres mennyisegben jon az ilyen, ott mar erdemes belenezni es beallitani par regex-et, ami azert nagysagrendekkel kevesebb eroforrast igenyel mint egy bayes vagy NN, nem is beszelve a sok RBL queryrol.
- A hozzászóláshoz be kell jelentkezni
Miért így használod a regexeket, miért nem [a-z]{5} formában?
- A hozzászóláshoz be kell jelentkezni
Én is csak ennyit vettem észre. :) Szerintem ugyanaz lehet az ok, amiért átcsúsznak nála ezek a levelek. :P
- A hozzászóláshoz be kell jelentkezni
Akkor a 4 regexből simán lehetne egyet csinálni:
https?://[a-z]{5,6}\.[a-z]{2}/\?[a-zA-Z]{5,}
- A hozzászóláshoz be kell jelentkezni
nem, mert pont az a lenyeg, hogy mind a 4 kulon kulon matcheljen, tehat nem OR hanem AND van koztuk!
azaz kell legyen http es https is, 5 es 6 karakteres domainnev is. kulonben matchelne az index.hu/?abcdef-re is
- A hozzászóláshoz be kell jelentkezni
Igazad van, csak a patternre koncentráltam, a magyarázatra felette már nem. Ettől függetlenül a {} használatával jóval könnyebben olvashatóak lennének a patternek.
http://[a-z]{5}\.[a-z]{2}/\?[a-zA-Z]{5,}
http://[a-z]{6}\.[a-z]{2}/\?[a-zA-Z]{5,}
https://[a-z]{5}\.[a-z]{2}/\?[a-zA-Z]{5,}
https://[a-z]{6}\.[a-z]{2}/\?[a-zA-Z]{5,}
- A hozzászóláshoz be kell jelentkezni
mert a terv az volt, hogy csinalok statisztikat az egyes karakterek elofordulasabol/valoszinusegebol es szukitem az [a-z], de ugy nez ki folosleges
- A hozzászóláshoz be kell jelentkezni