商务人员必备的法律工具

Címkék

CAN I TRUST YOU?

Hello Kitty, Kati vagyok, orosz, és éppen vőlegényt keresek. Ha te tudsz valakit, aki elvenne engem, kérlek feltétlenül írj! Mellékelten küldöm a gyógyszerkatalógusomat is, látod mennyi féle van?
A kékek megnövelik a péniszed (ha nincs, először növesztenek, és utána növelik meg), a barnáktól meg úgy kitisztul a végbeled, hogy olyat még a Princeton‑Plainsboro kolonoszkópiai osztályán sem tudna House csinálni. A pirosat vízben feloldva THM csökkentő italt kapsz, és miután megiszod azonnal beindul a futamidőgép, a sárgát pedig a köldöködbe helyezve egy hónap alatt garantáltan multimilliomos leszel! Csak leveleket kell küldözgetned, vagy képeket elolvasnod, és az ott látottakat beírnod egy szövegdobozba.
A 30%-a a tiéd a bevételnek, csak segíts, mert már pattannék valami melegebb helyre!

A barna egyébként tényleg fain, én is kipróbáltam, és tényleg működik! Egy hétig úgy cifráztam, hogy fugázni se tudtam Jevgenyijjel, és még a toalettre is ubuntus netbookkal jártam! Hogy mennyi manlapot, meg btrfs forráskódot olvastam, szent Lenin! Már a cirill ábécét is bináris fákba rendezem!

Sajnos azonban veszélye is van annak, ha ennyi dilibogyót tartok itthon. Múlt héten a kutyám felnyalt vagy egy maroknyi kéket, hát ne tudd meg milyen kanos volt. Agyturkászhoz kellett vinni a korcsot, mert estére már három szuka kalippózott a himbilimbijén, mire ez spanyolul ugatott! Kész dili.

Képzeld, múlt héten apám -Calvin Kobina- a ghánai Tarkwában lévő Standard Chartered Bank senior coin shininess managere írt egy levelet haza. Azt mondja jól van, de a segítségemet kérte -hiszen tudja, hogy az interneten keresztül mennyi emberrel vagyok kapcsolatban-. Talált $6,850,000.00 kis címletű, izé, hogy is hívják a ti nyelveteken? Megvan, банкжегйбен. Szóval talált ennyit a hátsó raktárban. Megkérdezte, hogy miért van ott, kell-e valakinek, de mindenki azt mondta, hogy semmit sem tud róla, nem az övé.
Szóval ott van ez a sok gempa, amit szívesen elküldene bárkinek nokiás dobozokban. Azt kérte, hogy szerezzek neki címeket. Ha neked kellene pár nokiás doboz, vagy ismersz olyat, akinek igen, küldd el az adatokat!

Full
Name.....................................................................................
Contact
Address..................................................................................
Private Telephone
Number...................................................................................

Age......................................................................................
Occupation and
Position.................................................................................

Csók, Jekatyerinka.

A probléma
Az interneten levelezni kb. olyan, mint egy Bugatti Veyronnal 408,5 km/h-val betonfalnak vágódni: mikor leülsz, érzed, hogy lobog a hajad, szabadság, utánégetők, meg minden, aztán nagyon gyorsan mellbe vág a szomorú valóság: 312 új üzeneted van, amelyből az első melegvizes végbéltisztító-kúrát, a második pedig orosz menyasszonyt ajánl.
A hibát azt hiszem ott követtem el, hogy a cirka 1995 óta meglévő e-mail címeim (nem volt sok) még ma is működnek, így a tíz éves mostani (bra@fsn.hu, humán spamtrap alkalmazásba becsövezve) címre irányítva minden létező szemetet megkapok.
Ez különösen akkor volt látványos, amikor még sokat leveleztem mindenféle levlistán, és volt, amikor napi átlagban másodpercenként 2,5 levél jött be az egyszem e-mail címemre, melynek nagy része bounce volt.

Régóta érlelődött tehát valami spamszűrő teszt, így két hónappal ezelőtt bele is vágtam.

A csapat
Egy kimerítő, és valamirevaló teszt első, és legfontosabb kelléke az idő. Természetesen én is úgy érzem, hogy ez az egyik legritkább erőforrásom, így a következő kompromisszumok mentén szűkítettem az elérhető kínálatot kezelhető méretűre:

  • statisztikai szűrő legyen
  • a levelezőszerverként funkcionáló gépen (FreeBSD) mindenféle trükközés nélkül futtatható legyen
  • nyílt forrású legyen
  • a weblapja/doksija/konfigja alapján két perc alatt megértsem

Mint a fentiekből látszik, ez sajnos nem egy átfogó, több gyártó változatos módszerekkel működő termékét összehasonlító teszt. Ilyenhez már nem csak az idő, de egyéb feltételek -például maguk a termékek- is hiányoztak, és bár ha valaki nagyon akarja (azaz el tudja hitetni magáról, hogy potenciális vásárló), sorban állnak a világ hazai képviselettel bíró spamgyilkos cégei a demózásra, de goto 1, hallom, hogy ketyeg az óra, és biztos találok ennél értelmesebb elfoglaltságot is...

Nem @-zom (csigázom, jaj) tovább a nagyérdeműt, a négy kiválasztott szoftver:

  • CRM114 (20100106)
  • bogofilter (1.2.1)
  • dspam (3.9.0)
  • spambayes (1.0.4)

Mindegyik elérhető FreeBSD portként, így a telepítésük az egyszerűnél is egyszerűbb.

Bemelegítés
A választott szűrők közül valójában kettő nem felelt meg a követelményeknek. A CRM114 és a dspam ahhoz képest, hogy hasonló dolgokat művel, mint a többi (statisztikai alapon szöveget osztályoz, "dobozokba" sorolja őket) sokkal bonyolultabb, és kevésbé "adja" magát, mint a bogofilter, vagy a spambayes. A dspamet és a CRM114-et is sikerült segfaultoltatni, az adatbázisok felépítése, és az ezekkel kapcsolatos tudás megszerzése mindenképpen több időt igényel, mint a másik két programnál, nem éppen az a "plug and play" feeling.

Mind közül a CRM114 a legáltalánosabb megoldás, amely valójában nem is spamszűrő, hanem egy játszótér, amelyen például homokozó is van, ott pedig előre kihelyezve többféle szűrő, amelyekkel átszitálhatjuk az internet szemetét. De valószínűleg hangmant is írhatnánk benne, vagy választási ígéret igazságfokmérőt.

Míg a CRM114 és a dspam mögött többféle -választható- logika is dolgozik, a bogofilter és a spambayes jobban elrejti előlünk a belső világát, kevesebb lehetőséget ad, és az előbb felsorolt sorrendben érezzük, hogy a Sikorsky CH-54-től (CRM114) eljutunk a faékig (spambayes).
A teszt így persze igazságtalan, hiszen ha azt mondom, hogy a faékkel jobban tudtam emelni, más azt mondja, hogy ez csak azért van, mert a helikopterhez nem értek, így nem tudtam a tudását kihasználni.
Ezért tehát ez a teszt egy "out of the box" teszt, amelynél próbáltam a default configokat a saját környezetemre igazítani, a lehető legkevesebb módosítással.
Egy kivételt tettem, ez pedig az, hogy a szűrőket megpróbáltam azonos működésmódra állítani (ahol erre van mód, pld. dspam), hogy valamennyire elkerüljem az alma vs. kriptonit összehasonlítást. Sajnos azonban az alma vs. körte vádja ettől még helytálló lehet, a spamekben Neo-módra zöld karakterekkel leírt kriptik képleteket látoktól előre is elnézést kérek...

A szemétdomb és a módszer
A tesztben a saját leveleim vettek részt. Ezek legnagyobb része levelezőlistákról származik, és persze vannak benne banki értesítők, magánlevelek is. Kizárólag magyarul és angolul írok, viszont kapok német leveleket is (nem spamet).

A teszthez az előkészítés a levelezőszerver teljes lecsupaszításával kezdődött, kidobtam mindent, ami korábban volt (DNS, e-mail cím ellenőrzés, greylist, későbbi fázisokban spamszűrés), így maradt egy SMTP szerver, amely a címemre érkező minden levelet elfogadott (egyetlen feltétel az SMTP szabályainak betartása), megetetett a spamszűrőkkel, majd a megfelelő folderbe tette.

A spamszűrők mindegyike a nyers, eredeti levelet kapta meg, elkerülendő, hogy "egymásra tanuljanak", például olyan módon, hogy a láncban előrébb lévő spamszűrő által betett x-ez-spam: igen fejlécet megtanulja egy hátrébb lévő szűrő, így fals eredményeket produkálva.
Ez a szabály az osztályozásnál, és a tanításnál is érvényes volt.

A tanításra az ún. TOE (Train On Error) módszert választottam, amely lényege az, hogy csak akkor tanítunk meg levelet a szűrővel, ha az hibázott, egyébként nem. Értelemszerűen ez adja a legkisebb adatbázist, illetve ez az a módszer, amely nem úgy indul, hogy "végy 2500 spamet és nem spamet, és tanítsd meg velük a szűrőt".
Mindegyik szűrő egy valószínűséget számol, amelynek spam-nem spam határait az alapértékeken hagytam. A dspamet leszámítva mindegyik szűrő három kategóriába sorolja a leveleket: spam, nem spam, és bizonytalan. Az utolsó esetnél a levelet megetettem a szűrő tanuló funkciójával. Ugyanezt tettem a másik két esetben is, ha félreosztályozás történt (de erről pontosabban később).

A levelek életútja tehát a következő volt:
a levél áthalad a szűrőkön, amelyek mindegyike osztályozza azt. A levél ezután az osztályozás eredményeképpen három mappába kerülhet: spam, nem spam, bizonytalan.
A három mappába érkező levelek mindegyikét elolvastam, és szükség szerint a spam, vagy a nem spam mappába tettem őket.

Az eredményesség (hatásfok) mérése érdekében minden levelet megőriztem, és egy időtengelyre felrajzoltam a napi termés eredményeit (hány százalék spamet fogott meg az adott szűrő).

Aaand, liftoff!
Az első kísérlet meglehetősen katasztrofális lett.

Mint látható, a spambayes, a CRM114 és a bogofilter ígéretesen indult, azonban tartósan a napi 90%-os hatásfok fölé csak a bogofilter tudta magát felküzdeni.
A leglátványosabb csökkenés a CRM114 teljesítményében volt, míg a dspam beállt a 30-45% közötti sávba, ami elég gyatra, még a többiek mellett is.
Ezek az értékek bőven elmaradnak a statisztikai szűrőkkel kapcsolatban emlegetett 99% feletti találati arányoktól.

De nézzük tovább.
Az első, 33 napos adatgyűjtés során 22016 levelem érkezett, ebből 5849 spam. A számokból látszik, hogy arányaiban véve elég kevés spamet kapok -az iparági becslések jóval 80% feletti spam-fertőzöttségről beszélnek-, napi szinten az arányok a következőképpen néztek ki:

A bizonytalansági tényező alakulása:

Itt látszik, hogy a spambayes és a bogofilter elég hamar beállt arra a szintre, ahol már biztosnak gondolta a saját döntését, míg a CRM114 a kezdeti gyors javulás után igen hamar elbizonytalanodott.

Egy grafikon van még az első tesztből, ez pedig a spamszűrő második (van, akinek első) legfontosabb paramétere: a hibázási ráta.
Ha fontos leveleket várunk, inkább kapjunk be egy-két spamet, minthogy a szűrő a spam mappába (vagy a bitsink device-ba) küldje az értékes levelünket.


A false pozitív grafikon elég jó. A spambayesre nézve több, mint jó, hiszen amellett, hogy egész jó találati arányokat produkált, egyetlen levelet sem nézett be. A bogofilternél egy levél csúszott be hibásan spamnek (ez arra a napra kevesebb, mint 0,2%-nak felelt meg forgalomban), a többiek viszont rendszeresen hibáztak, bár egyre ritkábban.

Reload
A gyenge eredményeket elnézve átalakítottam a tanítást végző scripteket olyan módon, hogy figyelembe vegye a kézbesítéskor már lefutott osztályozás eredményét (nem újdonság, hogy a statisztikai szűrők rosszul veszik, ha ugyanazt a levelet sokszor megtanítjuk). Azaz ha egy levelet spamként akarok megtanítani a szűrővel, de a fejlécek szerint az a szűrő már felismerte benne a spamet, a tanítást kihagyom. Ugyanezt a hamekre (nem spam) is, természetesen csak ha az eredmény egyezik (ha az osztályozás hamnek mutatta, spamként megtanítottam, ha a levél végül általam abba a folderbe került).

Az átalakítás után újabb bő egy hónapos teszt következett, amely már jobb eredményeket mutatott:

A mezőny élén továbbra is a bogofilter és a spambayes van, bár a sorrend fordult az előző teszthez képest. Érdekes, hogy az "elvárt" 99% feletti hatásfokot csak ritkán sikerült megközelíteni.
A CRM114 eredményei sokkal jobbak lettek, ahogy a dspaméi is, utóbbi azonban még így is elmarad a többiektől. Ennek okát nem kutattam, de sejtem, hogy lennie kell (talán a TOE-módszer maga az), hiszen több helyen is olvastam már, hogy a dspam milyen hatékony.

Érdekes(?) módon amilyen jó hatással volt a spam találati arányra az "egyszeres tanítás", azaz a rátanítás mellőzése, olyan rossz hatással járt a false positive-okra:

Ebben a tesztben már a spambayes sem tudott "szeplőtlen" maradni, a dspam pedig egyenesen szörnyű volt, ráadásul -ez a grafikonból nem látszik- pont a legfontosabb leveleket találta spamnek.
A bogofilter viszont brillírozott a csapat tagjaihoz képest, egyetlen egy hibát vétett a 38 nap alatt.
Valamit valamiért, mondhatnánk, de a bogofilter példája azt mutatja, hogy lehet jó találati arány mellett kevés hibával is működni.
A második periódus alatt a mailboxom spam-fertőzöttsége százalékban így nézett ki:

A szűrők bizonytalansági rátája pedig így:

A tesztidőszak végére elég jól összeértek a számok.

Kombináljunk!
A grafikonokat elnézve gondoltam egyet, és készítettem egy összevontat is, ahol a spamszűrők eredményeit párban rajzoltam fel, logikai "vagy" kapcsolatba téve a spamtalálatokat (azaz ha bármelyik szűrő szerint spam a levél, az spamnek számít, ezzel értelemszerűen a false positive-ok száma is nő).
Ennek a megközelítésnek az alábbi lett az eredménye:

A leggyorsabb tanuló díja itt kétségtelenül a CRM114+spambayes párost illeti, amelyek ha minden nap nem is tudták megőrizni elsőségüket, azért átlagban is nagyon jól teljesítettek, még a 100%-ot is képesek voltak elérni egy nap.
Érdekes módon erre a "bravúrra" az egyébként legrosszabbul teljesítő CRM114+dspam páros is képes volt.

Az eredmények javulása azt mutatja, hogy érdemes lehet egyszerre több szűrőt is alkalmazni, persze észnél kell lenni, hiszen a hibaarány is nő ezzel. A legjobb persze, ha egy szűrő képes az általunk elvárt szintet hozni, de ha az nem 100 (és nulla hiba) százalék, annál mindig akarhatunk többet.

A hatásfok mellett még egy fontos tényező van, ez pedig a sebesség. A tesztelt szűrők által elfogyasztott CPU időket mindvégig mértem, mind a levelek osztályozásánál, mind pedig a tanításnál.
Az eredmény (vigyázat, logaritmikus skála!):

Számokban kifejezve:

bogofilter 534.7 97.77
crm114 7655.84 107.39
dspam 379.18 7.58
spambayes 18539 125.36

A dspam tehát veszettül gyors, a pythonban (illetve a CRM114 esetében a saját nyelvében) írt szűrő pedig lassú. Az eredményt azért árnyalja, hogy mindegyik alkalmazás levelenként külön lett meghívva, ez főleg az interpretált (spambayes, CRM114) megoldásoknál jelent kiugró hátrányt, a valóságban egy mai gép elég komoly forgalmat el bírna vinni bármelyik szűrővel.

Nigériában mikor van éjszaka?
A spamtalálatok hullámzása miatt kíváncsi lettem arra, hogy vajon mikor kapom a legtöbb spamet. Íme az eredmény, heti és napi bontásban:

A legkevesebb spam tehát vasárnap érkezik, utána a szombat, és a szerda jön. A legtöbb spamet csütörtökön adják fel. A napi bontásban számomra meglepő módon az európai "időszámítás" bontakozik ki, lehet, hogy ilyenkor élnek a spamek "éjszakai életet".

Verdikt
Mióta négy spamszűrőn keresztül megy végig az összes bejövő levelem, egyetlen spam sem került az inboxomba (került viszont pár fontos levél a spam folderbe). Vagy bizonytalan volt valamelyik szűrő, vagy spamnek ítélte, de amikor mindegyik egyetértett abban a kérdésben, hogy az adott levél biztosan nem spam, az úgy is volt.

Bár nekem a 99%-os szintet nem igazán sikerült hozni -lehet, hogy még mindig kicsi az adatbázis- a spammentes inbox gyakorlatban is megvalósult (cserébe három folderbe azért nem árt rendszeresen belenéznem). Mindezt kiegészítve a ma megvalósítható SMTP szintű szűrési megoldásokkal azt hiszem elég korrekt védelmet lehet adni ingyen is.
Amit viszont nem kapunk ezért a pénzért, az a tanítás, amit magunknak még csak-csak elvégzünk (az elején még akár jó móka is lehet figyelni a folyamatot, később pedig erre egyre kevésbé van szükség), de ha egy több mailboxból álló "flottát" kell védenünk, az általunk betanított szűrő szinte garantáltan sok fejfájást fog okozni, ha másokon alkalmazzuk.

Ha nyertest kellene hirdetni, a spambayest tenném a dobogó tetejére, ami számomra azért meglepő, mert a szoftver öt éves. Azonban a többi programot sem írnám le (sőt!), hiszen a CRM114 és a dspam "mélyén" rengeteg tudás van, csak megfelelő kezek kellenek ahhoz, hogy mindez felszínre jöjjön.

Hozzászólások

oh god.

"The way to find what the mainstream will do tomorrow is to associate with the lunatic fringe today." -- 1995, Jean-Louis Gassée
/ http://haiku-os.org /

Mit jelent a cím? Google Translate szerint: "Necessary legal tools to business people".

legkozelebb ( azaz x ev mulva ) lecci vedd be az assp-t a tesztbe. ( csak par perl modul kell hozza, es fut. )
esetleg SJ termeke a clapf is beferhet... ( if( compiled( FREEBSD ) ) == TRUE )

Kicsit felemas erzeseim vannak. Egyreszt nyilvan legyezgette (volna) a szakmai hiusagomat, ha a clapf lealazza a "kihivokat". De be kell valljam, olyan tesztet meg sose csinaltam, amikor a token adatbazis csont ures, es a nullarol kell felepiteni. Kulonben is minden tiszteletem a tobbi termeknek, ill. keszitoiknek.

Szoval egy ilyen teszt soran barmi megtortenhetett (volna). Persze az is lehet, hogy bra a clapf-ot is bevette a tesztbe, de olyan szinten failed, hogy inkabb kihagyta az eredmenyekbol, hogy megkimeljen, es ne kelljen ejszakakon at egy alkotoi valsag kozepette zokognom :-)

Mondom, en ugyan elegedett vagyok azzal, ahogy a clapf nalam muzsikal, de ennyi kilencest azert nem merek bevallalni. A szokasos reklamszoveg szerint par ezer ham ill. spam levellel tanitas utan egy konzervativ 99.5%-os pontossagot merek igerni. Egy iras szerint a bayes-i (ugyan a clapf nem ilyen) szurok elmeleti pontossaganak hatara 99.9%, amit viszont a crm114 elkovetoje szerint a crm114 diszkriminatorral tul lehet szarnyalni.

SPAMtelenül - MX spamszűrő szolgáltatás, ahogyan még sosem próbálta

ez egy komolynak tuno dolgozat, nem akarod publikalni (referalhatoan)?

Nagyon fullos cikk. Nem kis türelmed és időd lehetett rá. Maximális respect :)

jo kis dok, thx
(szvsz a bogofilter az arany kozeput, minimalis lemaradas mellett sokkal kevesebb fals+)

> ha egy több mailboxból álló "flottát" kell védenünk, az általunk betanított szűrő szinte garantáltan sok fejfájást fog okozni, ha másokon alkalmazzuk.

es ez a lenyeg...

en az evek soran olyan rendszert kiserleteztem ki, ahol sokfele, kulonbozo elven mukodo modszerrel osztalyozom a leveleket, es a vegen kijovo pontszam alapjan automatikusan tanitom a bayes filtert. plusz raktam ele egy adaptiv greylistinget is, amibe szinten visszacsatolom a tartalomszuro eredmenyet.

persze a visszacsatolasokkal nagyon ovatosan (begerjedhet:)) kell banni, de a gyakorlatban eleg jol teljesit ez a konfig.

A'rpi

Az a baj a spamszuressel, hogy egy fontos leveled kerul veletlenul a kukaba, ugy hogy nem veszed eszre, akkor az szivas.

Egy szemethalomban nehez megtalalni az erteket, es hiba mindig lehet. (tokeletes spamszures nincs)

En ezt ugy vedem ki, hogy rengeteg email cimem van, es amit "elkoptattam", azt jegelem par evre.

De tenyleg a No. 1. spamforras a levlistakra torteno feliratkozas.

Levlistara kulon emailcim, musthave.

(kulon emailcim az ilyen egyszeri regisztraciokra, kulon emailcim a vasarlasokra, kulon a megrendelesekre, kulon a haveroknak, kulon a cegesnek, kulon a etc, etc. Szerintem 15-20 emailcim az egeszseges. Imho.)

---
Saying a programming language is good because it works on all platforms is like saying anal sex is good because it works on all genders....

Egyszeri regisztrációkra én rászoktam az "eldobható" e-mail címekre, pl. trashmail.net tökéletes az ilyenre. Generálok egy mail címet, beállítom, hogy max. hány levelet fogadhat, max. mennyi ideig, azokat forwardolja a rendes (de alternatív) e-mail címemre; ha lejárt, akkor megszűnik és nem jön több szemét.

ez csak annyibol szopo, hogy mi tortenik a listaval, mikor lejar a leveled?
1-2 levlistan lattam furcsasagokat, hogy pl. php-install listara ha kuldesz levelet, akkor egy postabuse@valamifranciadomain-rol jon egy valasz, hogy spambejelentes tortent a te leveledrol.
a valosag az, hogy valaki aki feliratkozott, lusta volt leiratkozni, es inkabb atiranyitotta a fiokjat egy abuse cimre. :/
persze a fejlecekben nincs benne, hogy melyik levlistas cimrol pattan igy vissza a level, szoval meg csak le sem lehet iratni egyszeruen (nevreszolo level kikuldese az osszes listatagnak, majd a "visszapattano" levelbol lathato lenne hogy kinek szolt eredetileg)
szoval en javasolnam, hogy levlistarol inkabb iratkozz le, ha mar nincs ra szukseged.

Tyrael

greylist eléggé jó módszer. 5percre állítva a spamek több mint 95%át megfogja. csak ez túl van az átlagember türelmi küszöbén, így a levelezőpartnerek miatt 2percre szoktam állítani. a többire ott a spamassassin, plusz az első időkben a spamek rendszeres átnézése, a tévesen odakerült levelek miatt. whitelist, rendszeres spam ham tanítás és eléggé jó eredményeket lehet elérni.
tökéletes spamszűrés valóban nincs, de kellő odafigyeléssel karban lehet tartani a problémát. nekem soha nem kellett email címet "evakuálnom":)
két közismert példa. a magyar telekom képtelen normálisan kezelni a problémát, a freemail alapból dugig van spammel. ugyanakkor a google képes eléggé spammentesen tartani a gmailt.

a greylisttel az a baj, hogy akarhany percre allitod, semmi nem garantalja, hogy a kuldo fel annyi ido mulva kuldi ujra a levelet. lehet az tobb ora ( nap ) is.
namost ha ez peldaul eppen egy nem rendszeres vevo tobbmillas surgosen teljesitendo rendelesenek reszles specifikaciojat tartalmazza, akkor eleg ideges bir lenni a gore, mert keson kapta meg.

en kb. egy honap utan kikapcsoltam az assp delay ( greylist ) reszet ; anelkul is megfogja a spamek ~90%-at. ( sajat mailboxomat tekintve 97-98%-ot mondanek, de persze ez erosen azert is van, mert az errors/spam, errors/notspam -ba azokat rakom, amit nalam elbaltazott, userek meg inkabb torolnek, semmint athuzzak a spamfolderbe. ( na jo, nagyreszuk nem is tud rola, hogy ez lenne az 'elvart' viselkedes ))

Igen, de a főnök valószínűleg levelezett azzal az emberrel, aki az igényeket küldni. Vagyis nem a főnök, de valaki, akinek tudni kell a projektről. Akkor viszont whitelistára tudja rakni, ha rajta megy keresztül a levél vagy legalább tud róla - mail logból szkripttel átteszed az assp whitelitájába - és akkor rá már nem fog vonatkozni a greylisting.

es ha eppen a ket fonok leegyeztette, majd a megrendelo kiadta valamelyik alkalmazottnak, aki spec. eppen gyesen van, es otthonrol irta meg a vegleges format ?
oke, kitekertnek tuno pelda, de sajna ilyen az elet.

* amugy ezeket a hatulrol mellbe megoldasokat ( logbol sripttel attenni whitelistbe ) hanyagoljuk. alapbol nincs ilyen, ha meg tortenik valami hasonlo specialis eset, akkor mindegyikre takoljak scriptet ?

erre jo az adaptiv greylisting.
csak akkor dobod vissza ha gyanus a level (rajta van 1 vagy tobb ip blacklisten, vagy a header (helo, mail from, ip) gazos, vagy a sajat blakclisteden (amit a tartalomszuro eredmenye alapjan epitesz automatikusan) rajtavan).
ha a sajat whitelisteden rajta van, akkor meg nem. ha atment a tartalomszuron es az nem tallat gyanusnak, akkor automatikusan rakerul a sajat whitelistre.

igy user interakcio nelkul kikuszobolheto a kesleltetes, es meg mindig megfogja a spammek >95%-at. szoktam nezegetni a logban a grey-delayed leveleket, es azok vagy nagyon gazos helyrol jonnek (altalaba dyndns-es homeserverrol kuldtek) vagy spam. fontos ceges levelezest meg nem lattam grey-delayed-ben.

A'rpi

Az A'rpi-féle adaptiv jó hangzik, de a mezei greylist-tel több gond van, mint haszon, legalábbis nekem ez volt a tapasztalatom. Főleg a sok gagyi weboldal okoz gondot, amik nem MTA használnak levélküldésre, így a greylist által visszautasított levél többet nem jött meg (pl: képeslap, aktiváló és visszaigazoló levelek, stb.)

A főnöknek meg nem mondhatod, hogy "izé, azért nem jött meg a levél, mert szar az oldal..", illet mondani lehet, csak leszarja, őt az érdekli, hogy a levél nem jött meg.

Btw, én dspam parti vagyok, az elején létrehoztam 15e-15e spam-ham levélből egy globális tokenadatbázist, és ezt használják a userek, amíg nem épül ki idővel a sajátjuk.

Lehet, hogy erre talaltak ki a "sulyos FP-hiba" kifejezest, ami olyan ham levelet jelent, ami fontos, pl. megrendeles a fonoknek. Mert ugyan az a hiba is FP-hiba, ha egy user nem kap meg egy "kepeslapot" az iwiw baratoktol, de ez nem valoszinu, hogy felzaklatja a rendszergazdat.

Azt meg kevesse tartom valoszinunek, hogy barki is php scriptbol direkt MX szerverre kuldest implementalna...

SPAMtelenül - MX spamszűrő szolgáltatás, ahogyan még sosem próbálta

hát pedig az egyik részlegvezető azért keresett meg az előző helyemen, mert rendelt valami könyvet egy webboltból és a rendelés véglegesítéséhez nem jött meg az engedélyező e-mail, mert a greylist visszadobta, a php meg nem küldte újra, miért is tette volna...

> Azt meg kevesse tartom valoszinunek, hogy barki is php scriptbol direkt MX szerverre kuldest implementalna...

hehe, pedig mennyi ilyen van :)
a mostani cégemnél is így küldözgettek levelet, amíg ide nem jöttem és szét nem csaptam a fejlesztők között :)

en eddig azt hittem, hogy ilyenkor az tortenik, hogy a cimzett nem kapja meg a levelet, a felado meg (majd egyszer) kap a mailer-daemon-tol egy levelet, amibol kiderul, hogy miert nem lehetett kezbesiteni a levelet (550 mailbox not found, meg ilyenek)

ebben a kontextusban nem ertem, hogy miert ne veszne el a mail.

ps: raadasul kaptam mar olyan spamet, amit egy rosszul beallitott mailszerverrol pattant vissza az en (a spammer altal feladonak hazudott) email cimemre.

ps2: persze ha a te usereid kimeno leveleit szurod, akkor ott rajuk bonthatod az smtp kapcsolatot kulonfele indokokkal, de ha 1nel tobb lepesben tortenik egy level kezbesitese, akkor ha nem az elso szerver szurja ki a gyanus levelet, akkor tortenhet olyan eset, hogy a felado szemszogebol elment a level, a cimzet szemszogebol nem jott meg, majd kesobb pedig a felado kap egy bounce levelet (ha kap egyaltalan).

Tyrael

Nem tudom, hogy a kannibaloknal mit jelent pontosan az smtp tranzakcio eldobasa. A clapf pl. a virusos leveleket 250 Ok-val atveszi, majd szigoruan loggolas utan lenyeli, azaz (nem ugyanazon okok miatt) se a felado, se a cimzett nem ertesul az incidensrol.

Azonban a spamek eseteben ez igy nagy batorsagot igenyel, es a torvenyszeru FP-k miatt senkit sem batoritok erre. Ami megis kb. hasonlo ehhez, es mukodhet (miutan a management megertette a mukodest) az pl. az alabbi 550 reject:

550-rejected
550-your message was evaluated as a spam
550-if you feel that we have made a mistake, please
550-send us your email through our web page at
550 http://spam.me/badly.php

Es akkor sok sikert az automata levelekhez (pl. levlistak, visszaigazolasok, stb.), amelyek nem teszik meg ezt a szivesseget. Cserebe az uzletileg kritikus levelek (nagyobb reszet) emberek kuldik el, bar sulyos rossz pont a cimzett reszerol, ha a megrendelesemet 2x kellene elkuldenem. Mondom, ez csak nagyon alacsony FP-hibaval rendelkezo modszernel eletszeru. (Csak zarojelben: pl. a feketelistak tobbsege azonban jellemzoen nem ilyen....)

SPAMtelenül - MX spamszűrő szolgáltatás, ahogyan még sosem próbálta

Ha a posta visszakuldi az ajanlott leveledet, mert nem tudta kezbesiteni, akkor az elveszett? Nem, mert visszaadjak neked, masfelol (igy) tudomast szerzel rola. Ok, az email kicsit mas, mert a leveled eleve ott van a "sent" folderedben, ill. a bounce levelbol tudomast szerzel rola, hogy disznosag tortent.

Az aligha komoly erv, hogy a magyar userek (nalatok) nem tudnak mit kezdeni a mailer daemon rovid, angol nyelvu uzeneteivel. Gondolom, arrafele is vannak rendszergazdak (akik ilyen esetben tudnak segiteni), de lehet az intraneten egy rovid FAQ oldalt is kesziteni. Arrol nem is beszelve, hogy az angol nyelv minimalis ertesenek hianya ma kb. a funkcionalis analfabetizmus fele vezeto 1. kilometerko.

De felreertes ne essek, en az FP-hibak lehetosege miatt meg mindig a spam _atvetelet_ (es aztan karantenozasat) javaslom az eldobas helyett, csak vazoltam (ha mar mindenaron smtp idoben el kell dobni/elutasitani) egy kb. mukodokepes verziot. De ezzel egyutt is, egy bounce-ot azert ne vegyunk elveszett levelnek...

SPAMtelenül - MX spamszűrő szolgáltatás, ahogyan még sosem próbálta

Ez nem linux, hogy lenyelje a bounce-t

nem allitottam, hogy lenyelne, azt mondtam, hogy idoben a feladas utan (koztes relay szerverek szamatol, terheltsegtol fuggoen) fogja megkapni a felado az automatikus valaszt a level kezbesithetetlensegerol.

Nem helyeztem kontextusba, nyelvtanilag értelmezd kérlek :(

Akkor jol ertem, hogy a reszedrol, az nem tekintheto elveszett levelnek, ha a felado sikeresen elkuldte a levelet, a cimzett nem kaptam meg, viszont a felado (valoszinuleg) kapott egy automatikusan generalt valaszt a mailer-daemon-tol hogy miert nem lehetett kezbesiteni az altala kuldott levelet?

Ha igy erted, akkor en nem ertek egyet veled.
Ha minden esetben a felado sajat smtp szervere rejectelne az ilyen levelet, akkor a felado latna, hogy nem ment el a level, ergo nem veszne el.
De igy hogy eloszor a sajat smtp-je atveszi kezbesitesre, majd a tied visszadobja, a felado azt latja, hogy elment a level, szoval szerintem az elveszett level.

Sajat kornyezetemben lattam, hogy az atlag (magyar) user fel sem fogja, hogy mit akar tole a mailer daemon, vagy mert nem ert angolul (legtobb automatikus valasz hibakod + angol rovid leiras formaju szokott lenni), vagy mert nem ert az IT-hoz.

Tyrael

Nem vagyok pszichiáter, hogy ez érdekeljen

szerinted az emberek vannak a gepekert, vagy forditva?
amig emberek a megrendeloid, es emberek a felhasznaloid, addig nem art, ha azt is figyelembe veszed az altalad kialakitott rendszer tervezesenel, hogy az emberek hasznalni tudjak.

szerintem.
persze az a teny, hogy ezzel a hozzaallassal meg van munkad nemileg cafolni latszik az allitasomat, de az ido majd ugyis eldonti.

Tyrael

Kitartok amellett, hogy aki levelezni akar, az koveti az smtp rfc-ket. Aki nem koveti, azzal nem erdemes bajlodni. Erted, az a policy, hogy ugy johetsz be a kapun, hogy eloszor csengetsz. Erre jon egy teoretikus xy, aki be akar jonni, de nem hajlando csengetni. Nevetseges az egesz, 3x korbe-LOL....

SPAMtelenül - MX spamszűrő szolgáltatás, ahogyan még sosem próbálta

feltetelezve, hogy a fonok ertelmes ember, el lehet neki magyarazni, ami eggyel feljebb irt a kollega, ill. hogy a felado egy luzer, akivel csak a baj lenne, ha megis uzletelnenk. Tudod, a Pareto-elv nem csak azt mondja, hogy az ugyfelek 20%-a adja a bevetel 80%-at, hanem azt is, hogy (egy masik) 20% csinalja a problemak 80%-at. Az en elvem az, hogy akiben egy minimalis egyuttmukodesre valo kepesseg sincs, az farasszon masokat, en meg hadd koncentraljak a normalis, nyugisan tejelo ugyfelekre.

SPAMtelenül - MX spamszűrő szolgáltatás, ahogyan még sosem próbálta

hat nemtom. tobbszor belefutottam abba, hogy lejart a triplet, a kovetkezo ujrakuldesig. persze oke, megemelem 24 orarol 36-ra, csak eleg lesz. hat azsemindig. vegtelenre meg megse teszem.
olyan is rendszeresvolt, hogy a bunti ido ( 5 perc ) lejarta elott tobbx probalkozott a delikvens, persze igy bekerult a penalty boxba, aztan jott a csodalkozas.
a felado nembiztos, hogy luzer meg problemas ugyfel, lehet csak eppen rossz helyen berel postafiokot.

Hol lehet elérni ezt a Jekatyerinát? Olyan helyes az arca! ;>

"Jegyezze fel a vádhoz - utasította Metcalf őrnagy a tizedest, aki tudott gyorsírni. - Tiszteletlenül beszélt a feljebbvalójával, amikor nem pofázott közbe."

Par kerdes:

a) a 40. nap vegere hany levelet ismertek (=tanultak) meg a szurok?
b) tudnal-e vegezni egy olyan tesztet is (pl. mostantol), hogy par honap leveleivel megtanitod a szuroket (azaz keszitesz egy indulo token adatbazist), es azutan nezel egy ujabb ~40 napos periodust?

ha egy több mailboxból álló "flottát" kell védenünk, az általunk betanított szűrő szinte garantáltan sok fejfájást fog okozni, ha másokon alkalmazzuk.

Ez akkor fordulhat elo, ha a "masoknak" szignifikansan eltero a levelezesuk a tiedtol. A spamek eseten ez aligha fordulhat elo, mert a spammerek ugyanazt a levelet kuldik ki kb. azonos tartalommal. A hameknel azonban sokkal nagyobb (lehet) a diverzitas, es a kihivas abban all, hogy minel alacsonyabb FP-arany mellett ismerjuk fel a spameket.

Ha mondjuk egy cegrol van szo, akkor az nagy konnyebbseg, mert az adott ceg dolgozoinak levelezese tobb hasonlosagot mutat, mint pl. egy isp felhasznaloie. Igy (foleg, ha a tobbiek jo levelei is reszt vesznek a tanitasban), akkor nem tragedia (sic!), ha statisztikai szuro vedi egy ceg levelezeset.

Azonban valo igaz, hogy a statisztikai szurok igazi ereje a perszonalizalasban domborodik ki. A mezonybol pl. a dspam kepes arra, hogy egy globalis adatbazis mellett a felhasznaloknak egy sajat, csak rajuk ervenyes adatbazisuk is legyen, igy a kategorizalas a 2 halmaz uniojakent all elo.

Erdekes meg a tobb szuro egy utan v. melle kapcsolasa. Az alabbi linken mas szempontbol fuztem a temahoz par gondolatot: http://sj.acts.hu/index.php/2009/12/23/hany-licence-kell-neked/

Ja, es tetszett az iras, szep munka!

SPAMtelenül - MX spamszűrő szolgáltatás, ahogyan még sosem próbálta

A spam folderben jelenleg 7401 levél áll, a hamben pedig 519, de ezeket nem mindegyik szűrő kapta meg tanulásra, hiszen ha már felismerte spamként, nem lett újból megtanítva.
Spamre, hamre nincs lebontva, viszont összesen ennyi tanítás volt:

1000 bogofilter-train
1273 crm114-train
1647 dspam-train
613 spambayes-train

Mivel csak hiba esetén tanítottam, ebből is látszik, hogy melyik volt a leghatékonyabb.

Nem próbáltam megérteni egyik szűrő belső működését sem, de szerinted nagy különbség van aközött, ha ~40 napig a hibákkal tanítom, vagy ha ugyanebben az időben összejött spam/hammel egyszerre tanítom meg a szűrőket?
Illetve nem válasz erre az első teszt, amikor "ész nélkül" megtanítottam újra mindent? Hiszen ha most üres DB-vel indulnék, és egyszerre tolnám be az összes összegyűlt spam/hamet, kb. hasonlót érnék el: számos levelet "rátanítanék", ugyanazt (ha van olyan szűrő, aminél ez számít) akár többször is.

szerinted nagy különbség van aközött, ha ~40 napig a hibákkal tanítom, vagy ha ugyanebben az időben összejött spam/hammel egyszerre tanítom meg a szűrőket?

Igen, legalabbis elvben. Ugyanis lehet, hogy egy megtanult "extra" levellel olyan tokeneket is megismer a szuro, amivel elkerulhet egy jovobeni FP hibat.

Illetve nem válasz erre az első teszt, amikor "ész nélkül" megtanítottam újra mindent?

Hmmm, lehet. Elsiklottam efelett.

Eleg impressziv a spambayes eredmenye, hogy mar ~600 tanitassal 90% fole kuszott a pontossaga.

SPAMtelenül - MX spamszűrő szolgáltatás, ahogyan még sosem próbálta

Annyi különbséget látok, hogy az első tesztben az összes spammel megtanítottam a szűrőket, de a hamek közül csak azokkal, amiket félreosztályoztak (vagy nem voltak biztosak az eredményben).

A spambayesből időközben kijött egy újabb alpha verzió (amikor elkezdtem, még abból is csak több éves volt), nem tudom a lényegi részt tekintve mennyi változás van benne, érdemes lenne majd egyszer azt is kipróbálni... :)

könyvjelző
--
unix -- több, mint kód. filozófia.
Life is feudal

Lehet, hogy jo cikk, de meg a 4. pillantasra sem jott le nekem, hogy miert kellene vegigolvasnom. Szvsz 2-3 atgondolt bevezeto mondattal ezen rengeteget lehetne javitani...

----------------------
"ONE OF THESE DAYS I'M GOING TO CUT YOU INTO LITTLE PIECES!!!$E$%#$#%^*^"

Segítenél megfogalmazni azokat?
(Mondjuk nekem nem kell, mert eddig amit Bra összedobott, azok lehet hogy barom módon indultak - mint mondjuk ez, de általában eléggé átgondoltak lettek időközben. Úgyhogy az ő cikkei egyelőre whitelisten vannak. De természetesen én is úgy tartom, hogy nem kell neked elolvasni. Viszont aki megtette, az kapott egy kis hasznos összefoglalót. Speciel én is hiányoltam a clapf-ot, de mivel nincs belőle FreeBSD ports, nagyon nem csodálkoztam, hogy kimaradt. Meg mintha rémlene, hogy elsősorban Postfix-hez lenne fejlesztve, FreeBSD pedig alapból sendmail-t ad - bár nem tudom, Bra váltott-e valami másra a "teszt" gépén.)

Szerk: megnéztem, jelenleg 3000 fölötti olvasás volt - azért a fene gondolta volna, hogy ezekre a hieroglifákra a címben (vagy erre a szép pofikára?) ennyien rácuppannak ... igazuk lehet a spamelőknek.

Kiegészítésül egy wiki oldal, ahol össze vannak foglalva a különböző spam szűrő technikák.

Nem rossz, nem rossz, de bantoan semmitmondo a tartalom elemzesen alapulo megoldasokat illetoen (pl. kollaborativ szurok, statisztikai szurok, heurisztikus szurok, ....), ill. a reputacios megoldasokrol hirbol sem hallott...

SPAMtelenül - MX spamszűrő szolgáltatás, ahogyan még sosem próbálta

En a csaj miatt olvastam vegig a cikket. De a pirulas reszen kivul nem esett tobb szo rola. Tudnal irni egy ekkora cikket a csajrol is?
Egyebkent, ahogy kivettem a cikkbol, szerintem ezek az izek pont a pirulas leveleket torlik le. En szeretem a pirulas leveleket. Miert installalna valaki ilyen programot a gepere?

:)

--
Aki falra szerelt tehennel vitatkozik, olyan mint vonat kerek nelkul, nem jut sehova.