( arpi_esp | 2017. 08. 21., h – 21:47 )

Intel server Xeon 1240v5 64GB DDR4 ECC, 400GB SSD, NVIDIA Titan XP 12GB DDR5X

de mint irtam a NN model felhasznalashoz mar nem kell nagyon extra eroforras, csak a tanitas, es foleg a fejlesztes (sokfele modell osszehasonlitasa, parameterek probalgatasa, nagy szamu mintan valo ismetelt tesztelesek) amihez nagy vas kell, hogy meg ebben az evtizedben elkeszuljon :)

en amugy egyre jobban azt latom/erzem, hogy mas-mas tipusu spamre lesz jo az egyszeru (pl bayes) statisztika, es a w2v+CNN. elobbi jobban megfogja a fejlec es formazas furcsasagait, mig utobbi inkabb a szoveg "megerteseben" (NLP) jobb. a statisztika ott veget er hogy bizonyos szavak, tokenek milyen valoszinuseggel fordulnak elo a spammekben, a NN pedig osszefuggeseiben vizsgalja az egesz szoveget, es megtanulja a mintakat amit keresnie kell (unsupervised feature extraction). amekkora elorelepes volt anno a bayes a kezzel irt regexpekhez kepest, kb akkora ugras az NN a bayeshez kepest szerintem.

ami meg izgalmas lenne, az a paragraph2vec (vagy doc2vec) algoritmus, de az viszont a teszt eseten is eroforras igenyes (eloszor hozza kell az uj szoveget tanulnia a meglevo modellhez hogy utana vizsgalni tudja az azon beluli viszonyat), igy max nagyon kis forgalmu szervereknel lehetne jo. ha lesz ra idom azert csinalok par tesztet kivancsisagbol, de annak nem nagyon latom en se gyakorlati hasznat a spamszuresre.

amugy meg ahol nagyon nagy a levelforgalom (pl. nagy ISP-k) ott szerintem most sem hasznalnak content filteringet, csak RBL-eket, greylistet es hasonlo kevesbe eroforrasigenyes dolgokat. ellenben ezt gpu-val ott is be lehetne vezetni, mert akkor a cpu-t nem terheli jelentosen, gpu-n pedig azert eleg sok muveletet el tud vegezni parhuzamosan. mig pl. a bayest nem igazan tudod gpu-val gyorsitani.