( arpi_esp | 2018. 04. 28., szo – 21:01 )

a model fileok allandok, a spamassassin bayes-evel ellentetben nincs benne automata tanulas. foleg azert mert nem is nagyon lehetne kivitelezni, mivel a modelben nem a mintak vannak benne, hanem az azok felhasznalasaval tanult sulyertekek (neuronok kapcsolati haloja).

a tervem az, hogy rendszeresen (mondjuk hetente) ujra epitem a modelt, a datasetet kiegeszitve mindig uj mintakkal (eleg sok csapdabol jonnek), es a clamav-hoz hasonloan valamilyen frissitesi mechanizmus lesz hozza. de epithetsz sajat modelt is, felraktam hozza mindent (kiveve ham samplek), de az azert nem annyira trivialis, es nagyon eroforras igenyes is.

amugy a tesztek alatt azt tapasztaltam, hogy annyira nem erzekeny a model mint egy bayes db, mivel a word2vec miatt a maskepp megfogalmazott, akar mas szavakkal korulirt kifejezeseket is felismeri, "megerti", a 0.8-as dropout miatt pedig nagyon jol kikuszoboli a zajokat, hibakat. foleg akkor lesz erdemes frissiteni ha uj tipusu spammek jonnek.

A'rpi