igy van. egyreszt a bag-of-words (hatalmas sparse matrix, ahol minden lehetseges szo egy ertek) helyett kell valami, ez vszinu a word2vec (vagy a hasonlo GloVe) lesz.
az elmult honapokban mar epitettem egy egesz jo w2v modelt, foleg angol es magyar (de ahogy neztem nemet es francia szavakat is felismeri valamennyire) szovegekbol (hu+en wikipedia, konyvek, forum kommentek, web crawlerek, emailek). tisztitas, tokenizalas, redundancia mentesites utan 16GB ascii input, 1.6m token...
itt lehet tesztelgetni: http://193.224.38.189:8080/
ezutan lehet SVM (ezzel is egesz jo eredmenyt kaptunk) de a conv. NN meg jobb, nagyon lebutitott adatokkal (csak a mail body text resze, elso max 50 szo, lowercase, irasjelek es ekezetek nelkul) is 95-98% tud 4000-es tanitasi mintaval. ennel csak jobb lesz, ha lesz hozza eroforrasunk (erre palyaztam) komolyabb adatmennyisegekkel dolgozni es finomhangolni a modellt.
A'rpi