( arpi_esp | 2022. 07. 11., h – 18:49 )

mert szovegre nem olyan egyszeru ertelmes/hasznos feature vektorokat eloallitani... nem veletlen talaltak ki a word2vec, fasttext stb embedding modszereket. az, hogy hany betu egy szo meg hany maganhanzgo van benne stb, annak nem sok koze van ahhoz hogy hany ekezet kell ra...

valaki amugy belinkelt egy tanulmanyt ahol tobbfele NN modellel megcsinaltak, es nem lett jobb az eredmenyuk mint az enyem.

esetleg betunkenti RNN/LSTM variaciokkal lehetne kuzdeni, de ott meg eleg sok az egyeb hiba, par eve kiserteleztem vele.

ezt az altalad emlegetett forest cuccot nem ismerem, majd 1x megnezem, de igazabol az is csak akkor mukodne, ha ertelmes es hasznos inputot kapna. talan fasttext-el kombinalva mukodne, az szotagokon operal, eleg jol le tudja venni a nyelvek hangzasat, pl. nyelv felismeresre ajanljak mert akkor is felimseri a nyelvet ha az adott szot nem ismeri.