nem az a baj veluk, hogy tobb alakja van (akkor a leggyakoribb 2-re cserelne), hanem hianyzik a szokincsebol... keves volt az input vagy tul eros a >25 elofordulasos eloszuro. azert is van a TODO-ba hogy tobb inputtal kene tanittatni...
meg ugyanaz a problema mint a spamszuronel volt az elerheto word2vec modellekkel, tul steril szoveggel van tanitva, a koznyelvet/szlenget/szakszoveget nem ismeri...
itt van amugy a gyakorisag alapjan rendezett lista a szavak alakjairol amit ismer:
http://thot.banki.hu/ekezet/words.log
9751458 es és
3268157 meg [(1915242, 'meg'), (1352853, 'még')]
1656212 mar már
1015916 tobb több
964677 ket két
924113 igy így
912720 utan után
866027 elso első
791048 fel [(648368, 'fel'), (142662, 'fél')]
766416 uj új
723259 ugy úgy
722331 kozott között
515983 millio millió
...