( arpi_esp | 2022. 07. 03., v – 12:06 )

nem az a baj veluk, hogy tobb alakja van (akkor a leggyakoribb 2-re cserelne), hanem hianyzik a szokincsebol... keves volt az input vagy tul eros a >25 elofordulasos eloszuro. azert is van a TODO-ba hogy tobb inputtal kene tanittatni...

meg ugyanaz a problema mint a spamszuronel volt az elerheto word2vec modellekkel, tul steril szoveggel van tanitva, a koznyelvet/szlenget/szakszoveget nem ismeri...

itt van amugy a gyakorisag alapjan rendezett lista a szavak alakjairol amit ismer:

http://thot.banki.hu/ekezet/words.log

 

9751458 es és
3268157 meg [(1915242, 'meg'), (1352853, 'még')]
1656212 mar már
1015916 tobb több
964677 ket két
924113 igy így
912720 utan után
866027 elso első
791048 fel [(648368, 'fel'), (142662, 'fél')]
766416 uj új
723259 ugy úgy
722331 kozott között
515983 millio millió

...