( arpi_esp | 2022. 07. 11., h – 21:53 )

hat innentol ugye vegtelen lehetoseg van, amit vegtelen ido vegig kiserletezni. szerintem en ezt most elengedem...

altalanossagban igaz minden MI-re, hogy minden a feature vektorokon mulik, ha azok nem jok az eredmeny se lesz jo. nincs ez itt se maskepp. max annyi hogy a nem jok kevesbe zavarnak be, de attol meg amig a jokat nem talalod meg, nem fog mukodni...

en 5-6 eve foglalkozok NLP-vel, es a text -> vektor mindig a legnagyobb problema, avagy szovegbol feature vektorokat csinalni. rengeteg publikacio van a temaban, szerintem mar minden letezo es vad otletet kiprobaltak az evek soran...
nagyon meglepne ha a betuk ascii kodjanak szorzata meg hasonlo baromsagok barmit is javitana ezen... akkor mar mas is rajott volna...  a mai napig a word vectorok (glovec, word2vec, fasttext es tarsaik) a legjobb input NLP-hez.

amugy rakuldtem kozbe nagyobb inputra is, hat...

0 17620405 17620405 927390 927390
0 9153 927390 0.9869634134506519%
1 18300380 18300380 963178 963178
Killed

17 millio inputbol kihozott 0.98% hibat (baromi lassan), de aztan el is crashelt OOM-el, pedig van neki 32GB ramja.

lekorlatoztam 2 milliora, ugy meg a pontossag is felezodott, a 2% hiba mar nem annyira jo (a szotaras verziom 0.4% hibazik):

0 2000000 2000000 16547795 16547795
0 318180 16547795 1.9227939432413805%
1 2000000 2000000 17263558 17263558
1 338646 17263558 1.961623438227508%
2 2000000 2000000 5519656 5519656
2 20677 5519656 0.37460667838720385%
3 2000000 2000000 8674317 8674317
3 215895 8674317 2.4888991260061166%
4 2000000 2000000 1125077 1125077
4 16418 1125077 1.4592778983127377%

csak erdekessegkepp lefuttattam ugyanezt DecisionTree-vel is, kicsit szarabb is lett:

0 2000000 2000000 16547795 16547795
0 399101 16547795 2.411807736317739%
1 2000000 2000000 17263558 17263558
1 452216 17263558 2.6194831911243326%
2 2000000 2000000 5519656 5519656
2 32564 5519656 0.5899643021231757%
3 2000000 2000000 8674317 8674317
3 310305 8674317 3.5772845285686468%
4 2000000 2000000 1125077 1125077
4 25029 1125077 2.2246477352216782%