( arpi_esp | 2023. 03. 31., p – 19:55 )

annyi kieg, hogy a transformer alapu modelek (GPT es a tobbi LLM az) nagyon kis (50k koruli meretu) szotarat hasznalnak a tokenizalashoz/embeddinghez. ebben csak a gyakori angol szavak vannak benne, es a leggyakoribb 2-3 karakteres szotagok, minden mast karakterekbol, sot byteokbol rak ossze. (BPE kodolas / sentencepiece algoritmus) ebbol nem igazan lehet eltavolitani 1-1 kulcsszot, mert jo esellyel nincs is benne, csak a betuk/szotagok, de azt meg mashoz is hasznaljak...

en a spamszuromhoz 1 millio szavas word2vec embeddinget hasznalok, eredetileg 2M volt, probalgattam csokkenteni, de 1M alatt mar erezhetoen romlott az eredmeny, 200k-nal mar eleg jelentosen. ez alapjan az 50k-s szotar eleg durva korlatozas az LLM-eknel...