milyen nyelven? magyar vagy angol vagy mas? a legtobb publikus LLM nem nagyon beszeli a magyart... a GPT3+ meg nem letoltheto.
meg milyen celra kell? a licenszeik eleg furak es korlatozok altalaban, a LLaMA pl csak kutatoknak elerheto hivatalosan, az hogy felkerult a torrentre nem jelenti hogy hasznalhatod is :)
innentol eleg nehez, ha magyart szeretnel. LLaMA-bol a nagyobbak mar valamennyire tudnak magyarul, de azokhoz mar nagyon komoly gpu-k kellenek a merete miatt. a pici LLaMA (6B/13B) meg nem jo magyarra, bar biztos ra lehet tanitani.
a free GPT-k (NeoX J stb) meg a The Pile-n lettek tanitva amibe kizarolag angol szoveg van...
meg ugye az LLM-ek alapbol GAN-ok, folytatni (predict token/word) tudjak az elkezdett szoveget, en is ugy tesztelek. a kerdez-felelekhez kulon kene ugy trainelni ilyen parokkal, lasd chatgpt vagy Alpaca. ehhez magyar datasetrol nem tudok, bar gondoltam mar ra hogy valami forumok komment-valaszaibol (ahol valahogy kideurl mire valaszolt) lehetne valamit generalni. de en nem is chatbotot akarok irni hanem text classificationt.