> A traning-nél mi számít
a memoria! ha bele se fer a model akkor tokmindegy hany cuda van, mert egyet se tudsz hasznalni :(
en tavaly kiserleteztem sajat (L)LM modell epitesevel, itt leirtam a tapasztalatokat.
a lenyeg, hogy egy 24GB memorias rtx3090-el 200-400 millio parameterest (kb GPT-2) lehet tanitani, nagyobb mar nem fer bele.
osszehasonlitasul a legkisebb LLAMA is 15x ekkora, a nagy pedig 70 milliard parameteres... a chatgpt allitolag 1000mrd.
az LLM-eket sokszaz A80-al vagy mas 80GB memorias gpu-val tanitjak (ujabban meg P200-on).
persze tanulashoz, kiserletezeshez eleg egy kis modell is, nekem egy hetig ment a train es kozben folyamatosan lattam ahogy fejlodik (kozbe cpu-val futtattam teszteket a checkpointokbol)
ami meg kelleni fog (es ezt nehezebb beszerezni mint egy rtx-et) az a 10+ GB tiszta szoveg. legalabbis ha magyart akarsz :)