( arpi_esp | 2024. 12. 21., szo – 10:18 )

> A traning-nél mi számít

a memoria! ha bele se fer a model akkor tokmindegy hany cuda van, mert egyet se tudsz hasznalni :(

en tavaly kiserleteztem sajat (L)LM modell epitesevel, itt leirtam a tapasztalatokat.

a lenyeg, hogy egy 24GB memorias rtx3090-el 200-400 millio parameterest (kb GPT-2) lehet tanitani, nagyobb mar nem fer bele.

osszehasonlitasul a legkisebb LLAMA is 15x ekkora, a nagy pedig 70 milliard parameteres... a chatgpt allitolag 1000mrd.

az LLM-eket sokszaz A80-al vagy mas 80GB memorias gpu-val tanitjak (ujabban meg P200-on).

persze tanulashoz, kiserletezeshez eleg egy kis modell is, nekem egy hetig ment a train es kozben folyamatosan lattam ahogy fejlodik (kozbe cpu-val futtattam teszteket a checkpointokbol)

ami meg kelleni fog (es ezt nehezebb beszerezni mint egy rtx-et) az a 10+ GB tiszta szoveg. legalabbis ha magyart akarsz :)