Full model tanítás dev gépen? Vannak bajok látom :)))))
Céges környezetet ahol 10-nél több ember foglalkozik ezzel láttál-e már valaha? Mert ha jól sejtem nem.
Normális helyen ez úgy néz ki hogy lokálban a fejlesztők összerakják a logikát, kis tanítás és result ellenőrzés, utána már az alpha/béta környezet is felhőben fut és kapja meg a teljes tanítást. Nálunk pl. AWS GPU instance-okon.
Ott van vas hozzá, skálázható, párhuzamosítható, van S3 vagy egyéb többé-kevésbé végtelen storage, arról nem beszélve hogy van mentés, több párhuzamos tanítás tud dolgozni ugyanabból a training data-ból mert mindenki hozzáfér (így lehet faszán validálni az elkészült modelleket, pl. mikor elkészül egy training dataszetted akkor simán letiltasz minden írást az S3 bucketről, csak readonly, innentől kezdve garantálható a training data integritása és hitelesen lehet validálni a tanítások eredményeit ugyanazon a dataszetten. Sok sikert ezt megoldani független fejlesztői gépeken úgy hogy elég sávszélje legyen 10 gépnek egyszerre a nas-hoz.) és még sorolhatnám a végtelenségig az előnyöket.
A Spark lényege a fentiekhez képest annyi hogy ugyanaz a DGX os+framework fut rajta mint a nagy rendszeren, kicsiben elkészül a váz és mehet fel mindenféle változtatás nélkül.
Bárki aki arra hegyezi a témát hogy mit tud futtatni lokálban az egyszerűen amatőr és fogalma sincs róla hogy működik manapság az AI fejlesztés vállalati környezetben.