DGX Spark, Nvidia’s tiniest supercomputer, tackles large models at solid speeds
This relatively affordable AI workstation isn’t about going fast; it’s about doing everything well enough
Nvidia DGX Spark | Nvidia Jetson Thor | Apple M4 Max | AMD Ryzen AI Max+ 395 | |
OS | DGX OS | ? | MacOS | Windows / Linux |
FP/BF16 TFLOPS | 125 | 250 | ? | 59 est |
FP8 TFLOPS | 250 | 500 | ? | ? |
FP4 TFLOPS | 500 | 1000 | ? | ? |
NPU TOPS | NA | NA | 38 | 50 |
Max Mem Cap | 128 GB | 128 GB | 128 GB | 128 GB |
Mem BW | 273 GBps | 273 GBps | 546 GBps | 256 GBps |
Runtime | CUDA | CUDA | Metal | ROCm / HIP |
Price | $3000-$3,999 | $3.499 | $3,499-$5,899 | $1999+ |
- 727 megtekintés
Hozzászólások
Itt az sg.hu cikk is:
https://sg.hu/cikkek/it-tech/163239/egy-petaflop-teljesitmeny-az-asztalon
- A hozzászóláshoz be kell jelentkezni
Itt mondjuk nem dicsérték rommá:
- A hozzászóláshoz be kell jelentkezni
Szóval erről is csak azt lehet elmondani, mint a Strix Haloról. Azaz nem váltja ki igazán a hagyományos PC AI szörnyeteget Geforce kártyákkal. Viszont keveset fogyaszt, így ha 0-24-ben otthon működő AI -hoz kell gép megfontolandó. AMD Strix Halo-val összevetve valamivel több mint 2x gyorsabb AI-ra, de ARM alapú és a Jetson userek eddigi frusztrációiból kiindulva ez sok jót nem jelent jövőbiztosságban. Elég reális forgatókönyv, hogy az Nvidia addig fogja aktívan támogatni a DGX OS-t az adott DGX Spark generációra amíg meg nem jelenik az utóda. Utána talán az Ubuntu mögötti közösség kitartásában lehet bízni.
Az AMD Strix Halo melletti érv, hogy x86 és biztosan lehet válogatni az OS-sek közül jó sokáig. Bár fele teljesítmény de az ára is a fele. Ha egyébként is van egy "vastag" AI PC fejlesztésre szerintem jobb választás marad mellette a Strix Halo.
“Az ellenség keze betette a lábát”
- A hozzászóláshoz be kell jelentkezni
Nézegettem, de jelenleg nem éri meg. 10 ezer forint havonta egy AI előfizetés, ez meg ilyen 2.5 millió forint, szóval nagyjából 20 év alatt hozza be az árát. Az irány jó, de szerintem most ott tartunk mint amikor bejöttek a milliós plazmatv-k amik most 150-200-ért mennek.
- A hozzászóláshoz be kell jelentkezni
Az Enterspájz előfizetés már 200 euró körül jár havonta. Azzal már éveken belül megtérül. Igazából két esetet látok, amiért megéri az otthoni AI PC. Cenzúrázott területen dolgozol, például infóbiztonság ahol nem hajlandó segíteni megfelelően az AI előfizetés.
Illetve az ennél sokkal fontosabb, te magad akarsz jártasságot szerezni AI működtetésben vagy pláne fejlesztésben. Az jobban növelheti a fizetést mint amibe kerül. Egyébként a 200 eurós havi előfizus AI otthoni méltó párjához kell egy Deepseek r1 671b is mások mellet vagy valamelyik hasonló opensource finetuned verziója. Az pedig még kvantálással sem fér bele ezekbe a kompakt gépekbe mert még több ram kell hozzá. Ahhoz "vastag" AI pc kell.
Saját AI fejlesztésre viszont elég egy ezeknél egy kategóriával gyengébb gamer PC is, lehetőleg Nvidiaval.
“Az ellenség keze betette a lábát”
- A hozzászóláshoz be kell jelentkezni
Jó, de ha infobiztonság fontos a cégnek, akkor majd a cég megveszi a megfelelő rendszert, nem saját zsebből fogok kipörgetni 2 milliót. Saját AI fejlesztés-tanuláshoz egyébként tényleg teljesen jó egy videókártya, én is azt szoktam használni. Alternativaként lehet bérelni GPU-t is cloud-ban, bár még nem számoltam hogy megéri-e erre a célra.
- A hozzászóláshoz be kell jelentkezni
Ez a nagy lényeg. A felhős jó, de nagyon nem mindenkinek és mindenhova. A következő rohanás az onprem llm lesz és nagyon nyomós okkal.
- A hozzászóláshoz be kell jelentkezni
Nem kapcsolódik szorosan a topic-hoz, de a "self-hosted" AI-hoz igen a kérdésem:
Az otthon futtatott AI-nak honnan van a tudásbázisa?
Minden AI cikk leírja, hogy a világ összes tudását beletöltötték már az AI-kba betanításra, perek, viták vannak belőle, etikai, jogi, anyagi kérdéseket vet fel, stb. Ez elképesztő mennyiségű adat, idő és gépidő.
Ezt hogyan kell elképzelni otthon futtatott AI esetén? Nyilván nem én töltöm bele a tudást, hanem veszi valahonnan. Oké, hogy nem juttatja el az általam megadott adatokat az AI tudás forrásához, de mégiscsak függök attól, akitől az AI tudásbázist "kapom"? Vagy tök máshogy van ez?
Nem néztem eddig utána, ha valaki TL; DR leírná, megköszönném.
- A hozzászóláshoz be kell jelentkezni
A kérdésed teljesen jogos! De a dolog egyszerűbb, mint gondolnád.
A tudásbázis bele van "sütve" a modellbe, amit letöltesz. Nem az elképesztő mennyiségű tanítóadatot töltöd le, hanem a végeredményt: a már betanított mesterséges agyat.
Egy analógiával élve képzeld el úgy, mint egy programot:
Tanítóadatok: Ez a program forráskódja (petabájtok).
Betanítás: A fordítás (compiling) folyamata, ami hónapokig tart szuperszámítógépeken.
A letöltött modell: A kész, lefordított .exe fájl (pár gigabájt). Neked már csak ezt a kész programot kell futtatnod, a forráskód nem kell hozzá.
Honnan jönnek ezek a modellek?
Nagy cégek (DeepSeek, Meta, Google, Mistral stb.) végzik el a drága betanítást, majd közzéteszik a kész modellt.
Függsz tőlük?
Igen is, meg nem is. Az alapmodellt ők adják, de itt jön a képbe az, amit te is tehetsz otthon:
Finomhangolás LoRA, azaz Low-Rank Adaptation: Ez a leggyakoribb otthoni módszer. Nem kell az egész modellt újratanítanod. A LoRA olyan, mintha a kész mesterséges agyhoz egy kis Post-it cetlit csatolnál a saját, specifikus tudásoddal. Ez egy rendkívül hatékony módszer, amihez már egy jobb videokártya is elég. Kettő meg pláne! :-)
Közösségi módosítások: A nyílt forráskódú közösség, aminek a Hugging Face a központi oldala, fogja ezeket az alapmodelleket, és tovább finomítja őket. Eltávolítják a cégek által beépített korlátozásokat (uncensored modellek), vagy egy specifikus feladatra (pl. kódírás, kreatív írás) specializálják őket.
Tehát a gyakorlatban:
Letöltesz egy kész modellt, akár a cég eredetijét, akár egy közösség által módosított, jobb verziót, és azt futtatod a saját gépeden. A tudás már benne van, és az adataid soha nem hagyják el a gépedet. És a tök felesleges korlátozások alól is feloldhatod. Törjünk fel egy rendszert? Mi az hogy!! :-) Nincsenek hamis moralizáló megfontolások.
“Az ellenség keze betette a lábát”
- A hozzászóláshoz be kell jelentkezni
Köszönöm a részletes magyarázatot! Így már teljesen érthető számomra is!
- A hozzászóláshoz be kell jelentkezni
Az írott angol wikipédia mindössze néhány gigabyte. Betömörítve sokkal kisebb, az LLM pedig gyakorlatilag egy veszteséges tömörítés, ami alapján hasonló szövegeket lehet gyártani (lehetne szó szerint is visszaadni, de az nem hasznos). A komolyabb nyílt modellek néhány száz gigabytosak, jóval több ismeret fér el bennük, mint a wikipédián. Szóval az igazság az, hogy letöltöd a tudás nagy részét. Az újabb modellek már nem a tudás mennyiségében versenyeznek, hanem az érvelés pontosságán, azokat pedig sokszor generált, mesterséges példákkal tanítják meg nekik. A következő generációs modellek valószínűleg "világmodellek" lesznek, amiknek több a fizikai intuíciója és talán kevesebbet hallucinálnak.
- A hozzászóláshoz be kell jelentkezni
az apple m2 ultra unified memory bandwith 800GB/s és ha jól emlékszem 192GB lehet a memória. Illetve talán 70 fizikai cpu mag van benne. Ami csak annyiban érdekes hogy egy ilyen workstation pl. fejlesztői gépként a local llm mellé fut majd még alighanem egy docker compose jó pár konténerrel, ide, böngésző stb. Memória mérete, cpu magok száma egy ilyen integrált eszközben nem mindegy.
- A hozzászóláshoz be kell jelentkezni
Nem túl valószínű, ha a Apple M4 Max is csak 546 GBps.
“Az ellenség keze betette a lábát”
- A hozzászóláshoz be kell jelentkezni
Nem túl valószínű, ha a Apple M4 Max is csak 546 GBps.
na de nem az M2 Maxot, hanem M2 Ultrat írtam, az Ultra vonal egy másik teaház. M4 Ultra szerintem még nincsen.
"Its unified memory architecture supports up to a breakthrough 192GB of memory capacity, which is 50 percent more than M1 Ultra, and features 800GB/s of memory bandwidth — twice that of M2 Max"
https://www.apple.com/hu/newsroom/2023/06/apple-introduces-m2-ultra/
a cpu magok számában tévedtem, gpu magból van 76 és cpu magból 24.
Az M3 Ultra sávszélességben nem ad sokkal többet, cpu magból 32 gpu magból 80 lehet, memóriából meg 512GB.
- A hozzászóláshoz be kell jelentkezni
Igazad van, valóban nagyobb a korábbi generációs M2 Ultra memória sávszélessége. Ha tartják az eddigi Max/Ultra arányokat akkor ha megjelenik az M4 Ultra, ram sávszélessége 1000 GBps felett is lehet.
“Az ellenség keze betette a lábát”
- A hozzászóláshoz be kell jelentkezni
meg persze a mac gpu nem cuda api. De ettől függetlenül, a hatalmas unified memory és a memória sebessége - nem csak a gpu fontos - alapján a mac ultrák is bőven alkalmasak helyi inferencia funkcióhoz, rag embedding generálás stb. Nem LLM-hez, más transzformer modellhez, audio akármi meg még bőven sok is.
- A hozzászóláshoz be kell jelentkezni
LLM-hez is. M3 Ultra 512GB ramján egész jól működik a Deepseek R1 671b persze Q4 kvantálással. 16 T/s ami ekkora modellnél egész elfogadható.
“Az ellenség keze betette a lábát”
- A hozzászóláshoz be kell jelentkezni
Nvidia DGX Spark | Nvidia Jetson Thor | Apple M4 Max | AMD Ryzen AI Max+ 395 | |
OS | DGX OS (Ubuntu) | Jetson Linux (Ubuntu) | macOS | Windows / Linux |
FP/BF16 TFLOPS | 125 | 250 (dense) | ~20 | 59 |
FP8 TFLOPS | 250 | 1000 (sparse) | ~20* | ~118 est |
FP4 TFLOPS | 500 | 2000 (sparse) | ~20* | ~236 est |
INT8 TOPS | ~250 (GPU) | ~500 (GPU) | 38 (NPU) | 50 (NPU) |
Max Mem Cap | 128 GB | 128 GB | 128 GB | 128 GB |
Mem BW | 273 GBps | 273 GBps | 546 GBps | 256 GBps |
Runtime | CUDA | CUDA | Metal | ROCm / HIP |
Price | $3000-$3,999 | $3,499 | $3,499-$5,899 | $1999+ |
*Nincs hardveres gyorsítás. A TFLOPS érték nem skálázódik; a teljesítmény a csökkentett memóriahasználatból és sávszélesség-igényből fakad.
A fenti táblázat AI becslésekkel kibővített változata.
“Az ellenség keze betette a lábát”
- A hozzászóláshoz be kell jelentkezni
Nagyon vicces látni hogy mindenki a neten (nem csak itt hanem redditen, tesztelő weboldalak, stb.) azon vergődik hogy mennyit tud, milyen más hardware-ekkel lehet ár/érték arányban összehasonlítani, jaj a legújabb 5090 erősebb, Apple Metalhoz hasonlítgatják, stb., közben a termék alapvető koncepciójáról sincs lövésük.
Mint ahogy a neve is elárulja (spark, szikra), ez a gép gyakorlatilag egy mini fejlesztői környezet az Nvidia DGX rendszeréhez.
A DGX pedig az ipari szuperszámítógépes AI megoldása az Nvidia-nak, ez az a komplett rendszer (hw+sw) ahol többezer GPU meg többezer terrabyte memória van, mega/gigawattos méretekben.
Pl. részben ezen fut a ChatGPT is.
A DGX spark ennek a lokális fejlesztőkörnyezete, ami ezen fut az a nagy DGX-en is futni fog és csak ez számít. Azok a cégek a célközönség akik rendes DGX felhasználók mert azzal teljes mértékben kompatibilis, nem pedig az egyéni felhasználók.
Az hogy a többi AMD/Apple/PC megoldásnak a sparkhoz képest milyen a token/dollár aránya innentől kezdve pedig másodlagos, mert a spark kvázi egy SDK, nem önálló termék.
- A hozzászóláshoz be kell jelentkezni
Hát igen, ez valóban AI dev gép. Nézzük mennyi ideig is tartana egy deepseek r1 70b méretű AI llm betanítása rajta. Kell persze egy jó nagy, 10TB-os M.2 SSD mert ramból sajnos hiány van, úgy System Memory Offloading trükközéssel úgy 3800 év alatt meg is vagyunk vele. Pöpec kis AI dev gép ez! :-D
Utána már mehet is a nagy DGX-re.
“Az ellenség keze betette a lábát”
- A hozzászóláshoz be kell jelentkezni
Full model tanítás dev gépen? Vannak bajok látom :)))))
Céges környezetet ahol 10-nél több ember foglalkozik ezzel láttál-e már valaha? Mert ha jól sejtem nem.
Normális helyen ez úgy néz ki hogy lokálban a fejlesztők összerakják a logikát, kis tanítás és result ellenőrzés, utána már az alpha/béta környezet is felhőben fut és kapja meg a teljes tanítást. Nálunk pl. AWS GPU instance-okon.
Ott van vas hozzá, skálázható, párhuzamosítható, van S3 vagy egyéb többé-kevésbé végtelen storage, arról nem beszélve hogy van mentés, több párhuzamos tanítás tud dolgozni ugyanabból a training data-ból mert mindenki hozzáfér (így lehet faszán validálni az elkészült modelleket, pl. mikor elkészül egy training dataszetted akkor simán letiltasz minden írást az S3 bucketről, csak readonly, innentől kezdve garantálható a training data integritása és hitelesen lehet validálni a tanítások eredményeit ugyanazon a dataszetten. Sok sikert ezt megoldani független fejlesztői gépeken úgy hogy elég sávszélje legyen 10 gépnek egyszerre a nas-hoz.) és még sorolhatnám a végtelenségig az előnyöket.
A Spark lényege a fentiekhez képest annyi hogy ugyanaz a DGX os+framework fut rajta mint a nagy rendszeren, kicsiben elkészül a váz és mehet fel mindenféle változtatás nélkül.
Bárki aki arra hegyezi a témát hogy mit tud futtatni lokálban az egyszerűen amatőr és fogalma sincs róla hogy működik manapság az AI fejlesztés vállalati környezetben.
- A hozzászóláshoz be kell jelentkezni
"Full model tanítás dev gépen? Vannak bajok látom :)))))"
Önreflexióval vannak bajok nálad úgy látom. Szerinted mire utalt a 3800 évecske?
A logikád a legfontosabb ponton bukik meg:
Ha egy fejlesztő egy olyan cégnél dolgozik, ahol már van egy bikaerős AWS/Azure/DGX/Akármi felhős infrastruktúra, miért a bánatért iktatna be a munkafolyamatba egy 4000 dolláros, asztali "mini téglát"?
A te általad vázolt "profi" munkafolyamat így néz ki: Fejlesztő (Notebook) -> DGX Spark (az asztalon) -> AWS/DGX/AI_Akármi felhő (a nagy rendszer)
Ez teljesen logikátlan. A valódi profi munkafolyamat így néz ki: Fejlesztő (Notebook) -> Kisebb Dev Instance (az AWS/DGX/AI_Akármi felhőben)
Miért? Mert olcsóbb, rugalmasabb, és 100%-ban ugyanabban a környezetben dolgozik, mint ahol a végső tanítás futni fog. A te logikád szerint a DGX Spark egy drága és felesleges köztes lépés lenne.
Akkor kinek is készült valójában a DGX Spark? Pont azoknak, akiket te "amatőrnek" nevezel:
Egyéni kutatóknak és fejlesztőknek, akiknek NINCS hozzáférésük egy több millió dolláros DGX klaszterhez.
Kis startupoknak, akik a felhőköltségek töredékéért akarnak nagy modellekkel kísérletezni.
Olyan cégeknek, ahol a szenzitív adatok miatt a felhő használata szóba sem jöhet (pl. egészségügy, hadiipar).
Bárkinek, aki offline akar dolgozni, és nem függeni a hálózati kapcsolattól.
A Spark nem egy "SDK" a nagy DGX-hez. A Spark egy önálló termékkategória: az első, viszonylag megfizethető eszköz, ami a szuperszámítógépek képességét (az óriási modellek futtatását) hozza le az egyéni fejlesztő asztalára.
“Az ellenség keze betette a lábát”
- A hozzászóláshoz be kell jelentkezni
Ott a pont!
Sixday próbálja eljátszani, hogy ő a veterán senior vérprofi nagyvállalati AI-fejlesztő, miközben az AI láz csak pár éve tart. Még a nagyok is kísérleteznek, eddig nem hoztak Magyarországra tömegesen AI fejlesztői állásokat. De nagyon megmondja a tutit aminek semmi értelme, ROTFL!
- A hozzászóláshoz be kell jelentkezni
Ai előtte is volt, deep learning és társai. Az egész LLM (és minden más transformer architektúrára épülő eszköz) boom csak 2017-es Attention is all you need cikk óta megy. Előtte is volt élet, lásd Google DeepMind, AlphaFold, TensorFlow és hasonló eszközök.
Azt, hogy használjunk AI-ra GPU számításokat, 2008-ban Andre Ng csoportja kezdte el. 17 éve, nem ma volt. A diffúziós modellek egy évtizede velünk vannak.
Az AI az nem egy új dolog, ne gondold ezt. A nagy nyelvi modellek maximum az új dolog, de hát az is 8 éves téma.
- A hozzászóláshoz be kell jelentkezni
1. Nem említettem Magyarországot, ez a te személyes szűklátókörűséged úgy látom. Én speciel 2014 óta nyugaton élek és 2017 óta kizárólag szilícium völgyi cégeknél dolgozom főállású alkalmazottként. Szóval az hogy Magyarországon hogy néz ki az AI ipar meg az AI fejlesztői állások engem nem különösebben korlátoz. :)
2. Nem vagyok veterán AI fejlesztő, csak egy devops aki többek között az AI fejlesztők infrastruktúra igényeit szolgálja ki. Szóval van egy kis rálátásom hogy mit csinálnak és hogyan.
A feleségem mondjuk pont computer visionre specializálódott AI fejlesztőként dolgozik Németország legismertebb kutatóegyetemén 4 éve, de náluk nincs semmilyen központosítás vagy felhő használat, különálló 1-2 személyes projekteken dolgoznak lokális infrastruktúrával, RTX A4000/5000-rel megpakolt gépekkel, szóval ők nem Spark közönség. Az IT-nál fontolóra vették de az lett a verdikt hogy egyszerűbb karbantartani és időközönként fejleszteni a lokális gépeket egy teljesen új, nem moduláris platform bevezetése helyett.
- A hozzászóláshoz be kell jelentkezni
"A te általad vázolt "profi" munkafolyamat így néz ki: Fejlesztő (Notebook) -> DGX Spark (az asztalon) -> AWS/DGX/AI_Akármi felhő (a nagy rendszer)"
Ezt félreértelmezted.
Az általam vázolt munkafolyamat így néz ki Spark szempontból: Fejlesztő (DGX Spark, vagy előtte ülve, vagy remote hozzáférésen) -> DGX nagy rendszer (felhő vagy saját DGX gépek, stb.). A Spark erre van kitalálva. Hogy ugyanaz fut rajta ami a nagy DGX-en és ami lokálisan elkészül az azonnal, módosítások nélkül fog futni a nagy rendszeren.
Ez a munkafolyamat amit te említesz: Fejlesztő (Notebook) -> Kisebb Dev Instance (az AWS/DGX/AI_Akármi felhőben) valós, nálunk is így van pl.
Csak éppen tapasztalataim szerint a fejlesztő gépén futó dev env általában soha nem tud felkerülni a felhőbe módosítások nélkül mert valami sosem stimmel (ez leginkább köszönhető a devek azon hozzáállásának hogy ha kapnak egy fura hibaüzenetet akkor első lépésként már töltik is le a motyójuk latest nightly verzióját, amiért ráadásul nehéz hibáztatni őket az elképesztő sebességű tooling fejlesztések miatt).
DGX környezetben a Spark ezt a problémát megoldja.
Igen elismerem, van egy rettenetesen erős másodlagos marketing és ökoszisztéma/vendor lock-in értéke a Sparknak mivel 128G memóriás (okés osztott de akkor is) CUDA-t letenni az asztalra kevés vendor tud.
És igen, biztos van egy olyan célja is vele az Nvidianak hogy aki ilyet vesz a CUDA + 128G memória miatt az később potenciális nagy DGX ügyfél lehet.
De az elsődleges célja a Spark-al az Nvidiának azoknak a cégeknek a kiszolgálása akik évek óta veszik tőlük tízmilliárd dolláros nagyságrendben a DXG-eket meg a többi motyót és ezzel egekbe röpítették a céget.
A többi (marketing, ökoszisztéma, stb.) másodlagos. Nem a Spark a profitszerző termékük ebben biztos lehetsz.
Ezt az 1 linket és a legelső, bevétel eloszlási grafikont nézd meg és mindent megértesz: https://www.appeconomyinsights.com/p/nvidia-great-wall-of-worry
Röviden: a legutolsó lezárt negyedévben az Nvidia teljes bevételének 88%-a, 41 milliárd dollár az AI adatközponti termékekből jött.
Ők az ügyfelek és az ő igényeik számítanak. Mindenki más lassan gyakorlatilag kerekítési hibának számít.
Ezeknek az ügyfeleknek pedig az az igényük hogy a sokszázezer dolláros éves fizetésű fejlesztőik úgy fejlesszenek hogy egyetlen meetingen se hangozzon el az hogy hát azért van már napok óta fejvakarás mert dev-ből beta-ba nem tudtuk releaselni xyz verzióprobéma miatt.
- A hozzászóláshoz be kell jelentkezni
Úgy jártál mint a Tökös Marci, aki meg akarta nyerni a fingóversenyt de a nagy erőlködéstől összefosta a nadrágját! :D
- A hozzászóláshoz be kell jelentkezni
Ez inkább rád igaz.
- A hozzászóláshoz be kell jelentkezni