A hardver iránt érdeklődőknek, és a számokban hívőknek :-)
GPU node most (sem) került beszerzésre.
A tervezett ELTE HPC főbb (szokásos) teljesítménymetrikái:
- Kapcsolat: Infiniband FDR (56 Gbit/s)
- Tárterület: 300 TB
- Memória: 3456 GiB
- CPU: 36 darab CPU, 648 cores @ 2.6 GHz = 27 T flops
- 18 computing node.
Ezek az elérhető számítási célú erőforrások, a kiegészítő berendezések diszk/cpu/memória kapacitásait nem számoltam bele.
Hardverlista:
- IB switch
- FDR: 56 Gb/s
- ISCSI/management switch
- 10 Gb storage connect
- 1Gb RJ45 node connect
- 18 computing node
- 192GiB ram, 2 Intel Xeon Gold 6230
- local ssd for scratch data
- 1 FW node (IB-ISCSI-külkapcsolat között)
- 1 management node
- 1 Big Box NFS storage node
- linux, zfs
- 36 HDD, 1 ssd (ZIL)
- 1 enterprise ISCSI storage box
- 12 HDD, raid6, redundant
- 10 Gb/s ethernet
A szoftver iránt érdeklődőknek
Ez egy virtualizációs pool, ahol a felhasználók a következő szolgáltatásokat kérhetik:
- MPI job futtatása clusteren
- VM igénylése
- docker igénylése
- Virtuális cluster igénylése
- Munka egy login node-on
Ezek mindegyikét alapvetően HPC jellegű batch feldolgozásra, ami moderált rendelkezésreállást, erőforráskezelő által megszabott indítást/leállítást jelent.
Teljes jogú internet kapcsolatot (pl. webszerver futtatása) nem kérhet, ilyen szolgáltatást ezen a hardveren nem tudunk adni. Ilyet máshol adunk.
Várhatóan a computing node és a management node proxmox hypervisort fog kapni, az fw node és a BigBox az natív debian/GNU Linux; a virtualizált MPI cluster debian/GNU Linux. A dedikált ISCSI storage az a VM-ek bootjához van, a BigBox pedig a user home.
A project haladása iránt érdeklődőknek
Főbb lépéseket megosztom itt. Minimum 4 hónap, mire menni fog. Vagy 6. Nehezebb a jövőbe látni, mint kellene...
- egeresz blogja
- A hozzászóláshoz be kell jelentkezni
- 617 megtekintés
Hozzászólások
a Xeon Goldnal sokkal jobb value lenne a 48 magos, egy socketes AMD EPYC, igy nem lenne NUMA izgulas sem.
56Gbit/s IB, amikor mar kint van a 200, es nyakunkon a 400?
miert NFS, miert nem valami elosztott fajlrendszer (BeeGFS, GPFS), a compute gepekben diszkekkel?
- A hozzászóláshoz be kell jelentkezni
Komoly spec_fp_rate/price kalkuláció előzte meg a beszerzést. Ennél jobbat nem tudunk, és gyanítom, hogy nem is lehet. Bizonyos határok között tartjuk a bizonytalanságot, amit teljesen megszüntetni azért nem tudunk, mert:
- a konkrét verseny elött nem derülnek ki a konkrét árak
- a magyar jogrend szerinti beszerzés több hónap alatt zajlik le, ezalatt bőven változik az intel/amd közötti finom viszony. Úgy néz ez ki, hogy meghatározzuk a peremfeltételeket (memória/core, scratch ssd mérete stb) és ennek a függvénye az ár, és az otimális CPU. Egyébként az AMD nagyon sok paraméternél kicsit jobb, mint az Intel, (és viszont). A perf/price összehasonlításban az első 6 cpu majdnem egyforma, ebben van AMD és Intel is. Viszont elvből ragaszkodom ahhoz, hogyha már végeztem (piackutatást, becslést, igényfelmérést, kalkulációt) akkor abból a maximumnak kihozott konfigurációhoz ragaszkodjak akkor is, ha csak 0.1% az előnye.
Az egész beszerzés és tervezés azon kérdés körül zajlik, hogy "mi a pénz helyes elköltésének módja?" Ez egy különös kérdés, főleg mérnöki körökben. Sokszor hallottam azt a mondatot, hogy "tervezzük meg a rendszert árak nélkül, és majd alkuszunk, hogy beférjünk a keretbe" -- nem osztom. Nagyon nem. Ugyan azért az árért kapható:
1 Gb ethernet - 19 node
56Gb IB - 18 node
100Gb IB - 17 node
200Gb IB - 16 node
Melyik is a gyorsabb? Nem egyértelmű. A 200Gb IB nem egyértelműen jobb, mint a 1 Gb ethernet ... ugyanis a mérték az mindíg perf/price. Soha sem perf/node vagy perf/bandwith.
NFS: ez egy kicsi rendszer. Az elosztott fájlrendszerek lassúak, potyogósok, vacakok, nem kiforrottak stb. A nagyobb elvi skálázhatósági miatti előny nem néhánytucat node-nál jelentkezik.
- A hozzászóláshoz be kell jelentkezni
Raadasul hiaba szamolod ki egy adott CPUnak a teljesitmenyet, ha egy vulnerability miatt ujabb 10-20% veszteseget hoz egy frissitett CPU microcode frissites...
- A hozzászóláshoz be kell jelentkezni
EPYC jobban szamol XMR t "uresjaratban" osztalynak sorpenz :D
Every single person is a fool, insane, a failure, or a bad person to at least ten people.
- A hozzászóláshoz be kell jelentkezni