[hpc] bővités: flocking project

Megtervezése és beszerzésre kerültek az alábbi jelentős bővítések:

- storage node1 36 x 2T diszk, 2 x E5620 cpu, 6 x 4Gi ram, 10G eth (8 core, 24Gi ram)
- storage node2 24 x 2T diszk, 2 x E5620 cpu, 6 x 4Gi ram, 10G eth (8 core, 24Gi ram)
- 'db node' 6x 600G SSD, 4 x Opteron 6220 cpu, 32 x 16Gi ram, 10G eth (32 core, 512Gi ram)
- 'fat node1' no disk, 4 x Opteron 6234, 32x8Gi ram, 10G eth (48 core, 256Gi ram)
- 'fat node2' no disk, 4 x Opteron 6234, 32x8Gi ram, 10G eth (48 core, 256Gi ram)
- DELL 10G eth switch
- 3com (HP) baseline Gbit switch

(mindösszesen 144 core, 1072 Gi ram)

Az első storage node a meglévő hpc2009 (atlasz) home rendszerét fogja lecserélni. A maradék sok gép az egyik tanszékünk számára dedikált erőforrás lesz, lévén ők finanszírozták. Logikailag az atlasz része (közös management node, közös user pool, közös headnode, szeparált SULRM partíció).

A hardwareporn iranti ösznépi igényt jópár képpel igyekszem majd kielégíteni, a dobozbontáskor.

SGI (rackable).

Hozzászólások

Szép-szép, de egyszer megnéznék valami diagramot a kihasználtságáról, sőt, mondjuk úgy, az "értelmes" kihasználtságáról... :P

van user, akinek 6 Gi ram/core kell. Emiatt o 2 core-t hasznal a 8 -bol (mart csak 12Gi ram van). Teljesen kihasznalja azt a node-ot.
Van user, akinek 0.5G ram/core kell, o hasznal 8 core-t, de csak 4Gi ramot a 12-bol. O is teljesen kihasznalja a node-ot.
Van user, aki ha elinditja 256 szalon az (MPI) problemajat, akkor teljes load melett ketszer annyi ideig fut, mintha csak 128 szalon inditja el (szinten teljes load mellett). O kihasznalja a 256 szalat (32 node).

Az "ertelmes" kihasznaltsag nelkulozi az "ertelmes" definiciot sajnos.

Olyan diagram van, hogy load. (ahogy a linux szamolja)
Meg olyan, hogy node allokacio (ahogy a slurm kiosztja).
Ez utobbit hasznalom inkabb "terheltseg" megnezesere.
Kirakok majd egy munin grafikon publikust valahova par napon belul.

"Van user, aki ha elinditja 256 szalon az (MPI) problemajat, akkor teljes load melett ketszer annyi ideig fut, mintha csak 128 szalon inditja el (szinten teljes load mellett). O kihasznalja a 256 szalat (32 node)."

Ezt ertelmezzuk: ha 265 szalon ketszer annyi ideig fut, akkor boven eleg lenne 128 szalon futnia, sot, lehet, hogy 64 szalon csak fele annyi ideig futna. :)

Gondolom az lenne az ertelme annak, amit irsz, hogy ha 256 szalon kozel ketszer annyit (de legalabbis egynel nagyobbszor annyit) szamol, mint 128 szalon. (De igy sem ut a problema vegere, csak nagyobbat "harapott" belole.)

csak egy adalek volt.

Az adott user programjaban a kommunikacios igeny O(n²), emiatt a feladat szempontjabol optimalis futast nem a "leheto legtobb" szalnal eri el, hanem valami kevesebbnel. Viszont barmilyen esetben az osszes CPU-t kihajtja 100%-ra.

Az "ertelmes kihasznaltasag" egy nagyon bonyi kerdes, hiszen azt is vizsgalni kellene, hogy az adott problemat, esetleg, nem lehetne-e valahogy sokkal kevesebb eroforrassal megoldani.
Innentol elszall a kerdes messzire: mi a dragabb, egy jo minosegu programozo eves koltsege, aki ezeket megoldja, vagy meg 20 node?
A 20 node olcsobb.