Szeptember 28-30 között szereltük fizikailag, majd bő 3 hónapnyi munka után éles üzembe állhat.
A régi HPC építését, indulását is megírtam ide: https://hup.hu/node/89020
Számolhatatlanul sok időbe telt ez a project. Évekig tartott, mire a beszerzési közbeszt ki tudtuk írni. Majd pár hónap, mire megjött a vas. Majd covid19-őrület hirtelen eltolta az egészet fél evel. És egyszercsak 2020. szeptember 28-29-30 beszerelhettük az ELTE szombathelyi géptermébe.
Onnan 3 hónap sűrű munka jött másodmagammal, mire nagyjából készen lett.
Épp most folyik az utolsó rsync a régi és az új között.
Persze, mindneki azt kérdi, hány cpu. Sok.
Van 18 computing node, mindegyikben 192GiB ram és két darab Intel Xeon Gold 6240. FDR Infiniband.
Van egy NFS szerver, ZFS-sel, 36 darab HDD-vel, ZFS raidz3. A ZIL pedig egy NVMe SSD-n.
- egeresz blogja
- A hozzászóláshoz be kell jelentkezni
Hozzászólások
Nekem a ZIL -rol mindig ez ugrik be (elsore), remelem, nem vagyok vele egyedul. :)
Amugy szep darab.
Error: nmcli terminated by signal Félbeszakítás (2)
- A hozzászóláshoz be kell jelentkezni
Nagyon régen történt a konfigkiválasztás (2018). A konfigkiválasztás célfüggvénye a SpecFP_rate maximalizáció volt. Ebben akkor és ott a XeonGold 6140 nyert. A későbbiekben nem volt érdemi lehetőség ezt újrajátszani. Már annak is örülök, hogy a roppantúl elhúzódó eljárás során arra volt lehetőség, hogy 6240 jöjjön.
Olyat, hogy "itt van 60 misi, SpecFP_rate -ben a legtöbbet kérem" a jogászaink egybehangzó véleménye szerint nem lehet kiírni.
Csak és kizárólag olyat lehet kiírni, hogy "Itt a műszaki specifikáció, a legolcsóbbat kérem".
Ez a része elég rémes.
- A hozzászóláshoz be kell jelentkezni
Erre nem az volt a szokas, hogy leulsz private a beszerzes nyertesevel es megbeszelitek a kiirasnak a felteteleit, hogy te is megkapd a legtobbet a 60 misiert es ok is biztosan megnyerjek. Olyan win-win szituacios gyakorlat.
Regen ez igy ment mindenhol.
A tobbi babszinhaz...
Every single person is a fool, insane, a failure, or a bad person to at least ten people.
- A hozzászóláshoz be kell jelentkezni
NAGYON sok munkám van abban, hogy itt ez ne így menjen. Mert, ugye, az általad mondott algoritmus csak úgy működhet, ha előre lehet tudni, hogy ki a nyertes. És hidd el nekem, nem kapsz jó árat úgy.
- A hozzászóláshoz be kell jelentkezni
Am ha rosszul csinalod igen, mert nem csak egyel, hanem harommal kell leulni beszelgetni es eloajanlatokat kerni.
Jo, par fillerert nem fognak mocorogni, de egy €3-4M mar mozgatja erosen az ingerkuszobot.
Every single person is a fool, insane, a failure, or a bad person to at least ten people.
- A hozzászóláshoz be kell jelentkezni
60 misi volt a teljes beszerzes, az ~167k EUR (ha jol ertem)
- A hozzászóláshoz be kell jelentkezni
az az egy darab NFS szerver eleg, foleg HDDk-kel?
- A hozzászóláshoz be kell jelentkezni
Simán elég lehet, attól függ milyen számításokra használják. A PhD-m során végzett fizikai szimulációknál egyetlen HDD-re mentettem ki a részeredményeket (~200^3-ös doboz pillanatnyi állapota), mivel az idő túlnyomó többsége magával a számolással ment el, így teljesen lényegtelen volt, hogy hány másodperc alatt írja ki azt a pár GB-nyi adatot időnként a program. Nem volt arra szükség, hogy sokkal gyakrabban mentsem ki az adatokat, mivel fizikailag nem telt volna el annyi idő, hogy valami érdekes is történhessen.
Azonban egy kollégának más témánál előjött olyan gondja, hogy a kiírás sebessége lett a szűk keresztmetszet egy gyors fizikai folyamat szimulációjánál, így épített egy CEPH tárolót, amit IPoIB-en keresztül ért el.
- A hozzászóláshoz be kell jelentkezni
az altalam latott HPC tendereken nagyon komoly IO kovetelmenyek vannak (a legutobb, amit lattam, ott 10GB/s/szerver), ezert kerdeztem...
- A hozzászóláshoz be kell jelentkezni
Ez itt egy magyar egyetem. Csak hogy legalább lélekben visszarángassalak a rút, itthoni mindennapokba :)
- A hozzászóláshoz be kell jelentkezni
nem merek en mar semmit irni... :)
- A hozzászóláshoz be kell jelentkezni
Ez egy infiniband RDMA adatrétegű NFS. Elég jól teker. A háttértértár ZFS, az intentlog NVMe. Sok irányban lehetne még faragni rajta, de jelenleg ez egy teljesítmény-ár-megbízhatóság kompromisszum.
Mellesleg van a rendszerben egy tradicionális 50TB/raid6 iSCSI enterprise storage, redundáns kontroller meg mindenfranc; az pedig a rendelkezésre állásra van kihegyezve. Közvetlen felhasználói adatok nincsenek rajta, csak VM boot image.
- A hozzászóláshoz be kell jelentkezni
kiváncsi lennék részletekre, teljesítmény adatokra ilyesmikre ha megosztható.
- A hozzászóláshoz be kell jelentkezni
Maga az nfs service melyik implementáció? Ganesha?
- A hozzászóláshoz be kell jelentkezni
debian 10; linux 5.9; mlx5; nfs-kernel-server
- A hozzászóláshoz be kell jelentkezni
Nyílván nem elég bármire egy darab 36 diszkes NFS szerver. Bár nem vagyunk olyan ügyetlenek NFS szerver telepítésben.
Azonban semmiféle általam ismert centralised/dedicated storage megoldással nem lehet kiszolgálni valóban IO igényes jobokat. Ennek megfelelően a HPC iparág arra mozdul, ami éppen van: azt a problémát szimulálják le, ami belefér a memóriába. Ami nem fér bele, az a tudományterület nem fejlődik oly gyorsan.
Azt a segítséget tudjuk adni a kutatóknak, hogy midnen node-ban van egy 2T nvme ssd, azt lehet majd local scratch-nak használni. (Ez a szolgáltatás jelenleg még nem elérhető.)
Egy ilyen garantált IO / node előírás pompásan lefelezi a beszerezhető sźamoló node-ok számát. merthogy az IO nagyon drága.
- A hozzászóláshoz be kell jelentkezni
Milyen típusú számítási feladatokra lett tervezne a klaszter? Meglep, hogy nincs benne egyetlen GPU sem.
- A hozzászóláshoz be kell jelentkezni
tradicionális MPI (egy darab sok szálú)
tradicionális paraméterscanning (sok sok 1 szálú)
A szóbajöhető alkalmazások túlnyomó többségének nincs cuda (vagy egyéb gpgpu) támogatása. Ezen nem váltzotat az a tény, hogy néhány rendkívül fontos alkalmazásnak meg van.
- A hozzászóláshoz be kell jelentkezni
Hogyhogy Szombathelyen? Megteltek a budapesti géptermek, esetleg ott jobb az infrastruktúrális háttér? (Kis kereséssel ráleltem a sek.elte.hu-ra, még ez is új volt.)
- A hozzászóláshoz be kell jelentkezni
EU pályázatból eredő pénz vidékre van. Keletkezett ott egy kis épületkábelezés, egy kis gépteremépítés, és egy kis HPC. és egy kis 10Gb IP link pestig. Úgy érzem, jó helye lett ott a felújításoknak. A felhasználók szempontjából mindegy, hol a HPC. Nekem nem volt mindegy, enyire még soha nem vittem végig a remote management ezer apró trükkjét. ipmi sol, minden managelt, minden elérhető, management redundáns (lesz hamarosan). Oprendszerinstall? Nem kell kimennni. Elszúrtam az iptables-t? Nem kell kimenni. Lefagyott a kernel? Nem kell kimenni.
- A hozzászóláshoz be kell jelentkezni