DC upgrade: uj hypervisorok vol 2

az elozo 44-et teljesen beraktuk, plusz ugy gondoltuk hogy jo lenne egy egyseges rack design - mivel ugysem csak par darab szervert veszunk altalaban hanem legalabb egy fel racknyit, igy egyszerubb egy racket telerakni, bekabelezni, beallitgatni ugy is, ha vannak ures helyek.

az uj rack design:
- 21x Dell FX2s haz (ha a pici, negyed-Us gepeket hasznalnank akkor 168db compute node/rack, igy "csak" 84db)
- 64x Dell FC630 (2xE5-2683v4, 256GB RAM, 2x25GbE)
- 6x Mellanox SN2100 (32x25GbE + 8x100GbE komboban hajtjuk oket, Cumulus Linuxszal)
- 3db Ubiquity switch managementhez

katt, es lesz kep is ;)

[/url

Hozzászólások

A fix psu es fan modul nem gond az SN2100-ekben?

Mit nem adnék egyszer azért, hogy csak olyan rackekkel kelljen foglalkoznom, amiben kizárólag egy gyártó egyféle cucca van... :)

BTW: talán a múltkor már kérdeztem, de mit futtattok egy ilyen atomerőműn? Mihez kell ennyi vas?

--
trey @ gépház

regen Supermicro volt a rack designunk, de az, hogy eleinte nem tudtak helyszini garanciat adni es kuldozgetni kellett mindent hollandiaba elegge megolte a bulit (mivel svajc nem EU, igy mindenhez export papirokat kell toltogetni... volt, hogy olcsobb volt venni egy ujat valamibol, mint legariztatni...)

kitalaltak a cegben, hogy epitenek egy datalaket, azaz minden belso DB-bol kapunk egy masolatot amin lehet machine learningelni, meg kutatni az adatokat es osszefuggeseket. ez nem keves adat, amire ha eleresztesz egy rendesebb queryt, akkor bizony fut egy darabig (volt olyan querynk, hogy volt benne 42db join olyan tablakon, amikben egyenkent volt >1 milliard rekord... halal volt, valami grafikus katt-katt cuccal generaljak), meg akkor is ha kioptimizalod rendesen.

a legtobb vason KVM VM-ek rohangalnak:
- HortonWorks Data Platform ez az egyik legnagyobb installunk, ez valami 20 gep, mindegyik 28 mag es 240GB memoria
- IBM Cloud Private - ez lenyegeben kubernetes (ennek valami 3TB memoria quota van adva az openstackben...)
- Data Science Experience Local - itt van par GPUs gep is behuzva, python notebookokban tudnak machine learninget tolni
- mindenbol van teszt rendszer is

a fizikai gepeken Db2 es Db2 Warehouse fut, itt multkor kaptunk egy OOM-et, mert az egyik querynek keves volt a clusterben a ~1.8TB memoria; support visszairta, hogy raktjunk bele tobbet :)), ugyhogy most a terv az, hogy 6-8 db fizikai gepet ellovunk rogton erre.

(es ezeket sajnos nem tudjuk VMbe rakni, mert kell nekik RDMA, amit csak SRIOV-s VF-ekkel lehetne megcsinalni, ami meg nem tul user friendly openstackben)

"42db join olyan tablakon, amikben egyenkent volt >1 milliard rekord... halal volt"

Meselhetnek :) Elozo munkahelyemen a kollega elkuldte aludni a fel datacentert egy "jol" megirt query-vel (crossjoin hasonlo tablakkal) Mire visszatornasztak addigra megallt a letezo osszes megrendeloi feluletunk. Nagyobbat hasaltunk mint mikor az AWS leallasok voltak. Mondjuk azota ezt mar nem lehet eljatszani de eleg brutal tanulopenz volt.