( _Franko_ | 2021. 06. 15., k – 11:23 )

Valójában nem is ez szokott lenni a fő gond, hanem a wishful thinking.

Kicsit talán az is, de nagyrészt szerintem ezek az irreális elvárások abból gyökereznek, hogy nem olvassák el a szerződést és persze a szolgáltató is igyekszik fényezni magát, mert ha nem írja le nagy betűkkel a landing page elejére, hogy 99,95 százalékos a rendelkezésre állás, akkor a fillérbaszó ügyfél megy ahhoz a szolgáltatóhoz, amelyik leírja nagy betűkkel a landing page elejére, hogy 99,95 százalék a rendelkezésre állás, persze fillérekért. Az ÁSZF-ben meg általában ugyanaz van, hogy a vállalt állásidőn felül visszaadják az arányos havidíj 1-5x részét.

Aztán meg, amikor beüt a baj, akkor jön az, hogy "tartani a hátunkat az ügyfelek felé", pedig azért azon a háton valóban van mit ütni, ha simán átment a végfelhasználóig az, hogy 99,95 százalék a rendelkezésre állás, holott egy példányban fut a szolgáltatás és a használt technológia nem is támogatja a high-availability lehetőségét...

Persze, vannak jó sokan, akik nem is értik ezt a HA dolgot, volt cég, ahol az egyik komponensért felelős csapatnak hetekig kellett magyarázni, hogy nem azért kell abból a dologból három-három két külön adatközpontban, mert egy nem bírná a terhelést, hanem azért, mert magas rendelkezésreállást szeretne az üzlet és hiába bírja egy darab node is a terhelést, ha az bármiért megáll, akkor minden áll, ha meg minden áll, az sok pénzbe kerül. Ez wishful thinking, hogy elég abból egy? Szerintem simán balfaszok.

Ezért szokásom például az, hogy egy ilyen rendszerben a fejlesztői és teszt környezetben is óránként 5 percet áll egy-egy node és néha megy a reset is egy-egy node-nak, hogy csúnyán álljon le, néha elfogy a hely, néha elfogy a memória, néha elfogy a CPU (aka Chaos Monkey és Toxiproxy). Ha ettől valami megborul, azt meg kell javítani, nem pedig félni attól, hogy jajj, mi lesz, ha megáll vagy újraindul egy node vagy valamilyen erőforrás elfogy. Azért HA, hogy ezeket kibírja, annak semmi értelme, hogy felkészülünk egy tökéletes üzemszerű működésre, aztán az első botlástól felborul az egész a picsába és mindenki pingvinezik, hogy miért nem megy és mikorra lesz jó.