( gyuri23 | 2020. 06. 18., cs – 09:41 )

Hát a legnagyobb szívásom igen érdekes volt, nyolc node-os cluster-el. vihar alatt egy villám kiütötte a szünetmentest. A nyomorult szerkezetnek annyi ereje ereje volt még mielőtt beadta a kulcsot, hogy átment bypass-ra. Na ezt szívtuk meg, mert ezután fél óra alatt nyolcszor(!) ment el az áram és jött vissza. A szerverek power on-ra voltak állítva persze és szépen indultak. Indulás közben áram el, utána áram vissza és indulás újra. Többféle vas különböző boot idővel, és switch is ezt játszotta. A vége a teljes káosz lett. Mire "megjavult" az áram, az összes node(!) azt állította, hogy mindenki más offline. Próbáltuk megnézni a naplókból a szétesés sorrendjét, de annyira káosz volt, hogy nem jöttünk rá, meg aztán időnk sem volt küzdeni vele.

Ami pozitív volt, hogy a qemu-t marhára nem érdekelte az egész, és egy virtuál gép sem döglött meg, mind node ment szépen tovább egyedül. Mondjuk sok köze nincs is a quemu-nak a cluster-hez. Sebaj gondoltuk, majd kézzel visszacsináljuk a clustert. Sajnos ennél az ügyfélnél nem volt megvéve a support, így nem tudtuk bevonni őket, pedig igazán jó lett volna. Na itt egy napos szívás után B terv lett. Meglepő, de a bajunk a cluster szervizzel volt :) Volt olyan gép ahol egyszerűen nem állt le, akár mit csináltunk. Disable, restart, akkor meg nem indult el. Másolhattunk akármit akárhová, rakás hiba a logba és nem indul. Én játszottam volna tovább, de az ügyfél morcos lett. Végül, mivel éppen a 4-ről 5-re váltást terveztük, és a pont a cluster hálózat átalakítását is, reinstall lett a vége. Egy gépről áttettük a VM-eket egy másikra, reinstall, aztán vissza, következő gép reinstall, be az új cluster-be és VM-ek rá. Így lépegetve egy nap alatt megvoltunk. Szerencsére a proxmox telepítési ideje van vagy 5 perc :)

Na azóta ahol nem muszáj, kerülöm az "ac loss auto restart" beállítás a szervereken...