Én szívtam már át éjszakát csak azért, mert egy libc patch-et csak az egyik node-jára tettünk fel egy clusternek. Mivel az egy HA cluster volt, addig nem derült fény erre a problémára, míg az elsődleges gép be nem döglött és a cluster software végezte volna a dolgát. Csakhát az Oracle RDBMS-t nem indult el a tartalék gépen.
Azóta megfogadom későbbi Serviceguard tanáraim szavát, miszerint egy clustert lehetőleg havonta, de legfeljebb háromhavonta teljeskörű tesztnek vessek alá. Reboot-ok, failover-ek meg ami még az eszembe jut. Hasonló tesztek szerintem egyedülálló gépnél is szükségesek. (természetesen kihagyva a cluster teszteket) Meg kell értetni a vezetéssel, hogy tervszerű megelőző karbantartásra ebben a szakmában is szükség van! Elötte persze nem árt, ha mi magunk is megértjük ezt.
Ave, Saabi.