Amikor a System Management Homepage nem látja a hibát

Történt, hogy egy évekig stabilan futó HP gép elkezdett random újraindulgatni. Úgy 3-6 óránként. A logokból csak az Auto Server Recovery (ASR) esemény nyomait lehetett kiolvasni. A HP Systems Management Homepage (SMH) semmilyen támpontot sem adott az ASR reboot-ok okának megállapítására.

Ennél a szervernél az ASR timeout alapértelmezett beállítása 10 perc. Ennél kisebb érték nem, de nagyobb beállítható. 10 perces lépésközönként állítható feljebb.

SMH #1

Az ASR egy watchdog timer, amely elkezd a beállított értékről visszaszámolni. A timer-t az operációs rendszeren futó agent rendszeresen reseteli a kezdeti értékre, így az újra elkezd visszaszámolni onnan (esetünkben 10 percről). Ha az operációs rendszer valamiért "lefagy" és ebből kifolyólag az agent nem tudja a watchdog timer-t resetelni, a timer eléri a 0-t és ASR reboot következik.

Az ASR hasznos tud lenni, ha valami miatt a távoli gép nem reagál. Az ASR újraindítja a gépet és jó esetben minden megy tovább. Főként akkor hasznos, ha az operációs rendszer valami nem állandó, nem visszatérő probléma, hanem egyszeri esemény miatt "fagyott le". Az ASR viszont nem biztos, hogy szerencsés, ha pl. egy hardverhibát kell diagnosztizálni. Miért? Mert ha az ASR újraindítja a gépet, nem biztos, hogy a logokban, diag LED-eken láthatóvá válik a probléma. Valami ilyesmi történt ebben az esetben is.

Az első ASR után megnéztem a gép SMH-ét, de ott minden rendben volt. A második reboot után már fizikailag is ellenőriztem a szervert, de minden diagnosztikai LED és tool a megfelelő állapotot mutatta. Hogy a probléma kiszűrhetővé váljon, minden opcionális periféria leakasztásra került a gépről és az ASR kikapcsolásra került.

SMH #2

A cél az volt, hogy a gép ne induljon újra, maradjon a nem reagáló állapotban, hogy fizikailag látni lehessen, hogy mi lehet a probléma.

Néhány óra múlva a gép menetrendszerűen elérhetetlenné vált. A helyszíni ellenőrzés során kiderült, hogy a rajta futó Windows "megfagyott", semmire sem reagált. Nyilván, amikor az ASR be volt kapcsolva, az ilyen helyzetben 10 perc nem reagálás után újraindította a gépet. Most nem. Viszont nem csak az látszott ezúttal, hogy valóban csonttá fagyott az OS (és ebből kifolyólag "jogosak" voltak a korábbi ASR reboot-ok), hanem az is, hogy itt valószínűleg hardveres probléma lesz.

A gépre nézve ezúttal azonnal látszott, hogy villog a "Health" LED "amber" színben. Lekapva a gép oldalát, azonnal látszott, hogy a DIMM3 melletti "fault" LED "amber" színű. Ez arra utal, hogy a kérdéses modullal probléma van.

Ebben az a "szép", hogy SMH egy kukkot sem mondott arról, hogy probléma lenne a memóriamodullal. Pedig elvileg még azt is detektálnia kellene az agent-eknek, ha ECC javítás történt...

SMH #3

SMH #4

A jelzett modul eltávolítása után a szerver újraindításra került és immár lassan 48 órája megy probléma nélkül. Ugyan nem 100% - mert hát mi az? -, de erősen biztos, hogy a rendszer által megköpködött modul okozta a rendszer "lefagyását" és abból kifolyólag az ASR reboot-okat.

Sajnos van olyan helyzet, amikor az ember nem ússza meg, hogy fizikailag is ránézzen a problémás gépre, mert a menedzsment szoftverek távolról nem adnak minden esetben megbízható állapotjelentést a rendszerről.

Hozzászólások

"Hogy a probléma kiszűrhetővé váljon, minden opcionális periféria leakasztásra került a gépről"

Erről egyszer feledkeztem meg, egy életre tanulság volt... Egy KVM switch kábele miatt volt gond.

Desktop pc kb 12 eve, ps2 billentyuzet szivatott meg. Elindult a gep de biosznal fagyott. Mar semmi nem volt a gepen csak a billentyuzet mert ugye az kell aze neki. 3 ora szivas utan cserltem azt is es megjavult. Azota az az elso ha mar vegkepp nem indul el. :D

--
http://szolarenergia.hu

Oracle ODA - néhányadik boot: panaszkodik a RAM-ra. Supporttal egyeztetve memóriamodulok kiszed/visszarak, a hiba elmúlt. Vélhetőleg melegedésre előforduló kontakthiba, amit valami oda nem való kosz okozott, mert azóta ha jól tudom nem volt ilyen panasz a dobozra.