Sziasztok,
Nem nagyon jutok előrébb egy probléma megoldásában felteszem hát itt a kérdést hátha tudja valaki a megoldást... és közösen okulhatunk.
1., adott 3 darab Dell PE1900 gép
2., a gépek 2.6.32.32-es kernellel (grsec+drbd) gond nélkül működtek
3., a kernel frissítve lett 2.6.32.48 majd 50, 52, 54 verziókra (grsec + drbd)
Az újabb kernelekkel folyamatos para van, Machine Check Exception van. A gépek teljesen véletleszerűen megdöglenek (akkor is ha semmi terhelés nincs rajtuk).
A RAC logjában az újabb kernelekkel megjelenik a CPU bus parity error es Machince Check Exception hiba bejegyzések (csak az újabb kernelekkel). Az az érdekes, hogy más gépeken is fut ez a kernel mindenféle probléma nélkül (Nem Dell gépek).
Az egyik képen a drbd be sincs kapcsolva mert ott nincs rá szükség, tehét ezt kizártam mint hiba forrás.
A grsec más gépeken megy, tehát nem hiszem, hogy ez okozná.
A kernel changelog-ot átnézetem a 32-es verziótól én nem látok olyan jellegű módosítást ami ezt okozná.
A hardver hibát azért zárnám ki mert egyszerre jelentkezett mindhárom gépen és csak akkor ha az újabb kernellel fut (valamint forumon találtam ilyen problémát Windows Server-rel és ott is szoftveres gond volt).
A pánikról shot itt látható: http://zsalab.ironcube.info/pacrash20120206.jpg
Az mcelog semmit sem segít.
Ha van valakinek ötlete, vagy esetleg már látott is ilyet akkor ossza meg velem.
- 1102 megtekintés
Hozzászólások
No és az mcelog-ot már megnézted mit mond? Nekünk eddig ahol ilyen jött, ott tényleg gond volt. Ez pl. memória vagy cpu hibát jelentett.
- A hozzászóláshoz be kell jelentkezni
BIOS a legfrissebb? Tapasztalatom szerint ezek a hibák mindig tényleges hardver/firmware problémákra vezethetőek vissza.
(Mert ugye attól, hogy csak az új kernel triggereli, nem jelenti azt, hogy kernelhiba.)
- A hozzászóláshoz be kell jelentkezni
nalam van egy Oracle szerver most (x4470, nem is gagyi), ilyet dobal. az ILOM szerint memory fault, huzzam ki a risert, azon van gomb, ami megmondja, melyik dimmben levo memo a szar. megnyomom a gombot, semmit nem mutat. riser visszadug, fault kiut, gep megy tovabb. ezt jatsza X havonta. a support vonogatja a vallat, mert nincs baja a gepnek, csak a logot szemeteli... :)
- A hozzászóláshoz be kell jelentkezni
Természetesen legfrisseb firmware és BIOS van feltéve a gép minden komponensére.
Most kaptam egy isteni sugallatot, hogy lehet az lesz a baj, hogy energiatakarekosság (védjük a környezetet) címszóval be lett kapcsolva a CPU_FREQ az újabb kernelek esetén. Este kikapcsolom és megprobálom.... tapasztalat szerint hetente egyszer előjön a probléma... szóval csak várni kell egy-két hetet.
Az mcelog semmit sem mond, az csatolt screenshot-on kivűl. A RAC logjában is ugyanazt látom.
Hardver hibát én azért zárom ki teljességgel mert nem lehet, hogy ugyanazon pillanatban tönkrementvolna 3 ugyanolyan típusú de máskor gyártott gép.... ráadásul megjavul ha visszateszem a régi kernelt.
A mostani tippem az CPU_FREQ, erre még utalást is találtam forumon... bár az eredmény nem derül ki.
- A hozzászóláshoz be kell jelentkezni