Kernel MCE panic

Fórumok

Sziasztok,

Nem nagyon jutok előrébb egy probléma megoldásában felteszem hát itt a kérdést hátha tudja valaki a megoldást... és közösen okulhatunk.

1., adott 3 darab Dell PE1900 gép
2., a gépek 2.6.32.32-es kernellel (grsec+drbd) gond nélkül működtek
3., a kernel frissítve lett 2.6.32.48 majd 50, 52, 54 verziókra (grsec + drbd)

Az újabb kernelekkel folyamatos para van, Machine Check Exception van. A gépek teljesen véletleszerűen megdöglenek (akkor is ha semmi terhelés nincs rajtuk).
A RAC logjában az újabb kernelekkel megjelenik a CPU bus parity error es Machince Check Exception hiba bejegyzések (csak az újabb kernelekkel). Az az érdekes, hogy más gépeken is fut ez a kernel mindenféle probléma nélkül (Nem Dell gépek).
Az egyik képen a drbd be sincs kapcsolva mert ott nincs rá szükség, tehét ezt kizártam mint hiba forrás.
A grsec más gépeken megy, tehát nem hiszem, hogy ez okozná.
A kernel changelog-ot átnézetem a 32-es verziótól én nem látok olyan jellegű módosítást ami ezt okozná.
A hardver hibát azért zárnám ki mert egyszerre jelentkezett mindhárom gépen és csak akkor ha az újabb kernellel fut (valamint forumon találtam ilyen problémát Windows Server-rel és ott is szoftveres gond volt).

A pánikról shot itt látható: http://zsalab.ironcube.info/pacrash20120206.jpg

Az mcelog semmit sem segít.

Ha van valakinek ötlete, vagy esetleg már látott is ilyet akkor ossza meg velem.

Hozzászólások

No és az mcelog-ot már megnézted mit mond? Nekünk eddig ahol ilyen jött, ott tényleg gond volt. Ez pl. memória vagy cpu hibát jelentett.

BIOS a legfrissebb? Tapasztalatom szerint ezek a hibák mindig tényleges hardver/firmware problémákra vezethetőek vissza.

(Mert ugye attól, hogy csak az új kernel triggereli, nem jelenti azt, hogy kernelhiba.)

nalam van egy Oracle szerver most (x4470, nem is gagyi), ilyet dobal. az ILOM szerint memory fault, huzzam ki a risert, azon van gomb, ami megmondja, melyik dimmben levo memo a szar. megnyomom a gombot, semmit nem mutat. riser visszadug, fault kiut, gep megy tovabb. ezt jatsza X havonta. a support vonogatja a vallat, mert nincs baja a gepnek, csak a logot szemeteli... :)

Természetesen legfrisseb firmware és BIOS van feltéve a gép minden komponensére.
Most kaptam egy isteni sugallatot, hogy lehet az lesz a baj, hogy energiatakarekosság (védjük a környezetet) címszóval be lett kapcsolva a CPU_FREQ az újabb kernelek esetén. Este kikapcsolom és megprobálom.... tapasztalat szerint hetente egyszer előjön a probléma... szóval csak várni kell egy-két hetet.

Az mcelog semmit sem mond, az csatolt screenshot-on kivűl. A RAC logjában is ugyanazt látom.

Hardver hibát én azért zárom ki teljességgel mert nem lehet, hogy ugyanazon pillanatban tönkrementvolna 3 ugyanolyan típusú de máskor gyártott gép.... ráadásul megjavul ha visszateszem a régi kernelt.

A mostani tippem az CPU_FREQ, erre még utalást is találtam forumon... bár az eredmény nem derül ki.