Dell perc 4e/di memory/battery problems

Sziasztok!

Péntek délután 4-kor lefagyott a szerver (Dell PowerEdge 2850) és újraindítás után a következő üzenet fogadott: “Memory/battery problems were detected. The adapter has recovered, but cached data was lost. Press any key to continue.” (az üzenet minden reboot után marad). Hát any key lenyomása után elkezd bootolni a szerverre telepített Zentyal. Bootol bootol, mennek a hülye pöttyök de semmi mozgás. Átváltva szöveges módba látszik hogy szenved, scsi lemezekre panaszkodik (pontosítom később hogy mit ír). Átváltva egy tty-re bejelentkezés után alap parancsok (cd, ls, cat) működnek viszont pl. az mc elindítására input/output hibaüzenetet kapok. Bebootoltam a Zentyal install cd-ről recovery módba, felcsatoltam a lemezeket, az adatok úgy tűnik megvannak. fsck clean-nek jelöli a lemezt, de a -f -n kapcsolókkal futtatva hibaüzenetet dobott (erre sem emlékszem mert ez már 6 óra után volt). Az összes hibaüzenetet leírom majd, most csak azt szeretném kérdezni mi a legjobb stratégia az adatok megmentésére? Backup van de sajnos nem naprakész. A hibaüzenetre rákeresve azt írják hogy lehet hogy semmiség, de lehet elem, memória, vagy raid vezérlő esetleg riser probléma. http://www.velocitytechsolutions.com/Parts-by-DELL-Model/PowerEdge-2XXX… Ezen az oldalon néztem alkatrészeket de nem vagyok benne biztos hogy az iskola költségvetésébe beleférne. :( Esetleg nincs valakinek ötlete arra hogy a hibás vasról a komplett rendszert hogy lehetne valami tartalék dzsunka gépre áttolni?

A segítséget előre is köszönöm, és pontosítom a hibaüzeneteket!

Üdv:
dc

Hozzászólások

Elsőre kapcsold ki a BBWC/cache használatot a vezérlőn az írási műveletekhez. Lassú lesz nagyon, de legalább nem okoz gondot. Ha tudod próbáld ki az elemcserét a vezérlőn, az jó eséllyel megoldja.

Hát, szerencse kérdése. Szerintem ezek ECC-s memóriát esznek és lehet, hogy a lábkiosztás sem stimmel.

A memória hibára elég kicsi az esélyed, az elem/aksi szokott néhány év után meghalni. Ha simán lehúzod a ctrl-ről, amikor a gép ki van kapcsolva akkor érzékeli és meg tudod nézni, hogy javult-e a helyzet.

A bbwc kikapcs az pontosan hogy megy, mert a raid kártya bios-ában annyit lehet megadni write back vagy write through illetve hogy direct IO vagy cached IO legalább is ami szerintem a cache-re vonatkozik. Igen Dell G3399-es akksi kéne bele. Amit még szintén furcsálok hogy a bios azt mondja hogy az akksi OK.

Aksit kell cserélni, nem tudom, hogy a sima csere elég-e, vagy szoftverből/kártya bios-ából kell-e valamit matatni, hogy újnak tekintse a berakott aksicsomagot.
A 8. generációs Dell vasak nem mai darabok, ennyi év után nem csoda, hogy az aksi megadja magát.

Jelenleg ott tart a helyzet, hogy ubuntu live cd-ről bootolva, lementettem nagyjából minden fontos adatot. Este kipróbálom otthon egy teszt szerveren hogy a gép által futtatott weboldalt újra tudom-e élesíteni (webrootot mentettem, mysq fájlokat szintén). A mentés közben néha néha elhasalt egy kicsit a vinyó és dobta a input/output errorokat, inode hibákat de egy restart után megoldódott (bár néha elég idegesítő volt hogy a másolás vége előtt 1-200 megával állt meg). A helyzeten sokat segített hogy a raid biosban write throught-ra állítottam a tömböt, és read-only-ként csatoltam a vinyót. Holnap megpróbálok egy fsck-t és ha nem hozza vissza az élők sorába a rendszert akkor gyalu és megy újra. Az akksit majd megrendelem ha a vezetés előteremti rá a forrást. Addig valami dzsunka viszi tovább az iskolát.

Mit fog szólni a vezérlő ha elem és memória nélkül indítom el? Szeretném letesztelni magát a ramot de egyik gépem se kapcsol be ezzel az ecc-s memóriával és úgy gondoltam kiveszem a szerverből a rendes memót és elindítom a raid kártya memóriájával majd memtest és kiderül hogy jó-e...

Az elemre rákötöttem egy LED-et világított is jó pár percig. Nem tudom mennyi kell az adatok megtartásához de az akksi nem teljesen halott, szerintem. 9000 Ft környékén lenne meg az új akksi de nem tudom így tényleg kell-e.

Egy kis update:

Megjött az új akksi. Persze hogy nem ez volt a baj... Miután sikeresen lementettem mindent, betettem a gépbe a raid kártya memóriáját és elindítottam egy memtestet. Akkorát hasalt vele hogy öröm volt nézni. Sikerült failsafe módban elindítani a memtestet és ott már a self address tesztnél (vagy valami hasonló) jönnek a hibák. Adódik a kérdés, nem rendelkezik-e valaki az alábbi eladó memóriamodullal: http://www.ebay.com/itm/4D554-X1560-Dell-RAID-Memory-256MB-PC2-3200R-CL… ? Csak ez a fajta jó. A típusa: 4D554