HP cciss P410 - Interim recovery mode

Környezet: HP Proliant ML350 G6, HP SmartArray P410 512MB BBWC, 4x HP SAS 2.5" 10kRPM diszk RAID5-ben

Nyertünk ma délelőtt NFS műveletek közben egy kernel panicot. Toltunk egy rebootot, látszólag minden működik, azonban a kontroller valami érdekes állapotba ragadt be. A hpacucli "show config detail" releváns részei:


Array: A
Interface Type: SAS
Unused Space: 0 MB
Status: Failed Physical Drive

One of the drives on this array have failed or has been removed.

Logical Drive: 1
Size: 838.1 GB
Fault Tolerance: RAID 5
Heads: 255
Sectors Per Track: 63
Cylinders: 65535
Strip Size: 64 KB
Status: Interim Recovery Mode
Array Accelerator: Enabled
Parity Initialization Status: Initialization Completed
Unique Identifier: 600508B1001052395359584347490500
Disk Name: /dev/sda
Mount Points: / 7.5 GB, swap 976 MB, /opt 827.0 GB
Logical Drive Label: A022CCFEPACCR9SYXCGI6174

ugyanakkor:


array A (SAS, Unused Space: 0 MB)

logicaldrive 1 (838.1 GB, RAID 5, Interim Recovery Mode)

physicaldrive 0:0 (box 0:bay 0, SAS, 300 GB, OK)
physicaldrive 0:0 (box 0:bay 0, SAS, 300 GB, OK)
physicaldrive 0:0 (box 0:bay 0, SAS, 300 GB, OK)
physicaldrive 0:0 (box 0:bay 0, SAS, 300 GB, OK)

Namost, ilyenkor WTF?

Hozzászólások

Ilyenkor szoktam mondani a kedves ügyfélnek, hogy akkor tessék hívni a supportot...

A "physicaldrive 0:0-ként" hibát talán 7.08 -tól javítja a firmware, 7.18 -cal már tuti jó. Addig nekem is csak E200-on mutatta jól, de azóta mindegyik kafa.

Szerk: a last failure az meg csak az, hogy az utolsó hiba mi volt. Hibásnak jelölte. De az nem jelenti azt, hogy "még mindig az"!
tudod: "Engem gyíkká változtatott! . . . De már elmúlt!" :-)

> A "physicaldrive 0:0-ként" hibát talán 7.08 -tól javítja a firmware, 7.18 -cal már tuti jó.

Huncut ez a verziószámozás, mert nálam 3.66-os firmware van, és a hp.com szerint a legfrissebb firmware az 5.14 (2012 január 16)

Sebaj, van 3 egyforma kontrollerem, az egyikre rátolom tesztelés célzattal, aztán majd meglátjuk...

> Szerk: a last failure az meg csak az, hogy az utolsó hiba mi volt. Hibásnak jelölte. De
> az nem jelenti azt, hogy "még mindig az"!

Ühüm. Én most mindenesetre kitéptem a jelzett diszket, és beletömtem a polcról egy cold sparet. Hamarosan befejezi a recoveryt, aztán meglássuk...

A nemzetközi helyzet fokozódik. Szépen ment a recovery az új diszkre, erre 93%-nál egy újabb diszk azt mondja, hogy:

HARDWARE IMPENDING FAILURE GENERAL HARD DRIVE FAILURE [asc=5d, ascq=10]

Namost, mint tudjuk, ugye RAID5-ből ha kipottyan a második diszk... Szerencsére ez még ténylegesen nem pottyant ki, hanem csak kattog, mint a vadállat... de közben szép lassan szinkronizál...

(Természetesen van mentés, de igazán szívesen kihagynám így éjjel 3:16-kor azt a wellness-programot, hogy mindent mentésből visszapofozni...)

Update 1 órával később: lefutott a recovery, ki lehet tépni az IMPENDING FAILURE-ös diszket... Pfuhh...

Hehe... Igen, ez mindig egy erdekes dilemma... Mi van ha megdoglik meg egy vinyo? A szepsege a dolognak, hogy ugy erzed minden adatod megvan, de igazabol nincsenek, mert mire lementened oket, meghal meg egy vinyo... Szoval lehet kezdeni a backupot de fontossagi sorrendben. Ennel meg szebb a dolog hot-spare eseten, mert hozza sem nyulsz es lerohad az egesz. Mindig jokedvet okoz.

Fejlemények pár órányi alvás után: just for sure: sikeresen lefutott egy soron kívüli teljes mentés, frissítettünk mindenben firmware-t, és elvileg hamarosan befutnak az új spare diszkek, mert nálam most hirtelen leürült a polc.

Van komplett másik alaplap-kontroller-backplane kombó bevethető állapotban, de mivel eddig sosem sikerült ilyen hibát produkálni, attól tartok, nem nagyon derülne ki belátható időn belül, hogy a cserétől jobb lett-e nekünk...

Erről van szó, ha kattog, akkor már lehet, h hülyeségeket olvas be...