HP cciss P410 - Interim recovery mode

Környezet: HP Proliant ML350 G6, HP SmartArray P410 512MB BBWC, 4x HP SAS 2.5" 10kRPM diszk RAID5-ben

Nyertünk ma délelőtt NFS műveletek közben egy kernel panicot. Toltunk egy rebootot, látszólag minden működik, azonban a kontroller valami érdekes állapotba ragadt be. A hpacucli "show config detail" releváns részei:


Array: A
Interface Type: SAS
Unused Space: 0 MB
Status: Failed Physical Drive

One of the drives on this array have failed or has been removed.

Logical Drive: 1
Size: 838.1 GB
Fault Tolerance: RAID 5
Heads: 255
Sectors Per Track: 63
Cylinders: 65535
Strip Size: 64 KB
Status: Interim Recovery Mode
Array Accelerator: Enabled
Parity Initialization Status: Initialization Completed
Unique Identifier: 600508B1001052395359584347490500
Disk Name: /dev/sda
Mount Points: / 7.5 GB, swap 976 MB, /opt 827.0 GB
Logical Drive Label: A022CCFEPACCR9SYXCGI6174

ugyanakkor:


array A (SAS, Unused Space: 0 MB)

logicaldrive 1 (838.1 GB, RAID 5, Interim Recovery Mode)

physicaldrive 0:0 (box 0:bay 0, SAS, 300 GB, OK)
physicaldrive 0:0 (box 0:bay 0, SAS, 300 GB, OK)
physicaldrive 0:0 (box 0:bay 0, SAS, 300 GB, OK)
physicaldrive 0:0 (box 0:bay 0, SAS, 300 GB, OK)

Namost, ilyenkor WTF?

Hozzászólások

Ilyenkor szoktam mondani a kedves ügyfélnek, hogy akkor tessék hívni a supportot...

Megvan a hiba. Hülye a kontroller. Tudnillik, a "hpacucli show diag" alapján, (logikusan) négy különböző diszk Serial Number van, és az egyik diszk döglöttnek látszik:

Drive Model HP EG0300FARTT
Drive Serial Number D001P9C08HGU0952
Last Failure Reason No Failure (0x00)

Drive Model HP DG0300FAMWN
Drive Serial Number 3SE14NZY00009013U4QU
Last Failure Reason Mark Bad Failed (0x05)

Drive Model HP DG0300FAMWN
Drive Serial Number 3SE14NRX000090140P0Z
Last Failure Reason No Failure (0x00)

Drive Model HP DG0300FAMWN
Drive Serial Number 3SE125VH00009013F9AT
Last Failure Reason No Failure (0x00)

Ellenben, a "hpacucli show config detail" alapján, van négy jó diszk, és LOL! mindnek ugyanaz a Serial Numbere:

physicaldrive 0:0
Box: 0
Bay: 0
Status: OK
Drive Type: Data Drive
Interface Type: SAS
Size: 300 GB
Rotational Speed: 10000
Firmware Revision: HPD5
Serial Number: D001P9C08HGU0952
Model: HP EG0300FARTT

physicaldrive 0:0
Box: 0
Bay: 0
Status: OK
Drive Type: Data Drive
Interface Type: SAS
Size: 300 GB
Rotational Speed: 10000
Firmware Revision: HPD5
Serial Number: D001P9C08HGU0952
Model: HP EG0300FARTT

physicaldrive 0:0
Box: 0
Bay: 0
Status: OK
Drive Type: Data Drive
Interface Type: SAS
Size: 300 GB
Rotational Speed: 10000
Firmware Revision: HPD5
Serial Number: D001P9C08HGU0952
Model: HP EG0300FARTT

physicaldrive 0:0
Box: 0
Bay: 0
Status: OK
Drive Type: Data Drive
Interface Type: SAS
Size: 300 GB
Rotational Speed: 10000
Firmware Revision: HPD5
Serial Number: D001P9C08HGU0952
Model: HP EG0300FARTT

Szóval ennyi. Már mehetek is diszket cserélni, f*ck! (45 km)

PS: azt már meg sem merem kérdezni, hogy vajon miért látszik mind a négy diszk physicaldrive 0:0-ként. Valószínűleg a "show config" is azért beszél zöldséget, mert id alapján akarja megkülönböztetni az eszközöket, és ugyanazt az eszközt kapja négyszer...

A "physicaldrive 0:0-ként" hibát talán 7.08 -tól javítja a firmware, 7.18 -cal már tuti jó. Addig nekem is csak E200-on mutatta jól, de azóta mindegyik kafa.

Szerk: a last failure az meg csak az, hogy az utolsó hiba mi volt. Hibásnak jelölte. De az nem jelenti azt, hogy "még mindig az"!
tudod: "Engem gyíkká változtatott! . . . De már elmúlt!" :-)

> A "physicaldrive 0:0-ként" hibát talán 7.08 -tól javítja a firmware, 7.18 -cal már tuti jó.

Huncut ez a verziószámozás, mert nálam 3.66-os firmware van, és a hp.com szerint a legfrissebb firmware az 5.14 (2012 január 16)

Sebaj, van 3 egyforma kontrollerem, az egyikre rátolom tesztelés célzattal, aztán majd meglátjuk...

> Szerk: a last failure az meg csak az, hogy az utolsó hiba mi volt. Hibásnak jelölte. De
> az nem jelenti azt, hogy "még mindig az"!

Ühüm. Én most mindenesetre kitéptem a jelzett diszket, és beletömtem a polcról egy cold sparet. Hamarosan befejezi a recoveryt, aztán meglássuk...

A nemzetközi helyzet fokozódik. Szépen ment a recovery az új diszkre, erre 93%-nál egy újabb diszk azt mondja, hogy:

HARDWARE IMPENDING FAILURE GENERAL HARD DRIVE FAILURE [asc=5d, ascq=10]

Namost, mint tudjuk, ugye RAID5-ből ha kipottyan a második diszk... Szerencsére ez még ténylegesen nem pottyant ki, hanem csak kattog, mint a vadállat... de közben szép lassan szinkronizál...

(Természetesen van mentés, de igazán szívesen kihagynám így éjjel 3:16-kor azt a wellness-programot, hogy mindent mentésből visszapofozni...)

Update 1 órával később: lefutott a recovery, ki lehet tépni az IMPENDING FAILURE-ös diszket... Pfuhh...

Hehe... Igen, ez mindig egy erdekes dilemma... Mi van ha megdoglik meg egy vinyo? A szepsege a dolognak, hogy ugy erzed minden adatod megvan, de igazabol nincsenek, mert mire lementened oket, meghal meg egy vinyo... Szoval lehet kezdeni a backupot de fontossagi sorrendben. Ennel meg szebb a dolog hot-spare eseten, mert hozza sem nyulsz es lerohad az egesz. Mindig jokedvet okoz.

Fejlemények pár órányi alvás után: just for sure: sikeresen lefutott egy soron kívüli teljes mentés, frissítettünk mindenben firmware-t, és elvileg hamarosan befutnak az új spare diszkek, mert nálam most hirtelen leürült a polc.

Van komplett másik alaplap-kontroller-backplane kombó bevethető állapotban, de mivel eddig sosem sikerült ilyen hibát produkálni, attól tartok, nem nagyon derülne ki belátható időn belül, hogy a cserétől jobb lett-e nekünk...

Erről van szó, ha kattog, akkor már lehet, h hülyeségeket olvas be...