Környezet: HP Proliant ML350 G6, HP SmartArray P410 512MB BBWC, 4x HP SAS 2.5" 10kRPM diszk RAID5-ben
Nyertünk ma délelőtt NFS műveletek közben egy kernel panicot. Toltunk egy rebootot, látszólag minden működik, azonban a kontroller valami érdekes állapotba ragadt be. A hpacucli "show config detail" releváns részei:
Array: A
Interface Type: SAS
Unused Space: 0 MB
Status: Failed Physical Drive
One of the drives on this array have failed or has been removed.
Logical Drive: 1
Size: 838.1 GB
Fault Tolerance: RAID 5
Heads: 255
Sectors Per Track: 63
Cylinders: 65535
Strip Size: 64 KB
Status: Interim Recovery Mode
Array Accelerator: Enabled
Parity Initialization Status: Initialization Completed
Unique Identifier: 600508B1001052395359584347490500
Disk Name: /dev/sda
Mount Points: / 7.5 GB, swap 976 MB, /opt 827.0 GB
Logical Drive Label: A022CCFEPACCR9SYXCGI6174
ugyanakkor:
array A (SAS, Unused Space: 0 MB)
logicaldrive 1 (838.1 GB, RAID 5, Interim Recovery Mode)
physicaldrive 0:0 (box 0:bay 0, SAS, 300 GB, OK)
physicaldrive 0:0 (box 0:bay 0, SAS, 300 GB, OK)
physicaldrive 0:0 (box 0:bay 0, SAS, 300 GB, OK)
physicaldrive 0:0 (box 0:bay 0, SAS, 300 GB, OK)
Namost, ilyenkor WTF?
- 3062 megtekintés
Hozzászólások
Ilyenkor szoktam mondani a kedves ügyfélnek, hogy akkor tessék hívni a supportot...
- A hozzászóláshoz be kell jelentkezni
alaplap/backplane csere
- A hozzászóláshoz be kell jelentkezni
szerintem előtte egy hpaducli és megnézni melyik disket "dobta ki" vagy melyik disket húzta ki, dugta vissza egy vicces kolléga?
IMHO újraépült az a tömb.
- A hozzászóláshoz be kell jelentkezni
valóban,a tömb újraépült, az összes disket használja is, kérdés hogy meddig.
- A hozzászóláshoz be kell jelentkezni
Nincs vicces kolléga. Hacsak be nem szivárgott valaki a kulcslyukon :)
- A hozzászóláshoz be kell jelentkezni
Megvan a hiba. Hülye a kontroller. Tudnillik, a "hpacucli show diag" alapján, (logikusan) négy különböző diszk Serial Number van, és az egyik diszk döglöttnek látszik:
Drive Model HP EG0300FARTT
Drive Serial Number D001P9C08HGU0952
Last Failure Reason No Failure (0x00)
Drive Model HP DG0300FAMWN
Drive Serial Number 3SE14NZY00009013U4QU
Last Failure Reason Mark Bad Failed (0x05)
Drive Model HP DG0300FAMWN
Drive Serial Number 3SE14NRX000090140P0Z
Last Failure Reason No Failure (0x00)
Drive Model HP DG0300FAMWN
Drive Serial Number 3SE125VH00009013F9AT
Last Failure Reason No Failure (0x00)
Ellenben, a "hpacucli show config detail" alapján, van négy jó diszk, és LOL! mindnek ugyanaz a Serial Numbere:
physicaldrive 0:0
Box: 0
Bay: 0
Status: OK
Drive Type: Data Drive
Interface Type: SAS
Size: 300 GB
Rotational Speed: 10000
Firmware Revision: HPD5
Serial Number: D001P9C08HGU0952
Model: HP EG0300FARTT
physicaldrive 0:0
Box: 0
Bay: 0
Status: OK
Drive Type: Data Drive
Interface Type: SAS
Size: 300 GB
Rotational Speed: 10000
Firmware Revision: HPD5
Serial Number: D001P9C08HGU0952
Model: HP EG0300FARTT
physicaldrive 0:0
Box: 0
Bay: 0
Status: OK
Drive Type: Data Drive
Interface Type: SAS
Size: 300 GB
Rotational Speed: 10000
Firmware Revision: HPD5
Serial Number: D001P9C08HGU0952
Model: HP EG0300FARTT
physicaldrive 0:0
Box: 0
Bay: 0
Status: OK
Drive Type: Data Drive
Interface Type: SAS
Size: 300 GB
Rotational Speed: 10000
Firmware Revision: HPD5
Serial Number: D001P9C08HGU0952
Model: HP EG0300FARTT
Szóval ennyi. Már mehetek is diszket cserélni, f*ck! (45 km)
PS: azt már meg sem merem kérdezni, hogy vajon miért látszik mind a négy diszk physicaldrive 0:0-ként. Valószínűleg a "show config" is azért beszél zöldséget, mert id alapján akarja megkülönböztetni az eszközöket, és ugyanazt az eszközt kapja négyszer...
- A hozzászóláshoz be kell jelentkezni
A "physicaldrive 0:0-ként" hibát talán 7.08 -tól javítja a firmware, 7.18 -cal már tuti jó. Addig nekem is csak E200-on mutatta jól, de azóta mindegyik kafa.
Szerk: a last failure az meg csak az, hogy az utolsó hiba mi volt. Hibásnak jelölte. De az nem jelenti azt, hogy "még mindig az"!
tudod: "Engem gyíkká változtatott! . . . De már elmúlt!" :-)
- A hozzászóláshoz be kell jelentkezni
> A "physicaldrive 0:0-ként" hibát talán 7.08 -tól javítja a firmware, 7.18 -cal már tuti jó.
Huncut ez a verziószámozás, mert nálam 3.66-os firmware van, és a hp.com szerint a legfrissebb firmware az 5.14 (2012 január 16)
Sebaj, van 3 egyforma kontrollerem, az egyikre rátolom tesztelés célzattal, aztán majd meglátjuk...
> Szerk: a last failure az meg csak az, hogy az utolsó hiba mi volt. Hibásnak jelölte. De
> az nem jelenti azt, hogy "még mindig az"!
Ühüm. Én most mindenesetre kitéptem a jelzett diszket, és beletömtem a polcról egy cold sparet. Hamarosan befejezi a recoveryt, aztán meglássuk...
- A hozzászóláshoz be kell jelentkezni
A nemzetközi helyzet fokozódik. Szépen ment a recovery az új diszkre, erre 93%-nál egy újabb diszk azt mondja, hogy:
HARDWARE IMPENDING FAILURE GENERAL HARD DRIVE FAILURE [asc=5d, ascq=10]
Namost, mint tudjuk, ugye RAID5-ből ha kipottyan a második diszk... Szerencsére ez még ténylegesen nem pottyant ki, hanem csak kattog, mint a vadállat... de közben szép lassan szinkronizál...
(Természetesen van mentés, de igazán szívesen kihagynám így éjjel 3:16-kor azt a wellness-programot, hogy mindent mentésből visszapofozni...)
Update 1 órával később: lefutott a recovery, ki lehet tépni az IMPENDING FAILURE-ös diszket... Pfuhh...
- A hozzászóláshoz be kell jelentkezni
Hehe... Igen, ez mindig egy erdekes dilemma... Mi van ha megdoglik meg egy vinyo? A szepsege a dolognak, hogy ugy erzed minden adatod megvan, de igazabol nincsenek, mert mire lementened oket, meghal meg egy vinyo... Szoval lehet kezdeni a backupot de fontossagi sorrendben. Ennel meg szebb a dolog hot-spare eseten, mert hozza sem nyulsz es lerohad az egesz. Mindig jokedvet okoz.
- A hozzászóláshoz be kell jelentkezni
Továbbra is javaslom a backplane/alaplap cseréjét. Előtte természetesen teljes mentés (ha még lehetséges).
- A hozzászóláshoz be kell jelentkezni
Fejlemények pár órányi alvás után: just for sure: sikeresen lefutott egy soron kívüli teljes mentés, frissítettünk mindenben firmware-t, és elvileg hamarosan befutnak az új spare diszkek, mert nálam most hirtelen leürült a polc.
Van komplett másik alaplap-kontroller-backplane kombó bevethető állapotban, de mivel eddig sosem sikerült ilyen hibát produkálni, attól tartok, nem nagyon derülne ki belátható időn belül, hogy a cserétől jobb lett-e nekünk...
- A hozzászóláshoz be kell jelentkezni
Drive Model HP EG0300FARTT <-- :D
{0} ok boto
boto ?
- A hozzászóláshoz be kell jelentkezni
Erről van szó, ha kattog, akkor már lehet, h hülyeségeket olvas be...
- A hozzászóláshoz be kell jelentkezni