3ware RAID10 INOPERABLE

 ( Proci85 | 2019. február 17., vasárnap - 2:04 )

Sziasztok

3ware RAID kártyán 16 diszk lóg. Ebből 12db egy RAID10-t alkot.
A vezérlő minden előjel nélkül dobott egy ilyet: sd 0:0:1:0: WARNING: (0x06:0x002C): Command (0x8a) timed out, resetting card.

Ettől kezdve 3 HDD degraded státuszra váltott és a RAID10 INOPERABLE-re.
A 3 HDD uptime-ja nem indokolja a hibát, de azért kicseréltem másikra.
Az INOPERABLE miatt viszont semmit nem enged. Az INOPERABLE státusz szerintem nem indokolt, mert minden RAID1-nek van legalább 1 OK lába.

Kártya: 3ware Inc 9750 SAS2/SATA-II RAID PCIe (rev 05)
3 kilökött HDD: p11, p14, p20

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-1    OK             -       -       -       465.651   RiW    OFF    
u1    RAID-1    OK             -       -       -       474.964   RiW    ON     
u2    SPARE     OK             -       -       -       931.505   -      OFF    
u3    SPARE     OK             -       -       -       931.505   -      OFF    
u4    SPARE     OK             -       -       -       931.505   -      OFF    
u5    RAID-10   INOPERABLE     -       -       256K    5587.88   Ri     OFF    

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p8    OK             u0   465.76 GB SATA  -   /c0/e0/slt0  WDC WD5003ABYX-01WE 
p9    OK             u0   465.76 GB SATA  -   /c0/e0/slt1  WDC WD5003ABYX-01WE 
p10   OK             u5   931.51 GB SATA  -   /c0/e0/slt2  WDC WD1003FBYX-01Y7 
p11   OK             u4   931.51 GB SATA  -   /c0/e0/slt3  WDC WD1003FBYX-01Y7 
p12   OK             u5   931.51 GB SATA  -   /c0/e0/slt4  WDC WD1003FBYX-01Y7 
p13   OK             u5   931.51 GB SATA  -   /c0/e0/slt5  WDC WD1003FBYX-01Y7 
p14   OK             u2   931.51 GB SATA  -   /c0/e0/slt6  WDC WD1003FBYX-01Y7 
p15   OK             u5   931.51 GB SATA  -   /c0/e0/slt7  WDC WD1003FBYX-01Y7 
p16   OK             u5   931.51 GB SATA  -   /c0/e0/slt8  WDC WD1003FBYX-01Y7 
p17   OK             u5   931.51 GB SATA  -   /c0/e0/slt9  WDC WD1003FBYX-01Y7 
p18   OK             u5   931.51 GB SATA  -   /c0/e0/slt10 WDC WD1003FBYX-01Y7 
p19   OK             u5   931.51 GB SATA  -   /c0/e0/slt11 WDC WD1003FBYX-01Y7 
p20   OK             u3   931.51 GB SATA  -   /c0/e0/slt12 WDC WD1002FBYS-02A6 
p21   OK             u5   931.51 GB SATA  -   /c0/e0/slt13 WDC WD1003FBYX-01Y7 
p22   OK             u1   476.94 GB SATA  -   /c0/e0/slt14 Samsung SSD 850 PRO 
p23   OK             u1   476.94 GB SATA  -   /c0/e0/slt15 Samsung SSD 850 PRO 


# /tw_cli/x86_64/tw_cli /c0/u5 show all
/c0/u5 status = INOPERABLE
/c0/u5 is not rebuilding, its current state is INOPERABLE
/c0/u5 is not verifying, its current state is INOPERABLE
/c0/u5 is initialized.
/c0/u5 Write Cache = off
/c0/u5 Read Cache = Intelligent
/c0/u5 volume(s) = 1
/c0/u5 name =                      
/c0/u5 serial number = 3600125727246B00D8BE 
/c0/u5 Ignore ECC policy = on        
/c0/u5 Auto Verify Policy = off       
/c0/u5 Storsave Policy = balance     
/c0/u5 Command Queuing Policy = on        
/c0/u5 Rapid RAID Recovery setting = disable

Unit     UnitType  Status         %RCmpl  %V/I/M  VPort Stripe  Size(GB)
------------------------------------------------------------------------
u5       RAID-10   INOPERABLE     -       -       -     256K    5587.88   
u5-0     RAID-1    DEGRADED       -       -       -     -       -         
u5-0-0   DISK      OK             -       -       p10   -       931.312   
u5-0-1   DISK      DEGRADED       -       -       -     -       931.312   
u5-1     RAID-1    VERIFY-PAUSED  0%      -       -     -       -         
u5-1-0   DISK      OK             -       -       p12   -       931.312   
u5-1-1   DISK      OK             -       -       p13   -       931.312   
u5-2     RAID-1    INOPERABLE     -       -       -     -       -         
u5-2-0   DISK      DEGRADED       -       -       -     -       931.312   
u5-2-1   DISK      OK             -       -       p15   -       931.312   
u5-3     RAID-1    VERIFY-PAUSED  0%      -       -     -       -         
u5-3-0   DISK      OK             -       -       p16   -       931.312   
u5-3-1   DISK      OK             -       -       p17   -       931.312   
u5-4     RAID-1    VERIFY-PAUSED  0%      -       -     -       -         
u5-4-0   DISK      OK             -       -       p18   -       931.312   
u5-4-1   DISK      OK             -       -       p19   -       931.312   
u5-5     RAID-1    INOPERABLE     -       -       -     -       -         
u5-5-0   DISK      DEGRADED       -       -       -     -       931.312   
u5-5-1   DISK      OK             -       -       p21   -       931.312   
u5/v0    Volume    -              -       -       -     -       5587.88 

Nem engedi a rebuildet sem:

# /tw_cli/x86_64/tw_cli /c0/u5 start rebuild disk=14 ignoreECC
Sending rebuild start request to /c0/u5 on 1 disk(s) [14] ... Failed.
(0x0B:0x0033): Unit busy

Oké van backup, de nem incidens-1 másodperces. Jobb volna ezt helyreállítani.
Mi a fene lehet vele? Hogyan tudnám lebeszélni a makacsságáról és rebuildelni?
Köszönöm!

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

A 9750-t nem ismerem, de nekem az az erős gyanúm, hogy a kontroller a tömböt "két logikai rétegben" (6xRAID1)0 módjára kezeli. Ha ez így van, akkor először a belső tömböket kellene egyesével helyrehozni: u5-2 és u5-5.
Ha egyszerre esett ki a három diszk (táp rendben?), akkor lehet egyszerűen nincs meg ez a többszörös hibakezelő rutin a firmware szintjén.
Próbáld meg esetleg, hogy tudod-e csak az u5-2 -t újraépíttetni.
Illetve a logot érdemes átnézni, mert a 3ware huncut, nem mindig jelzi ki a tükröknél, ha mindkettő behalt és emiatt nincs honnan visszaépíteni a kiesettnek jelzettet.