[Megoldva] Diszkcsere - HP Smart Array P420

Sziasztok!

 

Raid6 alatt kiesett egy diszk, ki kellene cserélnem, de elakadtam.

A lentiek után hogyan tudom szabályosan kicserélni?

 

root@proxmox:~# ssacli ctrl slot=2 show detail

Smart Array P420 in Slot 2


Warning: Unrecoverable Media Errors Detected on Drives during previous Rebuild 
or Background Surface Analysis (ARM) scan. Errors will be fixed automatically
when the sector(s) are overwritten. Backup and Restore are recommended. The
following logical drives are affected: 1

   Bus Interface: PCI
   Slot: 2
   Serial Number: PDSXK0BRH8E32A
   Cache Serial Number: PBKUC0BRH8R431
   RAID 6 Status: Enabled
   Controller Status: OK
   Hardware Revision: B
   Firmware Version: 8.32
   Firmware Supports Online Firmware Activation: False
   Rebuild Priority: High
   Expand Priority: Medium
   Surface Scan Delay: 3 secs
   Surface Scan Mode: Idle
   Parallel Surface Scan Supported: No
   Queue Depth: Automatic
   Monitor and Performance Delay: 60  min
   Elevator Sort: Enabled
   Degraded Performance Optimization: Disabled
   Inconsistency Repair Policy: Disabled
   Wait for Cache Room: Disabled
   Surface Analysis Inconsistency Notification: Disabled
   Post Prompt Timeout: 15 secs
   Cache Board Present: True
   Cache Status: OK
   Cache Ratio: 50% Read / 50% Write
   Drive Write Cache: Enabled
   Total Cache Size: 1.0
   Total Cache Memory Available: 0.8
   Battery Backed Cache Size: 0.8
   No-Battery Write Cache: Disabled
   SSD Caching RAID5 WriteBack Enabled: False
   SSD Caching Version: 1
   Cache Backup Power Source: Capacitors
   Battery/Capacitor Count: 1
   Battery/Capacitor Status: OK
   SATA NCQ Supported: True
   Spare Activation Mode: Activate on physical drive failure (default)
   Controller Temperature (C): 88
   Cache Module Temperature (C): 42
   Capacitor Temperature  (C): 22
   Number of Ports: 2 Internal only
   Encryption: Not Set
   Driver Name: hpsa
   Driver Version: 3.4.20
   Driver Supports SSD Smart Path: True
   PCI Address (Domain:Bus:Device.Function): 0000:0A:00.0
   Port Max Phy Rate Limiting Supported: False
   Host Serial Number: CZ3440DCPD
   Sanitize Erase Supported: False
   Primary Boot Volume: None
   Secondary Boot Volume: None

 

root@proxmox:~# ssacli ctrl slot=2 ld 1 show status

   logicaldrive 1 (32.75 TB, RAID 6): Interim Recovery Mode

 

root@proxmox:~# ssacli controller slot=2 pd all show

Smart Array P420 in Slot 2

   Array A

      physicaldrive 2I:1:1 (port 2I:box 1:bay 1, SATA HDD, 3 TB, OK)
      physicaldrive 2I:1:2 (port 2I:box 1:bay 2, SATA HDD, 3 TB, OK)
      physicaldrive 2I:1:3 (port 2I:box 1:bay 3, SATA HDD, 3 TB, OK)
      physicaldrive 2I:1:4 (port 2I:box 1:bay 4, SATA HDD, 3 TB, OK)
      physicaldrive 2I:1:5 (port 2I:box 1:bay 5, SATA HDD, 3 TB, OK)
      physicaldrive 2I:1:6 (port 2I:box 1:bay 6, SATA HDD, 3 TB, OK)
      physicaldrive 2I:1:7 (port 2I:box 1:bay 7, SATA HDD, 3 TB, OK)
      physicaldrive 2I:1:8 (port 2I:box 1:bay 8, SATA HDD, 3 TB, OK)
      physicaldrive 2I:1:9 (port 2I:box 1:bay 9, SATA HDD, 3 TB, OK)
      physicaldrive 2I:1:10 (port 2I:box 1:bay 10, SATA, 0 GB, Failed)
      physicaldrive 2I:1:11 (port 2I:box 1:bay 11, SATA HDD, 3 TB, OK)
      physicaldrive 2I:1:12 (port 2I:box 1:bay 12, SATA HDD, 3 TB, OK)
      physicaldrive 2I:1:13 (port 2I:box 1:bay 13, SATA HDD, 3 TB, OK)
      physicaldrive 2I:1:14 (port 2I:box 1:bay 14, SATA HDD, 3 TB, OK)

 

root@proxmox:~# ssacli ctrl slot=2 array A remove drives=2I:1:10

Error: This operation is not supported with the current configuration. Use the 
       "show" command on devices to show additional details about the
       configuration.
       Reason: Array is transforming

 

 

Megoldás:

andrej_ tanácsát követve egyszerűen kivettem a régit, beraktam az újat. Elindult a rebuild.

 

Köszönöm!

Hozzászólások

Reason: Array is transforming

? ehhe? mit mire transformál éppen?

Erre én is kíváncsi lennék.

Múlt pénteken egy reboot után nem indult el az egyik diszk. Mostanra szereztem cseredarabot, de közben semmilyen műveletet nem végeztem. Ha esetleg valami rebuild elindult volna, annak is le kellet volna futnia. De mi indult volna el RAID6 konfig mellett, ha nem volt Spare diszk?

Nem kell remove. A rossz diszket kiveszed, a cserét betolod, és ő máris bepakolja a RAID tömbbe és indul a recovery.

A remove drive nem azt takarja itt, hogy csak úgy kiveszed, hanem hogy a tömböd méretét csökkented.

Egyébként milyen szerver, hogy egy porton 14db LFF diszked van?

Ahso, akkor ennyire expanderes a történet. A transforming valszin csak hibás hibaüzi, ahogy adja magát rendesen cseréld és indítja a rebuildet. Cserediszked mindíg legyen kéznél, mert nem biztos, hogy könnyű szerezni. A hotspare sem rossz, de ott az történik, hogy amit hotspare-nek jelöltél arra újraépül, majd amikor kicseréled a hibás diszket, akkor megint azon újraépül, és a hotspare marad hotspare.

Hát azért a HP abból indul, hogy tudod mit csinálsz. :) A remove parancs az a tömb méret csökkentését jelenti, ami diszkhibás tömbnél nem nyerő egyébként sem. A hotswap meg azt jelenti, hogy fogod és cseréled. A parancssorból remove-nak egy hwraid-nél fel sem kell merülnie, direkt ilyen, hogy piffpáff lehessen cserélni, ne kelljen gondolkodni. Sőt, annyira "rebuild first" szokott lenni a policy, hogy szinte bármilyen oda megfelelő diszket betolsz máris indítja. Lehet az 4TB-s, raid tömb tagja régről, akármi, ami neki oda stimmel (SATA tömbbe SATA, és méretben minimum egyező) azzal ő nekiindul. Ez más gyártóknál is hasonló történet.

Bónusz infó, hogy nagyon egyszerű, bár roppant időigényes, a tömb bővítése. Ugyanis, ha úgy hozza a sors, akkor a 3T-s diszkeket egyesével (rebuildet értelem szerűen megvárva) nagyobbra cserélve ott lesz az extra hely, és a logicaldrive átméretezhető, a Linux pedig megtalálja a nagyobb blockdevet. Ezek után már csak az LVM-nek, vagy particiónak kell megmondani, hogy mi legyen.

Ez a G8-as vezérlő, a 26xxv1-v2 CPU-kkal volt, ezek nem mai gyerekek, szerintem már EoL. A G9-ek a P440-nel nem EoL-ok.

Egyébként a firmware a legújabb a vezérlőn, talán az ssacli lehet, hogy kevésbé új, de gyanítom, hogy ez a hibaüzenet nem vezérlő specifikus. :(

Volt korábban egy kondenzátor-hiba üzenet. Akkor azt olvastam valahol, hogy a firmware csere megoldja, ezért frissítettem. Nem oldotta meg csak kondenzátor csere, az is csak másodszorra, mert az első kondin rossz volt a hőmérő. Fel sem bootolt a gép már leállt a vélt túlmelegedés miatt :-)

Egyébként az ssacli sem túl régi, azt is akkoriban raktam fel:

 

root@proxmox:~# ssacli version

   SSACLI Version: 5.30.6.0 2022-01-05
   SOULAPI Version: 5.30.6.0 2022-01-05

Nem oldotta meg csak kondenzátor csere, az is csak másodszorra, mert az első kondin rossz volt a hőmérő. Fel sem bootolt a gép már leállt a vélt túlmelegedés miatt :-)

Ahogy nézem ezek a HP-k nem is amiatt válnak használhatatlan  ócskavas roncshalmazzá, mert ténylegesen tönkremennek. Hanem ezek miatt a kibaszott filléres hőmérséklet érzékelő szarok miatt, amik viszont garantáltan beszarnak. Teleszórják vele a gépet, pl. inlet air ambient szenzor, raid capacitor pack temp szenzor és más faszságok. Aztán ezek elkezdenek fals jelet adni, a gép összes fő alkotórésze hibátlan, de 1 ilyen elbaszódott jeladó miatt emergency leáll a milliós vas.... 

Ezt hol nézed? Elég sok HP szervert látok, láttam, meg üzemeltetek, de speciel hőmérséklet szenzor halál nem volt az elmúlt kb. 15 évben. Olyan volt egyszer, hogy a tápoknál a PDU kissé megkozmált, és gariztattam a vasat. z elemes cache modulok kihalása után  csak nagyrikán kotlik meg az FBWC modul, és akkor valahogy a NAND chip hal le, nem a kondipáros. Tápcsere szintén ritka, bár már volt 1-2, de igazából az előbbi pörkölödéses ügyön kívül, csak a kihaló diszkek cseréje van. Ez persze nem jelenti azt, hogy ne lenne használható garink, beszerzési forrásunk, illetve teljes taralék gépünk a használt típusokból, mert illúzióim sincsenek, hogy óhát sosem lesz gond.

Mennyire üzemeltetsz sok HP vasat egyébként?

Van ahol még a G7-es HP-k mennek prodban, éppen most megy a kivonásuk előkészítése. Ez lehet ciki, de mindenféle DC-kben járva azért nem 1-2 G7 és G8-asat látok, sőt még a villanybajnokok G5-ökkel (E55/56xx Xeon) is előfordulnak. A

Érdekesség, hogy egy ősrégi HP Netservert nemrég be kellett kapcsoljunk kollégával. Legalább 10 éve le volt állítva a sarokban, de ehhez képest pöccre indult. :) Tudom, régen minden jobb volt, erős izgalmi állapotban talán 1 szenzort beletettek.

6 HP DL380p G8-at üzemeltetek a mai napig (meg vagy 30 egyéb HP G6/G8-at), mindegyik 380 G8 azt írja, hogy valahol 2-5C között van az inlet temp, hiába rakom be egy 30+C-os szobába. Logot nem generál, hogy esetleg kiesne az op. tempből természetesen.

P420-al kapcsolatban meg az utóbbi időkben szinte csak problémák vannak. Reboot után korruptált egy RAID5 tömböt úgy, hogy nem lehetett sehogy sem megjavítani már rajta az fs-t (6 disk ML350p), az összes DL380p-ben reboot után korrupt lesz akármilyen tömb ha nem HP logós diszk kerül bele véletlen (amúgy mire számítottam?! -.-).

Random kezdenek lehalni az iLO-k, rendszerint ML310-ben, de van két ML350p is iLO hibás (feltételezem nand chip).