Sziasztok!
Raid6 alatt kiesett egy diszk, ki kellene cserélnem, de elakadtam.
A lentiek után hogyan tudom szabályosan kicserélni?
root@proxmox:~# ssacli ctrl slot=2 show detail
Smart Array P420 in Slot 2
Warning: Unrecoverable Media Errors Detected on Drives during previous Rebuild
or Background Surface Analysis (ARM) scan. Errors will be fixed automatically
when the sector(s) are overwritten. Backup and Restore are recommended. The
following logical drives are affected: 1
Bus Interface: PCI
Slot: 2
Serial Number: PDSXK0BRH8E32A
Cache Serial Number: PBKUC0BRH8R431
RAID 6 Status: Enabled
Controller Status: OK
Hardware Revision: B
Firmware Version: 8.32
Firmware Supports Online Firmware Activation: False
Rebuild Priority: High
Expand Priority: Medium
Surface Scan Delay: 3 secs
Surface Scan Mode: Idle
Parallel Surface Scan Supported: No
Queue Depth: Automatic
Monitor and Performance Delay: 60 min
Elevator Sort: Enabled
Degraded Performance Optimization: Disabled
Inconsistency Repair Policy: Disabled
Wait for Cache Room: Disabled
Surface Analysis Inconsistency Notification: Disabled
Post Prompt Timeout: 15 secs
Cache Board Present: True
Cache Status: OK
Cache Ratio: 50% Read / 50% Write
Drive Write Cache: Enabled
Total Cache Size: 1.0
Total Cache Memory Available: 0.8
Battery Backed Cache Size: 0.8
No-Battery Write Cache: Disabled
SSD Caching RAID5 WriteBack Enabled: False
SSD Caching Version: 1
Cache Backup Power Source: Capacitors
Battery/Capacitor Count: 1
Battery/Capacitor Status: OK
SATA NCQ Supported: True
Spare Activation Mode: Activate on physical drive failure (default)
Controller Temperature (C): 88
Cache Module Temperature (C): 42
Capacitor Temperature (C): 22
Number of Ports: 2 Internal only
Encryption: Not Set
Driver Name: hpsa
Driver Version: 3.4.20
Driver Supports SSD Smart Path: True
PCI Address (Domain:Bus:Device.Function): 0000:0A:00.0
Port Max Phy Rate Limiting Supported: False
Host Serial Number: CZ3440DCPD
Sanitize Erase Supported: False
Primary Boot Volume: None
Secondary Boot Volume: None
root@proxmox:~# ssacli ctrl slot=2 ld 1 show status
logicaldrive 1 (32.75 TB, RAID 6): Interim Recovery Mode
root@proxmox:~# ssacli controller slot=2 pd all show
Smart Array P420 in Slot 2
Array A
physicaldrive 2I:1:1 (port 2I:box 1:bay 1, SATA HDD, 3 TB, OK)
physicaldrive 2I:1:2 (port 2I:box 1:bay 2, SATA HDD, 3 TB, OK)
physicaldrive 2I:1:3 (port 2I:box 1:bay 3, SATA HDD, 3 TB, OK)
physicaldrive 2I:1:4 (port 2I:box 1:bay 4, SATA HDD, 3 TB, OK)
physicaldrive 2I:1:5 (port 2I:box 1:bay 5, SATA HDD, 3 TB, OK)
physicaldrive 2I:1:6 (port 2I:box 1:bay 6, SATA HDD, 3 TB, OK)
physicaldrive 2I:1:7 (port 2I:box 1:bay 7, SATA HDD, 3 TB, OK)
physicaldrive 2I:1:8 (port 2I:box 1:bay 8, SATA HDD, 3 TB, OK)
physicaldrive 2I:1:9 (port 2I:box 1:bay 9, SATA HDD, 3 TB, OK)
physicaldrive 2I:1:10 (port 2I:box 1:bay 10, SATA, 0 GB, Failed)
physicaldrive 2I:1:11 (port 2I:box 1:bay 11, SATA HDD, 3 TB, OK)
physicaldrive 2I:1:12 (port 2I:box 1:bay 12, SATA HDD, 3 TB, OK)
physicaldrive 2I:1:13 (port 2I:box 1:bay 13, SATA HDD, 3 TB, OK)
physicaldrive 2I:1:14 (port 2I:box 1:bay 14, SATA HDD, 3 TB, OK)
root@proxmox:~# ssacli ctrl slot=2 array A remove drives=2I:1:10
Error: This operation is not supported with the current configuration. Use the
"show" command on devices to show additional details about the
configuration.
Reason: Array is transforming
Megoldás:
andrej_ tanácsát követve egyszerűen kivettem a régit, beraktam az újat. Elindult a rebuild.
Köszönöm!
- 522 megtekintés
Hozzászólások
Reason: Array is transforming
? ehhe? mit mire transformál éppen?
- A hozzászóláshoz be kell jelentkezni
Erre én is kíváncsi lennék.
Múlt pénteken egy reboot után nem indult el az egyik diszk. Mostanra szereztem cseredarabot, de közben semmilyen műveletet nem végeztem. Ha esetleg valami rebuild elindult volna, annak is le kellet volna futnia. De mi indult volna el RAID6 konfig mellett, ha nem volt Spare diszk?
- A hozzászóláshoz be kell jelentkezni
Nem kell remove. A rossz diszket kiveszed, a cserét betolod, és ő máris bepakolja a RAID tömbbe és indul a recovery.
A remove drive nem azt takarja itt, hogy csak úgy kiveszed, hanem hogy a tömböd méretét csökkented.
Egyébként milyen szerver, hogy egy porton 14db LFF diszked van?
- A hozzászóláshoz be kell jelentkezni
DL380e Gen8 12LFF +2 Rear Drive Bays.
- A hozzászóláshoz be kell jelentkezni
Ahso, akkor ennyire expanderes a történet. A transforming valszin csak hibás hibaüzi, ahogy adja magát rendesen cseréld és indítja a rebuildet. Cserediszked mindíg legyen kéznél, mert nem biztos, hogy könnyű szerezni. A hotspare sem rossz, de ott az történik, hogy amit hotspare-nek jelöltél arra újraépül, majd amikor kicseréled a hibás diszket, akkor megint azon újraépül, és a hotspare marad hotspare.
- A hozzászóláshoz be kell jelentkezni
A transforming valszin csak hibás hibaüzi,
HP.... mert így szeretem...
- A hozzászóláshoz be kell jelentkezni
Hát azért a HP abból indul, hogy tudod mit csinálsz. :) A remove parancs az a tömb méret csökkentését jelenti, ami diszkhibás tömbnél nem nyerő egyébként sem. A hotswap meg azt jelenti, hogy fogod és cseréled. A parancssorból remove-nak egy hwraid-nél fel sem kell merülnie, direkt ilyen, hogy piffpáff lehessen cserélni, ne kelljen gondolkodni. Sőt, annyira "rebuild first" szokott lenni a policy, hogy szinte bármilyen oda megfelelő diszket betolsz máris indítja. Lehet az 4TB-s, raid tömb tagja régről, akármi, ami neki oda stimmel (SATA tömbbe SATA, és méretben minimum egyező) azzal ő nekiindul. Ez más gyártóknál is hasonló történet.
Bónusz infó, hogy nagyon egyszerű, bár roppant időigényes, a tömb bővítése. Ugyanis, ha úgy hozza a sors, akkor a 3T-s diszkeket egyesével (rebuildet értelem szerűen megvárva) nagyobbra cserélve ott lesz az extra hely, és a logicaldrive átméretezhető, a Linux pedig megtalálja a nagyobb blockdevet. Ezek után már csak az LVM-nek, vagy particiónak kell megmondani, hogy mi legyen.
- A hozzászóláshoz be kell jelentkezni
Nem, félreértesz.
A megjegyzés a félrevezető/átverős "transforming"-ra vonatkozott. Tudtommal semmi keresnivalója nincs a transforming-nak egy degraded/re-sync jellegű hibánál.
- A hozzászóláshoz be kell jelentkezni
Hát nincs. Nagyobb bajunk ne legyen.
- A hozzászóláshoz be kell jelentkezni
Ez a p420 talán még nem end-of-life, akkor pedig az ilyen szívmegállást okozó üzeneteket kutyakötelességük lenne kijavítani benne.
- A hozzászóláshoz be kell jelentkezni
Ez a G8-as vezérlő, a 26xxv1-v2 CPU-kkal volt, ezek nem mai gyerekek, szerintem már EoL. A G9-ek a P440-nel nem EoL-ok.
Egyébként a firmware a legújabb a vezérlőn, talán az ssacli lehet, hogy kevésbé új, de gyanítom, hogy ez a hibaüzenet nem vezérlő specifikus. :(
- A hozzászóláshoz be kell jelentkezni
Volt korábban egy kondenzátor-hiba üzenet. Akkor azt olvastam valahol, hogy a firmware csere megoldja, ezért frissítettem. Nem oldotta meg csak kondenzátor csere, az is csak másodszorra, mert az első kondin rossz volt a hőmérő. Fel sem bootolt a gép már leállt a vélt túlmelegedés miatt :-)
Egyébként az ssacli sem túl régi, azt is akkoriban raktam fel:
root@proxmox:~# ssacli version
SSACLI Version: 5.30.6.0 2022-01-05
SOULAPI Version: 5.30.6.0 2022-01-05
- A hozzászóláshoz be kell jelentkezni
Legalább ezek már FBWC-s gépek, amíg BBWC, azaz egy ni-mh elempakk volt, hát addig voltak csodák. :) A törédéke az akksiprobléma már FBWC-vel.
- A hozzászóláshoz be kell jelentkezni
Nem oldotta meg csak kondenzátor csere, az is csak másodszorra, mert az első kondin rossz volt a hőmérő. Fel sem bootolt a gép már leállt a vélt túlmelegedés miatt :-)
Ahogy nézem ezek a HP-k nem is amiatt válnak használhatatlan ócskavas roncshalmazzá, mert ténylegesen tönkremennek. Hanem ezek miatt a kibaszott filléres hőmérséklet érzékelő szarok miatt, amik viszont garantáltan beszarnak. Teleszórják vele a gépet, pl. inlet air ambient szenzor, raid capacitor pack temp szenzor és más faszságok. Aztán ezek elkezdenek fals jelet adni, a gép összes fő alkotórésze hibátlan, de 1 ilyen elbaszódott jeladó miatt emergency leáll a milliós vas....
- A hozzászóláshoz be kell jelentkezni
Ezt hol nézed? Elég sok HP szervert látok, láttam, meg üzemeltetek, de speciel hőmérséklet szenzor halál nem volt az elmúlt kb. 15 évben. Olyan volt egyszer, hogy a tápoknál a PDU kissé megkozmált, és gariztattam a vasat. z elemes cache modulok kihalása után csak nagyrikán kotlik meg az FBWC modul, és akkor valahogy a NAND chip hal le, nem a kondipáros. Tápcsere szintén ritka, bár már volt 1-2, de igazából az előbbi pörkölödéses ügyön kívül, csak a kihaló diszkek cseréje van. Ez persze nem jelenti azt, hogy ne lenne használható garink, beszerzési forrásunk, illetve teljes taralék gépünk a használt típusokból, mert illúzióim sincsenek, hogy óhát sosem lesz gond.
Mennyire üzemeltetsz sok HP vasat egyébként?
Van ahol még a G7-es HP-k mennek prodban, éppen most megy a kivonásuk előkészítése. Ez lehet ciki, de mindenféle DC-kben járva azért nem 1-2 G7 és G8-asat látok, sőt még a villanybajnokok G5-ökkel (E55/56xx Xeon) is előfordulnak. A
Érdekesség, hogy egy ősrégi HP Netservert nemrég be kellett kapcsoljunk kollégával. Legalább 10 éve le volt állítva a sarokban, de ehhez képest pöccre indult. :) Tudom, régen minden jobb volt, erős izgalmi állapotban talán 1 szenzort beletettek.
- A hozzászóláshoz be kell jelentkezni
6 HP DL380p G8-at üzemeltetek a mai napig (meg vagy 30 egyéb HP G6/G8-at), mindegyik 380 G8 azt írja, hogy valahol 2-5C között van az inlet temp, hiába rakom be egy 30+C-os szobába. Logot nem generál, hogy esetleg kiesne az op. tempből természetesen.
P420-al kapcsolatban meg az utóbbi időkben szinte csak problémák vannak. Reboot után korruptált egy RAID5 tömböt úgy, hogy nem lehetett sehogy sem megjavítani már rajta az fs-t (6 disk ML350p), az összes DL380p-ben reboot után korrupt lesz akármilyen tömb ha nem HP logós diszk kerül bele véletlen (amúgy mire számítottam?! -.-).
Random kezdenek lehalni az iLO-k, rendszerint ML310-ben, de van két ML350p is iLO hibás (feltételezem nand chip).
- A hozzászóláshoz be kell jelentkezni
Gondolom minden firmware a legfrissebb, és így jöttek ezek elő. Érdekes, a hasonló számú G7/G8/G9-esekkel, van 360-as is benne, nem voltak bajok. Gyorsan rákerestem, igaz az G6, de olyat is javasolnak, hogy reconnect cable to front panel, és ebben lehet valami.
- A hozzászóláshoz be kell jelentkezni