diszk csere IBM Elastic Storage Server alatt

nagyon egyszeru, es pont ezert gondoltam, hogy lebloggolom. ceph alatt azert ennel egyelore bonyibb :)

van egy ~1.2PB-s all flash ESS clusterunk, amiben fokent a toshiba diszkek halnak el. miota megvan szerintem kb 5% korul csereltuk a diszkeket.

na, de nezzuk hogy megy:

nezzuk meg milyen diszke(ke)t kell cserelni:

[root@bb1gssio1 ~]# mmlspdisk all --replace
pdisk:
replacementPriority = 1.00
name = "e4s01"
device = "//bb3gssio2.ess.i.zc2/dev/sdb(notEnabled/closed),//bb3gssio2.ess.i.zc2/dev/sdct(notEnabled/closed),//bb3gssio1.ess.i.zc2/dev/sdb(inactive/closed),//bb3gssio1.ess.i.zc2/dev/sdct(inactive/closed)"
recoveryGroup = "rg_bb3gssio1"
declusteredArray = "DA1"
state = "failing/replace"
internalState = 10009.1e0
capacity = 3839700762624
freeSpace = 3837553278976
fru = "01EJ599"
location = "G77E009-1"
WWN = "naa.50000397AC8A023D"
server = "bb3gssio1"
reads = 2715697602
writes = 3464936746
bytesReadInGiB = 746551.969
bytesWrittenInGiB = 1027060.338
IOErrors = 45
IOTimeouts = 33
mediaErrors = 0
checksumErrors = 0
pathErrors = 0
relativePerformance = 0.995
dataBadness = 0.000
rgIndex = 23
userLocation = "Rack rack-storage2 U23-24, Enclosure 5147-024-G77E009 Drive 1"
hardware = "IBM-E051 PX05SRB384 6402 37C0A083TQJE"
hardwareType = SSD
nPaths = 0 active 2 total
nsdFormatVersion = 2
paxosAreaOffset = 3840751656960
paxosAreaSize = 4194304
logicalBlockSize = 512
ssdEndurancePercentage =

azt mondjuk neki, hogy cserelnenk:

[root@bb1gssio1 ~]# mmchcarrier rg_bb3gssio1 --release --pdisk 'e4s01'
Suspending pdisk e4s01 of RG rg_bb3gssio1 in location G77E009-1.
Location G77E009-1 is Rack rack-storage2 U23-24, Enclosure 5147-024-G77E009 Drive 1.
Carrier released.

- Remove carrier.
- Replace disk in location G77E009-1 with type '01EJ599'.
- Reinsert carrier.
- Issue the following command:

mmchcarrier rg_bb3gssio1 --replace --pdisk 'e4s01'
[root@bb1gssio1 ~]#

majd odaslattyogok, kicserelem a diszket, es utana azt mondom neki, hogy kesz:

[root@bb1gssio1 ~]# mmchcarrier rg_bb3gssio1 --replace --pdisk 'e4s01'

mmchcarrier : [I] Preparing a new pdisk for use may take many minutes.

Attempting to update firmware if necessary. Failure will not prevent drive replacement.
bb3gssio1: [I] No firmware files were found for /dev/sg109, product ID MZILT3T8HBLS, skipping firmware update.
mmchfirmware: Command failed. Examine previous error messages to determine cause.
Command: err 1: mmchfirmware --type drive --serial-number CGXFV2120RB02213 --new-pdisk

The following pdisks will be formatted on node bb3gssio1:
//bb3gssio2.ess.i.zc2/dev/sdb,//bb3gssio2.ess.i.zc2/dev/sdct,//bb3gssio1.ess.i.zc2/dev/sdb,//bb3gssio1.ess.i.zc2/dev/sdct
Pdisk e4s01 of RG rg_bb3gssio1 successfully replaced.
Resuming pdisk e4s01#0023 of RG rg_bb3gssio1.
Carrier resumed.
[root@bb1gssio1 ~]#

kesz, orom, bodotta.

NagyZ blogja
A hozzászóláshoz be kell jelentkezni
362 megtekintés

A Toshiba disk az Kioxia?

Látom igen.

Hogyan halnak be? Egyszer csak nem válaszol?

Kioxia SSD-vel az utóbbi időben elég drága laptopokban találkoztam.

Samsung SSD-nél már láttam olyan, hogy bad sector lett rajta.

"Jegyezze fel a vádhoz - utasította Metcalf őrnagy a tizedest, aki tudott gyorsírni. - Tiszteletlenül beszélt a feljebbvalójával, amikor nem pofázott közbe."

0 szavazat

A hozzászóláshoz be kell jelentkezni

samsung 870 EVO-nak van kint 2021 november környékén gyártott szériája, ami a google keresések szerint hajlamos fosni magából a badsectorokat. Jött rá firmware update, ami elvileg megoldja a hibát, de ha ezt mar csak a badsectorok megjelenése után rakod fel, a probléma terjedését csak negállítani tudja, visszafordítani már nem.

0 szavazat

A hozzászóláshoz be kell jelentkezni

PX05SRB384 - ez szerintem meg Toshiba brand alatt ment, a Kioxia utana jott.

a hogyan halnak bet nem tudom, ez egy enterprise storage, szol, hogy szar a diszk, en rendelek ujat, es kicserelem :-)

illetve ennyit tudok:

IOErrors = 45
IOTimeouts = 33

0 szavazat

A hozzászóláshoz be kell jelentkezni

Kioxia SSD-kkel is vannak bajok.

Oldschool Computer - http://oscomp.hu

0 szavazat

A hozzászóláshoz be kell jelentkezni

Meglepő, hogy egy gyári storage esetén kézzel kell bohóckodni diszkcserénél obskurus parancsokkal. Nálam egy diszkcsere kb. ez szokott lenni:

Értesítés jön, hogy elhalt egy lemez
(beugrik az online spare)
Valaki odamegy a rackekhez, megnézi melyik diszk világít sárgán
Kihúzza, bedugja az újat
Elfelejtettük dolgot

Az előnye: egy smart hand is el tudja végezni a feladatot

trey @ gépház

0 szavazat

A hozzászóláshoz be kell jelentkezni

van olyan storageom is, ahol ez a process, amit irsz; az ESS nem ilyen, kicsit nehezebb uzemeltetni, cserebe ki lehet taposni belole barmit (RHEL + GPFS fut rajta).

de mondom, ne azzal hasonlitsd ossze, hanem egy ODF/RHCS alatti diszkcserevel. ahhoz kepest ez sima egyszeruseg...

0 szavazat