diszk csere IBM Elastic Storage Server alatt

nagyon egyszeru, es pont ezert gondoltam, hogy lebloggolom. ceph alatt azert ennel egyelore bonyibb :)

van egy ~1.2PB-s all flash ESS clusterunk, amiben fokent a toshiba diszkek halnak el. miota megvan szerintem kb 5% korul csereltuk a diszkeket.

na, de nezzuk hogy megy:

nezzuk meg milyen diszke(ke)t kell cserelni:

[root@bb1gssio1 ~]# mmlspdisk all --replace
pdisk:
   replacementPriority = 1.00
   name = "e4s01"
   device = "//bb3gssio2.ess.i.zc2/dev/sdb(notEnabled/closed),//bb3gssio2.ess.i.zc2/dev/sdct(notEnabled/closed),//bb3gssio1.ess.i.zc2/dev/sdb(inactive/closed),//bb3gssio1.ess.i.zc2/dev/sdct(inactive/closed)"
   recoveryGroup = "rg_bb3gssio1"
   declusteredArray = "DA1"
   state = "failing/replace"
   internalState = 10009.1e0
   capacity  = 3839700762624
   freeSpace = 3837553278976
   fru = "01EJ599"
   location = "G77E009-1"
   WWN = "naa.50000397AC8A023D"
   server = "bb3gssio1"
   reads = 2715697602
   writes = 3464936746
   bytesReadInGiB = 746551.969
   bytesWrittenInGiB = 1027060.338
   IOErrors = 45
   IOTimeouts = 33
   mediaErrors = 0
   checksumErrors = 0
   pathErrors = 0
   relativePerformance = 0.995
   dataBadness = 0.000
   rgIndex = 23
   userLocation = "Rack rack-storage2 U23-24, Enclosure 5147-024-G77E009 Drive 1"
   hardware = "IBM-E051 PX05SRB384 6402 37C0A083TQJE"
   hardwareType = SSD
   nPaths = 0 active 2 total
   nsdFormatVersion = 2
   paxosAreaOffset = 3840751656960
   paxosAreaSize = 4194304
   logicalBlockSize = 512
   ssdEndurancePercentage =

azt mondjuk neki, hogy cserelnenk:

[root@bb1gssio1 ~]# mmchcarrier rg_bb3gssio1 --release --pdisk 'e4s01'
Suspending pdisk e4s01 of RG rg_bb3gssio1 in location G77E009-1.
Location G77E009-1 is Rack rack-storage2 U23-24, Enclosure 5147-024-G77E009 Drive 1.
Carrier released.

  - Remove carrier.
  - Replace disk in location G77E009-1 with type '01EJ599'.
  - Reinsert carrier.
  - Issue the following command:

      mmchcarrier rg_bb3gssio1 --replace --pdisk 'e4s01'
[root@bb1gssio1 ~]#

majd odaslattyogok, kicserelem a diszket, es utana azt mondom neki, hogy kesz:

[root@bb1gssio1 ~]# mmchcarrier rg_bb3gssio1 --replace --pdisk 'e4s01'

mmchcarrier : [I] Preparing a new pdisk for use may take many minutes.

Attempting to update firmware if necessary. Failure will not prevent drive replacement.
bb3gssio1: [I] No firmware files were found for /dev/sg109, product ID MZILT3T8HBLS, skipping firmware update.
mmchfirmware: Command failed. Examine previous error messages to determine cause.
Command: err 1: mmchfirmware --type drive --serial-number CGXFV2120RB02213 --new-pdisk

The following pdisks will be formatted on node bb3gssio1:
    //bb3gssio2.ess.i.zc2/dev/sdb,//bb3gssio2.ess.i.zc2/dev/sdct,//bb3gssio1.ess.i.zc2/dev/sdb,//bb3gssio1.ess.i.zc2/dev/sdct
Pdisk e4s01 of RG rg_bb3gssio1 successfully replaced.
Resuming pdisk e4s01#0023 of RG rg_bb3gssio1.
Carrier resumed.
[root@bb1gssio1 ~]#

kesz, orom, bodotta.

Hozzászólások

Szerkesztve: 2022. 08. 30., k – 11:45

A Toshiba disk az Kioxia?

Látom igen.

Hogyan halnak be? Egyszer csak nem válaszol?

Kioxia SSD-vel az utóbbi időben elég drága laptopokban találkoztam.

Samsung SSD-nél már láttam olyan, hogy bad sector lett rajta.

"Jegyezze fel a vádhoz - utasította Metcalf őrnagy a tizedest, aki tudott gyorsírni. - Tiszteletlenül beszélt a feljebbvalójával, amikor nem pofázott közbe."

samsung 870 EVO-nak van kint 2021 november környékén gyártott szériája, ami a google keresések szerint hajlamos fosni magából a badsectorokat. Jött rá firmware update, ami elvileg megoldja a hibát, de ha ezt mar csak a badsectorok megjelenése után rakod fel, a probléma terjedését csak negállítani tudja, visszafordítani már nem.

PX05SRB384 - ez szerintem meg Toshiba brand alatt ment, a Kioxia utana jott.

a hogyan halnak bet nem tudom, ez egy enterprise storage, szol, hogy szar a diszk, en rendelek ujat, es kicserelem :-)

illetve ennyit tudok:

   IOErrors = 45
   IOTimeouts = 33

Meglepő, hogy egy gyári storage esetén kézzel kell bohóckodni diszkcserénél obskurus parancsokkal. Nálam egy diszkcsere kb. ez szokott lenni:

  1. Értesítés jön, hogy elhalt egy lemez
  2. (beugrik az online spare)
  3. Valaki odamegy a rackekhez, megnézi melyik diszk világít sárgán
  4. Kihúzza, bedugja az újat
  5. Elfelejtettük dolgot

Az előnye: egy smart hand is el tudja végezni a feladatot

trey @ gépház

van olyan storageom is, ahol ez a process, amit irsz; az ESS nem ilyen, kicsit nehezebb uzemeltetni, cserebe ki lehet taposni belole barmit (RHEL + GPFS fut rajta).

de mondom, ne azzal hasonlitsd ossze, hanem egy ODF/RHCS alatti diszkcserevel. ahhoz kepest ez sima egyszeruseg...