Pusztuljon, aminek pusztulnia kell!

 ( trey | 2018. december 11., kedd - 12:35 )

Előzmények: VMFS datastore nagyobb terhelés alatt el-eltünedezett, "inaccessible"-lé vált.

SSH-zok a storage-ra, nézem a logokat, ömlik a következő:

ata4.01: cmd 25/00:08:e8:98:c2/00:00:73:00:00/f0 tag 0 dma 4096 in
res 51/40:00:e8:98:c2/40:00:73:00:00/10 Emask 0x9 (media error)
ata4.01: status: { DRDY ERR }
ata4.01: error: { UNC }
ata4.01: configured for UDMA/133
ata4: EH complete
ata4.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata4.01: BMDMA stat 0x45
ata4.01: failed command: READ DMA EXT
ata4.01: cmd 25/00:08:e8:98:c2/00:00:73:00:00/f0 tag 0 dma 4096 in
res 51/40:00:e8:98:c2/40:00:73:00:00/10 Emask 0x9 (media error)
ata4.01: status: { DRDY ERR }
ata4.01: error: { UNC }
ata4.01: configured for UDMA/133
ata4: EH complete
ata4.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata4.01: BMDMA stat 0x45
ata4.01: failed command: READ DMA EXT
ata4.01: cmd 25/00:08:e8:98:c2/00:00:73:00:00/f0 tag 0 dma 4096 in
res 51/40:00:e8:98:c2/40:00:73:00:00/10 Emask 0x9 (media error)
ata4.01: status: { DRDY ERR }
ata4.01: error: { UNC }
ata4.01: configured for UDMA/133
ata4: EH complete
ata4.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata4.01: BMDMA stat 0x45
ata4.01: failed command: READ DMA EXT
ata4.01: cmd 25/00:08:e8:98:c2/00:00:73:00:00/f0 tag 0 dma 4096 in
res 51/40:00:e8:98:c2/40:00:73:00:00/10 Emask 0x9 (media error)
ata4.01: status: { DRDY ERR }
ata4.01: error: { UNC }
ata4.01: configured for UDMA/133
sd 3:0:1:0: [sdc] Unhandled sense code
sd 3:0:1:0: [sdc] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
sd 3:0:1:0: [sdc] Sense Key : Medium Error [current] [descriptor]
Descriptor sense data with sense descriptors (in hex):
72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
73 c2 98 e8
sd 3:0:1:0: [sdc] Add. Sense: Unrecovered read error - auto reallocate failed
sd 3:0:1:0: [sdc] CDB: Read(10): 28 00 73 c2 98 e8 00 00 08 00
end_request: I/O error, dev sdc, sector 1942132968

Megpróbáltam Storage vMotion-nel elmozgatni róla a virtuális gépeket, nem ment. A vMotion folyamat állandóan megszakadt, mert kiesett alóla a datastore. Amint a vMotion megszakadt és leesett a terhelés, a datastore újra elérhetővé vált.

A problémát orvosolta, hogy erővel kirúgtam a hibás diszket a RAID1 tömbből:

# mdadm /dev/md0 -f /dev/sdc1

Jött is az eredménye:

raid1: Disk failure on sdc1, disabling device.
raid1: Operation continuing on 1 devices.
RAID1 conf printout:
--- wd:1 rd:2
disk 0, wo:0, o:1, dev:sdb1
disk 1, wo:1, o:0, dev:sdc1
RAID1 conf printout:
--- wd:1 rd:2
disk 0, wo:0, o:1, dev:sdb1

Ezután megszűntek az instabilitási problémák a datastore-on és el lehetett mozgatni a virtuális gépeket másik datastore-ra.

Tanulság: Pusztuljon aminek pusztulnia kell (még akkor is, ha nem döglött meg még teljesen)!

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

> Tanulság: Pusztuljon aminek pusztulnia kell

Pusztulj, softRAID! Milyen timeout-ok lehetnek ott, hogy az md driver nem dobja ki magától azt a szutyok diszket?

Én sem értem, hogy miért nem szórta ki. Kibasztam kézzel, kapott egy új WD Red Pro-t, most rebuildel.

[root@nas3 ~]# cat /proc/mdstat
Personalities : [raid1]
md0 : active raid1 sdc1[2] sdb1[0]
      1863012115 blocks super 1.2 [2/1] [U_]
      [>....................]  recovery =  3.1% (58857472/1863012115) finish=191.1min speed=157282K/sec

unused devices: 

Nem egy rakéta, de a "játszós" (teszt) gépek alá egyébként nem olyan rossz.

--
trey @ gépház

nem tudom teszt ala mi az igeny, de nem lenne jobb ket darab 2TB-os SSD RAIDben? :) WD Prokat biztos veri.

Ááá, az pénzbe kerül :)

Egy WDC WD2002FFSX-6 kb. 40 ezer. RAID1-ben 80 ezer. Ennyiből nem hiszem, hogy adnak 2TB SSD-t RAID1-ben.

--
trey @ gépház

semmikepp. de munkaoraban visszajon, attol fuggoen, mi fut a teszt kornyezeten :)

Semmi erőforrásigényes. MS SQL-be dolgozó készletvezető szoftverek. Egy ilyen olcsó tömb elfuttat simán 3-4 ilyen szervert, amik az idejük 95%-ban semmi sem csinálnak.

BTW: ha ezen fut jól a megírt szoftver, akkor a jobb gépen még gyorsabb lesz, nem? :D

Lehet, hogy nem szállnának el a hardverigények, ha a fejlesztők rá lennének szorítva mindenhol, hogy az átlag konfigra fejlesszenek?

--
trey @ gépház

szerintem virtualizalt kornyezetben 2018-ban (de mar 2017-ben is) kotelezo a flash, nem hiszem, hogy a fejlesztok baja az, ha kell ala. pl etcd nem fut jol egyaltalan, ha nem SSD-n van.

Szerinted ez rajtam múlik? Szerinted melyik az az üzemeltető, amelyik elé ha kitesznek egy vadiúj full SSD storage-ot, meg egy álló szerverből álló, tákolt SATA storage-ot, akkor az utóbbit választja? :D

Ez itt nem választás kérdése. Azzal dolgozunk, amire pénzt adnak. Mint írtam, a célnak megfelel. Nem fancy, kézzel kell baszogatni, de ennek is megvan a helye.

Szépen elfér a gyári storage-ok mellett. Mondjuk azokban is max. 15 krpm SAS van, flash storage-ról csak álmodok.

Ha van levetett nálatok, amit segélyként el tudnál küldeni szegény, magyar rászorultaknak (én), nyugodtan postázd :D

--
trey @ gépház

semmilyen elektronikai cuccot nem lehet meg adomanyozni sem, mar probaltam... valami ceges global policy. minden megy az elektronikai hulladek cimkeju szemetesbe, amit aztan megfeleloen feldolgoznak valakik.

Szívem fájdul meg, mikor tökéletesen hibátlan vasat ledarálnak veszélyes hulladéknak. Csak mert rettegett céges titok van/volt rajta, amitől a világ összedől, ha kikerül, kiderül. Érdekes kontraszt, hogy míg facse, gugli, microsoft is úgy titkolózik h. talán még a székhelyük címét se adnák ki legszívesebben ha nem lenne muszáj, addig a te meg én adataimat mint a turbóra állított bolygóméretű szívógép szopják falják nyelik befele gyomorrontás nélkül.

A tökéletesen jól működő vasat belsős törlési processz után (ami biztosan megvan már ma is), mindenféle információbiztonsági plecsnivel ellátott cégekeknek átadnák (pont mint ma is). Akik duplán gondoskodnának bármiféle adat visszaállíthatatlan törléséről. Viszont utána nem a shredderbe menne, hanem jótékony célokra v. nonprofit szervezeteknek ajándékoznák el. Az ajándékozó meg pl. adókedvezményt kapna érte.
Egy DOD diszk-wipe akkor szart se ér beismerten?
--

nem a torles a problema (a mai diszkeken 1 masodperc mindent torolni a belso AES key resettel), hanem "allitolag" ha barmit elajandekoznank es utana azzal barmi tortenik akkor jogilag mi lennenk a feleloseg... ami szerintem hulyeseg, de ebben sajnos nem vagyok donteshozo

hiába, a jog a legfőbb tudomány :)

US/ angolszasz tipusu rendszerben lehetseges.

Anonim donacional meg good luck kideriteni.

Kontinentalis jog szerint ez nem "teljesen" igaz.

Azért ez így nem teljesen igaz.
Sok fejlesztő két szám sorbarendezéséhez is behúz egy egész keretrendszert, ahelyett, hogy megírná azt a 3 sornyi kódot, ami felcseréli a két számot. Emiatt természetesen elszállnak a hardverigények rendesen azzal a felkiálltással, hogy "olcsó a hardver, nehogy már foglalkozzak az erőforrásigénnyel". Időben lehet, hogy másfélszer tovább tartana a fejlesztés, de cserébe egy kompaktabb és gyorsabb termék lenne a végeredmény, ami kevesebb szeméttel lenne tele.


Vizsgára felkészülés végett keresek "kidobásra" szánt menedzselhető Cisco switch-eket és routereket, leginkább Pest és Bács-Kiskun megye területén.

> lehet, hogy másfélszer tovább tartana a fejlesztés
Divat lett manapsag erobol megoldani mindent.
____________________
echo crash > /dev/kmem

Személy szerint ez egy kicsit szokott bosszantani.

A két változó felcserélése példánál maradva (ezt láttam személyesen is):

Barátunk behúzott egy teljes keretrendszert, azért hogy megcsinálja ezt: if a>b:c=a, a=b, b=c
Másra viszont nem használta a könyvtárat. Fordítás után meg panaszkodott, hogy lassú és sok memóriát eszik a programja. Gondolom nem elszigetelt esetről van szó.

Alapvetően az ilyenek miatt van az, hogy erőből van minden megoldva.


Vizsgára felkészülés végett keresek "kidobásra" szánt menedzselhető Cisco switch-eket és routereket, leginkább Pest és Bács-Kiskun megye területén.

Ha HDD, akkor WD Gold-ot (korábban: "Re", mégkorábban RAID Edition) kell venni. A Red-ről rengeteg rosszat hallunk, a Gold-ok mostanság tök jó statisztikákat csinálnak.

Valójában persze, tök mindegy milyen a diszk, ha a RAID implementáció nem tossza ki a tömbből a rossz diszket. Kellene játszani az egyes md és ahci paraméterekkel, biztos lehet javítani a helyzeten. Vagy, inkább kell venni egy 30 dolláros, normális használt RAID vezérlőt a homokozóba... :)

van nalunk talan ~300 darab WD Red, teszik a dolgukat. (Ceph alatt vannak, 3x-os replikacioval)

Hány terásak, mikori beszerzés?

6TB, WD60EFRX, 16 ev eleje

Hmm ?
Ennel kevesebbert is kibkkuralta a diszket nalam.
Visszaeroltettem, amig meg nem jott a replace.
Cserebere. Onalloan azota is vigan dolgozik.

Biztos nem kulsos rahatasra csinalta ezt ?

Nem hiszem, ráadásul ez egy kameraszerverben már sok ezer órát futott lemez volt. Így is bírta pluszban majdnem 2 évig még. Seagate SV sorozatú volt, az SV a Surveillance-re utal, nem is kifejezetten NAS funkcióra való. Mindenképpen ideje volt kukázni.

--
trey @ gépház

Egyszer kikerülhetne vmi belsős memó a WD-től, amiben beismerik h. ezek a megkülönböztetések home/enterprise/NAS/surveillance között csak a címkéző és a beárazó részlegnél léteznek.
--

Jó esetben van minden egyes darabra minőségellenzés (valamilyen fokú) és az alapján osztják megfelelő típusba, vagy amelyiken nincs az mehet egyből a home kategóriába.

0 selejt a cel, vagyis, amit csak lehet kitolni, es minnel kevesebbet daralni.
QA majd kitalalja, marketing meg bedaralja a nepet.

Biztos, hogy az ellenorzeskor adott tureshatarok es kereslet hatarozzak meg, melyik hova kerul.
Neha jobb eladni a gyongebbet is jobbnak, majd utanna ha betojt cserelni, mint hagyni a konkurenciat elszipakolni a vevot.
Abban is biztos lehetsz nem mindegy kinek a neve all a rendelesen.
2 v 3 betus cegek biztos nem a minosegi teszten eppen atfutott darabokat kapjak, amikor rendelnek 2 millio darabot.