Pusztuljon, aminek pusztulnia kell!

Előzmények: VMFS datastore nagyobb terhelés alatt el-eltünedezett, "inaccessible"-lé vált.

SSH-zok a storage-ra, nézem a logokat, ömlik a következő:

ata4.01: cmd 25/00:08:e8:98:c2/00:00:73:00:00/f0 tag 0 dma 4096 in
res 51/40:00:e8:98:c2/40:00:73:00:00/10 Emask 0x9 (media error)
ata4.01: status: { DRDY ERR }
ata4.01: error: { UNC }
ata4.01: configured for UDMA/133
ata4: EH complete
ata4.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata4.01: BMDMA stat 0x45
ata4.01: failed command: READ DMA EXT
ata4.01: cmd 25/00:08:e8:98:c2/00:00:73:00:00/f0 tag 0 dma 4096 in
res 51/40:00:e8:98:c2/40:00:73:00:00/10 Emask 0x9 (media error)
ata4.01: status: { DRDY ERR }
ata4.01: error: { UNC }
ata4.01: configured for UDMA/133
ata4: EH complete
ata4.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata4.01: BMDMA stat 0x45
ata4.01: failed command: READ DMA EXT
ata4.01: cmd 25/00:08:e8:98:c2/00:00:73:00:00/f0 tag 0 dma 4096 in
res 51/40:00:e8:98:c2/40:00:73:00:00/10 Emask 0x9 (media error)
ata4.01: status: { DRDY ERR }
ata4.01: error: { UNC }
ata4.01: configured for UDMA/133
ata4: EH complete
ata4.01: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata4.01: BMDMA stat 0x45
ata4.01: failed command: READ DMA EXT
ata4.01: cmd 25/00:08:e8:98:c2/00:00:73:00:00/f0 tag 0 dma 4096 in
res 51/40:00:e8:98:c2/40:00:73:00:00/10 Emask 0x9 (media error)
ata4.01: status: { DRDY ERR }
ata4.01: error: { UNC }
ata4.01: configured for UDMA/133
sd 3:0:1:0: [sdc] Unhandled sense code
sd 3:0:1:0: [sdc] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
sd 3:0:1:0: [sdc] Sense Key : Medium Error [current] [descriptor]
Descriptor sense data with sense descriptors (in hex):
72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00
73 c2 98 e8
sd 3:0:1:0: [sdc] Add. Sense: Unrecovered read error - auto reallocate failed
sd 3:0:1:0: [sdc] CDB: Read(10): 28 00 73 c2 98 e8 00 00 08 00
end_request: I/O error, dev sdc, sector 1942132968

Megpróbáltam Storage vMotion-nel elmozgatni róla a virtuális gépeket, nem ment. A vMotion folyamat állandóan megszakadt, mert kiesett alóla a datastore. Amint a vMotion megszakadt és leesett a terhelés, a datastore újra elérhetővé vált.

A problémát orvosolta, hogy erővel kirúgtam a hibás diszket a RAID1 tömbből:

# mdadm /dev/md0 -f /dev/sdc1

Jött is az eredménye:

raid1: Disk failure on sdc1, disabling device.
raid1: Operation continuing on 1 devices.
RAID1 conf printout:
--- wd:1 rd:2
disk 0, wo:0, o:1, dev:sdb1
disk 1, wo:1, o:0, dev:sdc1
RAID1 conf printout:
--- wd:1 rd:2
disk 0, wo:0, o:1, dev:sdb1

Ezután megszűntek az instabilitási problémák a datastore-on és el lehetett mozgatni a virtuális gépeket másik datastore-ra.

Tanulság: Pusztuljon aminek pusztulnia kell (még akkor is, ha nem döglött meg még teljesen)!

Hozzászólások

> Tanulság: Pusztuljon aminek pusztulnia kell

Pusztulj, softRAID! Milyen timeout-ok lehetnek ott, hogy az md driver nem dobja ki magától azt a szutyok diszket?

Én sem értem, hogy miért nem szórta ki. Kibasztam kézzel, kapott egy új WD Red Pro-t, most rebuildel.


[root@nas3 ~]# cat /proc/mdstat
Personalities : [raid1]
md0 : active raid1 sdc1[2] sdb1[0]
      1863012115 blocks super 1.2 [2/1] [U_]
      [>....................]  recovery =  3.1% (58857472/1863012115) finish=191.1min speed=157282K/sec

unused devices: <none>

Nem egy rakéta, de a "játszós" (teszt) gépek alá egyébként nem olyan rossz.

--
trey @ gépház

Semmi erőforrásigényes. MS SQL-be dolgozó készletvezető szoftverek. Egy ilyen olcsó tömb elfuttat simán 3-4 ilyen szervert, amik az idejük 95%-ban semmi sem csinálnak.

BTW: ha ezen fut jól a megírt szoftver, akkor a jobb gépen még gyorsabb lesz, nem? :D

Lehet, hogy nem szállnának el a hardverigények, ha a fejlesztők rá lennének szorítva mindenhol, hogy az átlag konfigra fejlesszenek?

--
trey @ gépház

Szerinted ez rajtam múlik? Szerinted melyik az az üzemeltető, amelyik elé ha kitesznek egy vadiúj full SSD storage-ot, meg egy álló szerverből álló, tákolt SATA storage-ot, akkor az utóbbit választja? :D

Ez itt nem választás kérdése. Azzal dolgozunk, amire pénzt adnak. Mint írtam, a célnak megfelel. Nem fancy, kézzel kell baszogatni, de ennek is megvan a helye.

Szépen elfér a gyári storage-ok mellett. Mondjuk azokban is max. 15 krpm SAS van, flash storage-ról csak álmodok.

Ha van levetett nálatok, amit segélyként el tudnál küldeni szegény, magyar rászorultaknak (én), nyugodtan postázd :D

--
trey @ gépház

Szívem fájdul meg, mikor tökéletesen hibátlan vasat ledarálnak veszélyes hulladéknak. Csak mert rettegett céges titok van/volt rajta, amitől a világ összedől, ha kikerül, kiderül. Érdekes kontraszt, hogy míg facse, gugli, microsoft is úgy titkolózik h. talán még a székhelyük címét se adnák ki legszívesebben ha nem lenne muszáj, addig a te meg én adataimat mint a turbóra állított bolygóméretű szívógép szopják falják nyelik befele gyomorrontás nélkül.

A tökéletesen jól működő vasat belsős törlési processz után (ami biztosan megvan már ma is), mindenféle információbiztonsági plecsnivel ellátott cégekeknek átadnák (pont mint ma is). Akik duplán gondoskodnának bármiféle adat visszaállíthatatlan törléséről. Viszont utána nem a shredderbe menne, hanem jótékony célokra v. nonprofit szervezeteknek ajándékoznák el. Az ajándékozó meg pl. adókedvezményt kapna érte.
Egy DOD diszk-wipe akkor szart se ér beismerten?
--

Azért ez így nem teljesen igaz.
Sok fejlesztő két szám sorbarendezéséhez is behúz egy egész keretrendszert, ahelyett, hogy megírná azt a 3 sornyi kódot, ami felcseréli a két számot. Emiatt természetesen elszállnak a hardverigények rendesen azzal a felkiálltással, hogy "olcsó a hardver, nehogy már foglalkozzak az erőforrásigénnyel". Időben lehet, hogy másfélszer tovább tartana a fejlesztés, de cserébe egy kompaktabb és gyorsabb termék lenne a végeredmény, ami kevesebb szeméttel lenne tele.

Vizsgára felkészülés végett keresek "kidobásra" szánt menedzselhető Cisco switch-eket és routereket, leginkább Pest és Bács-Kiskun megye területén.

Személy szerint ez egy kicsit szokott bosszantani.

A két változó felcserélése példánál maradva (ezt láttam személyesen is):

Barátunk behúzott egy teljes keretrendszert, azért hogy megcsinálja ezt: if a>b:c=a, a=b, b=c
Másra viszont nem használta a könyvtárat. Fordítás után meg panaszkodott, hogy lassú és sok memóriát eszik a programja. Gondolom nem elszigetelt esetről van szó.

Alapvetően az ilyenek miatt van az, hogy erőből van minden megoldva.

Vizsgára felkészülés végett keresek "kidobásra" szánt menedzselhető Cisco switch-eket és routereket, leginkább Pest és Bács-Kiskun megye területén.

Ha HDD, akkor WD Gold-ot (korábban: "Re", mégkorábban RAID Edition) kell venni. A Red-ről rengeteg rosszat hallunk, a Gold-ok mostanság tök jó statisztikákat csinálnak.

Valójában persze, tök mindegy milyen a diszk, ha a RAID implementáció nem tossza ki a tömbből a rossz diszket. Kellene játszani az egyes md és ahci paraméterekkel, biztos lehet javítani a helyzeten. Vagy, inkább kell venni egy 30 dolláros, normális használt RAID vezérlőt a homokozóba... :)

Hmm ?
Ennel kevesebbert is kibkkuralta a diszket nalam.
Visszaeroltettem, amig meg nem jott a replace.
Cserebere. Onalloan azota is vigan dolgozik.

Biztos nem kulsos rahatasra csinalta ezt ?

0 selejt a cel, vagyis, amit csak lehet kitolni, es minnel kevesebbet daralni.
QA majd kitalalja, marketing meg bedaralja a nepet.

Biztos, hogy az ellenorzeskor adott tureshatarok es kereslet hatarozzak meg, melyik hova kerul.
Neha jobb eladni a gyongebbet is jobbnak, majd utanna ha betojt cserelni, mint hagyni a konkurenciat elszipakolni a vevot.
Abban is biztos lehetsz nem mindegy kinek a neve all a rendelesen.
2 v 3 betus cegek biztos nem a minosegi teszten eppen atfutott darabokat kapjak, amikor rendelnek 2 millio darabot.