Eternus DX80

Van nálam egy Eternus DX80 S1, és eszi a diskeket. Amíg garis volt addig rendre cseréltettük (bár mintha akkor nem lett volna ennyire gyakori a dolog), de persze utána már egy kicsit fájdalmasabb volt. Mivel régi, ezért produciton környezetből is kikerült, de ettől még használatban van (backup, néhány fejlesztői vm, teszt vm-ek, és egyebek vannak rajta).

Általában fél évente eldob egy disket, amit broken státuszba tesz. Amíg volt tartalék, addig kapott mindig újat, egy idő után pedig elkezdtük csökkenteni inkább a volume-ok méretét, valamint növelni a hotsparek számát. A hibás diskek pedig benne maradtak parlagon heverve. Jelen pillanatban 5db van benne, amire azt mondja hogy broken. Gondoltam játszok kicsit, force-enable-re tettem az öt hibás disket, és elkezdtem rajtuk diagnosztikát futtatni az eszköz menüjéből. 2 nap alatt kb 8-10 kör ment le, hibát csak 1db-on talált. A logok alapján a négy "hibátlan" diskeknél "Media Error" vagy "Drive Recovered Error" miatt következett be a broke-nek jelölés, de ezek a hibák nem jöttek elő a diagnosztika alatt. SMART, I/O, R/W, link és egyék hibák miatt csak az az 1db lett eldobva, az vélhetően valóban döglött.

Tisztában vagyok vele, hogy az említett 4db disk is lehet valóban hibás, de kezdek kicsit gyanakodni az eszközre, ezért Eternus DX* üzemeltetőktől kérdezném, hogy tapasztaltak e hasonlót, illetve ha igen, akkor jutottak e valamire azon kívül hogy "biztos úgy van ahogy mondja a storage, és rossz a disk", esetleg próbáltak e firmware upgradet, hozott e javulást, etc..

Hozzászólások

Három saját DX80-at hajtok élesben. Két iSCSI és egy FC kontrollerest. Egyik 4 éves, a másik 3 a harmadik kb. 1. Kettő tele van diszkkel, az egyik félig.

Eddig összesen egy diszkhibám volt a legrégebbi storage-ban. Nem jellemző, hogy dobálná a diszkeket. De nem akarom elkiabálni.

Kollégám egy másik cégnél egy DX60-at nyüstöl, ugyanazok a diszkek mennek bele. Abban pusztult már el több is.

Ügyfeleknél is van, de ott sem volt még tömeges diszkhalál. Pontosabban ügyfeleknél egy sem volt eddig.

--
trey @ gépház

Nekünk is van e mellett pár. DX60, DX80, DX90. Volt olyan DX60 ami hasonló módon ette a diskeket, bár nem ilyen gyakorisággal, de feltűnően azért. Hűtés is rendben van egyébként, szóval a franc se tudja mi lehet vele, de kísérletezni a legrosszabb, illetve 100 ezrekért etetni diskkel se valami jó. Lehet hogy kuka lesz a vége, pedig szeretem, faék egyszerűségű, gyors, nincs vele akkuprobléma (mert kondenzátorokkal oldják meg), stb..

Ha ki akarnád dobni, el ne dobd! Szólj, jó lesz nekem alkatrésznek. :)

Másik firmware-t megpróbálnék. Illetve, a kolléga azt figyelte meg, hogy akkor pusztultak a diszkek, amikor az épületük mellett egy földmunkagép dolgozott és az egész épület remegett. Azon a héten több diszk is elpusztult. Hülyén hangzik, de ki tudja?

Jól van rögzítve a rack-ben a storage? Nem lehet extra vibráció?

--
trey @ gépház

Hogy ne lenne meg? Én is kitettem 2009-ben ;)

http://hup.hu/cikkek/20090102/ne_uvoltozze_az_adatkozpontban_dude

Mindenesetre elég komoly rezgésnek kell ahhoz lennie, hogy kihatással legyen. Ezért mondtam, hogy hülyén hangzik. Én viszont nem tartom teljesen lehetetlennek. Ezért is említettem meg :D

--
trey @ gépház

Azt nem tudod véletlenül, hogy mi történik akkor, ha használatban levő global hotspare diskről leveszem a "g. hotspare" státuszt? Az lenne vele a célom, hogy ne kezdje el a rebuildet akkor, amikor olyan hibásnak jelölt disket teszek enabledre ami a raid group része volt. Ugye ilyenkor kényszeresen szabadulni akar a hotsparetől, hogy az újra hotspare lehessen, én pedig nem szeretném ha elindulna a rebulid/copyback egy lehet hogy hibás diskre.

Szóval másképpen fogalmazva: használtban levő hotspare diskből szeretnék fixen raid group membert csinálni, úgy, hogy megszűnjön a hotspare státusza. Persze megnyomhatnám a "delete hotspre" buttont, de nem tudom hogy mi fog történni :)

Sajnos a doksi erről semmit nem ír.

Sima DX80 vagy S2-es?

BTW:

5.2.4 Release Hot Spare

The [Release Hot Spare] function deletes a registered hot spare. A released disk can be used as
a data disk after it is registered in a RAID group.

Hot spare cannot be deleted in the following conditions:

• When the usage of the hot spare is other than "Spare"
• When the status of the hot spare is other than "Present"
• When one of the following operations is in progress:
- Registering controller firmware
- Applying controller firmware
- Registering disk firmware
- Applying disk firmware
- During the RAID group diagnosis
- During the disk diagnosis

Forrás: eternus-webgui-en.pdf

--
trey @ gépház

Itt egy iSCSI-s cucc fut. Érdemes lenne szerintem a fw upgrade-et megjátszani. Ezt érdemes olyannal megcsináltatni, aki már csinált ilyet, mert nem egy hipphopp dolog. Mi tavaly a Serco-sokat kértük meg, mert ők voltak közel. Az elmúlt években 2db diszk esett ki a 12db-ból és szónélkül cserélték őket.

Offline-ban (reboot-tal) elvileg nem veszélyes. :) Főleg, hogy elmenti az előző firmware-t is. Persze azért para úgy is. Én el szoktam menet közben mozgatni a virt. gépeket teljesen (migrate -> datastore) a többi storage-ra, aztán amikor teljesen üres a frissítendő, megcsinálom a firmware frissítést, majd visszamozgatom a virt. gépeket. Senki sem vesz észre semmit.

Persze ehhez kell több storage / elegendő üres hely.

Megcsinálhatnám online is mert full redundáns (2 kontroller, kontrollerenként 2 út) az egész, de csinálja akinek 6 anyja van így.

Ha elbaszódik az adat, a gyártó azért felelősséget nem vállal. A Serco sem. ;)

A vége meg könnyen lehet az, hogy

- "kész a firmware upgrade, itt írja alá a munkalapot"
- "és az adatok?"
- "azok sajnos nincsenek meg"
- "és ilyenkor mi van?"
- a legutolsó működő backup-ból vissza lehet állni, adatra felelősséget nem vállalunk"

--
trey @ gépház

Természetesen nem vállalják azért a felelősséget, de még akkor sem ugrottam bele a fw upgrade-be egy ilyen cuccnál magam, ha olyan kis egyszerűnek tűnik. Teljesen korrekt áron jött az emberük munkaidő után, hozta a kis checklistjét, végignyomkodta és minden ment szépen. A fő érv az volt, hogy olyan csinálja, aki már néhány ilyet látott és úgy egyébként is benne van a dologban. Az a helyzet, hogy nemnagyon kell hozzányúlni a DX80-hoz, ha már egyszer elindult. :)

Van egy sajátos logikája amúgy az Eternusoknak, és amikor már azt gondolod hogy ismered, akkor jön egy DX410 s1, és csak nézel :)

Egyébként én úgy csináltam, hogy az új tök üres eternusokon frissítettem többször fw-t, így lett gyakorlat. Egyébként tényleg nem egy nagy szám, bár elsőre a hatalmas doksi miatt annak tűnhet. A dedikált szaki se hiszem, hogy egy pár órás gyorstalpalónál többet tud róla.

"hogy elvileg egy enterprise"

A DX80 nem enterprise storage.

https://flic.kr/p/qpvYEo

Az első storage a DX vonalból, amivel az "enterprise"-t emlegetik, az a DX410/DX440 S2.

"nem mersz online upgradelni? hiszen pont ez lenne a lenyege..."

Hogyne mernék? A gombot meg merem nyomni. A probléma ott van, hogy ha valami nem úgy lesz, ahogy azt a gyártó leírta, akkor "ja, hát adatra nincs reklamáció, mentésből vissza".

Ha van más opcióm, feltétlen nem akarom tökön szúrni magam. :)

--
trey @ gépház

Csináltam már többször, online is, volt olyan DX80 s2 aminél valami 4-5 lépésben lehetett csak, és mindegyikhez volt egy 50 oldalas pdf (persze nagyjából bő lére eresztve mindegyik ugyanazt ecsetelte).

De pont ezért kérdeztem amúgy, mert ha netán van valakinek ezzel tapasztalata, akkor végigszívom, illetve valószínűleg egyébként is az lesz, de ha mondjuk valaki azt írta volna, hogy próbálta és nem segített, akkor nem strapáltam volna magam feleslegesen.

Serco egyébként tényleg jófej, mi is náluk intézzük a Fujitsus dolgokat.

Mi egy DX90-et hajtunk FC-n, egy plusz drive encosure-ral.
Évente 1-2 disk beadja a kulcsot. Mondjuk folyamatos terhelés alatt vannak, szerintem elfogadható határon belül mozog a meghibásodási ráta.

A disk fogyóeszköz, mindig kell lennie tartaléknak és forrásnak is. Mi lenne ha a titkárnőnek elfogyna a tinta a nyomtatójában? Na igen.

A legjobb meghibásodási rátát eddig asztali Maxtor!! lemezekkel tapasztaltam :D 500Gb SATA, nagyon melegedős lemez, 48 darabból 8 év alatt 1 vagy 2 db ment tönkre. EMC logós 1Tb Seagate lemez évi 20%-os halálozással.

Lutri, venni kell és ha nem akkor szerencse.

Szerintem nem erre vonatkozott a kérdés. Rossz disket cserélsz, és tartasz hidegtartalékot is. Jót nem feltétlenül akarsz te sem kicserélni gondolom. Az persze más kérdés, hogy igaza e az az állítás, hogy az említett diskek jók (sőt, ezt sem állítottam, csupán csak gyanakszom) de tulajdonképpen ennek a kiderítéséről szólna a topic, nem pedig arról, hogy más esetben mi lenne ha…

Üdv!

Nekünk is DX80-asunk van, és bizony évente (a 12-ből) 2 darab Seagate Barracuda ES.2 1 TB (ST31000640SS) elszáll. A frimware upgrade-en már gondolkodtam én is, de inkább a HDD-ra gyanakszom, így szeretném megkérdezni tőletek, hogy milyen olcsóbb kompatibilis eszközt tudnátok javasolni a jelenlegi HDD-k helyett.
Kösz

Ja és nagyon fontos, csak a gyárilag adott diszket használd benne. Ez nem csak hangzatos szólam, hanem minden gyártó szereti a fw-t elég speciálisan összerakni és ha esetleg olyan jön amire nem számít a diszk vagy a storage fw-je, akkor jön a szomorúság.

Szóval a Seagate-et ezért (is) dobálhatja el ilyen sűrűn? Gondolom akkor Fujitsu HDD-knak kellene benne lennie, egészen pontosan melyik típus a gyári bele való?
Kivel csináltattátok meg a fw update-et?

Kösz

Seagate van az Eternusokban is, csak Fujitsu firmware-el. A tiétekben is ilyen van, más egyszerűen nem lehet, szóval e felől ne aggódj Ez egy szándékos dolog, ezért nem is tudod megkerülni, csak a Fujitsutól vásárolt hdd-t fog megenni, abból is a storage-ba valót (ami szintén Seagate lesz, az említett fw-el). Kérj rá ajánlatot a Sercotól, vagy az Ant-tól, előtte vegyél nyugtatót. Ha picivel bátrabb vagy, akkor játszhat az ebay vagy társai is, de OEM SAS hdd árakat ott se várj, ez is drága lesz.

Utolsó hazai hivatalos ajánlatom (3 hónapos):

HDD 450GB SAS 15KRPM (FUJ:CA07237-E042) - 113.700 HUF nettó

Heló mi? :)

Nalunk is akad DX80 es DX90, tobb shelffel. A DX80 "eszi" a diszkeket a tobbi szerverhez es storage-hoz kepest, de tobb controller csere is volt mar. Ha hibasnak jelez egy alkatreszt, azt csereljuk, aztan ha lejar a gari, decommission + diszkpusztitas.

Nem őrölnek gyorsan a malmok, azóta most lett kedvem szórakozni az eszközzel :) Megkapta az utolsó firmwaret amit még anno kiadtak hozzá (V10L72 - 2013). Online módban szépen megcsinálta V10L10-ról, ami a default legelső gyári 2009-es firmware volt :) A kettő között volt amúgy 16 release, de szerencsére itt nincs matrix mint a nagyobb testvéreinél, szóval lehetett egy lépésben csinálni.

Disk dobálásról még nincs infóm, pár hónap után majd jelentkezem.

A release hot spare funkciót is kipróbáltam raid grupban levő hs disken úgy, hogy nem volt amit berakjon maga helyett. Nos, teljesen zavarban vagyok: azt vártam volna, hogy vagy átállítja a flagjét "data" diskre (ennek örültem volna a legjobban), vagy azt, hogy közli, hogy nincs szabad "data" típusú disk, amit berakhatna a hs helyett rebuliddel, és nem fog menni a dolog. Ehhez képest kb 5 sec alatt kivette, és lett egy szabad global hot sparem. A raid group nem sérült, üzemel, konzisztens. Viszont utánaszámolva a dolognak, valamiért 1-el több disk volt benne eleve mint amit a mérete indokol. 7db 450GB-s volt benne, az RG pedig 2TB-s RAID5. Tehát fogjuk rá hogy ez a magyarázat.

Nade ez akkor is rohadtul furcsa/ijesztő... Már eleve az is egy nagy kérdőjel, hogy miért és hogyan került bele +1 disk, ilyet manuálisan nem lehet csinálni, az Eternusban nincs ilyen funkció. Nade hogy PONT arra nyomtam volna rá a releaset, amin nem volt adat?

Érdekes lenne most rányomni ismét az rg-ben levő hs-ek közül valamelyikre egy "release hot sparet", de ezek után nem merem :)

Eternusoknal (meg pl. EMC-nél is) hot spare státuszban marad akkor is a disk, ha bekerül egy tömbbe (egy onnét kieső másik disk helyére). Ilyenkor nyilván jön egy rebuild, és kerül rá adat. A controller mutatja hogy "in use", illetve hogy melyik raid group alatt van, de attól még a hot spare jelölés megmarad. De írtam is, hogy olyan hs diskekről van szó, amik a meghibásodások(?) miatt az idők folyamán szépen bekerültek a raid groupba.

Mindez egyébként csak azért fontos, mert a nyomorult minden áron fel akarja szabadítani az "in use" hs diskeket, tehát amint egy brokennek jelöltet online-ba teszek, azonnal indul a rebuild, mert be akarja tenni egy használatban levő hs helyére. Ez nekem nem oké, mert tesztelni szeretném előtte hosszabb távon az új controller firmwarevel, hiszen simán lehet, hogy valóban broken.

Ha kidobja a controller, akkor kidobta, azt már ne tedd vissza. Én nemrég próbálkoztam ilyennel (bár nem DX80-on) és úgyis kidobja újra. A nagyobb gondom az, hogy amúgy se badsector se semmi nincs a diszken és nem tudok garis problémát felmutatni, amivel visszaküldjem. Ez megint jól rámutat a "használj-gyári-diszket" megközelítés fontosságára. Ugyanis ha a gyári diszket kidobja a ctrl, akkor esetedben a Fujitsu (más esetén pedig másik gyártó) szónélkül adja a másikat.

Az megint más kérdés, hogy a kezem alatt lévő DX80-as a fw upgrade előtt évente 1db diszket fixen kidobott, de másfél éve (akkor volt a fw upgrade) semmi baja a diszkeknek.

> Ha kidobja a controller, akkor kidobta, azt már ne tedd vissza.

Az eszköz piacra dobásakor kiadott legelső firmware volt a DX-en, és most megkapta az utolsót. Az 50 oldalas release notes alapján rengeteg mindent piszkáltak ezen funkciók (disk monitorozás eldobás, stb..) környékén, még egy opció is lett configban ami eddig nem volt ("Early Isolate Disk when Disk Read Error"), ezért bizakodok kicsit.

> Ez megint jól rámutat a "használj-gyári-diszket" megközelítés fontosságára. Ugyanis ha a gyári diszket kidobja a ctrl, akkor esetedben a Fujitsu (más esetén pedig másik gyártó) szónélkül adja a másikat.

Más lehetőség nincs Fujitsunal (meg máshol se), csak a gyári disk. Egyébként akkor cserélik ha garanciális, ez meg már nem az sajnos.

Biztosan nem megy benne, csak Fujitsu firmwares. Ugyanez van EMC/HP/IBM/Dell, stb SAN-jainál (VNX, 3PAR, XIV, akármi...), mindegyik firmware lockos. A diskek amúgy kiskerben is kapható "mezei" Seagate vagy Hitachik általában, még a típusszámot se változtatják meg. Viszont ha bemész a boltba és veszel egy (szerinted) ugyanolyat, akkor lesz nagy meglepetés, mert az doboz fel sem fogja pörgetni, és a státuszánál gyönyörű "unsupported" felirat lesz olvasható. Még csak az sem játszik, hogy az adott gyártó szervereibe szánt disket veszel ezekbe, az sem fog menni, minden esetben a gyártótól kell rendelni a disket, akkor kapod kerettel, és megfelelő firmwarevel az adott SAN-hoz valót. Átjárás egyébként van, tehát pl. egy DX60s1 diskjét meg fogja enni a DX100 s3, vagy egy Clarionét a VNX, de nyilván át kell szerelned, mert a fiók más, illetve ez is oroszrulett mert egyáltalán nem biztos a dolog, és a gyártó nyilván nem támogatja.

Ellenkező esetben én se szopnék vele, 15-20kHUF egy ilyen szűz/stock Seagate SAS disk ebayen. A labor, privát, devel cuccoknak tökéletes lenne, még akár saját zsebből is megvenném, pont le***nám hogy unsupported, ha menne, de nem megy :)

Egy kis update így másfél hónap után, hátha érdekel valakit: jelenleg minden disk enabled, kb. 5db brokennek jelöltet force-oltam vissza online-ba a firmware upgrade után. Egyelőre egyet sem dobott el (ennyi idő alatt a régi fw-vel már simán eldobálta volna őket háromszor). Szóval az 5 diskből gyártottam egy tömböt, egy vm-ben generálok rajta folyamatosan I/O-t, nem stressz teszt, amolyan normál használatot próbálok emulálni. A disk diagnostic nem talál hibát, futtattam már több körben. A "display disk error information" 1db-nál ír 8db media errort erre a másfél hónapra (de nem jelölte egyelőre brokennek), az eddig folyamatosan növekvő "drive error", "drive recovered error" és "SMART error event" értékek nullák. Érdekes.

Szóval eddig úgy néz ki, hogy tényleg mókolt valamit a Fujitsu ezen problémakör környékén, és vélhetően a régebben hibásnak jelölt diskek nagy része valójában nem hibás.