Disk fail + a Predictive Failure Analysis befigyel

 ( trey | 2013. május 4., szombat - 9:18 )

Disk fail + Predictive Failure Analysis

Nyilván oka van annak, hogy a tetves disk hibák gyakran egyszerre jönnek. A lemezek egykorúak, ugyanannyit pörögnek, sokszor a szériaszámuk egymást követi, vagyis a gyártósorról ugyanakkor és ugyanonnan "esnek" le. Jól mutatja a fenti kép is. Egy nap alatt 1 diszk elpatkolt. A Predictive Failure Analysis pedig mindjárt egy sárga felkiáltójelet ragasztott egy másikra is. A RAID 1E egy diszkhibát tolerál. Szóval pengeélen táncolás esete forog fenn.

Nem szeretem mondani, hogy "én szóltam előre", de így van. A cseregép már több mint egy hónapja elkészült, de még minimum 3 hónap, mire a fejlesztők "át tudják tenni" a spéci programot (verzióváltással egybekötve) rá. Virtualizálnám az egész hóbelevancot már most, ezt a szervert meg lekapcsolnám, mert megszolgálta már, de nem lehet, mert a nagyon fontos program termékkulcsa a hardverelemekből összecsipegetett adatok alapján van generálva (hogy miből, az rejtély), így más gépen el sem indul (de ha mégis, akkor sem biztos, hogy az úgy jogtiszta). Két-három nap, mire új licencet kérnek a tengerentúlról (végül is miért lenne ez gyorsabb? az internet korában?). Ebből kifolyólag hiába is készül full backup a rendszerről minden egyes nap, más gépre áttenni katasztrófa estén nem egyszerű mutatvány.

Diszket nem biztos, hogy akarnak bele venni (még nem döntötték el, de mondtam, hogy ne sokat agyaljanak rajta), mert darabja majdnem 400 dollár. Arra a három hónapra pedig nem biztos, hogy érdemes a szerverre 800 dollárt költeni, mert utána úgyis megy a kukába.

Egyetlen dolog, ami eszembe jutott az az, hogy legrosszabb esetben, ha fejre áll mint a jancsiszög, akkor a RAID 1E tömböt szétszedem, csinálok egy RAID5-öt, arra visszatolom a backup-ot aztán megy ameddig megy, vagy amíg meg nem oldják, hogy más gépre áttehető legyen. Lassabbnak lassabb lesz, de legalább működik. Így legalább ugyanaz a gép van alatta és a leállás is minimális lesz.

Én a virtualizálás mellett vagyok, de a fejlesztő valamiért nagyon ódzkodik tőle... Készüljünk a legrosszabbra és reméljük a legjobbakat!

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

"A lemezek egykorúak, ugyanannyit pörögnek, sokszor a szériaszámuk egymást követi, vagyis a gyártósorról ugyanakkor és ugyanonnan "esnek" le."

Pont ezért javasolják a diszkek különböző gyártótól való beszerzését.

-------------------------
Trust is a weakness...

Ez biztosan működik is dzsunka "szerver" esetén, de a brand gépekbe te bizony nyomkodhatnál nem abba való FRU-s lemezt, jó esetben le se szarná, rossz esetben meg csak akkor jönnél rá, hogy hiba volt amit csináltál, amikor adatvesztésből éppen vakarod ki a szervert.

--
trey @ gépház

ilyen okosságokat hol oktatnak a pórnépnek?

1. azonos FRU-val simán vehetsz más gyártótól, az más kérdés, hogy nem mondhatod a disztribútornak, hogy "én most Hitachi-t kérek", mert nem biztos, hogy tudja mit fog kiadni/rendelni.
2. néhány esetben látok IDEGEN lemezt brand szerverben. nyilván nem desktop merevlemezt, de pl IBM-ben láttam én már HP part number-est is és elvoltak vele. az, hogy hiba esetén a "nem támogatott" üzenetet kapod majd telefonon az más lapra tartozik, de az adatvesztéssel riogatás azért elég meredek. habár marketingnek No.1 :)

én értem amit mondasz, csak hát legutóbb a Quadro VGA-s topikban pont te mondtad valakinek, hogy ~"nem kell ezt túlmisztifikálni": na, most ez most kb az az eset. az óvatosság azért érthető.

--
Vége a dalnak, háború lesz...

"azonos FRU-val simán vehetsz más gyártótól,"

Ennek az ellenkezőjét nem vitattam, csak ez nem életszerű. Mármint, hogy te majd összecsipegeted innen-onnan. Főleg, ha egy nagyobb storage-ról van szó.

"néhány esetben látok IDEGEN lemezt brand szerverben. nyilván nem desktop merevlemezt, de pl IBM-ben láttam én már HP part number-est is és elvoltak vele."

Láttál benne, vagy te tetted bele? Ha majd emiatt probléma lesz (esetleg per), akkor mit fogsz mondani a bíróságon a független szakvéleményre, amiben esetleg az fog állni, hogy idegen gyártó merevlemeze volt a szerverben a gép gyártójának határozott rendelkezése ellenére? Szaros tízezer forintokért kockáztatod meg a per elvesztésének lehetőségét?

"az, hogy hiba esetén a "nem támogatott" üzenetet kapod majd telefonon az más lapra tartozik, de az adatvesztéssel riogatás azért elég meredek. habár marketingnek No.1 :)"

A "supported" v "unsupported" konfiguráció témakörben nézzél még egy kicsit szét. Majd ha szétdőlt a tömböd és a gyártóhoz fordulsz, akkor ne legyen majd nagy csodálkozás belőle.

"legutóbb a Quadro VGA-s topikban pont te mondtad valakinek, hogy ~"nem kell ezt túlmisztifikálni": na, most ez most kb az az eset."

Mint írtam, dzsunka szerverben tök mindegy. Komolyabb vezérlőn a nem belevaló fel sem éled, mert kibassza nem megfelelő firmware hibával. Ez a jobbik eset. A rosszabbik az, hogy készülhetsz az éjjelezésre.

"az óvatosság azért érthető."

Ez nem óvatosság, hanem ez önvédelem. Ha nekem kell egy "Critical" állapotú tömbben kicserélni egy meghibásodott eszközt, akkor az hétszentség, hogy belevaló lesz. Nem én fogok az elpusztult adatok felett magyarázkodni amiatt, hogy miért csináltam unsupported konfigot, aminek a vége backupból való visszaállás lett.

Hogy te mit csinálsz, hogyan jársz el, az a te dolgod. Az adattárolást én túlmisztifikálom. Valószínűleg ezért nem is volt még soha adatvesztésem. És szeretném is, ha ez így is maradna.

--
trey @ gépház

szintézis zrt rakott már össze kettőnél több hdd-t tartalmazó array-t azonos típusú/szériájú hdd-kből?

csak miheztartás végett.

Nincs felhatalmazásom arra, hogy veled ilyen jellegű információkat megosszak. Tőle sem kértem azt, hogy a munkaadójáról nyilatkozzon.

--
trey @ gépház

"ez nem életszerű" & "Láttál benne, vagy te tetted bele?"
a kirívó eset életszerűségét meg én nem állítottam, pl. abban az esetben fordult elő, amikor (figyelmetlenség stb miatt) nem volt használható IBM FRU-s diszk és kb azonnal kellett. ~HP viszont kéznél volt, így lett használatba véve. hónapokig benn is maradt. láttam benne, nem én tettem bele, szóval mint írtam láttam - és igazság szerint így sok kivetnivalót nem találtam a dologban. nem mai sztori, de tanulságos volt.

"ha szétdőlt a tömböd" & "készülhetsz az éjjelezésre"
hiába, mire képes egy kód. mint írtam az óvatosságot persze megértem, de konkrétan megrogyott RAID tömböket 100%-ra jósolni csak eltérő azonosítók miatt azért meredek (főleg, mivel azonos kóddal több gyártó cuccát is kapod, mint írtam korábban). vagy vegyük azt, hogy mondjuk egy HP szerverbe / storage-ba teljesen eltérő kódú HP lemezt kapsz (nyilván más paraméterekkel és FW-el), mert a keresett cucc éppen / már nem elérhető. a supported listán pedig az "új" nincs rajta. na ilyenkor mi van?

"Hogy te mit csinálsz, hogyan jársz el, az a te dolgod"
majdnem újat mondtál :)

--
Vége a dalnak, háború lesz...

" pl. abban az esetben fordult elő, amikor (figyelmetlenség stb miatt) nem volt használható IBM FRU-s diszk és kb azonnal kellett. ~HP viszont kéznél volt, így lett használatba véve. hónapokig benn is maradt. láttam benne, nem én tettem bele, szóval mint írtam láttam - és igazság szerint így sok kivetnivalót nem találtam a dologban. nem mai sztori, de tanulságos volt."

Működött != szakszerű. Ez egy szép barkács megoldás volt. Te bevállalnál egy ilyet saját felelősségedre? Máséra én is.

" de tanulságos volt."

Az biztos. Messze elkerülendő. Ez a tanulság.

"vagy vegyük azt, hogy mondjuk egy HP szerverbe / storage-ba teljesen eltérő kódú HP lemezt kapsz (nyilván más paraméterekkel és FW-el), mert a keresett cucc éppen / már nem elérhető. a supported listán pedig az "új" nincs rajta. na ilyenkor mi van?"

Az anyagbeszerzés nem az én gondom. Az legyen az anyagbeszerző problémája. Ha egy nem retired kategóriájú szerverről van szó, akkor 100%, hogy van hozzá alkatrész. Eddig még nem volt olyan, hogy ne lett volna.

Természetesen, ha írásba adják, hogy vállalják a felelősséget, hogy egy nem supportált eszköz kerül a rendszerbe, akkor beleteszem. De ez már egy másik sztori. Ezt célszerű nem utólag tisztázni , hanem előre és az a biztos, ha a írásos nyoma van.

--
trey @ gépház

a működési biztonsághoz közel értelmetlenül ráncigáltad ide szakszerűséget, eddig csak annyi volt a feltevésed és problémád, hogy el sem indul a Raid vezérlőn / hibázik az idegen háttértár.

A felelősségről annyit, hogy megismételem: láttam, nem én csináltam. mondataidat idézve: ki hogyan jár el, az ő dolga. akinél ilyet láttam ott nem volt probléma, így kisegítő jelleggel szerintem meg merném kockáztatni, egy tesztüzemmel bevezetve. szándékosan nyilván nem rendelnék félre, de ha megszorulnék nem ülnék ölbe tett kézzel a szent kódú lemezre várva.

az, hogy kinek mi a tanulság az erősen szubjektív, lásd a beszélgetésünket.

anyagbeszerzés: te rendeltél már mindenféle szerverhez lemezt? igen, vagy nem? vágom, hogy a beszerzés dolga, csak azért kérdezem, hogy tudod-e hogyan megy? kérsz egy adott kódú cuccra árat és reagálható szállítási időt, majd bizony előfordul, hogy más kóddal válaszolnak. és még ez is mindegy különben, mert mint írtam azonos kód alatt is mutatok neked különböző lemezeket.

a biztonsághoz akkor én is hadd cibáljak ide egy dolgot, ha a szent kódokról beszélünk: egyes brand-ek szervereikhez utólag úgy adnak alkatrészeket és opciókat (akár táp vagy HDD), hogy ha beadod a régi berosált cuccodat, akkor olcsóbban kapod az újat. gondolom ki tudod sakkozni, hogy a következő ügyfél miért kap majd OEM terméket. holott te a szent kóddal kapod meg a tökéletes árut és nagyobb biztonságban vagy mint az amerikai elnök.

--
Vége a dalnak, háború lesz...

"akinél ilyet láttam ott nem volt probléma, így kisegítő jelleggel szerintem meg merném kockáztatni"

Ott megy félre a beszélgetésünk, hogy szerintem ilyen esetekben nincs helye a "kockáztatni" szónak, szerinted meg van.

"akinél ilyet láttam ott nem volt probléma, így kisegítő jelleggel szerintem meg merném kockáztatni, egy tesztüzemmel bevezetve."

Jaja, majd odatalicskáznak neked egy ugyanolyan gépet / storage-ot / vezérlőt ugyanazzal a firmware level-en, hogy te eljátszódhass. Ráadásul ki mondja ki, hogy a végén sikeres a teszt és mi alapján?

"de ha megszorulnék nem ülnék ölbe tett kézzel a szent kódú lemezre várva."

Ölbe tett kézről szó sincs. Ha nincs megfelelő eszköz, akkor migrálás más vasra. Nem a vakon beletolom, aztán lesz ami lesz.

"anyagbeszerzés: te rendeltél már mindenféle szerverhez lemezt? igen, vagy nem? vágom, hogy a beszerzés dolga, csak azért kérdezem, hogy tudod-e hogyan megy?"

Nagyjából tudom hogyan megy ez. Azt is, hogy most rendeltek a fenti _8 éves_ konfighoz lemezt és van. Hogy várni kell rá és az alatt mi lesz? Ez már nem az én döntésem és nem is az én problémám. Én migráltam volna. Aki döntött, majd viszi a balhét (ha lesz).

"a biztonsághoz akkor én is hadd cibáljak ide egy dolgot, ha a szent kódokról beszélünk: egyes brand-ek szervereikhez utólag úgy adnak alkatrészeket és opciókat (akár táp vagy HDD), hogy ha beadod a régi berosált cuccodat, akkor olcsóbban kapod az újat. gondolom ki tudod sakkozni, hogy a következő ügyfél miért kap majd OEM terméket."

Ja, hallottam már refurbished intézményéről. Hogy jön ide?

"holott te a szent kóddal kapod meg a tökéletes árut és nagyobb biztonságban vagy mint az amerikai elnök."

Semmivel sem vagyok nagyobb biztonságban az adatvesztés ellen. Gyári lemez is lehet szar, azzal is hallottam már olyant, hogy ráfaragtak (bugos firmware). Viszont akkor azt nem verhetik rád, hogy te kísérleteztél nem bele való eszközzel.

--
trey @ gépház

hát igen ez tipikusan az az eset lenne mikor valaki kókányol egy jót a rábízott rendszeren, aztán csak azt kérdi:

"Ez mit is csinál pontosan?"

Vagy olyasmi lehet ez, mint amikor valaki nem tud BSD-ben valamit megoldani, aztán stikában az általa rettentő mód utált és megvetett Linuxot bőrözi fel (de persze ezt azért titkolja)? Haverjai meg elmondják anekdotaként jókat röhögve a háta mögött? Valami pendrive RAID eset rémlik.

--
trey @ gépház

igen, aztán büszkén híresztelik, hogy tudnak péniszeket montázsolni!

brand szoftverrel.

Nem, valamit félreértett a csipet-csapat (bár ezt nem csodálom, mert amennyi mellényúlása van, az már-már szórakoztató). A péniszt más montázsolta oda. Kb. 10 évvel ezelőtt. Hogy milyen szoftverrel, azt én nem tudom!

--
trey @ gépház

Így van.

"Ott megy félre a beszélgetésünk, hogy szerintem ilyen esetekben nincs helye a "kockáztatni" szónak, szerinted meg van."
erre is lehet fordítani a beszélgetés lényegi mondandóját, de még mindig nem arról beszélünk, hogy nem feltétlenül kell egyező típusú lemezeket keresned azonos kód alatt, illetve nem minden esetben lesz gyártóspecifikus FW magán a lemezen akármilyen kódon rendeled, ha egyáltalán azzal a kóddal kapod. [+] és még nem is beszéltünk nem (kiszolgáló / storage) gyártóspecifikus (nem desktop) HDD-ről amit bemész egy komolyabb üzletbe és megveheted. így a kockáztatás szót természetesen el tudom fogadni, de tuti adatvesztést meg pereket emlegetni mégiscsak erős.

"Ja, hallottam már refurbished intézményéről. Hogy jön ide?"
pont úgy jön ide, mint a szakszerűség. én egyébként arról beszélek, hogy egy leégett tápot, vagy egy berosált vezérlővel x^2 időt futott HDD-t is megkaphatsz javítás után éles rendszerbe irányítva. legalábbis nem látom bizonyítva az ellenkezőjét. ezt inkább látom nagyobb veszélynek, mint a szent kód nem egyezését. az, hogy ezért a gyártó felelősséget vállal az nem üt mindent (szerintem).

az FRU kérdésekben (szerintem) az egyik árulkodó jel, ahogyan mondjuk elérhetsz hivatalos firmware update tool-okat, ami pl. az eddig nem támogatott (házon belüli) kódos terméket frissíti elfogadhatóra. tehát nem tisztán technikai akadályokról beszélünk. de vannak itt nyakig érintett kollégák nagy cégektől, egy őszinte véleményt szívesen meghallgatnék a marketingen túl. legfőképpen arról, hogy csúnya példaként pl. egy boltban kapható "általános" ~Enterprise szériás SAS diszk miért okozhat nagyobb eséllyel adatvesztést, mint egy ~szerver-brandelt ugyanilyen lemez (itt nem érdekel a refurbished téma, az majd esetleg később).

--
Vége a dalnak, háború lesz...

értem. na még egyszer: miért veszítek tutira adatot, miért kell fossak pertől. mi akadályoz abban, hogy bemenjek egy boltba és vásároljak megfelelő típusú Enterprise diszket majd brandelt FW-t toljak rá (nem a hogyan-on van a lényeg). ha olyan király a szerver, a szintén csak elvárt kóddal működésre fogható vezérlő miért nem vágja le a nem megfelelő lemezt már induláskor, miért inicializálja helyesen - lehetőséget adva a világi katasztrófára.

az, hogy egészséges saját gyártótól vásárolni a támogatott lemeztípust az okés. az, hogy a gyártó szerint elvárt dolog az, hogy támogatott lemezt vegyél az is okés. az, hogy szerverek bőségesen nem indulnak idegen lemezzel ez is okés. de az akár pertől kell féljek + 100%, hogy összedől a már felépített és x ideig használt tömb nem brandelt lemez esetén, azt ne. maximum akkor, ha ez hit kérdése: viszont ha erről van szó akkor szólhattál volna, mert ezzel nekem teendőm nincs ahogyan bajom se.

--
Vége a dalnak, háború lesz...