Sas hdd disk élettartam

Sziasztok,

ti mi alapján szoktátok analizálni, cserélni a diskeket a serverekben?
Van itt mindenféle megközelítés, MTBF, Smart alapon: lifetime, corrected errors count, non corrected errors count, stb stb.

Van pár sas diskünk testingben, és lehet vennénk még jó pár használtat mellé, de szeretnék először alaposan utánajárni a bulinak...

Köszi, Andris

Hozzászólások

Ha a vezérlő kidobja.

Fedora 17, Thinkpad x61s

Ez forgómorgó tárolóeszköznél jó lehet, de SSD esetében láttam már hülyeséget beszélni Intel vezérlőt - négy SSD-t hajított ki < 10 perc alatt egy négy meghajtóból álló raid 10 tömbből. Úgy nézett ki a dolog, hogy bizonyos kiírt adatmennyiség után csinálta ezt a hülyeséget. Intel SSD-re cserélve elmúlt a probléma - és a kiszedett ssd-k is élik világukat azóta is - desktop gépekben.

Írtam, hogy forgómorgó eszköznél jó lehet (bár láttam már raid-vezérlő által hibásnak minősített diszket boldogan működni hosszú ideig másik gépben...) - az adott SSD-kupacra (nem egy gépről volt szó) nagyságrendekkel kevesebb adat lett kilapátolva (0.1-1% között), mint amennyi az adott eszköz várható élettartamára adott érték - ennek köszönhető, hogy a kihajított SSD-ket gyakorlatilag csak vissza kellett pakolni egy "új" tömbbe.

Egyszerűen belefutottunk egy inkompatibilitásba a raid-vezérlő és az adott ssd között.

+1

Igen, ha a vezérlő kidobta, akkor ott állsz hogy van egy kvázi halott disked, amit illene cserélned.
Ezeket jó dolog (lenne) előre tudni, hogy már nem ideális a státusza valamelyik disknek, és akár előre rákészülni, tudni milyen általános státuszban vannak, hiszen ha pl. látom hogy a 6 diskes raid6-nál 4 disk meghalhat hamarosan, akkor elkezdem szépen cserélni a gázosokat.

---------------------------------------------------
Hell is empty and all the devils are here.
-- Wm. Shakespeare, "The Tempest"

úgysem tudod megjósolni biztosan.
smart: nekem még igazából nem jelzett előre diszkhibát...
legutóbb tavaly év végén vettünk 4 db zsír új hitach 600GB 15k rpm SAS diszket, egyik a beüzemelés napján halt meg, másik kettő 2 hónapon belül. 1 db még most is megy.
a smart szerint minden rendben volt. MTBF alapon sem derült ki ugye, mivel új lemezekről beszélünk.
az első lemez egyszerűen megnyekkent, nem indult el többé.
a másik kettőnél az volt a jelenség, hogy egyszercsak a lemez írási sebessége leesett 180 MB/sec környékéről konstans 27 Mb/sec-re.
semmi nem jelezte egyiket sem hibásnak, minden tuti, csak épp a lemez nem jó.... gondolom még pár hét/hónap, s azok sem indultak volna el többet....
pályafutásom alatt csak ilyen jellegű hibákkal találkoztam, soha, semmi nem jelezte előre egy lemez halálát sem.
jobb esetben elkezdett világítani a piros led a diszk bay-en, rosszabb esetben megbelassult az egész, s keresni, nyomozni kellett.

ha MTBF alapon cserélgeted a lemezeket, akkor kidobod csak a pénzt, mert kicserélsz olyat is, amit még lehet, hogy közel sem kéne.
meg MTBF előtt is meghallhat a diszk, azt nem tudhatod előre.

legyen inkább hot-spare meg cold-spare, aztán ha kidobja a vezérlő, akkor csere, miután a hot-spare átvette a helyét.

adatvesztés ellen meg nem a raid a megoldás, hanem a backup....

nem ez a legjellemzőbb, de nem egy esetben egyik pillanatról a másikra is megtörténik a baj, brand szerverek / storagek felügyeleti szoftvereinek "van pofája" :) egyik napról másikra jelezni mindenféle előzmény nélkül. emiatt maga a kérdés is olyan, amiben felesleges elmélyedni. azzal sem vagy előrébb, ha nem azonnali cserére kapsz jelzést ~holnap reggelre, vagy hullik szét a raid, hanem valami meghibásodást jelez előre.

az egyik olyan alkatrész, melyet használtan nem vennék az a HDD: még asztali gép esetén sem. igazi fekete ló, nem tudod ki hogyan és (pontosan) mennyit használta, esetleg trükközött-e vele. de ez csak én vagyok

--
Vége a dalnak, háború lesz...

Nevetséges áron jutottunk 73GB-os ibm sas diskekhez, papírformát hozzák eddig teljesítményben, inkább a meddig a kérdés nyilván :)
Raid6-ban vannak, annyira azért nem pánik így a dolog, csak jó lenne tudni az igazságot...
---------------------------------------------------
Hell is empty and all the devils are here.
-- Wm. Shakespeare, "The Tempest"

nem minősíteni akartam a dolgot, csak a saját véleményem írtam le. éppen el szeretnék adni 2db futott IBM szervert, egyenként 6db olyan diszkkel amit írtál. a diszkekből az egyikben 2db feküdt ki 3 nap folyamatos teszt alatt előjel nélkül. másikban az egyik diszk a második (teszt)indítástól kezdve már többször annyi idő alatt inicializálódik ahhoz képest, mint amilyen volt amikor elhoztam ezt a masinát (másik fiókba téve is ugyanez a diszk ~szarozik).

természetesen tudnék írni ennél komolyabb mintavételi alapról, céges kivitelben IBM és HP márkában is szállítunk folyamatosan: ezek alapján összesen mondom, hogy én félve vásárolnék ilyesmit használtan akármilyen teszteredményekkel megtámasztva is. felesleges konkrétumokról írnom, de a lényeg, hogy a tegnap még futó lemez előjelek nélkül is kifingik: belegondolva vásárláskor is lehet így viselkedne a használt cucc.

persze ha nektek jó, nekem nincsen vele teendőm, embere válogatja. volt idő, amikor én is megvettem a használt lemezt, szóval ellenérzések nélkül tudom leírni a dolgot, talán kicsi megértés* is van bennem. nem biztos, hogy ez a legjobb szó* de valami ilyesmi.

--
Vége a dalnak, háború lesz...

semmi gond, nem vagyunk egyformák, mindenki máshogy látja a dolgokat :)

Én annyit látok, hogy a zsír újjal is lehet gond, nyilván kevesebb papíron az esélye.

---------------------------------------------------
Hell is empty and all the devils are here.
-- Wm. Shakespeare, "The Tempest"

Amikor a SMART jelzi a legelso hibas szektort (Current_Pending_Sector vagy Offline_Uncorrectable), vagy a harom havonta elindulo SMART long self test hibat jelez.

Több opció van:
- HW RAID vezérlő prefailt vagy teljes diszk hibát jelez. A prefail állapotban még megy a diszk boldogan, nem kell rohanni ész nélkül cserélni, főleg ha van hotspare. Ha teljes diszk hiba van akkor nyilván jön a mielőbbi csere.
- Valamilyen softraid (pl. Linux, FreeBSD megfelelői) esetén a smart és badblocks adatok. Itt a prefail-t a smart monitoringgal lehet követni, ha full hibánál Linuxon az mdadm küld emailt és lehet rohanni.
- Storage eszköz jelez prefailt vagy teljes hibát. Itt eszköztől függ, hogy nála mi számít prefailnek és mennyire csak egy sima prefail vagy be is sárgítja a diszket. A teljesen kivágott diszk itt sem kérdéses.

Alapvetően kell a polcon tartani diszket, akármilyen szintű gari is jár a géphez és akármennyire van hotspare beállítva.

Én nyugodtan használnék (sőt használok is) használt SAS diszkeket. Olyan 30-40e üzemóráig simán elmennek és az 50-60e-s érték se meglepő.

félrement, sry

---------------------------------------------------
Hell is empty and all the devils are here.
-- Wm. Shakespeare, "The Tempest"

Mi akkor szoktuk a SAS diszkeket cserélni, amikor elromlik.
Badblock: áthelyezi a SCSI. Ez még nem ok a kidobásra.

Végülis, mikor máskor. Hétfőn is kihullott egy. Azt 2007. márciusban gyártották.

Smartban pending, reallocated sector jó jel lehet. Amúgy meg legyen tartalék a polcon és ennyi.
SAS 50.000-100.000 üzemóra között nagy valószínűséggel el fog menni.

Használt lemez nem lemez, azt nagyon nem javaslom.

Ezt a raid vezérlőre (sw/hw) kell bízni, majd megy ameddig megy.

Köszönöm mindenkinek a hozzászólását, én kíváncsiságból azért figyelni fogom az értékeket, és következtetéseket levonni, természetesen automatizáltan, hátha lehet összefüggéseket észrevenni.
Tartalék diskek, mindegy egyéb megvan, ez inkább "pro-aktivitás" kategória, ha van rá idő részemről.
Egy online riport amire rá lehet nézni, főleg egy disk halál után nem rossz szerintem azért.

---------------------------------------------------
Hell is empty and all the devils are here.
-- Wm. Shakespeare, "The Tempest"