hotspare teszteles

Adott egy 4 elemes raid10 tomb + 1 hot spare. Ezt tervezem boviteni masik 2 vinyoval. Ezen gondolkozva jottem ra, hogy:
a) lehet, hogy 1 hotspare nem lesz eleg
b) ha egy elem kiesik a hot spare mivel nem resze semelyik tombnek nincs igazabol tesztelve, hogy mukodik-e meg

Szoval a kerdes, hogy szukseges-e a hot-spare tesztelese, es ha igen akkor milyen formaban csinaljatok.

Hozzászólások

1-2 havonta ez:


smartctl -x /dev/XXX > /tmp/before
badblocks -w /dev/XXX
smartctl -x /dev/XXX > /tmp/after
diff /tmp/before /tmp/after | less

Témához kapcsolódik:
Hotspare pörögjön vagy álljon? Mi az ajánlott? Ha áll és hetente/havonta felpörgetem egy smartctl lekérdezésre, korrekt? Logikailag így is kevesebbet megy, mint egyébként menne 3-5 év alatt. Viszont pár százszor felpörög-leáll, mint egyébként tenné.

"Aminek pont zéró befolyása van a működőképességére."

Ezt nem értem, minek?

"Simán ki kell bírjon valahol 10e-100e között. A laptop lemezek még többet."

Felpörgésről beszélünk még mindig vagy üzemidőről? Mert üzemidőnél ~30.000 óra körül elhaláloznak nagy átlagban.
Felpörgés pedig jobban nyírja, mintha folyamatosan használnád.
Miből gondolom?
PC-ben ugyanaz a vinyó naponta ki-bekapcsolva 15.000 üzemóra után csinál érdekeseket. A felpörgés számláló több száznál, ezernél jár.
Szerverben 1-2 felpörgéssel 25-30-40.000 üzemórát megy.
Mondhatjuk, hogy más üzemi hőmérséklet, lehet... Bár 35°C körül mozgott mindkét esetben nagy átlagban.

A 'záram, a füst meg a levegő.

Elég nagy desktop sample size-om van (sacc 2-300), teljesen eltérő használattal. Van amit soha nem kapcsolnak ki, van amit naponta többször is.

A defektes lemezek számát az utóbbi 5 évben mondjuk két (de legrosszabb esetben négy) kézen megszámolhatom. Badsector is elég ritka (méretben valahol 320 körül a maximum).

Standard desktop lemezek. WD 80-250GB Seagate-ből jelenleg a 160-asok vannak a legtöbben 7200.10-es széria, Samsung most már ritkább, de akad.

Egy kb. 30-40 darabos Optiplex GX520 SFF szériából végignéztem a SMART-ot kíváncsiságból, itt volt kb. 10-15%-ában nagyon kevés reallokált szektor. Ezek 90%-a Samsung volt.

Igen, a fizika órai tanulmányok még megvannak, de itt nem hevítésről beszélünk, főleg nem Curie-hőmérsékletről :)
A kérdésem nem volt alaptalan, hisz normál esetben egy desktop HDD +20 - +40 °C között van használva. 20°C hőváltozás milyen hőtágulást okoz a HDD-nél felhasznált fémekben amiről a kolléga fentebb szólt? Érzésem szerint a hasára ütött és mondott valamit. Az archivum meg hízik a marhasággal, ezért kérdeztem vissza, hogy honnan is a feltevés?

Szerintem ezt nem a megfelelo forumon kerdezed. Vannak nalunk sokkal tapasztaltabb kollegak, akik tobb evtizedes tapasztalattal, statisztikai adatokkal a birtokukban tudnak nyilatkozni arra a kerdesre, milyen a hibaarany a folyamatosan, illetve szakaszosan uzemeltetett hdd eseteben. Emlekeim szerint a szakaszos uzem tobb fizikai tenyezo valtozasa miatt is kritikusabb a hdd elettartamara nezve.
Gondolom ezt mar ismered (de ha nem, akkor mellekelem, hatha nyujt valami uj infot)
--
"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség

Akár a jobb beszerelés miatt is lehet hogy tovább bírja.

https://www.backblaze.com/blog/what-hard-drive-should-i-buy/

Itt írják hogy a sok leállás-felpörgés alighanem nem tesz jót nekik, de arról is írnak, hogy volt olyan HDD ami - valószínűleg a rezgések miatt - hamar elnyekkent, míg az újabb, rezgéselnyelő bölcsőben jobban teljesített.

Direkt néztem, egyik ügyfélnél (is) van egy raid10-em, mostanában jelzett az egyik lemezre a smart pending sectort, ki is lett cserélve, és kapott egy spare lemezt. WD RE lemezek, 3db jelenleg ~41500 óránál tart, kettő meg új. Én mondtam, h vegyen helyette 3db 512-es ssd-t, de nem akarták.

# smartctl -A /dev/sda | egrep "(ID#|Power_On_Hours)"
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  9 Power_On_Hours          0x0032   083   083   000    Old_age   Always       -       13005

Ez alapjan ~75k uzemorara szamitanak gyarilag (WD Red 2 TB), de sok-sok vinyo alapjan azt mondhatom, hogy 50k uzemorat bamelyik vinyo ki kene birjon.

Felpörgés pedig jobban nyírja, mintha folyamatosan használnád.

Egyetertek.

Amugy javasolnek egy ilyesmit a

smartd.conf

-ba, igy a smartd 3 havonta automatikusan elereszt egy long self test-et az osszes vinyon (beleertve a hot spare-t is :-))

DEVICESCAN -H -l error -l selftest -f -s L/(01|04|07|10)/01/./06 -m root -M daily

" sok-sok vinyo alapjan azt mondhatom, hogy 50k uzemorat bamelyik vinyo ki kene birjon."

Nem tudom mivel volt tapasztalatod. A múltkor számoltam össze, párhuzamosan 100 vinyóról van mintám és az elmúlt ~10 év alapján úgy látom, hogy sima SATA desktop HDD 20-30k, WD RE, főleg az újabbak 40-50k fölé is elmennek már.
Samsung HE (elvileg szintén raid edition jelleg) 30k körül hello, a sima SAMSUNG HD még addig sem bírta.
Mindez szerverben, folyamatosan pörgetve és átlagról beszélve. Kirívó esetek persze vannak, de arra nem alapozok :)

Ha jól látom perpill 54003 óra a max, egy WDC WD5002ABYS-01B1.

SAS vinyókkal persze sokkal jobbak a tapasztalatok. Ott 80k volt emlékeim szerint a max. Van egy 2009-ben vett használt szerver 16 SAS diszkkel. Eddig 1 esett ki. Többi köszöni jól van és 1 percet nem pihentek :)

Leállítom én hdparmmal, de mi a biztosíték, hogy nem kapcsol be a HW, SW raid ingerlése miatt.
Ha folyamatosan megy, azzal az a bajom, hogy a többi vinyóval öregedik és 3-5 év múlva kihullik lassan a többivel.
Perpill nálam is folyamatosan megy. Ezért tettem fel a kérdést.

tw_cli /c0/u5 set autoverify=on
meg persze be kell állítani hozzá a schedule-t is...
;-)

"Jegyezze fel a vádhoz - utasította Metcalf őrnagy a tizedest, aki tudott gyorsírni. - Tiszteletlenül beszélt a feljebbvalójával, amikor nem pofázott közbe."