SMART Drive Status értelmezése

 ( kalmarr | 2016. február 12., péntek - 19:24 )

Sziasztok,

szeretném a segítségeteket kérni a "Smartmontools" értelmezésében, ugyanis 6 db hibát jelzett, de nem igazán értem, hogy mi ez a 6 hiba...:(, amit talán megértettem, hogy a hőfokkal lesz a baj, de nem igazán értem a helyzet súlyosságát....

Köszi!

Kalmi

smartctl -a /dev/sdc

http://pastebin.com/X198tS5k

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

mondjuk azt sose értettem hogy a smartctl -nek miért nem implementáltak egy "human-readable" formátumot.. Lásd kis csilló tool Win* -ra.
én smartot phpsy -vel szoktam nézni, az szépen "nevén nevezi a dolgokat" és összefoglalja.

Huuuuu, azt hittem én vagyok ennyire béna ;)... Ez pontosan melyik is,a mit érdemes használni? :)

http://phpsysinfo.github.io/phpsysinfo/

de ez nem csak és kizárólag smartra van. Használom sok helyen, de alapból kell hozzá egy webszerver + php. Ahol ezeket használom ott van. Ha nem is public, de VNC-SSH tunnelen + firefox localhost. azt ennyi.

Konzolos cuccról nem tudok, ami "normálisan" jelenitené meg a smartctl adatait.

De ha valakinek van ötlete, akkor ossza meg pls :)

ps.: amikor human-readable formatra gondoltam valami ilyesmit képzeltem el:

https://tardis.hu/foo/smarts.jpg

> ps.: amikor human-readable formatra gondoltam valami ilyesmit képzeltem el:

Nadehát a smartctl pont ugyanígy írja ki az attributumok értékét, csak nem nem vízszintesen, hanem függőlegesen, sorokban...

szuper. értem. Te ránézel a smartctl kimenetre én meg a fent linkelt "képre" .

Neked is ugyan az jön ki nekem is ugyan az jön ki. Nekem a linkelt verzió kényelmesebb (lenne smartctl-el is ha lenne bármi nem raw érték lehetőség).

A webmin-t esetleg nem lehetne felokosítani?

passz, nem használok webmin-t, de 100% hogy van valami smart* pluginja. Google. :)

A SMART attributumok értéke és értelmezése gyártónként és eszközönként más és más.

A dolog ott indul, hogy az eszközből ki tudsz olvasni n. darab különböző attributumot, és ezeknek van egy "nyers" és egy "normalizált" értéke.

A nyers érték jellemzően valami egzakt mérés eredménye (pl. üzemórák száma, hőmérséklet celsius fokban, stb.) a normalizált érték pedig egy 0-100, vagy 0-200, esetleg 0-255 közötti lineárisan skálázott érték, ahol a maximális érték jelenti az optimális értéket, a 0 pedig a rosszat.

Például:
Üzemórák száma, nyers: 15443, normalizált: 76

Ez azt jelenti, hogy az eszköz 15443 üzemórát pörgött (~1,76 év) és a gyártó szerint ezzel a várható élettartamának 24%-át már elhasználta, és még 76% hátra van. (Ha a gyártó 100-as skálát használt a normalizált értéknél. Gyakran van 200-as, vagy 255-ös skála, lásd fent)

A gyártók általában publikálják, hogy melyik attributum mit jelent, és milyen értékek tartoznak hozzá tűréshatáron belülinek.

Ezen felül, van az eszköznek egy saját hibatárolója, ahol képes hibákat loggolni, időbélyeg és kapcsolódó szektor megjelöléssel.

A smartctl tökéletes eszköz ezeknek a kiolvasására.

Én ezt nem is vitatom, de vannak standard értékek, amikre ha ránéz az ember akkor villog egy villanykörte hogy "hoho, itt baj lesz".

Ezzel szemben a smartctl kimenetre ha ránéz az ember, akkor nagyon nem villog semmi. Csak egy rakás karakter.

Persze, lehet utánanézni + olvasgatni + stb. De azért na. 2016-ban ne ebből kelljen már kitalálgatni hogy ki merre meddig és kivel. Első ránézésre.

Persze biztos van olyan aki keni vágja első ránézésre, tisztelet érte.

no offense. Nem kötekedni akarok.

Háttudod, a linugz már csak ilyen. Vannak jól elkészült parancssoros toolok, és olyan GUI-t rittyenthetsz köré, amilyet tudsz.
De nem kell minden júzernek se rendszergazdának lennie, hogy olyannal foglalkozzon, amihez nem ért.

Jaj anyám ... Ennyire gáz ez az egész téma ? Hogy fel mertem vetni azt, hogy esetleg "villogjon" az a sz.r ha gond van ?

Nem csillivilli karácsonyfát akarok, remek a smartmontools is. Tudom is értelmezni csak kurvára nem akarom.

Majd szól a nagios ha smart gond van. Remek. De arra akartam rámutatni ha az ember egy ""tetszetős"" átlátható felületet szeretne látni, akkor igen is lenne erre igény...

Lásd a posztolót.

De persze az itteni "okos" emberek mindig minden szerverüket nézik a smartmontoolsal, aztán megnézik lm_sensorsal hogy a hőfok/volt jó-e, megnézik konzolba hogy nincs-e tele a kötet, a HW raid állapotokat is szépen kezelik konzolból egyesével.

Remek dolog lehet ez... És működhet, nem mondom hogy nem működik ... Nem mondom hogy nincs olyan helyzet ahol ez a legoptimálisabb, de na. Ahol lehet próbáljunk már meg egy kicsit haladni a korral. Vagy ez annyira ördögtől való ??

.

Ahol lehet próbáljunk már meg egy kicsit haladni a korral.
Kicsit eltévedtél. A kornak ehhez semmi köze.
Egyrészt létezik olyen felület amit szeretnél. De a kedvencem az, amikor nem kell mindenfele toolokat használni. Az ilyenek nem működnek Win és linux alatt sem. És ha igen, akkor a rendszergazda nem tudja mit is kellene a komplett rendszerrel csinálnia. (Tudod, ide kellene olyan akit manapság devops-nak csúfolnak.) De láttam már 20 éve is olyan rendszert, ahol csak el kellett olvasni mi történt, mert hibák java részét az oprendszer lekezelte. Csak azt AIX-nek hívták. ;)

Ezzel szemben a kommersz diszkek nem is működnek együtt profi rendszerekkel. Ezért nincs alapértelmezetten beépítve ilyen szolgáltatás a fent említett egyéb rendszerekbe. Ezért nagy piaca lehet az olyan színes-szagos szoftvereknek, mint a Hard Disk Sentinel, amely júzerfredli és esetleg őrületbe kergeheti a garanciális szervízt.

Megfordítva a dolgot - Azt szeretnéd, hogy a rendszer írja ki: ERROR. Ilyen alapon cserélték ki a barátom diszkjét. Elvégre fogyasztói társadalomban élünk. Meg akar élni a diszkgyártó, a szerviz, a zembereknek meg valamire csak el kell költeni a pénzüket. De visszakanyarodva az elejére - sem a "szervizszakember" sem a barátom nem értett a hibákhoz, és nem is akart érteni. Jó ez így!

ez baromság..

1. hol van az a felület? :)

2. Kommersz diszkek? És azoknál a SMART már smafu.

3. Remek hogy AIX rendszerekben dolgoztál/dolgozol (kösd össze magad az itteni AIXosokkal) de az AIX óta kicsit változott a világ.
vagy nem?

4. Kissé elforditottad a problémát... Az emberünk fent elmlitve tényleg nem ért hozzá, szeretne látni valami konkrétumot, amiből megallapitja hogy mi a baj. Nem, nem azt szeretné látni hogy 0s243245235235 x124235 s2 4235 0 value 4235 x 24235 53246 stb.

Nem, nem ezt szeretné látni.

Devops? Hajrá. Sok sikert :)

Nem, nem baromság. Mindösszesen kapitálisan tájékozatlan vagy.

1. és 4. Neked ott van a Hard Disk Sentinel. Magyaráz, értékel, jósol, kiszámítja a jövőt! Színes... (Lásd: 2)

2. A SMART nem statisztikai és nem valószínűségi alapokon dolgozik. Adatokat gyűjt, esetleg méréseket végez, amelyekből - egyszerű esetben - egy gyakorlott szakember óvatos következtetéseket vonhat le. Ennél nem több. Ha olvasgatsz megtudod.* Több egyetemi tanulmány is vizsgálta a SMART és a meghibásodás korrelációját. Valami olyasmi jött ki nekik, hogy igen is meg nem is. Igen alapos elemzés látott napvilágot, amelyet egy elég sok diszket nyűvő cég adott ki: Google.
Gondolj csak bele, az autód kiírja-e, hogy
- 510km megtétele után szállj át vonatra? vagy
- 47 óra múlve eltörik a jobb első féltengely?
- Leesett a kipufogó, tolass vissza és rakd be a csomagtartóba!
Ugye nevetséges! Egy diszk is ugyanolyan elektromechanikus szerkezet, mint egy autó. Mit vársz tőle?

3. "AIX óta" - ez mindent visz! :D
Barátom! A kis országunk határain kívül, ahol nem él tízmillió linux és Windows szakértő, elég komoly AIX alapú rendszerek léteznek. És ez akkor is így van, ha nem tudsz róla, vagy gőzöd sincs az AIX-ről.

*Mint írtad: "...remek a smartmontools is. Tudom is értelmezni csak kurvára nem akarom."
Ilyesmire egy Old Firehand által említett régi jenki közmondás jutott az eszembe: "Hosszú az út a pohártól az ajkadig!"

Szóval inkább előbb olvasgass, utána fröcsögj! ;)

de vannak standard értékek, amikre ha ránéz az ember akkor villog egy villanykörte hogy "hoho, itt baj lesz".

Vannak. A sok counter mellett van egy VALUE oszlop. Ha ott minden szám >=100, akkor a vinyód kurvajól érzi magát. Ahogy csökkennek a számok a 0 közelébe, úgy egyre nagyobb a baj.

Annyit tennek hozza, hogy a normalizalt ertek nem feltetlenul nullaig kell lecsokkenjen, hogy az adott parameter "rossz" legyen, hanem a kuszobertekig (THRESH). Peldaul a szerverem vinyojan:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0

Itt a normalizalt ertek 200-rol indul, es ha lecsokken 140-re, akkor a gyarto szerint vege.

Már bocsánat de én nem így tudom. Mármint a threshold értékének értelmezését.
A te példádat nézve, 140 szabad tartalék szektor van a felületen gyárilag. Ebből RAW_VALUE értéknyit használ(t) el a SMART. Tehát ha ez elkezd közelíteni a THRESH értékig, akkor kidobható a vinyó. (adatvesztés)
Egyébként többfajta más funkciója is van a RAW_VALUE -nak. De itt (én úgy tudom) ez.

---------------------------------------------------------------
Ritkán szólok hozzá dolgokhoz. Így ne várj tőlem interakciót.

Nem jól gondolod, mert a VALUE/WORST/THRES mértékegység nélküli, virtuális "jósági" számok (tehát biztosan nem darabszám), míg a RAW_VALUE szinte mindig valamilyen valós életbeli mérőszám (pl. darab, Celsius, stb). Ergó a kettő egymással biztosan nem hasonlítható össze.
Másrészről meg nagyságrendileg sem 140 db tartalék szektor van egy mai vinyóban... ennyi ugyanis akár egyetlen esemény során is el tud használódni, ha mondjuk menet közben kap egy ütést a vinyó.

Rendben. Akkor ezt hogy értelmezitek:

5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 6

Egyébként ha a fej hozzáütődik a felülethez, akkor az azonnali halál. Mert csak forgó tányérnál, akció közben lehetséges, és ilyenkor azonnal felület karcolás, fejleszakadás az eredmény. Ezért is próbálja kivédeni az elektronika. (Gyorsulásmérés/fejparkoltatás stb.)

---------------------------------------------------------------
Ritkán szólok hozzá dolgokhoz. Így ne várj tőlem interakciót.

Van jó eséllyel 6 darab szektorhiba. Ezt a gyártó úgy értékeli, hogy "semmiség", azaz továbbra is áll a 100-as névleges indulóértéken a "jósági tényező". Hogy mennyinél megy le 99-re, azt ebből még nem tudhatod, de azt igen, hogy ez a 6 darab, ez elhanyagolható a tartalékhoz képest (hiszen még 99-re se ment le 100-ról). Vélhetően a 0-ás számhoz a teljesen használhatatlan diszk tartozik, és a gyártó szerint mire a VALUE lemegy 10-re, addigra a diszk csereérett lesz.

Van 6 hibas, de mar javitott szektor a vinyon (a hibas szektor at van iranyitva egy, az adott sav vegen talalhato tartalekra).

Azert nem csokkent a normalizalt ertek 100-rol, mert az atiranyitott szektorok szama nem erte el a tartalek szektorok 1%-at.

Most nyugdíjaztam ezt a szervert, ami 7 évig egyhuzamban járt:

 9 Power_On_Hours    0x0032   100   100   000    Old_age   Always - 62721

Ez meg a mostani desktopom:

 9 Power_On_Hours    0x0032   087   087   000    Old_age   Always - 10164

Szóval ezeket azért nem könnyű értelmezni.
--
ulysses.co.hu

Pont ezért jó a smartmontools. Aki képes értelmesen használni az használja, más meg ne.
HD Sentinel mintha online adatbázist készít az értékekből, abból lehet többet kihámozni.

Csak szerintem terminálon nem megy :(

Ez se rossz :-)

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  9 Power_On_Hours          0x0032   001   001   000    Old_age   Always       -       112039

(egy WD Caviar 80 GB SATA vinyo volt, az elektronika ment tonkre benne, csere utan le lehetett menteni)

GSmartControl?

De ennek ha jól látom nincs terminal-os verziója :(

Én nem látom, hogy miből gondolnál itt hőfokkal összefüggő problémára. A diszk 32 fokos, ami teljesen normális, sőt, kifejezetten kellemes érték.

Az UDMA_CRC_Error_Count miatt én talán megnézném/kicserélném a SATA kábelt és a csatlakozást.

A hibatárolóban lévő "WRITE FPDMA QUEUED" oka már fogósabb kérdés, ha nem a kábel okozza, akkor lehet a kontroller hibájától a diszk hibáján át firmware hiba is.

Első körben kábelcsere, második körben nézd meg a diszket egy másik gépben.

Ami a bosszantó, hogy most indítottam el a gépet, ami azt jelenti, hogy a cuccok a serverben 1-2 évesek, de be se voltak kapcsolva, mert nem volt vele időm foglalkozni. Így királyság lenne, ha a winyó megadta volna magát az elején (ami igaz lehet egy teljesen új cuccnál).

A hőfokra meg azért gondoltam, mert 4 winyó van benne (mind egy típusúak) és a 4 ből kettő hibát jelez, a másiknak is bemásolom a logját, ami a hőfokot mutatta:

#smartctl -a /dev/sda
http://pastebin.com/pC8HgfZi

Két éve áll bekapcsolatlan állapotban?
Akkor ott mechanikai hibák bőven lehetnek. Még bejáratós.

A hőfokot meg már megint miért gyanúsítod? 30 fok az jó. Szinte hideg.

Nagyon szomoru tapasztalataink vannak a mostanaban kaphato vinyokkal, ezert ujabban vasarlas utan elso dolgunk egy hosszu SMART tesztet inditani. Ket napja kuldtem vissza garanciaba egy 3 TB-os WD Red vinyot, mert nem birta ki az elso 6 orat sem :-(

Tapasztalataim szerint a smart elég butuska. Egy gyenge kísérlet előre látni a diszk hibákat.
Amit én ebből használni szoktam az "össz üzemidő" és a ki/be kapcsolások száma. Ennél a diszknél vlmi 178 óra és 7x ki/be kapcsolás - ez a diszk még csecsemő korban van (egy nem ki/be kapcsolgatott diszk MTBF -je akár 150e óra).
Amit még szerintem érdemes megnézni az egy "short test":
#smartctl -t short /dev/sdX
ez ck. 2 perc, ha itt minden rendben van akkor bátran használhatod.

Arra is jó, hogy menet közben megnézd a diszk hőmérsékletét, ha 50°C felett van érdemes valamit javítani a hűtésen, már ha azt akarod hogy hosszú életű legyen.

Megjegyzés: számos olyan diszk van a kezem ügyében aminek szép hosszú bűnlajstroma van 30-60e óra működéssel és néhány száz ki/be kapcsolással, de van olyanom is amire kiírta, hogy már legfeljebb 24 órája van - szintén működik. Szóval ez a cucc csak tájékoztató jellegű.

* Én egy indián vagyok. Minden indián hazudik.

> ez ck. 2 perc, ha itt minden rendben van akkor bátran használhatod.
És honnan fogom tudni, hogy nincs hiba ;), arról nem is beszélve ha van :)

Csak azt tudod utána, hogy nem talált-e valami ordító nagy bajt.
Egyébként itt látni hogy hogy futott le a teszt:

SMART Self-test log structure revision number 1

Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error

# 1 Short offline Completed without error 00% 134 -

Ha talál valamit, azt két helyen látni. Egyrészt ha ebben a táblázatban nem "Completed without error" van, akkor az nagy baj.
Másrészt a fenti attribútumos táblázat értékei megváltozhatnak. Érdemes teszt előtt elmenteni az állást, majd teszt után összevetni az újjal.

---------------------------------------------------------------
Ritkán szólok hozzá dolgokhoz. Így ne várj tőlem interakciót.

Tehát ez a két érték:


SMART Self-test log structure revision number 1
LBA_of_first_error
# 1 Short offline Completed without error 00% 134 -

gázos most? Ez pontosan mit jelent mire kell számítani?

Azon kívül, hogy nem sikerült a formátumot megőrizned ez teljesen jó:

Idézet:
# 1 Short offline Completed without error 00% 134

Vagyis a rövid idejű teszt hiba nélkül lefutott, a 134 -ik üzemórában.

* Én egy indián vagyok. Minden indián hazudik.

Pontosan. Akár én is írhattam volna a hozzászólást. Kivéve az aláírást.

---------------------------------------------------------------
Ritkán szólok hozzá dolgokhoz. Így ne várj tőlem interakciót.

No, azért mert az MTBF "mean" ... de csak valószínüségi érték.
A smart jegyzi a max-min hőmérsékleteket is.
Az 50 fok nem mérvadó. Először ki kell deríteni, hogy server vagy desktop diszkről van szó.
Azt a programot, amelyik ki tudja írni a hátralévő élettartamot - azt nem kell törölni! Fel se szabad rakni.

Van olyan diszkem, aminek az állapota mondjuk 98% körül van. Sajnos egy bitet sem lehet írni olvasni, így könnyen kiszámítható a diszk mérete: <1bit. (Bocsi, ez nem a pontos érték, csak közelítés.) Igaz, a százalék is valaminek a valamije. Ezek a diszk tudósok!

Bocsi, csak ennyi okosság jutott hirtelen eszembe, de inkább a többiekenk szólt.

A Power_Cycle_Count = Power-Off_Retract_Count az nem egészséges hosszútávon. Azt jelenti, hogy egyszer sem volt szabályosan kikapcsolva a winyó, mindig az áram lett elvéve tőle úgy, hogy még kint volt lemez felett a fej. Erre van egy vészmegoldás, a pörgésből származó energiát felhasználva kidobja a fejet a helyére, ami kicsit sem kiméletes folyamat, nagyságrendekkel kevesebbet bir ki belőle a winyó mint a normális leállitás esetén.

Ha szerver és még nincs beüzelemve, akkor OK, de ha ez igy üzemel, akkor valami nem OK az oprendszerrel.

Teljesen új Ubuntu telepítés még igazából időm se volt elkókányolni. A leállításom pedig 99% #poweroff parancs, esetleg ez nem jó?

Kétlem, ha rákeresel a firmware verzióra, az összes találat smart adatai egyenlők vagy nagyobbak. (szerintem firmware bug :P)

Ezt nem néztem, ha igy van, akkor értelmetlen ez a smart érték ennél a vinyónál.

sub