Érdekes SMART, ugráló Raw read error rate és a Hardware ECC receovered

 ( EdgarPE | 2013. április 8., hétfő - 0:13 )

Adott egy gép, szervernek is nevezhetjük, amiben két asztali HDD teljesít szolgálatot raid mirrorban. Az egyik WD, a másik Seagate. A Seagate ilyen SMART grafikonnal boldogít:

http://kepfeltoltes.hu/view/130408/Screenshot_from_2013-04-08_00_00_52_www.kepfeltoltes.hu_.png

Látszik, hogy Raw read error rate és a Hardware ECC receovered folyamatosan ugrál, de mindig ugyanabban a sávban. Ez már az üzembe állítás óta így van, látszólag minden rendben a winyóval, nincs vele gond. A WD nem csinál ilyet.

Aggódnom kéne, vagy ez normális?

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

Szerintem ez valamilyen mechanikai probléma megjelenése. Arra gondolnék, hogy a gépben fellépő különféle rezgések öszegződése okoz ilyet. Ezt úgy tudod ellenőrizni, hogy másik helyre rakod az ominózus disket.

----
올드보이
http://molnaristvan.eu/

Seagate lemezeknél ezeket teljesen figyelmen kívül kell hagyni, semmi releváns információt nem rejtenek.

Minden lemez így megy, csak a többiek elrejtik ezeket a számlálókat.

Egyébként én inkább a RAW_VALUES értékeket rajzolgatnám és a WHEN_FAILED attribútumot. Ha megnézed a RAW értékeket, akkor nem fog ugrálni, hanem szépen növöget, valószínű hogy az x milliárdot már jóval meghaladta.

Korábban erre a jelenségre jómagam is felfigyeltem, néhány szaki azt javasolta, hogy addig ne aggódjak nagyon amíg Raw_Read_Error_Rate és Hardware_ECC_Rec. megegyeznek.

Nálam is (szinte az összes Seagate HDD) produkál érdekes értékeket.

1 Raw_Read_Error_Rate 0x000f 119 099 006 Pre-fail Always - 205877760
195 Hardware_ECC_Recovered 0x001a 050 030 000 Old_age Always - 205877760

Viszont nálam a Seek_Error_Rate is magas. Ez is Seagate betegség?

udv
letix

-----------------------------------------
Linux alapparancsok, kezdőknek

Igen, ez is Seagate specifikus, betegségnek nevezni túlzás azért, lehet hogy a többi gyártó úgy döntött hogy egyszerűen konstans zéróként jelenti ezeket a számlálókat.
Hibákat minden lemez produkál, ezért is használják szektorszinten az ECC algoritmusokat.

Most néztem, ezeket már a 7200.7-es széria is pont így jelzi, nincs itt semmi gond.


SCSI lemez esetén így néz ki ugyanez (ST373207LW):
Error counter log:
Errors Corrected by Total Correction Gigabytes Total
ECC rereads/ errors algorithm processed uncorrected
fast | delayed rewrites corrected invocations [10^9 bytes] errors
read: 1353189561 0 0 1353189561 1353189561 39939.523 0
write: 0 0 0 0 0 5083.105 0

Mondjuk nem látszik rendesen a táblázat. A lényeg az, hogy Invocations=Errors Corrected by ECC.

a fentieket en is csak alatamasztani tudom. az eddig kezeim kozott megfordult minden seagate hdd ezt mutatja: amig egyenlo a ket emlitett attributum addig minden rendben.

Furcsa amit írtok. A kérdéses winyón a fenti két érték tényleg megegyezik. Tegyük fel, hogy akkor ez OK.

Viszont az egyik asztali gépben a 3 seagate winyó közül kettőnél köszönő viszonyban sincs ez a két érték:

$ smartctl -A /dev/sda
1 Raw_Read_Error_Rate 0x000f 117 091 006 Pre-fail Always - 158238883
195 Hardware_ECC_Recovered 0x001a 091 054 000 Old_age Always - 91843758

$ smartctl -A /dev/sdc
1 Raw_Read_Error_Rate 0x000f 115 082 006 Pre-fail Always - 97694630
195 Hardware_ECC_Recovered 0x001a 056 047 000 Old_age Always - 20975401

Ennél a két winyónál egyébként a smartctl exit kódja 32, ezt próbáltam kinyomozni neten hogy mit jelent, de nem jártam sikerrel. Most akkor ez a két winyó éppen készül tönkremenni?

En a helyedben elkezdenek gyanakodni, de valoban az alabb is emlitett attributumok a perdontoek. mindenesetre a smart self-test-eket futtatnam szorgalmasan.

Offline uncorrectable meg a reallocated sector count, meg a pending sector count figyelendő, ha ilyenek elkezdenek lenni, akkor kuka a lemez.
Az ata reset meg a kernel logban szokott lenni, akkor a táp vagy az adat kábel kuka.

--
Gábriel Ákos
http://i-logic.hu

Nem akartam új topicat nyitni, WD RED 3TB NAS-ban Raw Read Error Rate-je 35, az egyik nap vagy 180 sectorhibát irt hogy nem tudja olvasni, de utána tovább ment a relocated sector 0, Smart test-ből a sima az nem adott problémát, most lassan 24 órája fut az extended, bár reggel óta 90%-on van, hasonlóval találkozott már valaki?

üdv
an-dee

A raw value 48 bit-es, az also es felso fele mas mast jelenthet, pl hibas seek/total seek

Elvileg ez helyesen mutatja,... valoban ? ranezne vki? koszi
smartctl -a -v 1,raw48:54 -v 7,raw48:54 /dev/...
(1.Raw_Read_Error_Rate, 7.Seek_Error_Rate)

Szép nekromancia... majdnem négy éve volt az utolsó poszt.