Fórumok
Hi!
Windows, alaplapi raid vezérlővel összerakot raid1. Az utóbbi 1-2 hónapban időnként furán viselkedik a masina, majd újraindulás után jelzi, hogy raid szétesett. Természetesen automatikusan újraépíti, de a szétesés ténye csak újraindítás után böffen fel neki - ami azért zavar.
Gondoltam, hogy esetleg az egyik hdd kezd megpihenni, ezért rápillantottam a SMART-ra és ezt láttam:
[ SAMSUNG HD321KJ (410211FPA77226) ]
01 Raw Read Error Rate 0 100 100 0 Rendben: Mindig rendben
03 Spinup Time 0 100 100 5504 Rendben: Mindig rendben
04 Start/Stop Count 0 100 100 186 Rendben: Mindig rendben
05 Reallocated Sector Count 0 253 253 0 Rendben: Mindig rendben
07 Seek Error Rate 0 253 253 0 Rendben: Mindig rendben
08 Seek Time Performance 0 253 253 0 Rendben: Mindig rendben
09 Power-On Time Count 0 100 100 39237 Rendben: Mindig rendben
0A Spinup Retry Count 0 253 253 0 Rendben: Mindig rendben
0B Calibration Retry Count 0 253 253 0 Rendben: Mindig rendben
0C Power Cycle Count 0 100 100 162 Rendben: Mindig rendben
0D Soft Read Error Rate 0 100 100 129409713 Rendben: Mindig rendben
BB Reported Uncorrectable Errors 0 253 253 0 Rendben: Mindig rendben
BC Command Timeout 0 100 100 4 Rendben: Mindig rendben
BE Airflow Temperature 0 63 50 37 Rendben: Mindig rendben
C2 Temperature 0 127 85 37 Rendben: Mindig rendben
C3 Hardware ECC Recovered 0 100 100 129409713 Rendben: Mindig rendben
C4 Reallocation Event Count 0 253 253 0 Rendben: Mindig rendben
C5 Current Pending Sector Count 0 253 253 0 Rendben: Mindig rendben
C6 Offline Uncorrectable Sector Count 0 253 253 0 Rendben: Mindig rendben
C7 Ultra ATA CRC Error Rate 0 200 200 0 Rendben: Mindig rendben
C8 Write Error Rate 0 100 100 0 Rendben: Mindig rendben
C9 Soft Read Error Rate 0 100 100 0 Rendben: Mindig rendben
CA Data Address Mark Errors 0 253 253 0 Rendben: Mindig rendben
[ SAMSUNG HD321KJ (402412FPC06827) ]
01 Raw Read Error Rate 0 100 100 1 Rendben: Mindig rendben
03 Spinup Time 0 100 100 5568 Rendben: Mindig rendben
04 Start/Stop Count 0 100 100 186 Rendben: Mindig rendben
05 Reallocated Sector Count 0 253 253 0 Rendben: Mindig rendben
07 Seek Error Rate 0 253 253 0 Rendben: Mindig rendben
08 Seek Time Performance 0 253 253 0 Rendben: Mindig rendben
09 Power-On Time Count 0 100 100 39234 Rendben: Mindig rendben
0A Spinup Retry Count 0 253 253 0 Rendben: Mindig rendben
0B Calibration Retry Count 0 253 253 0 Rendben: Mindig rendben
0C Power Cycle Count 0 100 100 162 Rendben: Mindig rendben
0D Soft Read Error Rate 0 100 100 461169987 Rendben: Mindig rendben
BB Reported Uncorrectable Errors 0 253 253 0 Rendben: Mindig rendben
BC Command Timeout 0 253 253 0 Rendben: Mindig rendben
BE Airflow Temperature 0 65 52 35 Rendben: Mindig rendben
C2 Temperature 0 133 91 35 Rendben: Mindig rendben
C3 Hardware ECC Recovered 0 100 100 461169987 Rendben: Mindig rendben
C4 Reallocation Event Count 0 253 253 0 Rendben: Mindig rendben
C5 Current Pending Sector Count 0 100 100 1 Rendben: Mindig rendben
C6 Offline Uncorrectable Sector Count 0 253 253 0 Rendben: Mindig rendben
C7 Ultra ATA CRC Error Rate 0 200 200 0 Rendben: Mindig rendben
C8 Write Error Rate 0 100 100 0 Rendben: Mindig rendben
C9 Soft Read Error Rate 0 100 100 0 Rendben: Mindig rendben
CA Data Address Mark Errors 0 253 253 0 Rendben: Mindig rendben
A két disk értékei igen hasonlóak, igazából a második disk "Soft Read Error Rate" illetve "Hardware ECC Recovered" értékeinek az első diskhez viszonyított magasabb értékei zavarnak.
Érdekelne a véleményetek/tapasztalatotok, hogy érdemes aggódni a második disk miatt és elkezdeni egy új beszerzését, vagy bőven kibírja januárig?
Hozzászólások
Javítsatok ki, ha tévedek, de úgy rémlik, a samsung és seagate diszkek közös "jó" szokása, hogy szinte az összes olvasás ECC corrected és mindaddig nem kell vele foglalkozni, míg a Soft Read Error Rate és a Hardware ECC Recovered megegyezik.
Szerintem az eltérés oka az lehet, hogy a rendszered valamiért sűrűbben piszkálja a másodikat.
update: a táp biztos, hogy jó?
Aki tudja, csinálja, aki nem tudja, tanítja... Hm... igazgatónak talán még jó lennék. :)
Ez is samsung és viszonylag barátságos a smart
Device Model: SAMSUNG HD153WI
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 100 100 051 Pre-fail Always - 164
2 Throughput_Performance 0x0026 252 252 000 Old_age Always - 0
3 Spin_Up_Time 0x0023 060 056 025 Pre-fail Always - 12267
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 832
5 Reallocated_Sector_Ct 0x0033 252 252 010 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 252 252 051 Old_age Always - 0
8 Seek_Time_Performance 0x0024 252 252 015 Old_age Offline - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 4491
10 Spin_Retry_Count 0x0032 252 252 051 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 252 252 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 657
191 G-Sense_Error_Rate 0x0022 100 100 000 Old_age Always - 234
192 Power-Off_Retract_Count 0x0022 252 252 000 Old_age Always - 0
194 Temperature_Celsius 0x0002 064 057 000 Old_age Always - 25 (Min/Max 4/44)
195 Hardware_ECC_Recovered 0x003a 100 100 000 Old_age Always - 0
196 Reallocated_Event_Count 0x0032 252 252 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 252 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 252 252 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0036 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x002a 100 100 000 Old_age Always - 0
223 Load_Retry_Count 0x0032 252 252 000 Old_age Always - 0
225 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 3898
Lehet, hogy ez csak a seagate-ekre igaz?
Aki tudja, csinálja, aki nem tudja, tanítja... Hm... igazgatónak talán még jó lennék. :)
Csak Seagate-nél eggyezik meg
Seagate:
1 Raw_Read_Error_Rate 0x000f 117 099 006 Pre-fail Always - 161230093
195 Hardware_ECC_Recovered 0x001a 062 056 000 Old_age Always - 161230093
Samsung:
1 Raw_Read_Error_Rate 0x002f 100 100 051 Pre-fail Always - 1
195 Hardware_ECC_Recovered 0x003a 100 100 000 Old_age Always - 0
--
openSUSE 12.2 x86_64
Ha megnézed, itt mindkét Samsung esetében ez a helyzet.
Egyébként ezért említettem, hogy esetleg a táppal lehet valami gond, ha ez csak a seagate-ekre jellemző.
Aki tudja, csinálja, aki nem tudja, tanítja... Hm... igazgatónak talán még jó lennék. :)
Te írtad, hogy Samsung ÉS Seagate, én csak megerősítettem, hogy samunál nem , csak Seagatenél.. (ellenben a samumban 10x akkora a G-Sense bejegyzés, pedig nincs is használva..)
Táp esetén nem kéne a start-stop count-nak nőnie?.. Nálam táp hibára az ment az egekbe, de tömb nem esett szét (csak szétfagyott a gép...):)
Upd. Bahh.. most nézem, hogy fent Soft én meg Rawot néztem. de nekem egyikre sincs soft read error paraméter, dejó.. kicsit benéztem :)
--
openSUSE 12.2 x86_64
1/2-reértesz: csak azért említettem, mert ez bár Samsung, a számai kb. úgy néznek ki, mint egy Seagate esetében várhatóak.
Táphiba esetén fogalmam sincs, milyen jelek vannak. Csak az egyszerre történő haldoklás tette gyanússá.
G-Sense nekem egy USB dobozba hajított Hitachiban mutat érdekes adatokat. :D
Aki tudja, csinálja, aki nem tudja, tanítja... Hm... igazgatónak talán még jó lennék. :)
Szerver vagy asztali gép? Ha szerver akkor azonnal cseréld a lemzeket, legfeljebb lesz januárban két majdnem új lemezed, de ha az megpukkan az adat akkor nagy tré lesz. Gondolom van backup is, de egy nap állás sose ér meg két lemezt.
"Kommersz" gépből kreált szerver.
Mivel 120km-re van, nincs nagy humorom kiutazni (persze füstös géphez sincs ;-) ). Az itthoni gép adataival szinkronizál, tehát, ha ott elhal, akkor ide dolgoznak majd, de azért az közel sem olyan kényelmes és hatékony, azért is van ott helyben egy gép.
A bajom az, hogy az értékek zavarnak, viszont mellette mégis azt mondja, hogy rendben, na erre varjak gombot....
A kérdés, mennyit ér meg az ügyfélnek. Ha le tudnak állni egy hi ba esetén fél egy napra akkor mindegy.
Én cserélném. Van rajta már legalább egy bad sector.
Gariban is cserélniük kell.
--
Gábriel Ákos
http://i-logic.hu
Van rajta már legalább egy bad sector.
Ezt miből gondolod? Nálam ez a sor szokott a döntő lenni:
05 Reallocated Sector Count 0 253 253 0 Rendben: Mindig rendben
Amíg ez nulla, addig nem talált olyan szektort, amit ne tudott volna a saját helyére felírni.
A pending a bizonytalan, a reallocated a tuti rossz.
Előbb-utóbb a pending-ekből reallocated lesz (amíg van hova reallokálni).
--
Gábriel Ákos
http://i-logic.hu
Csak akkor ha kiírod a szektort, ez pedig jelen esetben nem fog megtörténni magától.
Ha már van pending, akkor a fene megette a lemezt. Erre már figyelmeztet a smart, kb erre jó.
Második lemezen current pending sector 1. Ezt én ilyenkor cserélem, még otthoni gépben is. Ha meg garis, akkor cserélniük kell, bad sectoros.
Köszönöm a hozzászólásokat, javaslatokat!
Csere lesz.
Hasznos olvasmány, akit érdekel: SMART attributumok
A laptopomban a seek error rate (fenti doksi szerint kritikus attribútum) 150millió(!) felett áll. Seagate...
Aki tudja, csinálja, aki nem tudja, tanítja... Hm... igazgatónak talán még jó lennék. :)
Kábelezés milyen?
Szerintem pánikra nincs ok.
Ha rákeresel a google-on a lemezek modelljére észreveszed, hogy mások is hasonló Raw Read Error-t jelentenek ennél a típusnál.
A gond a második lemez 1 pending szektorával van. Ebben az esetben én szépen virtuálisan kirúgnám a második lemezt, majd miután lefuttattam rajta egy teljes "badblocks -vvw"-t újra visszapakolnám a tömbbe. A pending szektort úgy a badblocks mint a teljes resync újraírja.
Ezekután beállítanék egy smartd-t, hogy jelentsen ha gáz van és nyugodtan karácsonyoznék.
Amennyiben gyanús típusú a tápod, arra azért érdemes lenne ránézni ennyi idő után, de ez nem táphiba.
Egy cheftec táp van benne, nem gondolnám, hogy az lenne a ludas, főleg, hogy alatta egy szép nagy szünetmentes van ami miatt mondhatni "ideális" táplálást kap kezdetek óta.
Mivel ez egy 300GB-os hdd, így kb. 13eFt körüli kiadásról beszélünk. 120km utazás után nem valószínű, hogy megvárnám a badblock eredményét, így lesz egy csere, itthon badblock és ha jó, akkor lesz egy tartalék hdd-m.
Mindenesetre köszönöm a tippet!
Backupnak bőven jó lesz, nagy valószinűséggel még sokáig húzná.
Milyen jó is az, amikor az ilyen "backupnak jó lesz" diszk pont akkor f0simosizza össze magát, amikor szükség lenne a backup visszamásolására... A backup, a mentés lehet lassabb, kisebb teljesítményű eszközön, ez igaz, de hogy az éles rendszernél kevésbé megbízható/üzembiztos legyen, na azt nem szabad.
+1. Backupra is lehetőleg ECC memóriás gép. Nagy szopás ha kiderül a jónak hitt backupról, hogy a nagy csend közepette minden ezredik bitje hibás.
Ha pontosan minden ezredik bitje pontosan hibás, azt viszonylag könnyű javítani :) Én ezt nem is nevezném hibának, inkább egy nagyon-nagyon-nagyon rossz titkosításnak.
BlackY
:) Értsd jól - ezer bitből egy rossz (mert pl. a memória egy bitje hibázott), de a hibázó memóriából nagyobb gebac is adódhat: gondold végig, hogy egy fsck során mi fog történni, ha a memória hibázik...
Én is paranoiás vagyok etéren. De az a gáz, hogy ez a "összedől a világ ha a memória 1 bitet elbasz" történés nekem kicsit túl "óvatosnak" tűnik. Asztali gépen, laptopon nekem nincs (és gondolom neked sincs) ECC, mégsem dőlt még rám a slozi. mégsem verte agyon az fsck-t stb. Egyedül a szerverembe van ECC-s RAM, mer azzal jött. De szerintem hamarosan bővítés miatt az is kikerül. és nem félek elaludni.
Bár nálam egy biten nem múlik a világ sorsa. Egyébként is 2-3-4 helyre kerül mentés fontosság szerint, szóval még ha hibás is az egyik és mondjuk az épp egy adatbázis backup és kiderül, hogy szar, majd visszamásolom máshonnan. 2x-3x nem hibázik ugyanott... :)
Jah és persze egy évre visszamenőleg megvan minden adatbázis mentés, logokkal együtt, hátha valamelyik mentés már a hibásan készül el.
--
openSUSE 12.2 x86_64
Volt egy gépem, Linux, ext2. Reboot, fsck, dobálja sorra a hibákat, javítja - és nagyjából az egész fs, illetve valamennyi fájl kuka. Az okot egy memtest mondta meg: a memóriából egy bit(!) konstans módon hibázott. Akkor még csak összesen tán 2GB-nyi diszk volt a gépben (régi sztori), de az nagyjából-egészéből mind ment a levesbe :-( és mentés persze nem volt - illetve a gépben lévő 2. diszkre... Azóta nagyon jól tudom, hogy gépen belüli másolat nem mentés. Egy mentés nem mentés, két mentés fél mentés, három mentés egy mentés, meg azt is, hogy ami csak egy példányban van meg, az nincs meg...
Otthonra, filmekhez bőven jó lehet.
Attól még orosz rulett egy döglendezés határán lévő eszközre bízni a biztonsági mentést...
Ki beszélt itt utazásról? Simán megoldod távolról a resync-et meg a badblocks-ot.
Ha lehetőséged van rá, nyilván cseréld, de simán használható még egyébre.
Badblocks létezik windowsra?
Mert azon a gépen speciel az van.
Igen, úgy hívják pl. hogy "WD Data Lifeguard Diagnostic for Windows". Bár WD, nyilván bármilyen lemezt szívesen teleír zérókkal (zero . Én simán ráereszteném, nyilván miután megbontottam már a RAID-ot. Főleg ha van aktuális biztonsági másolatom.