raid1 széthullás

Hi!

Windows, alaplapi raid vezérlővel összerakot raid1. Az utóbbi 1-2 hónapban időnként furán viselkedik a masina, majd újraindulás után jelzi, hogy raid szétesett. Természetesen automatikusan újraépíti, de a szétesés ténye csak újraindítás után böffen fel neki - ami azért zavar.
Gondoltam, hogy esetleg az egyik hdd kezd megpihenni, ezért rápillantottam a SMART-ra és ezt láttam:

  [ SAMSUNG HD321KJ (410211FPA77226) ]

    01  Raw Read Error Rate                  0    100  100           0  Rendben: Mindig rendben
    03  Spinup Time                          0    100  100        5504  Rendben: Mindig rendben
    04  Start/Stop Count                     0    100  100         186  Rendben: Mindig rendben
    05  Reallocated Sector Count             0    253  253           0  Rendben: Mindig rendben
    07  Seek Error Rate                      0    253  253           0  Rendben: Mindig rendben
    08  Seek Time Performance                0    253  253           0  Rendben: Mindig rendben
    09  Power-On Time Count                  0    100  100       39237  Rendben: Mindig rendben
    0A  Spinup Retry Count                   0    253  253           0  Rendben: Mindig rendben
    0B  Calibration Retry Count              0    253  253           0  Rendben: Mindig rendben
    0C  Power Cycle Count                    0    100  100         162  Rendben: Mindig rendben
    0D  Soft Read Error Rate                 0    100  100   129409713  Rendben: Mindig rendben
    BB  Reported Uncorrectable Errors        0    253  253           0  Rendben: Mindig rendben
    BC  Command Timeout                      0    100  100           4  Rendben: Mindig rendben
    BE  Airflow Temperature                  0    63   50           37  Rendben: Mindig rendben
    C2  Temperature                          0    127  85           37  Rendben: Mindig rendben
    C3  Hardware ECC Recovered               0    100  100   129409713  Rendben: Mindig rendben
    C4  Reallocation Event Count             0    253  253           0  Rendben: Mindig rendben
    C5  Current Pending Sector Count         0    253  253           0  Rendben: Mindig rendben
    C6  Offline Uncorrectable Sector Count   0    253  253           0  Rendben: Mindig rendben
    C7  Ultra ATA CRC Error Rate             0    200  200           0  Rendben: Mindig rendben
    C8  Write Error Rate                     0    100  100           0  Rendben: Mindig rendben
    C9  Soft Read Error Rate                 0    100  100           0  Rendben: Mindig rendben
    CA  Data Address Mark Errors             0    253  253           0  Rendben: Mindig rendben

  [ SAMSUNG HD321KJ (402412FPC06827) ]

    01  Raw Read Error Rate                  0    100  100           1  Rendben: Mindig rendben
    03  Spinup Time                          0    100  100        5568  Rendben: Mindig rendben
    04  Start/Stop Count                     0    100  100         186  Rendben: Mindig rendben
    05  Reallocated Sector Count             0    253  253           0  Rendben: Mindig rendben
    07  Seek Error Rate                      0    253  253           0  Rendben: Mindig rendben
    08  Seek Time Performance                0    253  253           0  Rendben: Mindig rendben
    09  Power-On Time Count                  0    100  100       39234  Rendben: Mindig rendben
    0A  Spinup Retry Count                   0    253  253           0  Rendben: Mindig rendben
    0B  Calibration Retry Count              0    253  253           0  Rendben: Mindig rendben
    0C  Power Cycle Count                    0    100  100         162  Rendben: Mindig rendben
    0D  Soft Read Error Rate                 0    100  100   461169987  Rendben: Mindig rendben
    BB  Reported Uncorrectable Errors        0    253  253           0  Rendben: Mindig rendben
    BC  Command Timeout                      0    253  253           0  Rendben: Mindig rendben
    BE  Airflow Temperature                  0    65   52           35  Rendben: Mindig rendben
    C2  Temperature                          0    133  91           35  Rendben: Mindig rendben
    C3  Hardware ECC Recovered               0    100  100   461169987  Rendben: Mindig rendben
    C4  Reallocation Event Count             0    253  253           0  Rendben: Mindig rendben
    C5  Current Pending Sector Count         0    100  100           1  Rendben: Mindig rendben
    C6  Offline Uncorrectable Sector Count   0    253  253           0  Rendben: Mindig rendben
    C7  Ultra ATA CRC Error Rate             0    200  200           0  Rendben: Mindig rendben
    C8  Write Error Rate                     0    100  100           0  Rendben: Mindig rendben
    C9  Soft Read Error Rate                 0    100  100           0  Rendben: Mindig rendben
    CA  Data Address Mark Errors             0    253  253           0  Rendben: Mindig rendben

A két disk értékei igen hasonlóak, igazából a második disk "Soft Read Error Rate" illetve "Hardware ECC Recovered" értékeinek az első diskhez viszonyított magasabb értékei zavarnak.

Érdekelne a véleményetek/tapasztalatotok, hogy érdemes aggódni a második disk miatt és elkezdeni egy új beszerzését, vagy bőven kibírja januárig?

Hozzászólások

Javítsatok ki, ha tévedek, de úgy rémlik, a samsung és seagate diszkek közös "jó" szokása, hogy szinte az összes olvasás ECC corrected és mindaddig nem kell vele foglalkozni, míg a Soft Read Error Rate és a Hardware ECC Recovered megegyezik.

Szerintem az eltérés oka az lehet, hogy a rendszered valamiért sűrűbben piszkálja a másodikat.

update: a táp biztos, hogy jó?

Aki tudja, csinálja, aki nem tudja, tanítja... Hm... igazgatónak talán még jó lennék. :)

Ez is samsung és viszonylag barátságos a smart

Device Model: SAMSUNG HD153WI
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 100 100 051 Pre-fail Always - 164
2 Throughput_Performance 0x0026 252 252 000 Old_age Always - 0
3 Spin_Up_Time 0x0023 060 056 025 Pre-fail Always - 12267
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 832
5 Reallocated_Sector_Ct 0x0033 252 252 010 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 252 252 051 Old_age Always - 0
8 Seek_Time_Performance 0x0024 252 252 015 Old_age Offline - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 4491
10 Spin_Retry_Count 0x0032 252 252 051 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 252 252 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 657
191 G-Sense_Error_Rate 0x0022 100 100 000 Old_age Always - 234
192 Power-Off_Retract_Count 0x0022 252 252 000 Old_age Always - 0
194 Temperature_Celsius 0x0002 064 057 000 Old_age Always - 25 (Min/Max 4/44)
195 Hardware_ECC_Recovered 0x003a 100 100 000 Old_age Always - 0
196 Reallocated_Event_Count 0x0032 252 252 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 252 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 252 252 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0036 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x002a 100 100 000 Old_age Always - 0
223 Load_Retry_Count 0x0032 252 252 000 Old_age Always - 0
225 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 3898

Csak Seagate-nél eggyezik meg

Seagate:
1 Raw_Read_Error_Rate 0x000f 117 099 006 Pre-fail Always - 161230093
195 Hardware_ECC_Recovered 0x001a 062 056 000 Old_age Always - 161230093

Samsung:
1 Raw_Read_Error_Rate 0x002f 100 100 051 Pre-fail Always - 1
195 Hardware_ECC_Recovered 0x003a 100 100 000 Old_age Always - 0

--
openSUSE 12.2 x86_64

Te írtad, hogy Samsung ÉS Seagate, én csak megerősítettem, hogy samunál nem , csak Seagatenél.. (ellenben a samumban 10x akkora a G-Sense bejegyzés, pedig nincs is használva..)

Táp esetén nem kéne a start-stop count-nak nőnie?.. Nálam táp hibára az ment az egekbe, de tömb nem esett szét (csak szétfagyott a gép...):)

Upd. Bahh.. most nézem, hogy fent Soft én meg Rawot néztem. de nekem egyikre sincs soft read error paraméter, dejó.. kicsit benéztem :)

--
openSUSE 12.2 x86_64

1/2-reértesz: csak azért említettem, mert ez bár Samsung, a számai kb. úgy néznek ki, mint egy Seagate esetében várhatóak.
Táphiba esetén fogalmam sincs, milyen jelek vannak. Csak az egyszerre történő haldoklás tette gyanússá.

G-Sense nekem egy USB dobozba hajított Hitachiban mutat érdekes adatokat. :D

Aki tudja, csinálja, aki nem tudja, tanítja... Hm... igazgatónak talán még jó lennék. :)

Szerver vagy asztali gép? Ha szerver akkor azonnal cseréld a lemzeket, legfeljebb lesz januárban két majdnem új lemezed, de ha az megpukkan az adat akkor nagy tré lesz. Gondolom van backup is, de egy nap állás sose ér meg két lemezt.

"Kommersz" gépből kreált szerver.
Mivel 120km-re van, nincs nagy humorom kiutazni (persze füstös géphez sincs ;-) ). Az itthoni gép adataival szinkronizál, tehát, ha ott elhal, akkor ide dolgoznak majd, de azért az közel sem olyan kényelmes és hatékony, azért is van ott helyben egy gép.

A bajom az, hogy az értékek zavarnak, viszont mellette mégis azt mondja, hogy rendben, na erre varjak gombot....

Én cserélném. Van rajta már legalább egy bad sector.
Gariban is cserélniük kell.

--
Gábriel Ákos
http://i-logic.hu

Második lemezen current pending sector 1. Ezt én ilyenkor cserélem, még otthoni gépben is. Ha meg garis, akkor cserélniük kell, bad sectoros.

Szerintem pánikra nincs ok.

Ha rákeresel a google-on a lemezek modelljére észreveszed, hogy mások is hasonló Raw Read Error-t jelentenek ennél a típusnál.

A gond a második lemez 1 pending szektorával van. Ebben az esetben én szépen virtuálisan kirúgnám a második lemezt, majd miután lefuttattam rajta egy teljes "badblocks -vvw"-t újra visszapakolnám a tömbbe. A pending szektort úgy a badblocks mint a teljes resync újraírja.

Ezekután beállítanék egy smartd-t, hogy jelentsen ha gáz van és nyugodtan karácsonyoznék.

Amennyiben gyanús típusú a tápod, arra azért érdemes lenne ránézni ennyi idő után, de ez nem táphiba.

Egy cheftec táp van benne, nem gondolnám, hogy az lenne a ludas, főleg, hogy alatta egy szép nagy szünetmentes van ami miatt mondhatni "ideális" táplálást kap kezdetek óta.

Mivel ez egy 300GB-os hdd, így kb. 13eFt körüli kiadásról beszélünk. 120km utazás után nem valószínű, hogy megvárnám a badblock eredményét, így lesz egy csere, itthon badblock és ha jó, akkor lesz egy tartalék hdd-m.

Mindenesetre köszönöm a tippet!

Milyen jó is az, amikor az ilyen "backupnak jó lesz" diszk pont akkor f0simosizza össze magát, amikor szükség lenne a backup visszamásolására... A backup, a mentés lehet lassabb, kisebb teljesítményű eszközön, ez igaz, de hogy az éles rendszernél kevésbé megbízható/üzembiztos legyen, na azt nem szabad.

Én is paranoiás vagyok etéren. De az a gáz, hogy ez a "összedől a világ ha a memória 1 bitet elbasz" történés nekem kicsit túl "óvatosnak" tűnik. Asztali gépen, laptopon nekem nincs (és gondolom neked sincs) ECC, mégsem dőlt még rám a slozi. mégsem verte agyon az fsck-t stb. Egyedül a szerverembe van ECC-s RAM, mer azzal jött. De szerintem hamarosan bővítés miatt az is kikerül. és nem félek elaludni.

Bár nálam egy biten nem múlik a világ sorsa. Egyébként is 2-3-4 helyre kerül mentés fontosság szerint, szóval még ha hibás is az egyik és mondjuk az épp egy adatbázis backup és kiderül, hogy szar, majd visszamásolom máshonnan. 2x-3x nem hibázik ugyanott... :)

Jah és persze egy évre visszamenőleg megvan minden adatbázis mentés, logokkal együtt, hátha valamelyik mentés már a hibásan készül el.

--
openSUSE 12.2 x86_64

Volt egy gépem, Linux, ext2. Reboot, fsck, dobálja sorra a hibákat, javítja - és nagyjából az egész fs, illetve valamennyi fájl kuka. Az okot egy memtest mondta meg: a memóriából egy bit(!) konstans módon hibázott. Akkor még csak összesen tán 2GB-nyi diszk volt a gépben (régi sztori), de az nagyjából-egészéből mind ment a levesbe :-( és mentés persze nem volt - illetve a gépben lévő 2. diszkre... Azóta nagyon jól tudom, hogy gépen belüli másolat nem mentés. Egy mentés nem mentés, két mentés fél mentés, három mentés egy mentés, meg azt is, hogy ami csak egy példányban van meg, az nincs meg...