raid1 széthullás

Hi!

Windows, alaplapi raid vezérlővel összerakot raid1. Az utóbbi 1-2 hónapban időnként furán viselkedik a masina, majd újraindulás után jelzi, hogy raid szétesett. Természetesen automatikusan újraépíti, de a szétesés ténye csak újraindítás után böffen fel neki - ami azért zavar.
Gondoltam, hogy esetleg az egyik hdd kezd megpihenni, ezért rápillantottam a SMART-ra és ezt láttam:

  [ SAMSUNG HD321KJ (410211FPA77226) ]

    01  Raw Read Error Rate                  0    100  100           0  Rendben: Mindig rendben
    03  Spinup Time                          0    100  100        5504  Rendben: Mindig rendben
    04  Start/Stop Count                     0    100  100         186  Rendben: Mindig rendben
    05  Reallocated Sector Count             0    253  253           0  Rendben: Mindig rendben
    07  Seek Error Rate                      0    253  253           0  Rendben: Mindig rendben
    08  Seek Time Performance                0    253  253           0  Rendben: Mindig rendben
    09  Power-On Time Count                  0    100  100       39237  Rendben: Mindig rendben
    0A  Spinup Retry Count                   0    253  253           0  Rendben: Mindig rendben
    0B  Calibration Retry Count              0    253  253           0  Rendben: Mindig rendben
    0C  Power Cycle Count                    0    100  100         162  Rendben: Mindig rendben
    0D  Soft Read Error Rate                 0    100  100   129409713  Rendben: Mindig rendben
    BB  Reported Uncorrectable Errors        0    253  253           0  Rendben: Mindig rendben
    BC  Command Timeout                      0    100  100           4  Rendben: Mindig rendben
    BE  Airflow Temperature                  0    63   50           37  Rendben: Mindig rendben
    C2  Temperature                          0    127  85           37  Rendben: Mindig rendben
    C3  Hardware ECC Recovered               0    100  100   129409713  Rendben: Mindig rendben
    C4  Reallocation Event Count             0    253  253           0  Rendben: Mindig rendben
    C5  Current Pending Sector Count         0    253  253           0  Rendben: Mindig rendben
    C6  Offline Uncorrectable Sector Count   0    253  253           0  Rendben: Mindig rendben
    C7  Ultra ATA CRC Error Rate             0    200  200           0  Rendben: Mindig rendben
    C8  Write Error Rate                     0    100  100           0  Rendben: Mindig rendben
    C9  Soft Read Error Rate                 0    100  100           0  Rendben: Mindig rendben
    CA  Data Address Mark Errors             0    253  253           0  Rendben: Mindig rendben

  [ SAMSUNG HD321KJ (402412FPC06827) ]

    01  Raw Read Error Rate                  0    100  100           1  Rendben: Mindig rendben
    03  Spinup Time                          0    100  100        5568  Rendben: Mindig rendben
    04  Start/Stop Count                     0    100  100         186  Rendben: Mindig rendben
    05  Reallocated Sector Count             0    253  253           0  Rendben: Mindig rendben
    07  Seek Error Rate                      0    253  253           0  Rendben: Mindig rendben
    08  Seek Time Performance                0    253  253           0  Rendben: Mindig rendben
    09  Power-On Time Count                  0    100  100       39234  Rendben: Mindig rendben
    0A  Spinup Retry Count                   0    253  253           0  Rendben: Mindig rendben
    0B  Calibration Retry Count              0    253  253           0  Rendben: Mindig rendben
    0C  Power Cycle Count                    0    100  100         162  Rendben: Mindig rendben
    0D  Soft Read Error Rate                 0    100  100   461169987  Rendben: Mindig rendben
    BB  Reported Uncorrectable Errors        0    253  253           0  Rendben: Mindig rendben
    BC  Command Timeout                      0    253  253           0  Rendben: Mindig rendben
    BE  Airflow Temperature                  0    65   52           35  Rendben: Mindig rendben
    C2  Temperature                          0    133  91           35  Rendben: Mindig rendben
    C3  Hardware ECC Recovered               0    100  100   461169987  Rendben: Mindig rendben
    C4  Reallocation Event Count             0    253  253           0  Rendben: Mindig rendben
    C5  Current Pending Sector Count         0    100  100           1  Rendben: Mindig rendben
    C6  Offline Uncorrectable Sector Count   0    253  253           0  Rendben: Mindig rendben
    C7  Ultra ATA CRC Error Rate             0    200  200           0  Rendben: Mindig rendben
    C8  Write Error Rate                     0    100  100           0  Rendben: Mindig rendben
    C9  Soft Read Error Rate                 0    100  100           0  Rendben: Mindig rendben
    CA  Data Address Mark Errors             0    253  253           0  Rendben: Mindig rendben

A két disk értékei igen hasonlóak, igazából a második disk "Soft Read Error Rate" illetve "Hardware ECC Recovered" értékeinek az első diskhez viszonyított magasabb értékei zavarnak.

Érdekelne a véleményetek/tapasztalatotok, hogy érdemes aggódni a második disk miatt és elkezdeni egy új beszerzését, vagy bőven kibírja januárig?

Javítsatok ki, ha tévedek, de úgy rémlik, a samsung és seagate diszkek közös "jó" szokása, hogy szinte az összes olvasás ECC corrected és mindaddig nem kell vele foglalkozni, míg a Soft Read Error Rate és a Hardware ECC Recovered megegyezik.

Szerintem az eltérés oka az lehet, hogy a rendszered valamiért sűrűbben piszkálja a másodikat.

update: a táp biztos, hogy jó?

Aki tudja, csinálja, aki nem tudja, tanítja... Hm... igazgatónak talán még jó lennék. :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ez is samsung és viszonylag barátságos a smart
Device Model: SAMSUNG HD153WI ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x002f 100 100 051 Pre-fail Always - 164 2 Throughput_Performance 0x0026 252 252 000 Old_age Always - 0 3 Spin_Up_Time 0x0023 060 056 025 Pre-fail Always - 12267 4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 832 5 Reallocated_Sector_Ct 0x0033 252 252 010 Pre-fail Always - 0 7 Seek_Error_Rate 0x002e 252 252 051 Old_age Always - 0 8 Seek_Time_Performance 0x0024 252 252 015 Old_age Offline - 0 9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 4491 10 Spin_Retry_Count 0x0032 252 252 051 Old_age Always - 0 11 Calibration_Retry_Count 0x0032 252 252 000 Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 657 191 G-Sense_Error_Rate 0x0022 100 100 000 Old_age Always - 234 192 Power-Off_Retract_Count 0x0022 252 252 000 Old_age Always - 0 194 Temperature_Celsius 0x0002 064 057 000 Old_age Always - 25 (Min/Max 4/44) 195 Hardware_ECC_Recovered 0x003a 100 100 000 Old_age Always - 0 196 Reallocated_Event_Count 0x0032 252 252 000 Old_age Always - 0 197 Current_Pending_Sector 0x0032 252 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 252 252 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x0036 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x002a 100 100 000 Old_age Always - 0 223 Load_Retry_Count 0x0032 252 252 000 Old_age Always - 0 225 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 3898

0 szavazat

A hozzászóláshoz be kell jelentkezni

Lehet, hogy ez csak a seagate-ekre igaz?

Aki tudja, csinálja, aki nem tudja, tanítja... Hm... igazgatónak talán még jó lennék. :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Csak Seagate-nél eggyezik meg

Seagate:
1 Raw_Read_Error_Rate 0x000f 117 099 006 Pre-fail Always - 161230093
195 Hardware_ECC_Recovered 0x001a 062 056 000 Old_age Always - 161230093

Samsung:
1 Raw_Read_Error_Rate 0x002f 100 100 051 Pre-fail Always - 1
195 Hardware_ECC_Recovered 0x003a 100 100 000 Old_age Always - 0

--
openSUSE 12.2 x86_64

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ha megnézed, itt mindkét Samsung esetében ez a helyzet.
Egyébként ezért említettem, hogy esetleg a táppal lehet valami gond, ha ez csak a seagate-ekre jellemző.

Aki tudja, csinálja, aki nem tudja, tanítja... Hm... igazgatónak talán még jó lennék. :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Te írtad, hogy Samsung ÉS Seagate, én csak megerősítettem, hogy samunál nem , csak Seagatenél.. (ellenben a samumban 10x akkora a G-Sense bejegyzés, pedig nincs is használva..)

Táp esetén nem kéne a start-stop count-nak nőnie?.. Nálam táp hibára az ment az egekbe, de tömb nem esett szét (csak szétfagyott a gép...):)

Upd. Bahh.. most nézem, hogy fent Soft én meg Rawot néztem. de nekem egyikre sincs soft read error paraméter, dejó.. kicsit benéztem :)

--
openSUSE 12.2 x86_64

0 szavazat

A hozzászóláshoz be kell jelentkezni

1/2-reértesz: csak azért említettem, mert ez bár Samsung, a számai kb. úgy néznek ki, mint egy Seagate esetében várhatóak.
Táphiba esetén fogalmam sincs, milyen jelek vannak. Csak az egyszerre történő haldoklás tette gyanússá.

G-Sense nekem egy USB dobozba hajított Hitachiban mutat érdekes adatokat. :D

Aki tudja, csinálja, aki nem tudja, tanítja... Hm... igazgatónak talán még jó lennék. :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Szerver vagy asztali gép? Ha szerver akkor azonnal cseréld a lemzeket, legfeljebb lesz januárban két majdnem új lemezed, de ha az megpukkan az adat akkor nagy tré lesz. Gondolom van backup is, de egy nap állás sose ér meg két lemezt.

0 szavazat

A hozzászóláshoz be kell jelentkezni

"Kommersz" gépből kreált szerver.
Mivel 120km-re van, nincs nagy humorom kiutazni (persze füstös géphez sincs ;-) ). Az itthoni gép adataival szinkronizál, tehát, ha ott elhal, akkor ide dolgoznak majd, de azért az közel sem olyan kényelmes és hatékony, azért is van ott helyben egy gép.

A bajom az, hogy az értékek zavarnak, viszont mellette mégis azt mondja, hogy rendben, na erre varjak gombot....

0 szavazat

A hozzászóláshoz be kell jelentkezni

A kérdés, mennyit ér meg az ügyfélnek. Ha le tudnak állni egy hi ba esetén fél egy napra akkor mindegy.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Én cserélném. Van rajta már legalább egy bad sector.
Gariban is cserélniük kell.

--
Gábriel Ákos
http://i-logic.hu

0 szavazat

A hozzászóláshoz be kell jelentkezni

Van rajta már legalább egy bad sector.

Ezt miből gondolod? Nálam ez a sor szokott a döntő lenni:

05 Reallocated Sector Count 0 253 253 0 Rendben: Mindig rendben

Amíg ez nulla, addig nem talált olyan szektort, amit ne tudott volna a saját helyére felírni.

0 szavazat

A hozzászóláshoz be kell jelentkezni

A pending a bizonytalan, a reallocated a tuti rossz.
Előbb-utóbb a pending-ekből reallocated lesz (amíg van hova reallokálni).

--
Gábriel Ákos
http://i-logic.hu

0 szavazat

A hozzászóláshoz be kell jelentkezni

Csak akkor ha kiírod a szektort, ez pedig jelen esetben nem fog megtörténni magától.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ha már van pending, akkor a fene megette a lemezt. Erre már figyelmeztet a smart, kb erre jó.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Második lemezen current pending sector 1. Ezt én ilyenkor cserélem, még otthoni gépben is. Ha meg garis, akkor cserélniük kell, bad sectoros.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Köszönöm a hozzászólásokat, javaslatokat!
Csere lesz.

Hasznos olvasmány, akit érdekel: SMART attributumok

0 szavazat

A hozzászóláshoz be kell jelentkezni

A laptopomban a seek error rate (fenti doksi szerint kritikus attribútum) 150millió(!) felett áll. Seagate...

Aki tudja, csinálja, aki nem tudja, tanítja... Hm... igazgatónak talán még jó lennék. :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Kábelezés milyen?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Szerintem pánikra nincs ok.

Ha rákeresel a google-on a lemezek modelljére észreveszed, hogy mások is hasonló Raw Read Error-t jelentenek ennél a típusnál.

A gond a második lemez 1 pending szektorával van. Ebben az esetben én szépen virtuálisan kirúgnám a második lemezt, majd miután lefuttattam rajta egy teljes "badblocks -vvw"-t újra visszapakolnám a tömbbe. A pending szektort úgy a badblocks mint a teljes resync újraírja.

Ezekután beállítanék egy smartd-t, hogy jelentsen ha gáz van és nyugodtan karácsonyoznék.

Amennyiben gyanús típusú a tápod, arra azért érdemes lenne ránézni ennyi idő után, de ez nem táphiba.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Egy cheftec táp van benne, nem gondolnám, hogy az lenne a ludas, főleg, hogy alatta egy szép nagy szünetmentes van ami miatt mondhatni "ideális" táplálást kap kezdetek óta.

Mivel ez egy 300GB-os hdd, így kb. 13eFt körüli kiadásról beszélünk. 120km utazás után nem valószínű, hogy megvárnám a badblock eredményét, így lesz egy csere, itthon badblock és ha jó, akkor lesz egy tartalék hdd-m.

Mindenesetre köszönöm a tippet!

0 szavazat

A hozzászóláshoz be kell jelentkezni

Backupnak bőven jó lesz, nagy valószinűséggel még sokáig húzná.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Milyen jó is az, amikor az ilyen "backupnak jó lesz" diszk pont akkor f0simosizza össze magát, amikor szükség lenne a backup visszamásolására... A backup, a mentés lehet lassabb, kisebb teljesítményű eszközön, ez igaz, de hogy az éles rendszernél kevésbé megbízható/üzembiztos legyen, na azt nem szabad.

0 szavazat

A hozzászóláshoz be kell jelentkezni

+1. Backupra is lehetőleg ECC memóriás gép. Nagy szopás ha kiderül a jónak hitt backupról, hogy a nagy csend közepette minden ezredik bitje hibás.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ha pontosan minden ezredik bitje pontosan hibás, azt viszonylag könnyű javítani :) Én ezt nem is nevezném hibának, inkább egy nagyon-nagyon-nagyon rossz titkosításnak.

BlackY

0 szavazat

A hozzászóláshoz be kell jelentkezni

:) Értsd jól - ezer bitből egy rossz (mert pl. a memória egy bitje hibázott), de a hibázó memóriából nagyobb gebac is adódhat: gondold végig, hogy egy fsck során mi fog történni, ha a memória hibázik...

0 szavazat

A hozzászóláshoz be kell jelentkezni

Én is paranoiás vagyok etéren. De az a gáz, hogy ez a "összedől a világ ha a memória 1 bitet elbasz" történés nekem kicsit túl "óvatosnak" tűnik. Asztali gépen, laptopon nekem nincs (és gondolom neked sincs) ECC, mégsem dőlt még rám a slozi. mégsem verte agyon az fsck-t stb. Egyedül a szerverembe van ECC-s RAM, mer azzal jött. De szerintem hamarosan bővítés miatt az is kikerül. és nem félek elaludni.

Bár nálam egy biten nem múlik a világ sorsa. Egyébként is 2-3-4 helyre kerül mentés fontosság szerint, szóval még ha hibás is az egyik és mondjuk az épp egy adatbázis backup és kiderül, hogy szar, majd visszamásolom máshonnan. 2x-3x nem hibázik ugyanott... :)

Jah és persze egy évre visszamenőleg megvan minden adatbázis mentés, logokkal együtt, hátha valamelyik mentés már a hibásan készül el.

--
openSUSE 12.2 x86_64

0 szavazat

A hozzászóláshoz be kell jelentkezni

Volt egy gépem, Linux, ext2. Reboot, fsck, dobálja sorra a hibákat, javítja - és nagyjából az egész fs, illetve valamennyi fájl kuka. Az okot egy memtest mondta meg: a memóriából egy bit(!) konstans módon hibázott. Akkor még csak összesen tán 2GB-nyi diszk volt a gépben (régi sztori), de az nagyjából-egészéből mind ment a levesbe :-( és mentés persze nem volt - illetve a gépben lévő 2. diszkre... Azóta nagyon jól tudom, hogy gépen belüli másolat nem mentés. Egy mentés nem mentés, két mentés fél mentés, három mentés egy mentés, meg azt is, hogy ami csak egy példányban van meg, az nincs meg...

0 szavazat

A hozzászóláshoz be kell jelentkezni

Otthonra, filmekhez bőven jó lehet.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Attól még orosz rulett egy döglendezés határán lévő eszközre bízni a biztonsági mentést...

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ki beszélt itt utazásról? Simán megoldod távolról a resync-et meg a badblocks-ot.

Ha lehetőséged van rá, nyilván cseréld, de simán használható még egyébre.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Badblocks létezik windowsra?
Mert azon a gépen speciel az van.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Igen, úgy hívják pl. hogy "WD Data Lifeguard Diagnostic for Windows". Bár WD, nyilván bármilyen lemezt szívesen teleír zérókkal (zero . Én simán ráereszteném, nyilván miután megbontottam már a RAID-ot. Főleg ha van aktuális biztonsági másolatom.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Friss hozzászólások

Végignéztem. ( A könyvet nem… 2024-04-20T00:46:07+0200
Kb. egy polcon vannak,… 2024-04-20T00:15:22+0200
Még egyszer: nem a yt-ról… 2024-04-19T23:41:05+0200
azt latom, hogy neked… 2024-04-20T00:13:25+0200
nyilvan hazudok amikor… 2024-04-19T22:58:09+0200
Lehet hulyeseget irok de… 2024-04-19T22:57:56+0200
Szeeintem asxh a gitops-os… 2024-04-19T22:56:02+0200
mi mas a use case a jutu… 2024-04-19T22:51:16+0200
Ezt gondolod Te. > nem… 2024-04-19T22:56:27+0200
Vagyunk paran, akik aktivan… 2024-04-19T22:47:35+0200

raid1 széthullás

Hozzászólások