ZFS fájlrendszer, merevlemez IO hiba de utána nincs nyoma...

Fórumok

A Proxmox alatt egy ZFS van, ami RAID0-be van (kísérleti cuccnak jó és kell a hely).

Az egész sztori a múlt héten kezdődött, amikor volt egy linux frissítés. Másnap ez a mail fogadott a szervertől:

The number of I/O errors associated with a ZFS device exceeded
acceptable levels. ZFS has marked the device as faulted.

 impact: Fault tolerance of the pool may be compromised.
    eid: 21
  class: statechange
  state: FAULTED
   host: pve
   time: 2020-02-07 16:18:12+0100
  vpath: /dev/sdc1
  vphys: pci-0000:00:1f.2-ata-4
  vguid: 0x51FA9E4D76A3E72E
  devid: ata-WDC_WD20EARX-00PASB0_WD-WCAZAC153095-part1
   pool: 0xC8E728B9CD2A9090

A merevlemez eltűnt a linux alól, még a blkid se látta. restart után ismét megjelent, és egy resilver után, minden ment tovább, minden hiba és adatvesztés nélkül.

ZFS has finished a resilver:

   eid: 11
 class: resilver_finish
  host: pve
  time: 2020-02-07 17:10:56+0100
  pool: omv_data
 state: ONLINE
  scan: resilvered 16.4G in 0 days 00:05:21 with 0 errors on Fri Feb  7 17:10:56 2020
config:

    NAME        STATE     READ WRITE CKSUM
    omv_data    ONLINE       0     0     0
      mirror-0  ONLINE       0     0     0
        sdc     ONLINE       0     0     0
        sdb     ONLINE       0     0     0

errors: No known data errors

 

A S.M.A.R.T. semmilyen hibát nem talál, látszólag minden rendben.

Ma délelőtt ismét eltűnt  a merevlemez. A múlt héthez képest annyi a különbség, hogy most kicseréltem az adatkábelt, majd ismét resilver és minden megy tovább.

Mivel a Raid 0 nem hibatűrő, viszont az adatok, a mentések szerint intaktak, továbbá a S.M.A.R.T. nem dob hibát, én úgy gondolom, nem a merevlemez a ludas, de érdekelne, kinek, mi a véleménye!

Nem éles, kísérleti/home rendszer, tehát némi, max. 1 napos kiesés simán elfogadható, ennyi idő alatt a mentésből pótolhatóak az adatok, ezért marad a RAID 0, továbbá a gép se bír el több merevlemezt. Amíg a Proxmox alatti tűzfal megy, senki se panaszkodik.

Hozzászólások

Ha eltűnik a linux alól, szinte biztos, hogy a lemez a ludas.

Fullos smart táblázatot dobj fel valahova és linkeld be.

Adatkábelt most cseréltem, a gép egy Fujitsu D3062-A desktop, A 250W-os táppal akár ez is lehet gond, hiszen 4 vinyót is el kell látnia, az alaplapon keresztül.. Holnap tolok SMART-ot, ha lesz időm.

( •̀ᴗ•́)╭∩╮

"speciel a blockchain igenis hogy jó megoldás, ezért nagy erőkkel keressük hozzá a problémát"
"A picsat, az internet a porno es a macskas kepek tarolorandszere! : HJ"

Az élet ott kezdődik, amikor rájössz, hogy szart sem kell bizonyítanod senkinek

Ha meg akarod nevettetni Istent, készíts tervet!

Látom van benne green is. Nem tudom milyen vezérlőre csatlakozik, de előfordulhat olyan is, hogy nem tolerál valamilyen késleltetést, ha elhúzódik valami a nagy zöldség jegyében.

Nálam mondjuk előző héten döntött úgy a Marvel chipset-es SATA/SAS vezérlőm egy új kernellel, hogy nem szeretné tovább látni a rajta lévő SSD-t. A régebbi kernellel rendben megy, az SSD-nek semmi baja. Valami PCIe timing vagy race condition lehet, amit az eddigi kernelek nem hoztak ki. Kétszer tapasztaltam IO errort mentés közben nagyobb terhelésnél 5 év alatt. Elveszett a bizalom, repül a vezérlő.

"Jegyezze fel a vádhoz - utasította Metcalf őrnagy a tizedest, aki tudott gyorsírni. - Tiszteletlenül beszélt a feljebbvalójával, amikor nem pofázott közbe."

Két Green dolgozik a RAID-ben, de csak ez az egy bukott ki. Most a kábelcsere után kivárom, mi lesz.

( •̀ᴗ•́)╭∩╮

"speciel a blockchain igenis hogy jó megoldás, ezért nagy erőkkel keressük hozzá a problémát"
"A picsat, az internet a porno es a macskas kepek tarolorandszere! : HJ"

Az élet ott kezdődik, amikor rájössz, hogy szart sem kell bizonyítanod senkinek

Ha meg akarod nevettetni Istent, készíts tervet!

A green saját magát nyírja ki sajnos. Szerintem nem igazán jó széria.

Nekem is voltak vele problémáim, de leginkább IO timeout.

Nekem ez oldotta meg, innen gyakorlatilag blue lesz:

https://wiki.manjaro.org/index.php?title=Western_Digital_Green_-_Drive_…

Meg minimum használatra állítottam a swap-et.

 

Mondjuk pár hónappal később lecseréltem SSD-re,  de ha az ott nem opció, akkor a fenti is megfelel.

Szerkesztve: 2020. 02. 14., p – 09:44

A patch-ek között volt valami ami disk-et érinthet bármilyen szinten, deviceid-t újraír vagy akármi? Ha nincs fizikailag baja lehet csak szoftveresen nem tudja elérni és ezért faulted-nek veszi.

De ha túl sokszor dobja akkor úgyis az lesz a vége hogy másik....

 

edit:

Még egy dolog jutott eszembe, mikor lassú volt itt hupon valakinek zfs leírta hogy sata esetén át kell rakni ezt BIOSban:

SATA mode - Legacy
Ezt rakjuk át AHCI-re!

Lehet hogy instabilitást is okozhat de nem biztos.

dmesg, daemon.log,kernel.log  nem írt semmit plusz infót?

Nem. Egyszerüen io error, és eltünt az eszköz.

( •̀ᴗ•́)╭∩╮

"speciel a blockchain igenis hogy jó megoldás, ezért nagy erőkkel keressük hozzá a problémát"
"A picsat, az internet a porno es a macskas kepek tarolorandszere! : HJ"

Az élet ott kezdődik, amikor rájössz, hogy szart sem kell bizonyítanod senkinek

Ha meg akarod nevettetni Istent, készíts tervet!

Bocsi, igaz, félreérthető. Nincs HW Raid, hisz a ZFS nem szereti.

A ZFS-el fűztem össze a merevlemezeket, tehát a ZFS vezérli a teljes tárolót.

( •̀ᴗ•́)╭∩╮

"speciel a blockchain igenis hogy jó megoldás, ezért nagy erőkkel keressük hozzá a problémát"
"A picsat, az internet a porno es a macskas kepek tarolorandszere! : HJ"

Az élet ott kezdődik, amikor rájössz, hogy szart sem kell bizonyítanod senkinek

Ha meg akarod nevettetni Istent, készíts tervet!