ZFS fájlrendszer, merevlemez IO hiba de utána nincs nyoma...

Fórumok

A Proxmox alatt egy ZFS van, ami RAID0-be van (kísérleti cuccnak jó és kell a hely).

Az egész sztori a múlt héten kezdődött, amikor volt egy linux frissítés. Másnap ez a mail fogadott a szervertől:

The number of I/O errors associated with a ZFS device exceeded
acceptable levels. ZFS has marked the device as faulted.

 impact: Fault tolerance of the pool may be compromised.
    eid: 21
  class: statechange
  state: FAULTED
   host: pve
   time: 2020-02-07 16:18:12+0100
  vpath: /dev/sdc1
  vphys: pci-0000:00:1f.2-ata-4
  vguid: 0x51FA9E4D76A3E72E
  devid: ata-WDC_WD20EARX-00PASB0_WD-WCAZAC153095-part1
   pool: 0xC8E728B9CD2A9090

A merevlemez eltűnt a linux alól, még a blkid se látta. restart után ismét megjelent, és egy resilver után, minden ment tovább, minden hiba és adatvesztés nélkül.

ZFS has finished a resilver:

   eid: 11
 class: resilver_finish
  host: pve
  time: 2020-02-07 17:10:56+0100
  pool: omv_data
 state: ONLINE
  scan: resilvered 16.4G in 0 days 00:05:21 with 0 errors on Fri Feb  7 17:10:56 2020
config:

    NAME        STATE     READ WRITE CKSUM
    omv_data    ONLINE       0     0     0
      mirror-0  ONLINE       0     0     0
        sdc     ONLINE       0     0     0
        sdb     ONLINE       0     0     0

errors: No known data errors

 

A S.M.A.R.T. semmilyen hibát nem talál, látszólag minden rendben.

Ma délelőtt ismét eltűnt  a merevlemez. A múlt héthez képest annyi a különbség, hogy most kicseréltem az adatkábelt, majd ismét resilver és minden megy tovább.

Mivel a Raid 0 nem hibatűrő, viszont az adatok, a mentések szerint intaktak, továbbá a S.M.A.R.T. nem dob hibát, én úgy gondolom, nem a merevlemez a ludas, de érdekelne, kinek, mi a véleménye!

Nem éles, kísérleti/home rendszer, tehát némi, max. 1 napos kiesés simán elfogadható, ennyi idő alatt a mentésből pótolhatóak az adatok, ezért marad a RAID 0, továbbá a gép se bír el több merevlemezt. Amíg a Proxmox alatti tűzfal megy, senki se panaszkodik.

Hozzászólások

Ha eltűnik a linux alól, szinte biztos, hogy a lemez a ludas.

Fullos smart táblázatot dobj fel valahova és linkeld be.

Adatkábelt most cseréltem, a gép egy Fujitsu D3062-A desktop, A 250W-os táppal akár ez is lehet gond, hiszen 4 vinyót is el kell látnia, az alaplapon keresztül.. Holnap tolok SMART-ot, ha lesz időm.

Régen minden más volt... ma meg minden a régi.

Látom van benne green is. Nem tudom milyen vezérlőre csatlakozik, de előfordulhat olyan is, hogy nem tolerál valamilyen késleltetést, ha elhúzódik valami a nagy zöldség jegyében.

Nálam mondjuk előző héten döntött úgy a Marvel chipset-es SATA/SAS vezérlőm egy új kernellel, hogy nem szeretné tovább látni a rajta lévő SSD-t. A régebbi kernellel rendben megy, az SSD-nek semmi baja. Valami PCIe timing vagy race condition lehet, amit az eddigi kernelek nem hoztak ki. Kétszer tapasztaltam IO errort mentés közben nagyobb terhelésnél 5 év alatt. Elveszett a bizalom, repül a vezérlő.

"Jegyezze fel a vádhoz - utasította Metcalf őrnagy a tizedest, aki tudott gyorsírni. - Tiszteletlenül beszélt a feljebbvalójával, amikor nem pofázott közbe."

A green saját magát nyírja ki sajnos. Szerintem nem igazán jó széria.

Nekem is voltak vele problémáim, de leginkább IO timeout.

Nekem ez oldotta meg, innen gyakorlatilag blue lesz:

https://wiki.manjaro.org/index.php?title=Western_Digital_Green_-_Drive_…

Meg minimum használatra állítottam a swap-et.

 

Mondjuk pár hónappal később lecseréltem SSD-re,  de ha az ott nem opció, akkor a fenti is megfelel.

Szerkesztve: 2020. 02. 14., p - 09:44

A patch-ek között volt valami ami disk-et érinthet bármilyen szinten, deviceid-t újraír vagy akármi? Ha nincs fizikailag baja lehet csak szoftveresen nem tudja elérni és ezért faulted-nek veszi.

De ha túl sokszor dobja akkor úgyis az lesz a vége hogy másik....

 

edit:

Még egy dolog jutott eszembe, mikor lassú volt itt hupon valakinek zfs leírta hogy sata esetén át kell rakni ezt BIOSban:

SATA mode - Legacy
Ezt rakjuk át AHCI-re!

Lehet hogy instabilitást is okozhat de nem biztos.

dmesg, daemon.log,kernel.log  nem írt semmit plusz infót?