Van egy gépem, abban 8 lemez. Ebből 2 lemez egy zpool mirror, 6 lemez zpool raidz1. A probléma a következő. Néha az egyik vagy a másik lemez kikapcsol. A dmesg-ben általában ilyesmit látok:
(ada7:siisch1:0:0:0): READ_FPDMA_QUEUED. ACB: 60 38 c0 68 36 40 13 00 00 00 00 00
(ada7:siisch1:0:0:0): CAM status: ATA Status Error
(ada7:siisch1:0:0:0): ATA status: 41 (DRDY ERR), error: 40 (UNC )
(ada7:siisch1:0:0:0): RES: 41 40 d0 68 36 40 13 00 00 00 00
(ada7:siisch1:0:0:0): Retrying command
ada3 at ata5 bus 0 scbus5 target 0 lun 0
ada3: s/n 50026B766C01AB86 detached
GEOM_ELI: g_eli_read_done() failed (error=6) ada3p3.eli[READ(offset=270336, length=8192)]
GEOM_ELI: g_eli_write_done() failed (error=6) ada3p3.eli[WRITE(offset=23618879488, length=102400)]
GEOM_ELI: g_eli_read_done() failed (error=6) ada3p3.eli[READ(offset=117884329984, length=8192)]
GEOM_ELI: g_eli_read_done() failed (error=6) ada3p3.eli[READ(offset=117884592128, length=8192)]
GEOM_ELI: g_eli_write_done() failed (error=6) ada3p3.eli[WRITE(offset=22552817664, length=4096)]
GEOM_ELI: Device ada3p3.eli destroyed.
GEOM_ELI: Detached ada3p3.eli on last close.
(ada3:ata5:0:0:0): Periph destroyed
Az az érdekesség, hogy az üzenetek MINDIG párban jönnek. Amikor az egyik lemezben bekövetkezik egy olvasási hiba (amit újrapróbál) akkor egy másik lemez detached lesz. Először azt hittem, hogy valamelyik lemez hibásodott meg. Ezért kicseréltem azt, amelyik a leggyakrabban lekapcsolt. Ez a raidz1 tömbben volt. Amikor elkezdte a resilvering-et, akkor egy MÁSIK lemez is lekapcsolt. Amikor véget ért a resilvering és újraindítottam a gépet, akkor a régi lemez visszajött, és újabb resilvering-be kezdett. De még nem fejezte be mikor egy harmadik lemez kezdte ugyan ezt a mókát.
Ezek közül a lemezek közül amik "párban" rendetlenkednek, van olyan pár ami külön vezérlőn van. És van közöttük olyan is, amit két hete vásároltam. Szóval azt a lehetőséget kizárnám, hogy "véletlenül" pont 3-4 hibás lemezt tettem a gépbe. Meg azt is, hogy véletlenül a két külön vezérlőn levő lemez egyszerre (ugyan abban a másodpercben?) hibásodik meg egy pillanatra. Ráadásul, az a lemez ami detached lesz, a következő reboot-kor általában attached.
Így néz ki jelenleg:
pool: data
state: DEGRADED
status: One or more devices is currently being resilvered. The pool will
continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
scan: resilver in progress since Sun Feb 19 10:04:39 2017
132G scanned out of 1,66T at 55,1M/s, 8h4m to go
20,9G resilvered, 7,80% done
config:
NAME STATE READ WRITE CKSUM
data DEGRADED 0 0 0
raidz1-0 DEGRADED 0 0 0
ada0.eli ONLINE 0 0 0
ada1.eli ONLINE 0 0 0
ada2.eli ONLINE 0 0 0
ada5.eli ONLINE 0 0 0
replacing-4 DEGRADED 0 0 4,19K
8944933819716198089 OFFLINE 0 0 0 was /dev/ada6.eli/old
ada6.eli ONLINE 0 0 0 (resilvering)
ada7.eli ONLINE 0 0 1 (resilvering)
errors: 6960631 data errors, use '-v' for a list
pool: zroot
state: DEGRADED
status: One or more devices could not be opened. Sufficient replicas exist for
the pool to continue functioning in a degraded state.
action: Attach the missing device and online it using 'zpool online'.
see: http://illumos.org/msg/ZFS-8000-2Q
scan: resilvered 119M in 0h0m with 0 errors on Sat Feb 18 16:08:01 2017
config:
NAME STATE READ WRITE CKSUM
zroot DEGRADED 0 0 0
mirror-0 DEGRADED 0 0 0
1437839798835578480 UNAVAIL 3 2,26K 0 was /dev/ada3p3.eli
ada4p3.eli ONLINE 0 0 0
errors: No known data errors
A data nevű pool az épp "magánál van" és folytatja a resilvering-et. Most épp a zroot az aminél kiesett egy lemez. (De ha újraindítom a gépet akkor visszajön.)
Ami még feltűnő volt, hogy a resilvering sebessége néha leesik 6-7MB/sec-re és ott marad órákig. Ez rendkívül kevésnek tűnik.
Amire még gondolni tudnék az a táp probléma - de ebben a gépben jelenleg egy 500W-os táp van. A 8 lemezből 2 az SSD, a CPU terhelés folyamatos nulla közelében. Szóval nem valószínű, hogy az 500W táp kevés lenne.
Majd még próbálok kicserélni több lemezt, de sajnos ezt addig nem tudom megtenni amíg a resilvering készen nem lesz. :-(
Bármi ötlet hogy mitől lehet ez?