Most tekintsünk el attól, hogy nem RAID5 hanem RAID6 tömbbel van dolgunk...
A tömböt alkotó 4 lemezből 3 a smartmontools szerint rendben van. Nem úgy a negyedik (/dev/sdc):
# smartctl -a /dev/sdc
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/
=== START OF INFORMATION SECTION ===
Device Model: WDC WD2002FYPS-02W3B0
Serial Number: WD-xxxxxxxxx
Firmware Version: 04.01G01
User Capacity: 2,000,398,934,016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Sun Jan 3 11:32:43 2016 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
[...]
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 243 232 021 Pre-fail Always - 9833
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 42
5 Reallocated_Sector_Ct 0x0033 197 197 140 Pre-fail Always - 22
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 038 038 000 Old_age Always - 45384
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 39
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 34
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 7
194 Temperature_Celsius 0x0022 120 102 000 Old_age Always - 32
196 Reallocated_Event_Count 0x0032 179 179 000 Old_age Always - 21
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 22
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 199
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 199 199 000 Old_age Offline - 218
22 reallokált szektor 1891 napnyi (5,1 év) folyamatos üzem után egy olcsó SATA diszktől talán nem is rossz. Viszont a rossz lemeztől a resync lelassult és végül úgy nagyjából meg is állt. Úgyhogy:
# mdadm /dev/md0 -f /dev/sdc1
A NAS funkciókat adó Openfiler így már azonnal észrevette, hogy valami nem kerek és dobta is a levelet:
Sun 03 Jan 2016 12:08:37 PM CET
nas4
This email has been automatically generated by
Openfiler to inform you that a Fail event has been
detected on the RAID array /dev/md0.
This event was caused by the device: /dev/sdc1
Full details are listed below
_____________________________________________________
/dev/md0:
Version : 00.90.03
Creation Time : Mon Oct 25 14:53:34 2010
Raid Level : raid6
Array Size : 3907023872 (3726.03 GiB 4000.79 GB)
Used Dev Size : 1953511936 (1863.01 GiB 2000.40 GB)
Raid Devices : 4
Total Devices : 4
Preferred Minor : 0
Persistence : Superblock is persistent
Update Time : Sun Jan 3 12:08:37 2016
State : active, degraded, resyncing
Active Devices : 3
Working Devices : 3
Failed Devices : 1
Spare Devices : 0
Chunk Size : 64K
Rebuild Status : 5% complete
UUID : 5bb06204:f72f27c5:a7991803:bdfcad55
Events : 0.37
Number Major Minor RaidDevice State
0 8 17 0 active sync /dev/sdb1
1 0 0 1 removed
2 8 49 2 active sync /dev/sdd1
3 8 65 3 active sync /dev/sde1
4 8 33 - faulty spare /dev/sdc1
Így már mindjárt meglódultak a lovak!
- trey blogja
- A hozzászóláshoz be kell jelentkezni
Hozzászólások
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 22
Ez is alattomos hiba, amibe utóbbi 3..4 évben rendszeresen futok bele és magával tudja rántani a rendszert.
Ekkor ha szektorfolytonosan végigírod a diszket (persze RAID-ből előtte kivéve!), a diszkek jelentős része megmenthető.
- A hozzászóláshoz be kell jelentkezni
"Ekkor ha szektorfolytonosan végigírod a diszket (persze RAID-ből előtte kivéve!), a diszkek jelentős része megmenthető."
Igen. Mivel tartalékom nincs és 2 napon belül nem is lesz, most az a terv, hogy végigírom 0-val (dd) a jobb állapotban levőt, amin csak pending sector van. Azt várom tőle, hogy a pending-ből reallocated lesz és visszatolom utána a RAID-be, amíg a cserediszkek meg nem érkeznek.
--
trey @ gépház
- A hozzászóláshoz be kell jelentkezni
Érdeklődés: reallocated lett vagy csak simán eltűnt a pending?
További gondolatébresztő:
- mi idézi elő a diszkben a pending sector hibát?
- miért az utóbbi években futok bele?
- miért képes lerohalasztani például egy szoftver RAID5 esetén a kernel diszk alrendszerét? (remote sysloggal tudtam csak elkapni, helyi syslog-ba már nem került bele)
- A hozzászóláshoz be kell jelentkezni
Szerintem:
"- mi idézi elő a diszkben a pending sector hibát?"
Csökkent valamelyest a felület mágnezettsége azon a ponton, és bizonytalanul, többedszerre tudja beolvasni csak a sector tartalmát.
"- miért az utóbbi években futok bele?"
Volt ilyen mindig is, sőt, én az utóbbi években általánosságbna jobb minőségűnek érzem a diszkeket. Kopp-kopp rég volt már diszkhalálom (van pedig mindenféle, 1től 4TB-ig lakossági SATA, Enterspájz Hitachi Ultrastar SATA, több tucat 15k rpm SAS, talán valami régi vasban 80GB-s IDE boot diszk is van, stb.).
"- miért képes lerohalasztani például egy szoftver RAID5 esetén a kernel diszk alrendszerét? (remote sysloggal tudtam csak elkapni, helyi syslog-ba már nem került bele)"
Mert "szarazegész". Egyébként én FreeBSD alatt jártam úgy nem egyszer, hogy az _elvileg_ hot-swap vezérlőre kötött, hotswap lemezt ha menet közben kihúztam, akkor a FreeBSD rebootolt. :D
A szoftver RAID-ekkel (include zfs) nem is merek ilyet csinálni, sőt enterspájz storage esetében (pl Storwize, stb.) sem nagon merem menet közben kihúzni a lemezt (éles rendszeren nem is kísérleteznék egyáltalán ilyemsivel).
- A hozzászóláshoz be kell jelentkezni
Eltűnt a pending:
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 1
3 Spin_Up_Time 0x0027 250 230 021 Pre-fail Always - 9458
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 46
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 038 038 000 Old_age Always - 45437
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 44
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 36
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 9
194 Temperature_Celsius 0x0022 109 105 000 Old_age Always - 43
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 1
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 1
De ezen csak 1 pending volt. A nyitóban levő diszket most írom végig, de azt már nem teszem vissza, mert elég ramaty az állapota. Ezzel az egy paritás diszkkel már szerintem kihúzom, amíg megjönnek a rendelt lemezek.
--
trey @ gépház
- A hozzászóláshoz be kell jelentkezni
Ha jól látom RE-ről van szó, illene többet élnie. De reméljük a másik három megéri a tizedik szülinapját.
- A hozzászóláshoz be kell jelentkezni
A címkéje szerint "Enterprise Storage" vonal.
--
trey @ gépház
- A hozzászóláshoz be kell jelentkezni
"De reméljük a másik három megéri a tizedik szülinapját."
Nem hiszem :) A resync alatt a /dev/sde-t is kidobta.
Sun 03 Jan 2016 06:02:07 PM CET
nas4This email has been automatically generated by
Openfiler to inform you that a Fail event has been
detected on the RAID array /dev/md0.This event was caused by the device: /dev/sde1
[root@nas4 ~]# mdadm -D /dev/md0
/dev/md0:
Version : 00.90.03
Creation Time : Mon Oct 25 14:53:34 2010
Raid Level : raid6
Array Size : 3907023872 (3726.03 GiB 4000.79 GB)
Used Dev Size : 1953511936 (1863.01 GiB 2000.40 GB)
Raid Devices : 4
Total Devices : 4
Preferred Minor : 0
Persistence : Superblock is persistent
Update Time : Sun Jan 3 18:15:38 2016
State : clean, degraded
Active Devices : 2
Working Devices : 2
Failed Devices : 2
Spare Devices : 0
Chunk Size : 64K
UUID : 5bb06204:f72f27c5:a7991803:bdfcad55
Events : 0.214
Number Major Minor RaidDevice State
0 8 17 0 active sync /dev/sdb1
1 0 0 1 removed
2 8 49 2 active sync /dev/sdd1
3 0 0 3 removed
4 8 65 - faulty spare /dev/sde1
5 8 33 - faulty spare /dev/sdc1
--
trey @ gépház
- A hozzászóláshoz be kell jelentkezni
Ha most építenél, melyik szoftvert választanád?
- A hozzászóláshoz be kell jelentkezni
Van elég brand storage-om, 27 disk polcnyit tudok bővíteni, mindegyikbe 12 disk-et tudok tenni. Lehet, hogy inkább azokat bővíteném.
Ha építeni kéne, akkor valami Linuxot csinálnék. A fájlrendszer nem érdekes, úgyis vmfs menne rá. Az Openfiler-rel nem volt semmi baj, de már nem fejlesztik, így azzal biztosan nem.
--
trey @ gépház
- A hozzászóláshoz be kell jelentkezni