RAID5 para

Fórumok

Rendszer Debian Lenny, Linux fw 2.6.26-2-amd64 #1 SMP Tue Mar 9 22:29:32 UTC 2010 x86_64

Tegnap épp dolgozok a raides diszken és crc error hegyek, néztem egy "mdadm --detail /dev/md0" parancsot, de semmi gondot nem jelzett, e-mail se jött hogy gond lenne.

Utána néztem egy hdsentinel kimentet és a syslogot, ahol az SDC lemezen körül irt gondokat (Health: 87%), erre próbaképp az alábbi parancsokat kiadtam:

mdadm --fail /dev/md0 /dev/sdc5
mdadm --remove /dev/md0 /dev/sdc5
mdadm --add /dev/md0 /dev/sdc5

Erre elkezte újra buildelni az md0-t jelenleg 82% körül tart és érdekes módon a Health: 92% -ra nött?!

Ez mitöl lehetséges? A diszkek hőmérséklete nagyjából az alábbi értékeken van állandóan, 2 diszk alig 84 napos (uptime 76 napos), a gép nincs mozgatva, szünetmentesen van.
Vezérlő gond, alaplap vagy memória gond? Miért nem jelzi a raid hogy gond van és csatolja le a hibásnak vélt diszket?

hddtemp:
--------
/dev/sdb: WDC WD15EARS-00Z5B1: 42°C
/dev/sdc: WDC WD15EARS-00Z5B1: 43°C
/dev/sdd: WDC WD15EARS-00Z5B1: 44°C

hdsentinel:
-----------
HDD Device 1: /dev/sdb
HDD Model ID : WDC WD15EARS-00Z5B1
HDD Serial No: WD-WMAVU1303580
HDD Revision : 80.00A80
HDD Size : 1430799 MB
Interface : S-ATA II
Temperature : 42 °C
Health : 100 %
Performance : 100 %
Power on time: 142 days, 13 hours
Est. lifetime: more than 1000 days

HDD Device 2: /dev/sdc
HDD Model ID : WDC WD15EARS-00Z5B1
HDD Serial No: WD-WMAVU2807624
HDD Revision : 80.00A80
HDD Size : 1430799 MB
Interface : S-ATA II
Temperature : 43 °C
Health : 92 %
Performance : 100 %
Power on time: 84 days, 9 hours
Est. lifetime: more than 1000 days

HDD Device 3: /dev/sdd
HDD Model ID : WDC WD15EARS-00Z5B1
HDD Serial No: WD-WMAVU2901326
HDD Revision : 80.00A80
HDD Size : 1430799 MB
Interface : S-ATA II
Temperature : 44 °C
Health : 100 %
Performance : 100 %
Power on time: 84 days, 12 hours
Est. lifetime: more than 1000 days

md0 : active raid5 sdc5[3] sdb5[0] sdd5[2]
2930271744 blocks level 5, 64k chunk, algorithm 2 [3/2] [U_U]
[================>....] recovery = 81.7% (1197531144/1465135872) finish=299.5min speed=14886K/sec

Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: exception Emask 0x0 SAct 0x7 SErr 0x0 action 0x0
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: irq_stat 0x40000001
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: cmd 60/30:00:ce:63:6c/00:00:0d:00:00/40 tag 0 ncq 24576 in
Jul 18 19:04:07 fw kernel: [9465188.652163] res 41/40:00:f8:63:6c/24:00:0d:00:00/40 Emask 0x409 (media error)
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: status: { DRDY ERR }
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: error: { UNC }
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: cmd 60/70:08:fe:63:6c/00:00:0d:00:00/40 tag 1 ncq 57344 in
Jul 18 19:04:07 fw kernel: [9465188.652163] res 41/40:00:00:00:00/24:00:00:00:00/00 Emask 0x9 (media error)
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: status: { DRDY ERR }
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: error: { UNC }
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: cmd 60/08:10:76:74:98/00:00:0d:00:00/40 tag 2 ncq 4096 in
Jul 18 19:04:07 fw kernel: [9465188.652163] res 41/40:00:00:00:00/00:00:00:00:00/00 Emask 0x9 (media error)
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: status: { DRDY ERR }
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: error: { UNC }
Jul 18 19:04:07 fw kernel: [9465188.659497] ata2.00: configured for UDMA/33
Jul 18 19:04:07 fw kernel: [9465188.659497] ata2: EH complete
Jul 18 19:04:07 fw kernel: [9465188.659497] sd 2:0:0:0: [sdc] 2930277168 512-byte hardware sectors (1500302 MB)
Jul 18 19:04:07 fw kernel: [9465188.659497] sd 2:0:0:0: [sdc] Write Protect is off
Jul 18 19:04:07 fw kernel: [9465188.659497] sd 2:0:0:0: [sdc] Mode Sense: 00 3a 00 00
Jul 18 19:04:07 fw kernel: [9465188.659497] sd 2:0:0:0: [sdc] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Jul 18 19:04:10 fw kernel: [9465192.225164] ata2.00: exception Emask 0x0 SAct 0x7 SErr 0x0 action 0x0
Jul 18 19:04:10 fw kernel: [9465192.225164] ata2.00: irq_stat 0x40000008
Jul 18 19:04:10 fw kernel: [9465192.225164] ata2.00: cmd 60/30:10:ce:63:6c/00:00:0d:00:00/40 tag 2 ncq 24576 in
Jul 18 19:04:10 fw kernel: [9465192.225164] res 41/40:00:f8:63:6c/24:00:0d:00:00/40 Emask 0x409 (media error)
Jul 18 19:04:10 fw kernel: [9465192.225164] ata2.00: status: { DRDY ERR }
Jul 18 19:04:10 fw kernel: [9465192.225164] ata2.00: error: { UNC }
Jul 18 19:04:10 fw kernel: [9465192.236390] ata2.00: configured for UDMA/33
Jul 18 19:04:10 fw kernel: [9465192.236407] ata2: EH complete
Jul 18 19:04:10 fw kernel: [9465192.236390] sd 2:0:0:0: [sdc] 2930277168 512-byte hardware sectors (1500302 MB)
Jul 18 19:04:10 fw kernel: [9465192.236390] sd 2:0:0:0: [sdc] Write Protect is off
Jul 18 19:04:10 fw kernel: [9465192.236390] sd 2:0:0:0: [sdc] Mode Sense: 00 3a 00 00
Jul 18 19:04:10 fw kernel: [9465192.236390] sd 2:0:0:0: [sdc] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Jul 18 19:04:13 fw kernel: [9465195.740082] ata2.00: exception Emask 0x0 SAct 0x7 SErr 0x0 action 0x0
Jul 18 19:04:13 fw kernel: [9465195.740087] ata2.00: irq_stat 0x40000008
Jul 18 19:04:13 fw kernel: [9465195.740094] ata2.00: cmd 60/30:00:ce:63:6c/00:00:0d:00:00/40 tag 0 ncq 24576 in
Jul 18 19:04:13 fw kernel: [9465195.740096] res 41/40:00:f8:63:6c/24:00:0d:00:00/40 Emask 0x409 (media error)
Jul 18 19:04:13 fw kernel: [9465195.740099] ata2.00: status: { DRDY ERR }
Jul 18 19:04:13 fw kernel: [9465195.740102] ata2.00: error: { UNC }
Jul 18 19:04:13 fw kernel: [9465195.745985] ata2.00: configured for UDMA/33
Jul 18 19:04:13 fw kernel: [9465195.745985] ata2: EH complete
Jul 18 19:04:13 fw kernel: [9465195.746792] sd 2:0:0:0: [sdc] 2930277168 512-byte hardware sectors (1500302 MB)
Jul 18 19:04:13 fw kernel: [9465195.746792] sd 2:0:0:0: [sdc] Write Protect is off
Jul 18 19:04:13 fw kernel: [9465195.746792] sd 2:0:0:0: [sdc] Mode Sense: 00 3a 00 00
Jul 18 19:04:13 fw kernel: [9465195.746792] sd 2:0:0:0: [sdc] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA

Hozzászólások

A media erroros soroktól félnék...

Ennyira siralmas lenne a WD diszkek mai minősége? 84 nap használat után csere? Sajna nincs mindig pénz raid edition diszkekre.

siralmas? mihez képest? éppen kikaptál egy rosszat, pech...
100 vagy 1000 darab esetén már lehet hibaarányt számolni.

az elmúlt kb. egy évben ~300 darab WD (nem-RAID edition) SATA diszket vettünk, eddig 6 volt belőle rossz.

RAID editionból kb. 15 darabot vettünk, 2 volt eddig rossz.

ekkora mintavételezés esetén a statisztika alapján a RAID edition rosszabb, mint a sima :)

Nekem van a kezeim alatt 4db 1TB WD green power diszk (WD10EACS) és nincs velük gond, pedig 1 éve mennek 24/7-ben backup szerverekben. Igaz klímázott helyiségben és gépen belül is jó hűtéssel, olyan max 30-35 fokosak. Ettől függetlenül 500-as WD diszkem halt már meg és Samsung (ez talán 320-as volt) is. A Seagate 1TB-os vinyók szintén jól bírják.

A kábelhibában ne bízz, elég nehéz összehozni, de az ördög nem alszik. Nekünk amúgy memória hiba is csinált érdekeset. Konkrétan a memtest nem talált semmit, viszont memória csere után a sata errorok nagyrész megszűnt. Később csak arra tudtunk gondolni, hogy a chipset/driver/diszk körül valami kompatibilitási őrület van.

42-45 nem tűnik soknak, de nekem a mozgó alkatrészek hűtése vesszőparipám. Van egy Seagate vinyós gép is elég massziv hellyel, ott 28-31 fok között mozognak a vinyók, de ezek az 5900-as lowpower kivitelek.

Elsőre nézz meg egy kábel cserét, de rendeld meg a tartalék diszket is.

Az mdadm nem dobta még el a diszket?

szerk: gondolom ezek még garancialisásik, azért a tartalék nem árt

smartctl -d ata -a /dev/sdc

ha Reallocated Sector Count, vagy Pending Sector > 0, akkor kukázd a diszket.

Nulla mindkettő ha jól értelmezem

ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 59
3 Spin_Up_Time 0x0027 253 185 021 Pre-fail Always - 1208
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 83
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 2026
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 81
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 79
193 Load_Cycle_Count 0x0032 186 186 000 Old_age Always - 44399
194 Temperature_Celsius 0x0022 107 103 000 Old_age Always - 43
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 8
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 4

A rendszer winyókkal látszólag nincs gond:

LSI SAS1068E:
ioc0 vol_id 0 type IM, 2 phy, 465 GB, state OPTIMAL, flags ENABLED
ioc0 phy 1 scsi_id 8 ATA WDC WD5000YS-09M 2E09, 465 GB, state ONLINE, flags NONE
ioc0 phy 0 scsi_id 1 ATA WDC WD5000YS-09M 2E09, 465 GB, state ONLINE, flags NONE

Sajna RAID5-s kártyám nincs, csak ilyen alaplapi.

WD EARS diszket RAID-ben (és főleg RAID5 -ben) hajtani, bátor próbálkozás. :)

nekem eddig beváltak a samsung diskek a szerverbe (raid5 szinten) (kop kop)

HDD Device 0: /dev/sda
HDD Model ID : SAMSUNG HD082GJ
HDD Serial No: S0VPJ90PC11518
HDD Revision : JE100-19
HDD Size : 82580 MB
Interface : S-ATA II
Temperature : 25 °C
Health : 100 %
Performance : 100 %
Power on time: 873 days, 8 hours
Est. lifetime: more than 951 days

HDD Device 1: /dev/sdb
HDD Model ID : SAMSUNG HD082GJ
HDD Serial No: S0VPJ90PC11516
HDD Revision : JE100-19
HDD Size : 82580 MB
Interface : S-ATA II
Temperature : 24 °C
Health : 100 %
Performance : 100 %
Power on time: 873 days, 8 hours
Est. lifetime: more than 951 days

HDD Device 2: /dev/sdc
HDD Model ID : SAMSUNG HD082GJ
HDD Serial No: S0VPJ90PC11521
HDD Revision : JE100-19
HDD Size : 82580 MB
Interface : S-ATA II
Temperature : 25 °C
Health : 100 %
Performance : 100 %
Power on time: 873 days, 8 hours
Est. lifetime: more than 951 days

(tegyük hozza, ezek mindig klimas helyen futnak)

____________________
http://asva.info | Vicces képek | LinkTömörítő | Android hírek, tippek

Itt a HUP-on olvastam valahol, hogy nem szerencsés ha mind egy gyártótól származnak. Ráadásul mivel gondolom ugyanakkor vetted őket, megnő annak a valószínűsége hogy egyszerre mennek tönkre.

---
> man woman
No manual entry for woman

https://www.dropbox.com/referrals/NTM3MTUzNzQ5

WD??EARS lemezekkel az alábbiak a tapasztalataim.

- jó lemez, ámde okosan kell beüzemelni. Ekkor tényleg jó!

1. 4k szektorméret. Lásd fórumon erről való írásaimat.
2. SATAII ... tudja. Valamely eszköz azonban rosszul (wd vagy kontroller). A harmadik jumper "visszabutitja" SATA1-re a WD diszket. Eddigi felhasználásomnál érdemes volt visszabutitani, mert több szerverben is a SATAII vezérlővel összeveszve időnként kiállt a raid-ből. Ráadásul ez nem csak EARS-os WD-knél, hanem más, utóbbi években gyártott WD-knél is tapasztalatom.

Sziasztok!

Én is hasonlóképpen jártam, mint a topiknyitó kolléga, gondoltam újrahasznosítom a topic-ot.

Nálam 2 db WD1002FAEX van, 3ware 9650SE vezérlővel RAID1-ben. Ma olvastam a TLER problémáról. Valaki használ még ilyeneket RAID1-ben? A gyakorlatban mennyire szokott előfordulni a TLER miatti diszk kiesés?

Fentebb írta valaki, hogy ha nincs hiba, akkor úgysem számít, hogy TLER van-e, vagy nincs, ha pedig hibázik, akkor úgyis csere... Akkor ezek szerint az történik, hogy a javítható hibák (szektor áthelyezés) a TLER-es diszkeknél rejtve maradnak? A TLER nélküliek pedig hosszabb ideig állnak meg olyankor, és ezért esnek ki a RAID-ből?

Szerintetek cseréljem ki a diszkeket más típusra?

Petya