Rendszer Debian Lenny, Linux fw 2.6.26-2-amd64 #1 SMP Tue Mar 9 22:29:32 UTC 2010 x86_64
Tegnap épp dolgozok a raides diszken és crc error hegyek, néztem egy "mdadm --detail /dev/md0" parancsot, de semmi gondot nem jelzett, e-mail se jött hogy gond lenne.
Utána néztem egy hdsentinel kimentet és a syslogot, ahol az SDC lemezen körül irt gondokat (Health: 87%), erre próbaképp az alábbi parancsokat kiadtam:
mdadm --fail /dev/md0 /dev/sdc5
mdadm --remove /dev/md0 /dev/sdc5
mdadm --add /dev/md0 /dev/sdc5
Erre elkezte újra buildelni az md0-t jelenleg 82% körül tart és érdekes módon a Health: 92% -ra nött?!
Ez mitöl lehetséges? A diszkek hőmérséklete nagyjából az alábbi értékeken van állandóan, 2 diszk alig 84 napos (uptime 76 napos), a gép nincs mozgatva, szünetmentesen van.
Vezérlő gond, alaplap vagy memória gond? Miért nem jelzi a raid hogy gond van és csatolja le a hibásnak vélt diszket?
hddtemp:
--------
/dev/sdb: WDC WD15EARS-00Z5B1: 42°C
/dev/sdc: WDC WD15EARS-00Z5B1: 43°C
/dev/sdd: WDC WD15EARS-00Z5B1: 44°C
hdsentinel:
-----------
HDD Device 1: /dev/sdb
HDD Model ID : WDC WD15EARS-00Z5B1
HDD Serial No: WD-WMAVU1303580
HDD Revision : 80.00A80
HDD Size : 1430799 MB
Interface : S-ATA II
Temperature : 42 °C
Health : 100 %
Performance : 100 %
Power on time: 142 days, 13 hours
Est. lifetime: more than 1000 days
HDD Device 2: /dev/sdc
HDD Model ID : WDC WD15EARS-00Z5B1
HDD Serial No: WD-WMAVU2807624
HDD Revision : 80.00A80
HDD Size : 1430799 MB
Interface : S-ATA II
Temperature : 43 °C
Health : 92 %
Performance : 100 %
Power on time: 84 days, 9 hours
Est. lifetime: more than 1000 days
HDD Device 3: /dev/sdd
HDD Model ID : WDC WD15EARS-00Z5B1
HDD Serial No: WD-WMAVU2901326
HDD Revision : 80.00A80
HDD Size : 1430799 MB
Interface : S-ATA II
Temperature : 44 °C
Health : 100 %
Performance : 100 %
Power on time: 84 days, 12 hours
Est. lifetime: more than 1000 days
md0 : active raid5 sdc5[3] sdb5[0] sdd5[2]
2930271744 blocks level 5, 64k chunk, algorithm 2 [3/2] [U_U]
[================>....] recovery = 81.7% (1197531144/1465135872) finish=299.5min speed=14886K/sec
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: exception Emask 0x0 SAct 0x7 SErr 0x0 action 0x0
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: irq_stat 0x40000001
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: cmd 60/30:00:ce:63:6c/00:00:0d:00:00/40 tag 0 ncq 24576 in
Jul 18 19:04:07 fw kernel: [9465188.652163] res 41/40:00:f8:63:6c/24:00:0d:00:00/40 Emask 0x409 (media error)
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: status: { DRDY ERR }
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: error: { UNC }
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: cmd 60/70:08:fe:63:6c/00:00:0d:00:00/40 tag 1 ncq 57344 in
Jul 18 19:04:07 fw kernel: [9465188.652163] res 41/40:00:00:00:00/24:00:00:00:00/00 Emask 0x9 (media error)
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: status: { DRDY ERR }
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: error: { UNC }
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: cmd 60/08:10:76:74:98/00:00:0d:00:00/40 tag 2 ncq 4096 in
Jul 18 19:04:07 fw kernel: [9465188.652163] res 41/40:00:00:00:00/00:00:00:00:00/00 Emask 0x9 (media error)
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: status: { DRDY ERR }
Jul 18 19:04:07 fw kernel: [9465188.652163] ata2.00: error: { UNC }
Jul 18 19:04:07 fw kernel: [9465188.659497] ata2.00: configured for UDMA/33
Jul 18 19:04:07 fw kernel: [9465188.659497] ata2: EH complete
Jul 18 19:04:07 fw kernel: [9465188.659497] sd 2:0:0:0: [sdc] 2930277168 512-byte hardware sectors (1500302 MB)
Jul 18 19:04:07 fw kernel: [9465188.659497] sd 2:0:0:0: [sdc] Write Protect is off
Jul 18 19:04:07 fw kernel: [9465188.659497] sd 2:0:0:0: [sdc] Mode Sense: 00 3a 00 00
Jul 18 19:04:07 fw kernel: [9465188.659497] sd 2:0:0:0: [sdc] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Jul 18 19:04:10 fw kernel: [9465192.225164] ata2.00: exception Emask 0x0 SAct 0x7 SErr 0x0 action 0x0
Jul 18 19:04:10 fw kernel: [9465192.225164] ata2.00: irq_stat 0x40000008
Jul 18 19:04:10 fw kernel: [9465192.225164] ata2.00: cmd 60/30:10:ce:63:6c/00:00:0d:00:00/40 tag 2 ncq 24576 in
Jul 18 19:04:10 fw kernel: [9465192.225164] res 41/40:00:f8:63:6c/24:00:0d:00:00/40 Emask 0x409 (media error)
Jul 18 19:04:10 fw kernel: [9465192.225164] ata2.00: status: { DRDY ERR }
Jul 18 19:04:10 fw kernel: [9465192.225164] ata2.00: error: { UNC }
Jul 18 19:04:10 fw kernel: [9465192.236390] ata2.00: configured for UDMA/33
Jul 18 19:04:10 fw kernel: [9465192.236407] ata2: EH complete
Jul 18 19:04:10 fw kernel: [9465192.236390] sd 2:0:0:0: [sdc] 2930277168 512-byte hardware sectors (1500302 MB)
Jul 18 19:04:10 fw kernel: [9465192.236390] sd 2:0:0:0: [sdc] Write Protect is off
Jul 18 19:04:10 fw kernel: [9465192.236390] sd 2:0:0:0: [sdc] Mode Sense: 00 3a 00 00
Jul 18 19:04:10 fw kernel: [9465192.236390] sd 2:0:0:0: [sdc] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Jul 18 19:04:13 fw kernel: [9465195.740082] ata2.00: exception Emask 0x0 SAct 0x7 SErr 0x0 action 0x0
Jul 18 19:04:13 fw kernel: [9465195.740087] ata2.00: irq_stat 0x40000008
Jul 18 19:04:13 fw kernel: [9465195.740094] ata2.00: cmd 60/30:00:ce:63:6c/00:00:0d:00:00/40 tag 0 ncq 24576 in
Jul 18 19:04:13 fw kernel: [9465195.740096] res 41/40:00:f8:63:6c/24:00:0d:00:00/40 Emask 0x409 (media error)
Jul 18 19:04:13 fw kernel: [9465195.740099] ata2.00: status: { DRDY ERR }
Jul 18 19:04:13 fw kernel: [9465195.740102] ata2.00: error: { UNC }
Jul 18 19:04:13 fw kernel: [9465195.745985] ata2.00: configured for UDMA/33
Jul 18 19:04:13 fw kernel: [9465195.745985] ata2: EH complete
Jul 18 19:04:13 fw kernel: [9465195.746792] sd 2:0:0:0: [sdc] 2930277168 512-byte hardware sectors (1500302 MB)
Jul 18 19:04:13 fw kernel: [9465195.746792] sd 2:0:0:0: [sdc] Write Protect is off
Jul 18 19:04:13 fw kernel: [9465195.746792] sd 2:0:0:0: [sdc] Mode Sense: 00 3a 00 00
Jul 18 19:04:13 fw kernel: [9465195.746792] sd 2:0:0:0: [sdc] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
- 2419 megtekintés
Hozzászólások
A media erroros soroktól félnék...
- A hozzászóláshoz be kell jelentkezni
Ennyira siralmas lenne a WD diszkek mai minősége? 84 nap használat után csere? Sajna nincs mindig pénz raid edition diszkekre.
- A hozzászóláshoz be kell jelentkezni
siralmas? mihez képest? éppen kikaptál egy rosszat, pech...
100 vagy 1000 darab esetén már lehet hibaarányt számolni.
az elmúlt kb. egy évben ~300 darab WD (nem-RAID edition) SATA diszket vettünk, eddig 6 volt belőle rossz.
RAID editionból kb. 15 darabot vettünk, 2 volt eddig rossz.
ekkora mintavételezés esetén a statisztika alapján a RAID edition rosszabb, mint a sima :)
- A hozzászóláshoz be kell jelentkezni
Nekem van a kezeim alatt 4db 1TB WD green power diszk (WD10EACS) és nincs velük gond, pedig 1 éve mennek 24/7-ben backup szerverekben. Igaz klímázott helyiségben és gépen belül is jó hűtéssel, olyan max 30-35 fokosak. Ettől függetlenül 500-as WD diszkem halt már meg és Samsung (ez talán 320-as volt) is. A Seagate 1TB-os vinyók szintén jól bírják.
- A hozzászóláshoz be kell jelentkezni
A 40-45 fok már sok lenne? Laptopban is kb 42-45 fokot szokott a diszkre jelezni. Remélem tényleg csak a kábel a ludas.
- A hozzászóláshoz be kell jelentkezni
A kábelhibában ne bízz, elég nehéz összehozni, de az ördög nem alszik. Nekünk amúgy memória hiba is csinált érdekeset. Konkrétan a memtest nem talált semmit, viszont memória csere után a sata errorok nagyrész megszűnt. Később csak arra tudtunk gondolni, hogy a chipset/driver/diszk körül valami kompatibilitási őrület van.
42-45 nem tűnik soknak, de nekem a mozgó alkatrészek hűtése vesszőparipám. Van egy Seagate vinyós gép is elég massziv hellyel, ott 28-31 fok között mozognak a vinyók, de ezek az 5900-as lowpower kivitelek.
- A hozzászóláshoz be kell jelentkezni
Többek szerint még nem sok, szerintem sok. Most a dögmelegben, ahol nincs klíma, ott is max. 34-37-ig ment nekem - külön ventivel hűtöm a vinyókat.
- A hozzászóláshoz be kell jelentkezni
Eléggé... azóta elhullott még pár a környezetemben.
- A hozzászóláshoz be kell jelentkezni
Elsőre nézz meg egy kábel cserét, de rendeld meg a tartalék diszket is.
Az mdadm nem dobta még el a diszket?
szerk: gondolom ezek még garancialisásik, azért a tartalék nem árt
- A hozzászóláshoz be kell jelentkezni
Igen, ezt furcsáltam, hogy az mdadm szerint minden oké volt. Csak a syslogba ontotta a hibákat.
- A hozzászóláshoz be kell jelentkezni
smartctl -d ata -a /dev/sdc
ha Reallocated Sector Count, vagy Pending Sector > 0, akkor kukázd a diszket.
- A hozzászóláshoz be kell jelentkezni
Nulla mindkettő ha jól értelmezem
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 59
3 Spin_Up_Time 0x0027 253 185 021 Pre-fail Always - 1208
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 83
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 2026
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 81
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 79
193 Load_Cycle_Count 0x0032 186 186 000 Old_age Always - 44399
194 Temperature_Celsius 0x0022 107 103 000 Old_age Always - 43
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 8
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 4
- A hozzászóláshoz be kell jelentkezni
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 8
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 4
azért ez engem aggasztana. IMHO garis csere...
- A hozzászóláshoz be kell jelentkezni
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 8
Az offline teszt mar talalt 8 hibas szektort...
Szerverben nalam a legelso hiba utan diszkcsere kovetkezik, amelyik meg garancias volt, eddig mindet kicsereltek szo nelkul.
- A hozzászóláshoz be kell jelentkezni
A rendszer winyókkal látszólag nincs gond:
LSI SAS1068E:
ioc0 vol_id 0 type IM, 2 phy, 465 GB, state OPTIMAL, flags ENABLED
ioc0 phy 1 scsi_id 8 ATA WDC WD5000YS-09M 2E09, 465 GB, state ONLINE, flags NONE
ioc0 phy 0 scsi_id 1 ATA WDC WD5000YS-09M 2E09, 465 GB, state ONLINE, flags NONE
Sajna RAID5-s kártyám nincs, csak ilyen alaplapi.
- A hozzászóláshoz be kell jelentkezni
WD EARS diszket RAID-ben (és főleg RAID5 -ben) hajtani, bátor próbálkozás. :)
- A hozzászóláshoz be kell jelentkezni
Miert?
- A hozzászóláshoz be kell jelentkezni
Nincs TLER támogatás, 4K -s sectorméret 512 byte-nak hazudva kifelé, stb. Az első miatt kifejezetten nem javasolt a RAID -ben való alkalmazás, a második miatt szimplán csak sebességproblémák várhatók.
- A hozzászóláshoz be kell jelentkezni
Mit javasolsz helyette?
- A hozzászóláshoz be kell jelentkezni
Ez engem is érdekelne, mi a javaslat helyette?
- A hozzászóláshoz be kell jelentkezni
Meg valami hozzavalo hardveres RAID kartya is johetne akkor mar :)
- A hozzászóláshoz be kell jelentkezni
Mindegyik gyártónak vannak "enterprise", vagy hasonló elnevezésű diszkjei, azok éppen erre vannak kitalálva.
Számomra is meglepő módon nekem a Samsung consumer diszkjeivel sem volt gondom RAID -ben, de a WD green diszkjeire keresve tele van a net a leírt panaszokhoz hasonlókkal.
- A hozzászóláshoz be kell jelentkezni
szerintem amíg nincs hiba, addig hót mindegy, hogy van-e tler, ha meg már hiba van, akkor úgyis csere, akár van tler akár nincs. amúgy ilyet én sem vennék, rengetegen panaszkodnak rájuk, de szerintem ez még a 4k miatt van. majd kiforrja magát.
- A hozzászóláshoz be kell jelentkezni
nekem eddig beváltak a samsung diskek a szerverbe (raid5 szinten) (kop kop)
HDD Device 0: /dev/sda
HDD Model ID : SAMSUNG HD082GJ
HDD Serial No: S0VPJ90PC11518
HDD Revision : JE100-19
HDD Size : 82580 MB
Interface : S-ATA II
Temperature : 25 °C
Health : 100 %
Performance : 100 %
Power on time: 873 days, 8 hours
Est. lifetime: more than 951 days
HDD Device 1: /dev/sdb
HDD Model ID : SAMSUNG HD082GJ
HDD Serial No: S0VPJ90PC11516
HDD Revision : JE100-19
HDD Size : 82580 MB
Interface : S-ATA II
Temperature : 24 °C
Health : 100 %
Performance : 100 %
Power on time: 873 days, 8 hours
Est. lifetime: more than 951 days
HDD Device 2: /dev/sdc
HDD Model ID : SAMSUNG HD082GJ
HDD Serial No: S0VPJ90PC11521
HDD Revision : JE100-19
HDD Size : 82580 MB
Interface : S-ATA II
Temperature : 25 °C
Health : 100 %
Performance : 100 %
Power on time: 873 days, 8 hours
Est. lifetime: more than 951 days
(tegyük hozza, ezek mindig klimas helyen futnak)
____________________
http://asva.info | Vicces képek | LinkTömörítő | Android hírek, tippek
- A hozzászóláshoz be kell jelentkezni
Itt a HUP-on olvastam valahol, hogy nem szerencsés ha mind egy gyártótól származnak. Ráadásul mivel gondolom ugyanakkor vetted őket, megnő annak a valószínűsége hogy egyszerre mennek tönkre.
---
> man woman
No manual entry for woman
- A hozzászóláshoz be kell jelentkezni
Viszont ha kulonbozoeket veszel, akkor meg a RAID sebessege lehet problemas (mas fizikai meret, sebesseg es ezekbol kialakulo kulonbozo paramterek)
- A hozzászóláshoz be kell jelentkezni
hát eddig lekopogom úgy tűnik jobban jártam velük :)
____________________
http://asva.info | Vicces képek | LinkTömörítő | Android hírek, tippek
- A hozzászóláshoz be kell jelentkezni
WD??EARS lemezekkel az alábbiak a tapasztalataim.
- jó lemez, ámde okosan kell beüzemelni. Ekkor tényleg jó!
1. 4k szektorméret. Lásd fórumon erről való írásaimat.
2. SATAII ... tudja. Valamely eszköz azonban rosszul (wd vagy kontroller). A harmadik jumper "visszabutitja" SATA1-re a WD diszket. Eddigi felhasználásomnál érdemes volt visszabutitani, mert több szerverben is a SATAII vezérlővel összeveszve időnként kiállt a raid-ből. Ráadásul ez nem csak EARS-os WD-knél, hanem más, utóbbi években gyártott WD-knél is tapasztalatom.
- A hozzászóláshoz be kell jelentkezni
Sziasztok!
Én is hasonlóképpen jártam, mint a topiknyitó kolléga, gondoltam újrahasznosítom a topic-ot.
Nálam 2 db WD1002FAEX van, 3ware 9650SE vezérlővel RAID1-ben. Ma olvastam a TLER problémáról. Valaki használ még ilyeneket RAID1-ben? A gyakorlatban mennyire szokott előfordulni a TLER miatti diszk kiesés?
Fentebb írta valaki, hogy ha nincs hiba, akkor úgysem számít, hogy TLER van-e, vagy nincs, ha pedig hibázik, akkor úgyis csere... Akkor ezek szerint az történik, hogy a javítható hibák (szektor áthelyezés) a TLER-es diszkeknél rejtve maradnak? A TLER nélküliek pedig hosszabb ideig állnak meg olyankor, és ezért esnek ki a RAID-ből?
Szerintetek cseréljem ki a diszkeket más típusra?
Petya
- A hozzászóláshoz be kell jelentkezni