WD merevlemez sebesség csökkenés (150->30mbyte/s)

 ( wpeople | 2017. január 1., vasárnap - 22:23 )

Sziasztok!

Szerintetek mi okozhatja merevlemez sebesség-csökkenését?

Van egy intel 1U server E3-1240 CPU-val, ebben 4db vinyó volt:
2x500G WD black és 2x2000G WD green.
Mindegyik vinyó az alaplapi vezérlőn figyel. A lemezek majd' 5 évesek. Az egyik WD black még nincs kicserélve, a többi igen (a green is black lett)

A csere előtt az egyik Black hibát jelzett, majd megnéztem, és mindegyiknek elég ramaty volt a sebessége. (mármint 30-60mbyte/s az újkori 120-150mbyte/s-hez képest)

Ilyen mitől lehet?

Másik dobozban (Intel SS4200 NAS) 6 éve megy a 4ből 3 uezen 2000G WD green-ből, és azóta is 100mbyte/s feletti sebességgel - mondjuk ide csak mentek.

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

Vagy tápegység, vagy túlkorosak a HDD-k, és kezdenek lehalni. A Green-eknél 3 év is szép időnek számít.
A rózsaszínnel jelölt SMART paraméterek milyen értékkel rendelkeznek a lassú HDD-ken?


Tettem bele új vinyókat, azoknak jó a sebessége...

ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 195 195 051 Pre-fail Always - 65581
3 Spin_Up_Time 0x0027 148 141 021 Pre-fail Always - 3566
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 80
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 081 081 000 Old_age Always - 14596
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 78
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 65
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 14
194 Temperature_Celsius 0x0022 119 099 000 Old_age Always - 24
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 187 187 000 Old_age Offline - 2740

Nekem például a Multi_Zone_Error_Rate rossznak tűnik. Összehasonlításképpen egy 9185 órás Samsung Spinpointnál, ennek az értéke 1:
200 Multi_Zone_Error_Rate 0x000a 100 100 000 Old_age Always - 1

A másik, 5477 órás Samsungnál pedig 0.

A Wikipedia szerint a Raw_Read_Error_Rate értéke gyártófüggő, ezért azt nem biztos, hogy érdemes figyelembe venni.

Nekem meg jónak tűnik.

200 Multi_Zone_Error_Rate 0x0008 187 187 000 Old_age Offline - 2740

187-nél tart, 187-nél rosszabb még nem volt, 000-nál lesz a diszknek vége (valószínűleg 200-ról indult).
Ez minden, csak nem rossz.

Összehasonlításképpen egy 9185 órás Samsung Spinpointnál

A raw értékeket különösen nem hasonlítgatjuk eltérő gyártók termékei között, mert az kb. az almát a körtéhez jellegű lesz...

egy szintén itt lévő NAS-ban a WD Green 2T 6 éve megy, ez a számláló 0-t mutat (de abban minden lemezen) szóval
nem tartom valószínűnek, hogy 200-ról számol vissza

Hát akkor esetleg ott szimplán nem működik ez a kijelző... az, hogy melyik számláló mennyiről indul, az is gyártó- és modellspecifikus - sőt az is, hogy jól működik-e egyáltalán (nem baszták-e el a firmware-ben)...
Ha valaminél konstans 000 000 000 van, akkor az sanszos, hogy nem csinál semmit.

Szia!

Itt tobb hibat is latok, ha ez tenyleg egy WD blackrol szarmazik, akkor ezt garizd visza (futas ido ha jol nezem, akkor 1.7 ev tehat garis)!
-raw read error rate -olvasasnal elofordulo checksum hiba, wdnel ez az atribbutum pontosan az, aminek hangzik
-multi zone error rate: irasi hiba

Denke

Most ezt gomolyan gondoltad, hogy a power-on hours alapján gariznak bármit is? Akár egy 10 éves vinyó is lehet 0 percet futott, mégse garis már.

felre ertelmezted, a poweronhourbol csak azt tippelte hogy meg talan garis. (tehat ne a kukaba dobja ki), a hiba oka meg a ket error rate.

--
A vegtelen ciklus is vegeter egyszer, csak kelloen eros hardver kell hozza!

igen,vásárlás után kb 1 héten belül bekerült a szerverbe.
Mint írtam, 2db 500G WD-Raid Edition volt benne. Az első ATA hibát jelzett, ezzel gariztattam. A gyártástól számított 5év épphogy lejárt, a vásárlástól számított 5év kb 2-3 hónap múlva fog lejárni.

Összehasonlításul három meglehetősen öreg de még hibátlan WD Black:


ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 253 223 021 Pre-fail Always - 5558
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 153
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 033 033 000 Old_age Always - 48925
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 150
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 122
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 153
194 Temperature_Celsius 0x0022 122 103 000 Old_age Always - 28
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0


ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 253 253 021 Pre-fail Always - 1233
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 287
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 036 036 000 Old_age Always - 46933
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 210
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 132
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 287
194 Temperature_Celsius 0x0022 120 100 000 Old_age Always - 30
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 4
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0


ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 253 232 021 Pre-fail Always - 6500
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 175
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 199 000 Old_age Always - 0
9 Power_On_Hours 0x0032 033 033 000 Old_age Always - 49062
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 164
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 127
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 175
194 Temperature_Celsius 0x0022 123 104 000 Old_age Always - 27
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 1
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0

Azért nem ártana SMART, oprendszer, filesystem, tesztelés módja ahhoz, hogy valami irtó nagy okosságot mondhasson valaki.

SMART adatok lentebb, azt még keresem, a hiányzó értékeket hogyan lehetne kinyerni, mert a smartctl szerint "Not in smartctl database" (ha kapok erre tippet, megköszönöm)
linux softraid, ezen LVM és ext3.
dd-vel és hdparm-al és hasonló adatok jöttek. Tudom, bonnie ideálisabb lenne...

Olyan régi HDD-re adatot bízni... elég bátor dolog, de még üzemben tartani is mert a csomó hibájával csak lassítja a rendszert.

nos akkor kérdezném a véleményed, mikor cserélnél vinyót egy működő gépben, ha nem jelez hibát sem a SMART, sem az MD, sem az OS, és nincs tele?

És ezt hogyan indokolja meg az ügyfélnek úgy, h kifizesse az új eszközök árát, és az áttelepítés munkadíját? Mert nekem ezek a problémásak. Csak akkor cserélnek, mikor elpusztul a vas.

Sőt, továbbmegyek. Van, ahol már nem frissített OS fut, mert van rajta egy szolgáltatás, ami már nem fut az újabbon, így nem lehetett dist-upgradet csinálni. Leírtuk neki, h ez mivel jár, tudomásul vette, nem érdekli, csak menjen.

az indoklással még nem is lenne gond.
de tényleg tegye már fel a kezét, aki minden általa üzemeltetett szerveren periódikusan mér sebességet - softraid esetén lemezenként...

Bár nem erre gondoltál...

A lassulast a gyengulo szektorok okozzak. Nem rosszak meg de jelentosen tobb ido, fordulat az olvasasuk, irasuk. A smart meg jonak lathatja de attol meg nem jok.

Futass ofgline hd scan-t a lemezekre ha van ra lehetoseg es kiderul, hogy melyik szektor rossz, gyenge.

+1

Sakk-matt,
KaTT :)

van erre vmi linuxos tool? badblocks esetleg?

A szervereinkben a monitoring illetve a vezérlő kártya is jelez (akár OS szinten, akár villogó LED) ha hiba várható azaz bármely paraméter elcsúszik vagy konkrétan ha elromlott a merevlemez. Ilyenkor mindig cserélünk - vagy a hotspare lép be automatikusan, vagy manuálisan kicseréljük, ha csak várható a meghibásodás.
Persze ezek komolyabb RAID rendszerekre igazak, ha Te esetedben ez egy mezei, egy merevlemezes asztali gép, akkor nyilván kicsit kellemetlenebb a dolog. Manapság nem olyan tétel egy HDD (főleg egy sima desktop), hogy ne lehetne kicserélni 3-5 évente.

HP server és HP vinyó esetén nincs kérdésem, ott működik a pre-fail.

Láthatód, a kérdéses esetben semmi más nem mutatja a hibát, mint az, hogy rámérek az átvitelre...

Mint írtam, ez egy Intel server, alaplapi SATA vezérlővel. 2 külön RAID-1 van benne, mert egy vinyó nem vinyó :-)

Rákérdeznék konkrétan: Te minden szerverben kicseréled az összes vinyót 3-5 éves korában, mert nem akkora tétel?
Vagy csak azt amivel gond van (vagy lehet, hogy gond lesz) ?

Diszket addig használunk, amíg nem hullik ki a tömbből vagy nem lesz valami cserét igénylő probléma, példul a lassúlás. A lassúlás sem feltétlenül diszk issue:

- firmware (controller főképp), adott uptime után lassul -> teljes áramtalanítással lehet tesztelni

- backplane, egy már felvásárolt gyártó vasaiban futottunk rá sorban a borzalmas lassulást okozó backplane-ekre, konkrét hiba ritkán volt

- kábel

- disk fw és controller fw rosszban vannak egymással, szó szerint...

Ezekkel eddig már mind találkoztam, persze főképp épített vagy occón bővíteni probált brand gép köhögött a nem-brand alkatrészre.

Használok még több már bőven iskolás (8+ éves) 73GB-os SCSI diszket, több 146GB-os SAS diszket, régi SATA diszkeket és még sorolhatnám. Természetesen fut a smartd és ellenőrizzük őket időszakosan, nincsenek illúzióim ezekkel kapcsolatban. Csak úgy kiszórni mert "régi" nem szeretném őket. A pótlásukat se érzem indokoltnak és az ehulladékot lehetőleg valóban elfüstölt cuccokkal szeretném gyarapítani.

Nos érdekes, de a serverbe tettem másik (új, WD RE 1T és WD Black 2T ) vinyókat, azok sebessége 150 ill 180mbyte/s.
A serverben a másik WD black (500G) ~30-50mbyte/s sebességgel dolgozott (dd ill hdparm alapján). Első körben beraktam windows-os gépbe, a gyári WD tool nem talált hibát. Beraktam az asztali (linuxos) gépembe, itt már ~100-130mbyte-s volt az olvasási sebesség.
Futtattam rajta Bonnie-t is (SeqW: ~90MB/s SeqR: 135MB/s)

Most jön az érdekesség: 3.5 óra uptime után 65-70mbyte/s az olvasási sebesség...

Szerintem, ahogy előttem írták, az ok:

http://hup.hu/node/151347#comment-2052601

Sakk-matt,
KaTT :)

Érdemes lenne a diszk egyes részeit MHDD-vel szkennelni. Persze a fentiek szerint bemelegedés után.
Gyönyörűen színesben megmutatja az egyes szektorok elérési idejét - aztán lehet okoskodni, esetleg próbálkozni a diszk "frissítésével".
Hátránya, hogy dos alapú és régi. Ezért csak bizonyos kontrollereken bizonyos pozícióban levő diszkeket lát. Általában egy ide/sata kontroller elsődleges ide vagy (elsődleges)emulált ide címeti látja.
Ilyen vizsgálatot soha nem végzünk online, tehát linux alatti utility biztosan nincs!

nos, eddig a 2db 500G vinyót néztem meg. elbírkóztunk egy ideig, de végül elindult. A BIOSban Legacy (IDE) módba kellett tekerni a vezérlőt, érdekes módon 12. eszköznek ismerte fel...
Az egyik vinyó rendben lévőnek tűnik szerinte, a rosszabbikra 3db WARNING-ot jelzett (meg nagyobb szórás volt a sectorok elérésénél). Képet tudok megosztani ha látod értelmét.
Lehet (és érdemes) egyes részeket elemezni a teljeshez képest?

Ha van időd/türelmed mindenképpen érdemes.
Meg kéne keresned a scan menüt és először szúróproba szerűen egy-egy zónát megvizsgálni.

Egy ilyen ábra alapján leht következtetni a hiba
- periódusosságára
- helyi, vagy általános
- fix hibák, vagy ugyanazon a helyen véletlenszerűen jelentkeznek (ez szervo hiba)
- esetleg csak az egyik diszk oldalt érinti
- vagy csak egy területet érint, stb.

Utána felfrissítheted a diszket (pl. HDAT2) segítségével, kezdetnek egy kisebb hibás területet.
A frissített terület újraszkennelésével kiderülhet, hogy a hordozó "kifáradt", vagy érdemes vele foglalkozni.

WD RE 500G:

Ez csak 1db kisebb méretű teszt.
Warning-nak írja a >150ms elérést. Ez annyit jelent, hogy igen sokszor ráolvas, amíg lejön a legalább javítható adat.
Ha nincs értékes adat rajta, akkor meg lehet próbálni a HDAT2-vel frissíteni. (Valami most powerful test...)
Ellenkező esetben mentegetni kellene.
Utána megnézni ugyanezt a statisztikát az egész diszkre.

Warning: akár több napos futásidő várható! Természetesen előtte melegedjen egy kicsit a diszk, hiszen ilyen állapotban hibázik többet.

nos, WD teszttel sajnos nem sikerült (egy körben) hibát produkálni, ellenben egy microserverre frissen telepített FreeNAS hétvégén kidobta a lemezre ezt:
CRITICAL: Jan. 27, 2017, 6:22 a.m. - Device: /dev/ada0, 1 Currently unreadable (pending) sectors
CRITICAL: Jan. 29, 2017, 8:43 a.m. - Device: /dev/ada0, Self-Test Log error count increased from 0 to 1

erőlködjek még ezzel a WD teszttel, hátha sikerül hibát kifacsarni belőle, vagy tud esetleg valaki olyan trükköt amivel külső ránézésre nem látható - de cserére érett állapotba juttatható? :-)

dd bs=512k if=/dev/zero of=/dev/sda

a pending sector vagy reallokálható, és ha nincs túl sok ilyen, akkor akár még használható is lehet a diszk utána, vagy ha elfogytak a reallokálható szektorok, és akkor többet a diszk már nem írható végig (ez szerintem elég indok a cserére).

(nyilván előtte menteni kell, ami még menthető - ha ez eddig nem történt volna meg)

a lemezek cserélve lett új Black ill RE-re.
A régiek kijöttek, ha kicserélik, annak örülök, ha nem, akkor kritikusra már nem használom őket.