Üdv!
A nevezett gépben 2db INTEL SSD van/volt szoftveres raid1-ben.
Egyik induláskor írta a smart üzenetet: "port 1: smart status bad...". Ez volt az sdb.
Diszk cserélve, majd utána "port 0: smart status bad...". Ez az sda. :o
Lehet ilyen véletlen, hogy egymás után hibásodnak meg? :)
A smartmontools (smartd) is egymás után írta a smart hibát.
Érdekes...
- 687 megtekintés
Hozzászólások
Megnézted hogy mitől deklarálta hibásnak az alaplap?
- A hozzászóláshoz be kell jelentkezni
Elsőre szeretném jelezni, hogy ez nem pont alaplap, hanem HDD hiba. Így az alaplap típusa a topik címben nem biztos, hogy mérvadó.
Mivel SSD-ről és RAID1-ről van szó, nagyon könnyen lehet, hogy kicsivel egymás után halnak. Nyilván a garantált irási ciklusokon túl nagy a szórás, hogy a konkrét darabok mennyit bírnak, de onnantól minden ciklus ajándék. :) Ha a smart elérhető, akkor a wear leveling count vagy annak megfelelő smart infó figyelése célszerű, hogy legalább az egyiket megelőző jelleggel lehessen cserélni.
A HDD-knél jóval nagyobb szórást szoktunk meg meghibásodási időben, de ezek nem HDD-k. :)
- A hozzászóláshoz be kell jelentkezni
igaz, kösz.
Ezeket irogatja:
smartctl -a /dev/sda
=== START OF INFORMATION SECTION ===
Model Family: Intel 520 Series SSDs
Device Model: INTEL SSDSC2CW180A3
LU WWN Device Id: 5 001517 bb280f6fb
Firmware Version: 400i
User Capacity: 180.045.766.656 bytes [180 GB]
Sector Size: 512 bytes logical/physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: 8
ATA Standard is: ACS-2 revision 3
Local Time is: Sat May 20 16:50:49 2017 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
...
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0032 100 100 000 Old_age Always - 0
9 Power_On_Hours_and_Msec 0x0032 000 000 000 Old_age Always - 910116h+05m+31.000s
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 1474
170 Available_Reservd_Space 0x0033 009 009 010 Pre-fail Always FAILING_NOW 0
171 Program_Fail_Count 0x0032 100 100 000 Old_age Always - 0
172 Erase_Fail_Count 0x0032 100 100 000 Old_age Always - 0
174 Unexpect_Power_Loss_Ct 0x0032 100 100 000 Old_age Always - 1474
184 End-to-End_Error 0x0033 100 100 090 Pre-fail Always - 0
187 Uncorrectable_Error_Cnt 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 1474
225 Host_Writes_32MiB 0x0032 100 100 000 Old_age Always - 141108
226 Workld_Media_Wear_Indic 0x0032 100 100 000 Old_age Always - 65535
227 Workld_Host_Reads_Perc 0x0032 100 100 000 Old_age Always - 48
228 Workload_Minutes 0x0032 100 100 000 Old_age Always - 65535
232 Available_Reservd_Space 0x0033 009 009 010 Pre-fail Always FAILING_NOW 0
233 Media_Wearout_Indicator 0x0032 100 100 000 Old_age Always - 0
241 Host_Writes_32MiB 0x0032 100 100 000 Old_age Always - 141108
242 Host_Reads_32MiB 0x0032 100 100 000 Old_age Always - 133424
249 NAND_Writes_1GiB 0x0013 100 100 000 Pre-fail Always - 5180
...
A 2db FAILING_NOW miatt jelezte a smartd gondolom.
- A hozzászóláshoz be kell jelentkezni
Igen ez cserésnek tűnik. A smartnál ott van a határérték és könnyű összehasonlítania bármilyen management szerűnek. Tessék cserélni őket és a cserekor mondjuk 2-3 vagy esetleg több hetes különbséget hagyni, ezzel is kicsit csökkentve az egyszerre halás esélyét. (Persze elsülhet fordítva is, hogy a csere SSD-ből a később berakott hamarabb vagy ugyanúgy egyszerre hal meg.)
Az biztos, hogy egy villámgyors dd-t és rsync-et is csinálnék az egyikről.
- A hozzászóláshoz be kell jelentkezni
Mennyire van tele az SSD? A free space miatt jelez? Kérdés hogy, ez előre jelzés vagy már a regota menő teli használat miatt öregedett el...
- A hozzászóláshoz be kell jelentkezni
Garancia? 5TB írás nagyon kevés ezekre. Milyen üzemnek voltak kitéve?
- A hozzászóláshoz be kell jelentkezni
Kb. 5 évig futottak gond nélkül. Most jelent meg csak a smart üzenet nemrég.
Kisvállalkozásnak futottak (~8-20 óráig naponta). A 180GB-ból kb. 60GB volt használva (samba, sql -> 4 munkaállomás).
Az egyik diszket már cseréltem természetesen, adatok rendben.
- A hozzászóláshoz be kell jelentkezni
Szerintem 'poweroffos' üzemnek:
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 1474
174 Unexpect_Power_Loss_Ct 0x0032 100 100 000 Old_age Always - 1474
vagy ez vitte el a rezervált blokkokat, vagy a blokkok igen nagy részéhez senki nem nyúlt, és pár blokk volt csak mindig újraírva, így az átlagos NAND törlésszám is 1% alatt maradt:
233 Media_Wearout_Indicator 0x0032 100 100 000 Old_age Always - 0
- A hozzászóláshoz be kell jelentkezni