Supermicro X9Dr3-F/i smart status bad

Üdv!
A nevezett gépben 2db INTEL SSD van/volt szoftveres raid1-ben.
Egyik induláskor írta a smart üzenetet: "port 1: smart status bad...". Ez volt az sdb.
Diszk cserélve, majd utána "port 0: smart status bad...". Ez az sda. :o

Lehet ilyen véletlen, hogy egymás után hibásodnak meg? :)
A smartmontools (smartd) is egymás után írta a smart hibát.

Érdekes...

Hozzászólások

Megnézted hogy mitől deklarálta hibásnak az alaplap?

Elsőre szeretném jelezni, hogy ez nem pont alaplap, hanem HDD hiba. Így az alaplap típusa a topik címben nem biztos, hogy mérvadó.

Mivel SSD-ről és RAID1-ről van szó, nagyon könnyen lehet, hogy kicsivel egymás után halnak. Nyilván a garantált irási ciklusokon túl nagy a szórás, hogy a konkrét darabok mennyit bírnak, de onnantól minden ciklus ajándék. :) Ha a smart elérhető, akkor a wear leveling count vagy annak megfelelő smart infó figyelése célszerű, hogy legalább az egyiket megelőző jelleggel lehessen cserélni.

A HDD-knél jóval nagyobb szórást szoktunk meg meghibásodási időben, de ezek nem HDD-k. :)

igaz, kösz.

Ezeket irogatja:
smartctl -a /dev/sda

=== START OF INFORMATION SECTION ===
Model Family: Intel 520 Series SSDs
Device Model: INTEL SSDSC2CW180A3
LU WWN Device Id: 5 001517 bb280f6fb
Firmware Version: 400i
User Capacity: 180.045.766.656 bytes [180 GB]
Sector Size: 512 bytes logical/physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: 8
ATA Standard is: ACS-2 revision 3
Local Time is: Sat May 20 16:50:49 2017 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

...

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
5 Reallocated_Sector_Ct 0x0032 100 100 000 Old_age Always - 0
9 Power_On_Hours_and_Msec 0x0032 000 000 000 Old_age Always - 910116h+05m+31.000s
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 1474
170 Available_Reservd_Space 0x0033 009 009 010 Pre-fail Always FAILING_NOW 0
171 Program_Fail_Count 0x0032 100 100 000 Old_age Always - 0
172 Erase_Fail_Count 0x0032 100 100 000 Old_age Always - 0
174 Unexpect_Power_Loss_Ct 0x0032 100 100 000 Old_age Always - 1474
184 End-to-End_Error 0x0033 100 100 090 Pre-fail Always - 0
187 Uncorrectable_Error_Cnt 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 1474
225 Host_Writes_32MiB 0x0032 100 100 000 Old_age Always - 141108
226 Workld_Media_Wear_Indic 0x0032 100 100 000 Old_age Always - 65535
227 Workld_Host_Reads_Perc 0x0032 100 100 000 Old_age Always - 48
228 Workload_Minutes 0x0032 100 100 000 Old_age Always - 65535
232 Available_Reservd_Space 0x0033 009 009 010 Pre-fail Always FAILING_NOW 0
233 Media_Wearout_Indicator 0x0032 100 100 000 Old_age Always - 0
241 Host_Writes_32MiB 0x0032 100 100 000 Old_age Always - 141108
242 Host_Reads_32MiB 0x0032 100 100 000 Old_age Always - 133424
249 NAND_Writes_1GiB 0x0013 100 100 000 Pre-fail Always - 5180

...

A 2db FAILING_NOW miatt jelezte a smartd gondolom.

Igen ez cserésnek tűnik. A smartnál ott van a határérték és könnyű összehasonlítania bármilyen management szerűnek. Tessék cserélni őket és a cserekor mondjuk 2-3 vagy esetleg több hetes különbséget hagyni, ezzel is kicsit csökkentve az egyszerre halás esélyét. (Persze elsülhet fordítva is, hogy a csere SSD-ből a később berakott hamarabb vagy ugyanúgy egyszerre hal meg.)

Az biztos, hogy egy villámgyors dd-t és rsync-et is csinálnék az egyikről.

Szerintem 'poweroffos' üzemnek:

12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 1474
174 Unexpect_Power_Loss_Ct 0x0032 100 100 000 Old_age Always - 1474

vagy ez vitte el a rezervált blokkokat, vagy a blokkok igen nagy részéhez senki nem nyúlt, és pár blokk volt csak mindig újraírva, így az átlagos NAND törlésszám is 1% alatt maradt:

233 Media_Wearout_Indicator 0x0032 100 100 000 Old_age Always - 0