SMART szerint megjavult a diszkem?

 ( msandor | 2015. szeptember 28., hétfő - 12:59 )

Sziasztok!

Tegnap este film nézés közben megállt a lejátszás, majd kis idő múlva kiírta a tv, hogy forrás leválasztva.
Ránéztem a nasomra, a load egekben, a logok pedig tele vannak ata kezdetű hibákkal.
A smart szerint az addig hibátlan sdb 100%-ról leesett 62%-ra.
Mivel RAID5-ben van a tömb, adatvesztés nem történt.
Kb 30 perc alatt normalizálódott a helyzet, de este már nem erőltettem a filmezést. Inkább rendeltem egy új diszket.
Ma reggel belépek a nasra, megint 100%-osnak mutatja :-)

Ez mi?

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

1. "kijavitotta" magat a diszk a tartalek teruletekre atallassal, a 100% persze hazugsag, hamarost ujra (vegleg) le fog fekudni
2. aramingadozas, atmeneti/vegleges memoria hiba (kozmikus sugarzas), stb...
3. atfekudt az eger a finom meleg NAS masik oldalaba, igy mar nem nyomja a SATA kabelt...

2.a. holdfogyatkozás

Ne a százalékot nézd, hanem pending szektort, bad szektort, meg ilyeneket.

Tudomásom szerint a S.M.A.R.T. (vagy SMART [helyesírás... sicc...]) csak írható és nem törölhető infókat tartalmaz.
Tehát az értékek nőhetnek, de nem lehet azokat csökkenteni.
Nálam van vagy 8 olyan merevlemez, amire anno hibás alaplapok, hibás chipsetjei ráfaragták, hogy itt, meg ott BAD szektor van rajtuk. Ezeket, a bejegyzéseket, kitörölni nem tudom, együtt élek azzal, hogy a SMART bejegyezte, viszont egyik analizáló progi se veszi észre.

"Értem én, hogy villanyos autó, de mi hajtja?"

Biztos, hogy az alaplap jegyezte be? A SMART nem a lemez öndiagnosztikájáról szól?

az utolsó log bejegyzés (nekem nem mond semmit):

Error 1243 occurred at disk power-on lifetime: 36512 hours (1521 days + 8 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 08 ff 09 00 ef Error: UNC 8 sectors at LBA = 0x0f0009ff = 251660799

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 08 ff 09 00 ef 08 45d+10:38:30.209 READ DMA
ef 10 02 00 00 00 a0 08 45d+10:38:30.209 SET FEATURES [Reserved for Serial ATA]
ec 00 00 00 00 00 a0 08 45d+10:38:30.205 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 08 45d+10:38:30.205 SET FEATURES [Set transfer mode]

Igy hirtelen SATA kommunikacios hibanak tunik, talan nem a diszk a szar. En ezeket szoktam monitorozni:

### Gyanus, ha valamelyik nem nulla...
### nem minden diszk reportolja mind az 5 parametert
smartctl -a /dev/sda | grep -E "^( 5|187|188|197|198).*"

197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0

Elfelejtettem mondani, ez egy első generációs HP microserver, amiben a sata kábelek egy kötegbe vannak, és a diszk fiók mögötti részen vannak bekötve. Azt megtehetem, hogy megcserélem a bibis lemezt a szomszédjával, így a kábel hibát ki lehet szűrni.

Ettől függetlenül ki fogom cserélni a diszket, ha jól emlékszem 4 éve megy 0-24-ben. Az a kérdés, hogy maradhat-e tartalékban, vagy totál kuka.

A legfontosabb talan az 5-os parameter, az 0? En a kabelt max szet-ossze csatlakoztatnam, viszont a gyanus diszket kivennem a RAID-bol (gondolom van backup, tehat "nem baj", ha egy fellabu RAID pont beszarik) es vegig dd-znem nullaval. Ekozben a dmesg es a smartctl irni fogja, ha van gyanus/rossz szektor (5-os parameter). Es/vagy kerni egy self testet, ekozben lehet tovabb hasznalni:

smartctl /dev/sdX -t long

Csak azert mert 4 eves, meg nem dobnam el, de az argus szemmel figyeles nem art (ahogy egy vadiuj diszk eseten sem, lasd kadgorbe a google es asszem a blackblaze statisztikai alapjan).

ma átveszem az új diszket, kicserélem, majd amikor a raid tömb összeállt, a régit már nyugodt szívvel nyúzhatom, és ha valóban hibátlan, megy tartalékba (ha a 3. hdd is elromlana)

Ez azt jelenti, hogy nem tudott egy (több) sector-t kiolvasni.
Pl. mágneses hatás miatt előfordulhat, hogy nem tudja eldönteni, milyen adat van ott. Viszont ez nem feltétlenül az adathordozó hibája, ha újraírod az adott területet akkor kiírja az adatot és (általában) vissza is tudja olvasni (kivéve ha írási hibát is látsz).

Üdv.
Tamás