Disk probléma

Sziasztok!

Pár napja furcsán viselkedik a HDD -m, néha mintha megállna gondolkodni, de semmi furcsa hangja nincs, nem volt adatvesztés se. Ma viszont észrevettem, hogy dmesg -be furcsa sorokat ír be, ezek pont arra a diskre vonatkoznak:


ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x6 frozen
ata1.00: failed command: READ FPDMA QUEUED
ata1.00: cmd 60/e0:00:65:b7:2a/00:00:1a:00:00/40 tag 0 ncq 114688 in
res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
ata1.00: status: { DRDY }
ata1: hard resetting link
ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata1.00: configured for UDMA/133
ata1.00: device reported invalid CHS sector 0
ata1: EH complete
ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x6 frozen
ata1.00: failed command: READ FPDMA QUEUED
ata1.00: cmd 60/e0:00:65:b7:2a/00:00:1a:00:00/40 tag 0 ncq 114688 in
res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
ata1.00: status: { DRDY }
ata1: hard resetting link
ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata1.00: configured for UDMA/133
ata1.00: device reported invalid CHS sector 0
ata1: EH complete
ata1.00: exception Emask 0x0 SAct 0x1 SErr 0x0 action 0x6 frozen
ata1.00: failed command: READ FPDMA QUEUED
ata1.00: cmd 60/e0:00:65:b7:2a/00:00:1a:00:00/40 tag 0 ncq 114688 in
res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
ata1.00: status: { DRDY }
ata1: hard resetting link
ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata1.00: configured for UDMA/133
ata1.00: device reported invalid CHS sector 0

Lefuttattam egy e2fsck -t, de nem volt semmi hiba (-f -el futtattam, mert egyébként clean volt).
Smartctl kimenete: http://pastebin.com/aNjuZDK9

Nem vagyok fizikailag a gép közelében, de SSH -n elérem, ha valamilyen programnak a kimenete/logja kellene.

Szerintetek elkezdjek HDD -re gyüjteni és adatmenteni, vagy csak én vagyok nagyon paranoiás és semmi baja nincs a disknek?

Hozzászólások

Egy S.M.A.R.T. kimenetet is dobj be ide vagy pastebinre.

Nem a legokosabb stuff, az tény, de teljesen nem hasztalan:) Kábelhibát, közelgő vinyó halált olykor eltalál. Ha szaporodnak az áthelyezett szektorok száma, akkor túl jót szintén nem jelent. Ezt pedig egyelőre kisujjból nem lehet kiszívni. Ezért pillantunk rá a smartra:) Néha mellélő, néha butáscska, van, hogy tök fals értéket mutat, de legalább van valami..:)

Pl. most kilökött egy vinyót a raid5 tömb.

dmesgben:


[ 6211.239694] ata6.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
[ 6211.239694] ata6.00: BMDMA stat 0x65
[ 6211.239694] ata6.00: cmd 25/00:80:bf:db:1b/00:03:02:00:00/e0 tag 0 dma 458752 in
[ 6211.239694]          res 51/40:35:0b:dc:1b/40:03:02:00:00/e0 Emask 0x9 (media error)
[ 6211.239694] ata6.00: status: { DRDY ERR }
[ 6211.239694] ata6.00: error: { UNC }
[ 6211.296392] ata6.00: configured for UDMA/133
[ 6211.325868] ata6.01: configured for UDMA/133
[ 6211.325868] ata6: EH complete

# smartctl -a /dev/sdf


ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   100   100   051    Pre-fail  Always       -       116
  3 Spin_Up_Time            0x0007   100   100   015    Pre-fail  Always       -       7552
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       144
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       1
  7 Seek_Error_Rate         0x000f   253   253   051    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0025   253   253   015    Pre-fail  Offline      -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       18705
 10 Spin_Retry_Count        0x0033   253   253   051    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x0012   253   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       111
 13 Read_Soft_Error_Rate    0x000e   100   100   000    Old_age   Always       -       27673568
187 Reported_Uncorrect      0x0032   001   001   000    Old_age   Always       -       10813662
188 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       1
190 Airflow_Temperature_Cel 0x0022   075   053   000    Old_age   Always       -       25
194 Temperature_Celsius     0x0022   163   094   000    Old_age   Always       -       25
195 Hardware_ECC_Recovered  0x001a   100   100   000    Old_age   Always       -       27673568
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       1
197 Current_Pending_Sector  0x0012   098   095   000    Old_age   Always       -       25
198 Offline_Uncorrectable   0x0030   253   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x000a   253   100   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   100   100   000    Old_age   Always       -       2
202 TA_Increase_Count       0x0032   253   253   000    Old_age   Always       -       0

Kicsit sok error & uncorrect, néztem egy hosszú tesztet:
# smartctl -t long /dev/sdf

Pár óra múlva ránéztem. Az eredmény:


SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA
# 1  Extended offline    Completed: read failure       90%     18702         353

Úgyhogy ez eléggé kakukkosnak tűnik.

Kábelcsere, ha továbbra is csinálja, akkor adatmentés gyorsan és kuka.

(voltmar)
Bios problema, alaplapi (vagy sata kartya) problema, kabel hiba, tapegyseg hiba, tulmelegedes, razkodas es diszk hiba egyarant okozhatja.

eloszor is, keszits mentest.

Ugyanebben a gépben van egy másik disk is, szintén sata, annak semmi baja nincs, gyors, hibátlanul dolgozik. Azért a kábelt, melegedést, stb majd letesztelem, ha hazaértem, de a backup -ot elindítottam, biztos ami fix alapon... Szerencsére van 200-300 Gb szabad helyem más disken, így le tudom üríteni ezt és majd tesztelgetem, hogy tényleg hibás e.

Köszönöm a segítséget :)

Hasonló gondom volt nemrég, ram csere lett nálam a megoldás, csak elég sokáig tartott rájönni, úgyhogy azóta memtesttel kezdem a hibakeresést.