Merevlemezek, vezérlők

smartctl értelmezése avagy csereérett hdd?

Sziasztok!

Nemrég kipusztult egy disk az otthoni "server" raid1-ből és a napokban érkezett meg a garanciális csere egy Seagate Momentus 7200.3 SATA 320-GB Hard Drive ST9320421AS, de furcsa dolgokat mond róla smartctl:


smartctl version 5.38 [x86_64-unknown-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Device Model:     ST9320421AS
Serial Number:    5TJ0R8Z7
Firmware Version: SD13
User Capacity:    320.072.933.376 bytes
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Fri Jun  5 11:16:26 2009 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
          was never started.
          Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
          without error or no self-test has ever
          been run.
Total time to complete Offline
data collection:     (   0) seconds.
Offline data collection
capabilities:        (0x73) SMART execute Offline immediate.
          Auto Offline data collection on/off support.
          Suspend Offline collection upon new
          command.
          No Offline surface scan supported.
          Self-test supported.
          Conveyance Self-test supported.
          Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
          power-saving mode.
          Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
          General Purpose Logging supported.
Short self-test routine
recommended polling time:    (   1) minutes.
Extended self-test routine
recommended polling time:    (  90) minutes.
Conveyance self-test routine
recommended polling time:    (   2) minutes.
SCT capabilities:          (0x103b) SCT Status supported.
          SCT Feature Control supported.
          SCT Data Table supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   114   100   006    Pre-fail  Always       -       72314110
  3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       13
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   100   253   030    Pre-fail  Always       -       147394
 9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       39
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       13
184 Unknown_Attribute       0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Unknown_Attribute       0x0032   100   098   000    Old_age   Always       -       4
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   057   049   045    Old_age   Always       -       43 (Lifetime Min/Max 32/47)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       1
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       626
194 Temperature_Celsius     0x0022   043   051   000    Old_age   Always       -       43 (0 26 0 0)
195 Hardware_ECC_Recovered  0x001a   051   045   000    Old_age   Always       -       72314110
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
254 Unknown_Attribute       0x0032   100   100   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%        16         -
# 2  Short offline       Completed without error       00%         2         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

A Raw_Read_Error_Rate, valamint a Hardware_ECC_Recovered RAW_VALUE és VALUE értéke is kúszik szépen felfele:


root@silent:~# grep smartd /var/log/syslog |grep sda
Jun  5 06:44:54 silent smartd[3378]: Device: /dev/sda, SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 59 to 58
Jun  5 06:44:54 silent smartd[3378]: Device: /dev/sda, SMART Usage Attribute: 194 Temperature_Celsius changed from 41 to 42
Jun  5 07:14:54 silent smartd[3378]: Device: /dev/sda, SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 111 to 112
Jun  5 07:14:54 silent smartd[3378]: Device: /dev/sda, SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 58 to 59
Jun  5 07:14:54 silent smartd[3378]: Device: /dev/sda, SMART Usage Attribute: 194 Temperature_Celsius changed from 42 to 41
Jun  5 07:14:54 silent smartd[3378]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 51 to 52
Jun  5 07:44:54 silent smartd[3378]: Device: /dev/sda, SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 59 to 60
Jun  5 07:44:54 silent smartd[3378]: Device: /dev/sda, SMART Usage Attribute: 194 Temperature_Celsius changed from 41 to 40
Jun  5 08:44:55 silent smartd[3378]: Device: /dev/sda, SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 60 to 58
Jun  5 08:44:55 silent smartd[3378]: Device: /dev/sda, SMART Usage Attribute: 194 Temperature_Celsius changed from 40 to 42
Jun  5 08:44:55 silent smartd[3378]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 52 to 51
Jun  5 09:14:54 silent smartd[3378]: Device: /dev/sda, SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 112 to 113
Jun  5 09:14:54 silent smartd[3378]: Device: /dev/sda, SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 58 to 57
Jun  5 09:14:54 silent smartd[3378]: Device: /dev/sda, SMART Usage Attribute: 194 Temperature_Celsius changed from 42 to 43
Jun  5 09:14:54 silent smartd[3378]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 51 to 52
Jun  5 10:14:54 silent smartd[3378]: Device: /dev/sda, SMART Prefailure Attribute: 1 Raw_Read_Error_Rate changed from 113 to 114
Jun  5 10:14:54 silent smartd[3378]: Device: /dev/sda, SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 57 to 56
Jun  5 10:14:54 silent smartd[3378]: Device: /dev/sda, SMART Usage Attribute: 194 Temperature_Celsius changed from 43 to 44
Jun  5 11:14:54 silent smartd[3378]: Device: /dev/sda, SMART Usage Attribute: 190 Airflow_Temperature_Cel changed from 56 to 57
Jun  5 11:14:54 silent smartd[3378]: Device: /dev/sda, SMART Usage Attribute: 194 Temperature_Celsius changed from 44 to 43
Jun  5 11:14:54 silent smartd[3378]: Device: /dev/sda, SMART Usage Attribute: 195 Hardware_ECC_Recovered changed from 52 to 51
root@silent:~#

Mi ez? Haldoklik a 2 napos hdd?

Válaszaitok előre is köszönöm!

Bye, Fifi

Update:
Most olvastam egy másik szálban, hogy a Seagate hdd-nél amíg a Raw_Read_Error_Rate és a Hardware_ECC_Recovered RAW_VALUE értéke azonos, addig nem kell aggódni, ez Seagate sajátosság. Viszont nálam a Seek_Error_Rate is szép nagy szám.

Update2:
Ha jól értettem ezt és ezt a hozzászólást, akkor nem kell aggódnom, csak meg kell szokni, hogy az új hdd Seagate ...

Raid újraépítés nagy lemezeken

Sziasztok!
Bizonyára olvastátok már ezt a cikket, vagy hallottatok róla. A lényege, hogy nem lehet a végtelenségig növelni a RAID-es vinyók méretét, mert ha a RAID rebuild közben fordul elő olvasási hiba, akkor az egész tömbnek meszeltek.
Mi erről a véleményetek? Valós a veszély?

Elvileg talán ki lehet védeni azzal, hogy a hatalmas vinyókra kisebb partíciókat rakunk, amikből több kisebb RAID tömböt építünk. Pl. ha van 3 db. 1TB-os vinyónk (sda, sdb, sdc), akkor mindegyikre 4 db 250GB-os partíciót, belőlük pedig 4 db 3x250GB-os tömböt. Nyilván az egyik vinyó (mondjuk sda) kiesése, majd cseréje esetén mind a 4 tömböt újra kell építeni. De ha nem egyszerre építjük újra, hanem szépen egyesével, akkor egy URE (azaz olvasási hiba - ld. a cikket) esetén csak az egyik 250GB-os RAID-ünk fog elveszni, nem mind a 4. Mivel a 4 db. RAID tömb újraépítésénél végig fogjuk olvasni a 2 ép vinyót (ha nem is egyszerre), az URE előfordulás esélyét nem csökkentettük, csak az adatvesztést korlátoztuk 2x250GB-ra 2x1TB helyett.

Ehhez a gondolatmenethez mit szóltok?

[Végleg megoldva] I/O error. WD My Book meghibásodás.

Legeslegfrissebb bejegyzés:

Lehetett sejteni, hogy a dolgok nem fognak rendben menni, a meghajtóval ismét problémák adódtak és ezúttal is lefutott az összes létező teszt (SMART short, long, a surface teszt HDDScan-nel meg a HDD Regenerator is) egymás után többször több gépen több adatkábellel is hibátlanul. Egy asztali géppel is tesztelve lett belső meghajtóként, semmi különbség. Még a jumperek is át lettek helyezve az 1.5Gbit/s-hez, SSC-hez, sosem lehet tudni. A meghajtó teleírása 0-val kétszer egymás után (WD Data Lifeguard Diagnostic alkalmazással, biztos ami biztos legyen gyári megoldás alapon), random adattal egyszer történt meg (dd-vel Linux alól).

Érdekesség, hogy ezúttal is korruptálta a fájlokat, de nem az egész állományt, mint eddig, csak egy részét, a többször egymás után lemezre írt videófájl elejéből 5-6 perc nem jelenik meg jól, a többi tökéletesen (az összes közel azonos fájlméretű Gundam Seed epizód első 5 perce korruptálódott, a többi videó is hasonló arányban fájlmérettől függően, kivéve a 100Mb-nál kisebb fájlok, a 30Mb és 90Mb méretű AMV-k pl. egyáltalán nem károsodtak).

Végeredményben fogalmam sincs mi okozta a problémát, egy fél sornyi logot, reportot nem sikerült előállítanom ami megerősíti, hogy létezett egyáltalán a probléma azon felül, hogy Windows alatt nem lehetett formázni a meghajtót (se a Disk Managmentből, se a Sajátgépből, se paranccsorból, se a telepítő lemezzel, se a WD Fat32 Utility-vel, ami igencsak árulkodó), a Linux alatt formázott partíciók ellenőrzése viszont minden esetben hiba nélkül lezajlott. Ez tehát egy rejtély, ami már sosem fog megoldódni, mert a meghajtó kétszer is jó erősen a falhoz lett vágva, megakadályozva a további céltalan és időpazarló próbálkozásokat (nem kérdéses többé végre, hogy fog-e még működni vagy sem).

Az utódja egy WD Caviar Black 640Gb, azért WD megint és nem Seagate, mert a Caviar Black-ről olvastam a legjobbakat, ha ez is tönkremegy fél éven belül ezt már az eladóhoz fogom vágni, bár animén kivül biztosan nem fogok rajta mást tárolni.

Legfrissebb bejegyzés:

Sikerült a SMART-ot megnézni a Windows alatt futó Hard Disk Sentinel alkalmazással (van Linux-os változata is, de egyenlőre még nem tud semmit, csak néhány információt, mint a temperature, performance, health kilistázni) és végrehajtani a teszteket (short, long), egyetlen hibát sem talált.

Sikerült venni egy külső mobile racket (Sharkoon Rapid-Case) és átteni bele a WD My Book-ban lévő WD Caviar Green winchestert, formázást követően nincs többé I/O error, sem más problémák.

Frissített bejegyzés:

Mégsem az NTFS fájlrendszer vagy az ntfs-3g okozta a problémát, hanem maga az eszköz (Western Digital My Book Home Edition 500Gb).

Bármilyen más fájlrendszerrel sérülnek a fájlok olvasáskor / íráskor Firewire 400 és USB 2.0 csatlakozással egyaránt.

Chkdsk nem képes javítani a problémát.

Kipróbáltam néhány dolgot, az egyik a low level formatting, ami valójában ugye write zeros to hard disk, Linux alól a több óráig tartó shred -vfz -n 0 /dev/sdb és dd if=/dev/zero of=/dev/sdb után semmi változás, a formázást követő ellenőrzés hibákat jelez Windows és Linux alatt is.

Jó lenne a SMART-ot látni, de ez Linux alatt elképzelhetetlen (a smartmontools nem használható USB/Firewire csatlakozású merevlemezekkel, még akkor se ha külön jelzed neki -d sat paraméterrel, hogy SATA és nem SCSI eszközről van szó).

Eredeti bejegyzés:

Problémák az NTFS fájlrendszerrel, milyen új fájlrendszert?

Zajosodó vinyó (csapágyas?) + sok seek

Sziasztok!

Van egy kevesebb, mint 2 éves Seagate vinyóm. Pár napja furcsa hangokat ad. Nem veri ki a fejet, annál csörömpölősebb. Mintha a csapágyat hallanám. Nem jön elő mindig. Viszont amikor előjön, mindig seek közben.
Feltünt, hogy rendkivül sokat reszeli a vinyót (seek), ugyanakkor a HDD led 10-ből 9X nem villog (nem kontaktos, ha konkrét lemezműveletet végzek, világit).

Logokban nincs hiba. Rendszer nem fagy, nem lassul, de baljós jelnek vélem.

smart adatok:


 # smartctl -a /dev/sda
smartctl version 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Barracuda 7200.10 family
Device Model:     ST3250820AS
Serial Number:    9QE2XT14
Firmware Version: 3.AAE
User Capacity:    250.059.350.016 bytes
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   7
ATA Standard is:  Exact ATA specification draft version not indicated
Local Time is:    Fri May 22 17:41:30 2009 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 ( 430) seconds.
Offline data collection
capabilities:                    (0x5b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (  92) minutes.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   112   091   006    Pre-fail  Always       -       49069838
  3 Spin_Up_Time            0x0003   096   095   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       707
  5 Reallocated_Sector_Ct   0x0033   100   100   036    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   078   060   030    Pre-fail  Always       -       64769572
  9 Power_On_Hours          0x0032   097   097   000    Old_age   Always       -       3184
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       719
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   060   056   045    Old_age   Always       -       40 (Lifetime Min/Max 23/40)
194 Temperature_Celsius     0x0022   040   044   000    Old_age   Always       -       40 (0 16 0 0)
195 Hardware_ECC_Recovered  0x001a   071   058   000    Old_age   Always       -       120512040
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

HP Smart Array 6i csak U160-ban megy

Sewastok!

Adott egy HP Smart Array 6i, amin 6db U320-as HDD log RAID1+0-ban. A HP konzolos programja szerint a lemezek csak U160-as modban mennek. A vezerlo leirasaban nem talaltam arrol infot, hogy X darabszam felett, vagy BBU hianyaban csak U160-as sebesseggel megy a kartya igy tanacstalan vagyok.

szerk.:
3 teljesen azonos ilyen gepunk van. A masik ketton U320-on mennek a HDD-k, viszont ott nincs Predictive Failure-rel jelolve egyik sem. Lehet ez az ok?

Mi a velemenyetek?

ez azt jelenti hogy haldoklik a merevlemez?

Sziasztok!

Pár napja jelentkezett először a probléma, random időközönként jelentkezik. Olyankor úgy tűnik mintha lefagyna a gép aztán 1-2 perc múlva hirtelen jó lesz. A naplókban az eset után a következők jelennek meg: http://pastebin.ca/1425528 .
Ezek az üzenetek nekem nagyon nem mondanak semmit, csak kb. annyit hogy valami nem stimmel a merevlemezzel. A rendszer ubuntu 9.04, a vinyó típusa: WDC WD400UE-22HC, a gép Acer Travelmate 2413. Remélem tud valaki valami támpontot adni hogy mégis mi lehet ennek az oka. Nem tudom hasznos-e de itt van a smartctl -A parancs kimenetele: http://pastebin.ca/1425551 A válaszokat előre is köszi.

túl nagy load

Lenne egy server és egy idő óta túl nagy rajta a load, ami nagyon lelassítja.

load average: 10.48, 7.95, 6.33
Cpu(s): 15.5%us, 3.8%sy, 0.0%ni, 26.0%id, 54.6%wa, 0.0%hi, 0.1%si, 0.0%st

A wa is elég nagy. 4 winyó van HW-es raid 5-be téve.
Hogy tudnék több infót kiszedni, hogy mi emészti fel az erőforrásokat?
Nem indokolna ekkora terhelés, adott file műveletek mellett.