HDD power on hours lekérése

Fórumok

Sziasztok!

Adott egy régebbi szerver, HP RAID bus controller van benne.
Kiadtam ezt a parancsot: smartctl -x --device=cciss,0 /dev/cciss/c0d0 | less
Kapacitást, serial numbert, és még pár infót kiad, de nincs power on hours sor, amit pl. egy MegaRAID vezérlős gépnél (*) minden gond nélkül kiír.
A végén pedig ezen infókat jeleníti meg pluszban:

Device supports SMART and is Enabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]
Read defect list: asked for grown list but didn't get it

Error Counter logging not supported
Device does not support Self Test logging
Device does not support Background scan results logging
scsiPrintSasPhy Log Sense Failed [scsi response fails sanity test]

 

Szerintetek smartctl-lel ki lehet szedni valahogy az infót, vagy esélytelen?

 

Ismerősöm azt írta lehet, hogy csak a RAID tömb tetején lévő logikai blokkeszközt scannelgeti a smartctl. Úgy viszont nem kapok vissza adatot a diszkek fizikai állapotáról. Szerinte a hpacucli (vagy esetleg a hpssacli) parancs alkalmasabb lenne.
A hpacucli-t feltettem, ezekkel próbálkoztam eddig, de egyik sem adta vissza, ami nekem kell:
ctrl all show config
ctrl slot=szám pd all show status
ctrl slot=szám pd 1I:0:3 show detail
ctrl slot=szám ld all show

Ha a hpacucli és power on hours kifejezésekre keresek rá a neten, akkor pedig legtöbb esetben a fent is írt smarctl-es megoldásokba futok bele. Van ötletetek a problémára?

 

 

* A MegaRAID vezérlős gépeknél ezt a parancsot szoktam használni, ha célzottan csak erre megyek rá: smartctl --all /dev/sda | grep Power_On_Hours

Hozzászólások

Szerintem a rendszer annyit tud, amit a hpacucliból ki tudsz nyerni. A közvetlenül kérdezhető device egy logikai device a kontrollerben, na onnan diszkspecifikus dolgokat tuti nem fogsz kiolvasni.

Hardveres raid-nél nem tudod külön olvasni a kötet diskjeit, ha kiveszed az egyiket, rádugod önállóan egy sima vezerlore, akkor megkapod az adatot. A kötetre vigyázz!

"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség

Amivel ki tudod olvasni az tényleg a smartctl (hpacucli nem ír ki ilyen infot) és a fenti parancsnak ki is kellene írnia. Esetleg ha egy kimenetet kitennél az segítene, de legalább kiderülne a vezérlő, disk típus, smartctl verzió, stb.

SMART ID#-t és értékeket ír ki? A 9.-es ID a Power_On_Hours.

Abból kiindulva hogy cciss drivert használsz és nem hpsa-t valószínűleg a smartctl és az OS sem friss. Esetleg meg lehet próbálni egy ilyet, ha sata diskről van szó: smartctl -d sat+cciss,0 -a /dev/cciss/c0d0

Szerkesztve: 2020. 04. 24., p - 08:15

"* A MegaRAID vezérlős gépeknél ezt a parancsot szoktam használni, ha célzottan csak erre megyek rá: smartctl --all /dev/sda | grep Power_On_Hours"

Ez nettó hülyeség, ez vagy valami behazudott adat, vagy annak az értéke, amennyit a kötet ment. Hardveres RAID-nél nem látsz rá a diszkekre külön, csak a vezérlő.

Egyébként miért fontos annyira, hogy mennyit ment? Nem mindegy? Megy amíg megy. 1 000 óra után is meghalhat egy diszk, meg 80 000 óra után is működhet vígan...

"Sose a gép a hülye."

Ez nettó hülyeség, ez vagy valami behazudott adat, vagy annak az értéke, amennyit a kötet ment

Már a második vagy ebben a  topciban aki ebben a tévedésben él. Mind HPE, mind LSI MegaRAID controllereknél ki tudod olvasni a fizikai diszk SMART adatait. Elég lenne megnézni a smartmoontools dokumentációját...

Bár az igaz, mikor legutóbb LSI MegaRAID-et használtam (~8 éve) akkor még drivert és a fizikai disk id-t meg kellett adni paraméterként: -d megaraid,N

Az sda lényegtelen. Ha 2 tömböd van, akkor van sdb is, arra is hivatkozhatsz. Nem ott lesz a lényeg.

HP vezérlőnél:

https://hup.hu/comment/2472653#comment-2472653

 

MegaRaidnél:

smartctl -a /dev/sda -d megaraid,$i

 

3WARE raid kártyánál:

smartctl -a -d 3ware,$i /dev/twa0

Olyan kártya nem volt most kéznél :)
1x volt adaptec kártya a közelemben, ~10 éve csinált egy raid borulást, büntiből a raktárba került, azt hiszem azóta ott porosodik.
Ha már felmerült, amúgy jó tapasztalat van az adaptec kártyákkal?

Egyszer szoptam egy firmware frissítéssel (nem indult a kártya utána, hibás volt a hivatalos firmware), de a support segített. Kb. 8 éve raktam össze két szervert 6805e-vel, már nem vagyok ott évek óta, de még mindig hiba nélkül mennek.

"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség

Szerkesztve: 2020. 04. 24., p - 18:14

Igyekszem a fenti kérdésekre válaszolni.

RAID controller: Hewlett-Packard Company Smart Array E200i (SAS Controller)
Az OS valóban elég régi: 7.11 (wheezy)
disknél pedig 2 TB-os WD-t látok, ha a cciss/c0d0-t lekérem smartctl-lel.
A hpssacli kicsit pontosabban is megmondta: WDC WD2003FYYS-0
 

A smartctl nyomokban sem tartalmaz olyat, hogy smart ID. Ennyit ir ki csak:

smartctl 5.41 2011-06-09 r3365 [x86_64-linux-2.6.32-46-pve] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

User Capacity:
Logical block size:
Serial number:
Device type:
Local Time is:
Device supports SMART and is Enabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]
Read defect list: asked for grown list but didn't get it

Error Counter logging not supported
Device does not support Self Test logging
Device does not support Background scan results logging
scsiPrintSasPhy Log Sense Failed [scsi response fails sanity test]

 

 

Egyrészt nem az én tisztem eldönteni, hogy az ismerősömnek ez miért fontos? Szerintem bele akar fogni valamibe, aminél nem akarja, hogy 2-4 hét múlva disk csere legyen. Most nekem az a tapasztalatom, hogy sok helyen gyér a készlet, és a rendelés is nagyságrendekkel nagyobb átfutási idővel bonyolódik. Persze érhető okokból...  A lényeg: Ezt az értéket szerette volna megtudni és megkért, hogy segítsek. Engem meg baromira zavar, hogy míg egy átlagos szervernél ez egy pár perces task, addig ennél miért ilyen szenvedés? Gondolom ilyen jellegű problémáknál ezzel sokan vagytok hasonlóképpen. A 80e órát kicsit vad számnak gondolom. Sok helyen a 30e óra ajánlást olvasom, vagy speckó diskeknél max. 50e. Persze a gyártóknak az az érdeke, hogy gari idő után ez a szám ne legyen túl magas. De az már egy másik történet. Most ne ezen elmélkedjünk!

A fizikai kivét ebben a járványos időszakban kevésbé játszik, ráadásul nem is egy városban vagyunk. Meglévő vason kellene valamit fakítani remote-ból.

 

ollnx hozzászólásához annyit írnék, hogy legutóbb én meg ennél használtam minden gond nélkül a smartctl-t, és ott többek között dobta a futott órák számát is: LSI Logic / Symbios Logic MegaRAID SAS 2208 [Thunderbolt] (rev 05)

 

A másik hozzászólására pedig:

Kipróbáltam amit javasoltál: smartctl -d sat+cciss,0 -a /dev/cciss/c0d0
Eredmény:

smartctl 5.41 2011-06-09 r3365 [x86_64-linux-2.6.32-46-pve] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

Smartctl: Device Read Identity Failed: empty IDENTIFY data

A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

Ember! Én ezzel a problémával kapcsolatban járok először ezen a szerveren. Gondoltam besegítek, pár perces probléma csak. Nem így lett. Nekem már az OS is ősrégi, nemhogy a smartctl. Szívem szerint csinálnék egy backup-ot az egészről, aztán újrahúznám, ha az enyém lenne. De nem az enyém. Ennek ellenére a smartmontools-t most frissítettem neki.

Ember, itt segítséget kértél, segíteni (próbálnak) neked sokan, ingyen és bérmentve.

Ügyvéd nem fog neked soha ingyen 1 percet sem dolgozni. Víz-gáz-fűtés v. kazánszerelőről se hallottam még aki ingyen nézett volna meg egy szar kazánt (nemhogy ingyen meg is csinálta volna!) . Szóval értékelni kell h. itt tucatnyi hülye dolgozik neked ingyen!

Mint ahogy én is segítek másoknak az egyes fórumokon abban, amiben tudok. (Én is ingyen és bérmentve.) Mint ahogy ismerősömtől sem kértem pénzt azért, hogy ezt megnézzem. Mindkettőnknek van valami közünk a Linuxhoz. Nekem talán 1 picit több. De egyikőnk sem guru. Naiv gondolat volt tőlem, hogy ez a probléma meg lesz hamar. Úgy látszik kifog rajtam. De az ittenieknek is feladja a leckét úgy látom. Viszont sok hasznos tanácsot írtak már le eddig is, aminek egy része nekem is újdonság volt. Továbbá bármilyen későbbi idelátogatónak is hasznos lehet. Ez a fórum többek között erről is szól. Sőt, lehet 2 hozzászóló is mond egymásnak újat. Mindenki mindenben nem lehet jó... Az ügyvéd az egy külön világ. Szerencsére mi IT-hez ilyen-olyan formán konyító emberek ahol tudunk segítünk egymásnak. Sajnálom, ha esetleg magadra vetted valamelyik mondatomat, nem állt szándékomban megbántani téged. Csak kicsit számonkérésnek éreztem egy olyan dolgot, ami nem is az én saram, és azért írtam meg a tényeket. Remélem nincs harag! Ezúton is köszönöm mindenkinek amiket eddig írtatok!

Ez nagyon régi verzió. Pl. a SATA autodetectet sem tudja cciss felett (5.43-tól elérhető).  Azért egy próbát megér:

smartctl -T permissive -d sat+cciss,X -a /dev/cciss/c0d0

Az X helyére a vinyó fizikai  - HPE controller esetén - bay id értékét (eggyel csökkentve) kell behelyettesíteni. Mivel a nyitóposztban "1I:0:3"-ra hivatkoztál, így X helyén 2-vel próbáld meg.

Sajnos ez sem biztos, hogy működni fog (több hibát javítottak cciss-vel kapcsolatban a smartclt-ben és kerneldriverben is azóta). Szerintem nagyobb eséllyel indulnál, ha újabb verziót tennél fel smartmontools-ból, a wheezy-backports repóban mintha lenne 6.4-es verzió.

/sources.list.d alá felvettem ezt a bejegyzést: deb http://archive.debian.org/debian/ wheezy-backports main
volt 6.4-es, jól emlékeztél. Megpróbálkoztam azzal, amit írtál így a frissítés után: smartctl -T permissive -d sat+cciss,2 -a /dev/cciss/c0d0
smartctl 6.4 2014-09-29 r3990 [x86_64-linux-2.6.32-46-pve] (local build)
Copyright (C) 2002-14, Bruce Allen, Christian Franke, www.smartmontools.org

Read Device Identity failed: empty IDENTIFY data

=== START OF INFORMATION SECTION ===
Device Model:     [No Information Found]
Serial Number:    [No Information Found]
Firmware Version: [No Information Found]
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   [No Information Found]
Local Time is:    Mon Apr 27 13:22:28 2020 CEST
SMART support is: Ambiguous - ATA IDENTIFY DEVICE words 82-83 don't show if SMART supported.
SMART support is: Ambiguous - ATA IDENTIFY DEVICE words 85-87 don't show if SMART is enabled.
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

Read Device Identity failed: empty IDENTIFY data

Ez alapján nem találja a diszket, meg kellene próbálni másik ID-val, esetleg tényleg végigpróbálni 0-tól pl. 16-ig.

Emellett ha frissítetted, akkor az SATA autodetect már megy, nem kell a "sat+" rész, próbáld meg nélküle (-d cciss,X).

Sajnos tényleg nincs jobb ötletem, mint a próbálkozás. Évek (évtizedek) óta használom a smartclt-t HP gépeken (igaz főleg PXXX vezérlővel) és ilyen jellegű gondjaim nem voltak.

smartctl manja:

              To look at disks behind HP Smart Array controllers, use syntax such as:
              smartctl -a -d cciss,0 /dev/cciss/c0d0    (cciss driver under Linux)
              smartctl -a -d cciss,0 /dev/sg2    (hpsa or hpahcisr drivers under Linux)
 

a driverednek megfelelo devicet probalod megszolitani?

a hp-t sajna nem ismerem, de megaraid-nal a diskek nem mindig 0-tol szamozonak, vegig kellett probalni 0...100-at tartomanyt hogy melyiken adja vissza egy adott disk adatat.

ui: aki meg nem ert hozza, az lecci nem kommenteljen!

A vegtelen ciklus is vegeter egyszer, csak kelloen eros hardver kell hozza!

Szerkesztve: 2020. 04. 24., p - 21:27

smartctl -d cciss,X -a /dev/cciss/c0d0 -t short

Később visszatérsz -t short kapcsoló nélkül és megkapod a check eredményét, az aktuális power up hours értékkel.

X: 0->első, 1->második diszk.

A frissített progival (számozástól függetlenül) csak ennyit kapok vissza:

/dev/cciss/c0d0 [cciss_disk_02] [SAT]: Device open changed type from 'sat,auto+cciss' to 'sat'
Read Device Identity failed: empty IDENTIFY data

A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

fdisk -l /dev/cciss/c0d0

WARNING: GPT (GUID Partition Table) detected on '/dev/cciss/c0d0'! The util fdisk doesn't support GPT. Use GNU Parted.

Disk /dev/cciss/c0d0: 8001.5 GB, 8001461248000 bytes
255 heads, 32 sectors/track, 1915178 cylinders, total 15627854000 sectors
Units = sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x00000000

           Device Boot      Start         End      Blocks   Id  System
/dev/cciss/c0d0p1   *           1  4294967295  2147483647+  ee  GPT

 

 

Néztem egy gdisk-et is, az beszédesebb:

gdisk -l /dev/cciss/c0d0
GPT fdisk (gdisk) version 0.8.5

Partition table scan:
  MBR: protective
  BSD: not present
  APM: not present
  GPT: present

Found valid GPT with protective MBR; using GPT.
Disk /dev/cciss/c0d0: 15627854000 sectors, 7.3 TiB
Logical sector size: 512 bytes
Disk identifier (GUID): 8A31FFEA-************* (a csillagokat én követtem el!)
Partition table holds up to 128 entries
First usable sector is 34, last usable sector is 15627853966
Partitions will be aligned on 2048-sector boundaries
Total free space is 4062 sectors (2.0 MiB)

Number  Start (sector)    End (sector)    Size              Code    Name
   1              4096               208895       100.0 MiB     EF00    primary
   2          208896     15627851918       7.3 TiB          8E00    primary
   3              2048                   4095       024.0 KiB      EF02    primary