md0: detected capability change from ...

Nincs szerencsém mostanság a HDD-kkel.

A HP ProLiant N40L szerverünkben az egyik HDD úgy tűnik, hogy bad sector-os lett (most tesztelem), de az is lehet, hogy csak a fájlrendszer zakkant meg.

A szerverben 2 HDD van szoftveres RAID1-ben, Ubuntu 14.04 LTS Server fut rajta.
Ma újraindítottam, és sajnos a boot folyamat során megállt. A képernyőn az alábbi aggasztó sorok jelentek meg:

"
ara2.00 : 1953525168 sectors, ...
ata1.00 : HPA detected : current 1953523055, native 1953525168
ata1.00 : 1953523055 sectors, ...
...
sda: 1953523055 512-byte lgical blocks (1.00 TB | 931 GiB)
...
sda: 1953525168 512-byte lgical blocks (1.00 TB | 931 GiB)
...
md0: detected capability change from 0 to 994864594944
md0: unknown partition table
"

Jól sejtem, hogy a /dev/sda HDD szektorhibás lett?

A `badblocks -nsv /dev/sda1` kb. 40 perce fut és 0.45%-nál tart. Nincs valamilyen gyorsabb ellenőrzési módszer, mert ez így 6 nap lesz, amire befejezi?
Azzal nem teszek kárt a HDD-ben, ha leállítom a futó `badblocks ...`ellenőrzést?!

Hozzászólások

Azt elfelejtettem írni, hogy
- Live CD-ve boot-olva épnek tűnik a RAID.
- és tegnap volt egy áramszünetünk.

Ez arra utalhat, hogy csak az ext4-es fájlrendszer sérült meg?

Szeritem amiket írsz, az semmire nem utal...

cat /proc/mdstat?
Az sda/sdb volt egy tömbben, vagy az sda1/sdb1 (mintha az utóbbi lenne)
Külön felmountolni sem lehet? (ha nem az md0-t, akkor sda1, sdb1), persze read-only kísérletet tennék csak.
badblockssal fölöslegesen foglalkozol, elvégre RAID1, nem? Ha az egyik winyó feldobja a talpát, attól még a másikon megvan, ami kell, smart adatok közt jó eséllyel pedig azonnal látod, ha valami gáz van.
A fájlrendszer ellenőrzésére meg ott az fsck.

Ez a HPA meg host protected area, nem winyóhiba, ha ilyened nem volt előtte, akár rootkit is csinálhatta.

A /proc/mdstat kimenete rendben van, mindkét HDD [UU].
Hasonlóan a `sudo mdadm -D /dev/md0`
Az sda1 és sdb1 van a tömbben.

Amit még nem írtam, hogy a RAID fölött LVM van, tehát a /dev/md0 egy kötetcsoport része.

A normál boot során teljesen befagy, de ha recovery módban indítom, akkor elindul,

  1. root promptot kapok,
  2. logikai kötetek csatolhatóak,
  3. recovery módban futtattam az fsck-t, egyes köteteket javított,
  4. majd kiválasztottam a "Resume normal boot"-ot és szépen elindult (igaz a képernyőfelbontás nem az igazi).
  5. majd egy újraindítás után a normál boot során ismét befagy ugyanabban a fázisban (a kötetek csatolása során).
  6. Újra recovery módban indítva majd kiválasztva a "Resume normal boot"-ot elindul.

Attól, hogy RAID1-ben vannak a HDD-k, még problémát jelent a hibás szektor, igaz az adatok a másik HDD-n megvannak. De érdekes módon a RAID tömb állapota ép, amikor recovery módban a "Resume normal boot"-tal indítom a rendszert.

smartctl semmi hibát nem mutat, egy short teszt után.

Egyelőre tanácstalan vagyok.

-b block-size
Specify the size of blocks in bytes. The default is 1024.
-c number of blocks
is the number of blocks which are tested at a time. The default is 64.

------------------------------------------------------------------------------
www.woodmann.com/searchlores/welcome.htm

Szia!

1. lepes:
smartctl -a /dev/sda
smartctl -a /dev/sdb
(ezeket masold be ide)

Manapsag a modern hddk eseten a badblocks ket dologra jo:
-1 kenyszeriti a hdd-t hogy felfedezze a hibakat, adott esetben a hibas szektor ujrairasaval azt is eleri hogy egy pending sectort reallokalni tudjon a disc
-2 az adatok kvazi biztonsagos torlesere

ha ez megvan akkor meglatjuk hogy mit is latunk ;)

smartctr -a /dev/sda
smartctr -a /dev/sdb
fdisc -l /dev/sda; fdisk -l /dev/sdb

Ezekből látható, hogy a két HDD azonos típusú (a méretük (szektorok száma) a telepítéskor szerintem még megegyezett).
De ezekből a kimenetekből az látszik most, hogy a /dev/sda szektorszáma csökkent :-(. Ebből gondolom azt, hogy hibás szektoros lettek rajta.

az sda vigyo valoban kicsit rovidebb (2113 szektor = 1081856 bajt), de ha megnezed a particionak elobb vege van mint a disk vege (ha jol latom akkor ~5G "szabad" hely van a vegen).
ha az md0-ban valoban az sda1/sdb1 van benn, akkor azzal minden rendben van.
tehat mashol kell keresned a hibat (ettol fuggetlenul, lehet a raid kornyeken kell keresned a hibat, de "diskek" merete az jo)

--
A vegtelen ciklus is vegeter egyszer, csak kelloen eros hardver kell hozza!

dd if=/dev/sda of=/dev/null bs=512k
Ennek max. 3 óra alatt le kéne futnia egy jó diszken. Közben lehet nézegetni mondjuk dstattal, hogy milyen tempóban olvas, ill. a logokban nézni, hogy nincsenek-e olvashatatlan szektorok. Ha lefut jó tempóban, és a logban nincsenek hibák, akkor a diszk jó.
Ha vannak olvashatatlan szektorok, akkor meg lehet próbálni végigírni a diszket, az vagy megjavítja, vagy permanens írási hibát generál (ez esetben a diszk kuka), esetleg végigfut, de a smartctllel látható valamelyik counter emelkedni kezd (ezért előtte és utána kell egyet futtatni, hogy össze lehessen hasonlítani az értékéket), amiből aztán további következtetéseket lehet levonni a diszk várható élettartamára vonatkozóan.

Hmm, oszinten szolva ilyet meg nem lattam
A hddk amugy nem tudnak semmilyen, oket erinto hibarol, ez a viszaadott smart diagnosztika konkretan hibatlan.
Ennek a HPA infonak esetleg erdemes lehet utannanezni
Adj ki egy hdparm -N /dev/sda es sdb parancsot, nezzuk mit ad visza.

Amennyiben tenyleg HPA kerul a hdd-dre, ugy azt mar vagy a vasarlaskor rajta volt, tehat elozoleg mar hasznaltak a discet (ez igen valoszinutlen a smart - power on hours valtozo ertekebol adodoan), vagy mondjuk az alaplapod tette ra az elso discre azert hogy mondjuk a bios backupjat tarolja rajta.

Mindegy, addig nem spekulalok tovabb, amig nem latjuk az eredmenyeket.