[megoldva] RAID-1 szétesett

Fórumok

SZervusztok!

Van egy Debian Lenny RC-2 szerverem, amiben van 4 db hdd 3 RAID-1 tömbbe pakolva:


$ cat /proc/mdstat 
Personalities : [raid1] 
md2 : active raid1 sdc1[0] sdd1[1]
      732563904 blocks [2/2] [UU]
      
md1 : active raid1 sda3[0] sdb3[1]
      211624128 blocks [2/2] [UU]
      
md0 : active raid1 sda2[2](F) sdb2[1]
      16771776 blocks [2/1] [_U]
      
unused devices: <none>

Ezt a logot láttam a dmesg hatására:


[456256.161326] ata1.00: exception Emask 0x10 SAct 0x0 SErr 0x4010000 action 0xe frozen
[456256.161326] ata1.00: irq_stat 0x00400040, connection status changed
[456256.161326] ata1: SError: { PHYRdyChg DevExch }
[456256.161326] ata1.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
[456256.161326]          res 40/00:94:00:63:05/00:00:0e:00:00/40 Emask 0x10 (ATA bus error)
[456256.161326] ata1.00: status: { DRDY }
[456256.161326] ata1: hard resetting link
[456261.788960] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[456261.814821] ata1.00: configured for UDMA/133
[456261.814821] ata1: EH complete
[456261.814821] sd 0:0:0:0: [sda] 490350672 512-byte hardware sectors (251060 MB)
[456261.814821] sd 0:0:0:0: [sda] Write Protect is off
[456261.814821] sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00
[456261.814821] sd 0:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
[456261.815959] end_request: I/O error, dev sda, sector 67087272
[456261.815959] md: super_written gets error=-5, uptodate=0
[456261.815959] raid1: Disk failure on sda2, disabling device.
[456261.815959] raid1: Operation continuing on 1 devices.
[456261.839031] md: recovery of RAID array md0
[456261.839031] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[456261.839031] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
[456261.839031] md: using 128k window, over a total of 16771776 blocks.
[456261.839031] md: resuming recovery of md0 from checkpoint.
[456261.839031] md: md0: recovery done.
[456261.870978] RAID1 conf printout:
[456261.870978]  --- wd:1 rd:2
[456261.870978]  disk 0, wo:1, o:0, dev:sda2
[456261.870978]  disk 1, wo:0, o:1, dev:sdb2
[456261.882453] md: recovery of RAID array md0
[456261.882453] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
[456261.882453] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
[456261.882453] md: using 128k window, over a total of 16771776 blocks.
[456261.882453] md: resuming recovery of md0 from checkpoint.
[456261.882453] md: md0: recovery done.
[456261.955043] RAID1 conf printout:
[456261.955043]  --- wd:1 rd:2
[456261.955043]  disk 0, wo:1, o:0, dev:sda2
[456261.955043]  disk 1, wo:0, o:1, dev:sdb2
[456261.975043] RAID1 conf printout:
[456261.975043]  --- wd:1 rd:2
[456261.975043]  disk 0, wo:1, o:0, dev:sda2
[456261.975043]  disk 1, wo:0, o:1, dev:sdb2
[456261.986147] RAID1 conf printout:
[456261.986147]  --- wd:1 rd:2
[456261.986147]  disk 1, wo:0, o:1, dev:sdb2
[699679.487658] cdrom: This disc doesn't have any tracks I recognize!

Ez így normális? Vagy jól sejtem, hogy disk_döglés van?
(raid1: Disk failure on sda2, disabling device.)

Egyébként a rendszer épp az md0 -án van, a többi, csak szerver meg backup, szóval ötleteket, tippeket várok.

/mazursky

Hozzászólások

Milyen diszkek és milyen sata vezérlő? A sata kábelek nem lazák?


$ cat /proc/partitions 
major minor  #blocks  name

   8     0  245175336 sda
   8     1   16771828 sda1
   8     2   16771860 sda2
   8     3  211624245 sda3
   8    16  245175336 sdb
   8    17   16771828 sdb1
   8    18   16771860 sdb2
   8    19  211624245 sdb3
   8    32  732574584 sdc
   8    33  732563968 sdc1
   8    48  732574584 sdd
   8    49  732563968 sdd1
   9     0   16771776 md0
   9     1  211624128 md1
   9     2  732563904 md2
$ df -h
Filesystem            Size  Used Avail Use% Mounted on
/dev/md0               16G  4.4G   11G  29% /
tmpfs                 2.0G     0  2.0G   0% /lib/init/rw
udev                   10M  124K  9.9M   2% /dev
tmpfs                 2.0G     0  2.0G   0% /dev/shm
/dev/md2              688G  300G  354G  46% /backup
/dev/sda1              16G  189M   15G   2% /boot
/dev/md1              199G   69G  121G  37% /server

Szóval ezek a HDD-k, 2db WD 250GB + 2db WD 750GB SATA disk-ek.
A kábelek lazaságára én is gondoltam, de ezt csak ma estefelé fogom megnézni,
mert bontogatni kell egy keveset, és jelenleg is dolgozik rajta 15++ db Win-es kliens.

Egyébként SMB és backup funkciót lát el, és egy hete üzemel folyamatosan
(még tesztidőszak), a régi szerver már betelt.

(MOD)
És ez a mount kimenete:


$ mount
/dev/md0 on / type ext3 (rw,errors=remount-ro)
tmpfs on /lib/init/rw type tmpfs (rw,nosuid,mode=0755)
proc on /proc type proc (rw,noexec,nosuid,nodev)
sysfs on /sys type sysfs (rw,noexec,nosuid,nodev)
procbususb on /proc/bus/usb type usbfs (rw)
udev on /dev type tmpfs (rw,mode=0755)
tmpfs on /dev/shm type tmpfs (rw,nosuid,nodev)
devpts on /dev/pts type devpts (rw,noexec,nosuid,gid=5,mode=620)
/dev/md2 on /backup type ext3 (rw)
/dev/sda1 on /boot type ext3 (rw)
/dev/md1 on /server type ext3 (rw)
/dev/sdb1 on /sisbackup type ext3 (rw)
[code]

Érdekes, hogy ha a /dev/sda "kidőlt" akkor hogy tudtam mégis lemásolni 
a /boot tartalmát a /root -ba, amikor a /boot éppen a /dev/sda -n van...

/mazursky
[code]Love your job but never love your company!
Because you never know when your company stops loving you!

Lehet kábelhiba, vagy hibás NCQ-képes driver, esetleg a vinyó haldoklik.

A disk_döglés azt hiszem kizárható:


# mdadm --detail /dev/md0
/dev/md0:
        Version : 00.90
  Creation Time : Wed Feb  4 11:19:57 2009
     Raid Level : raid1
     Array Size : 16771776 (15.99 GiB 17.17 GB)
  Used Dev Size : 16771776 (15.99 GiB 17.17 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 0
    Persistence : Superblock is persistent

    Update Time : Tue Feb 17 14:03:46 2009
          State : active, degraded
 Active Devices : 1
Working Devices : 1
 Failed Devices : 1
  Spare Devices : 0

           UUID : e5770461:3b651aaf:39fb7f02:134bf370
         Events : 0.37971

    Number   Major   Minor   RaidDevice State
       0       0        0        0      removed
       1       8       18        1      active sync   /dev/sdb2

       2       8        2        -      faulty spare   /dev/sda2
# mdadm --detail /dev/md1
/dev/md1:
        Version : 00.90
  Creation Time : Wed Feb  4 11:20:16 2009
     Raid Level : raid1
     Array Size : 211624128 (201.82 GiB 216.70 GB)
  Used Dev Size : 211624128 (201.82 GiB 216.70 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 1
    Persistence : Superblock is persistent

    Update Time : Tue Feb 17 14:09:19 2009
          State : clean
 Active Devices : 2
Working Devices : 2
 Failed Devices : 0
  Spare Devices : 0

           UUID : 8a5c8d47:f5971752:2d7a5d80:30551de1
         Events : 0.12

    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync   /dev/sda3
       1       8       19        1      active sync   /dev/sdb3


Ugyanis a /dev/md0 és /dev/md1 ugyanazon a lemezen van. 
Egyszerűen csak "szétesett" a /dev/md0 , de hogy fogom ezt most újra összerakni?
Jelöljem hibásnak a /dev/sda2-t majd tegyem be újra a tömbbe?

/mazursky
[code]Love your job but never love your company!
Because you never know when your company stops loving you!

A bad-block nem kizárt, és az semmit sem jelent hogy két hetes a HDD.
A chipset-jét nem tudom, vagy van ere valami parancs, hogy kiderítsem?

NCQ? --> Avass be, mert ezt most hallom először, és talán fontos lehet.

/mazursky

Love your job but never love your company!
Because you never know when your company stops loving you!

Értem én hogy villanymotor, de mi hajtja? ;~)))

Avagy, most hogy konszolidálódott a helyzet, mire tudom használni vagy éppen _nem_ haszálhatom? Mert a SATA performace látszólag elég jó. Vegyek vissza a teljesítményből?

Másképp kérdezek: vegyek vissza a teljesítményből, amikor még garanciálisak a lemezek? Na neeeee --> Hadd forogjon szét, lássuk csak mit bír a cucc! ;~))

/mazursky

Love your job but never love your company!
Because you never know when your company stops loving you!

Köszi! Úgy tűnik működik:


# cat /proc/mdstat 
Personalities : [raid1] 
md2 : active raid1 sdc1[0] sdd1[1]
      732563904 blocks [2/2] [UU]
      
md1 : active raid1 sda3[0] sdb3[1]
      211624128 blocks [2/2] [UU]
      
md0 : active raid1 sda2[2] sdb2[1]
      16771776 blocks [2/1] [_U]
      [=>...................]  recovery =  5.7% (970176/16771776) finish=2.9min speed=88197K/sec
      

THX ;~))

/mazursky

Love your job but never love your company!
Because you never know when your company stops loving you!

Sziasztok, hasonló problémám van, de nem megy a --remove:

# cat /proc/mdstat
Personalities : [raid1]
read_ahead 1024 sectors
md0 : active raid1 sdb2[1] sda2[0](F)
243633664 blocks [2/1] [_U]
unused devices: < none >

# mdadm --fail /dev/md0 /dev/sda2
mdadm: set /dev/sda2 faulty in /dev/md0

# mdadm --remove /dev/md0 /dev/sda2
mdadm: hot remove failed for /dev/sda2: Invalid argument

Miért nem engedi? Mit lehet tenni ilyenkor?

Nekem régen okozott hasonlót "hibás" kernel driver. Akkor valami nvidia-s alaplapi SATA vezérlőm volt.
Egy kernel frissítés megoldotta a problémát. Ha jól emlékszem vissza, az akkor Debian Etch volt.

--
http://laszlo.co.hu/

Ez egy Intel Server Board, így nem áll fenn ennek a veszélye ;~))


$ lspci
00:00.0 Host bridge: Intel Corporation 3200/3210 Chipset DRAM Controller
00:19.0 Ethernet controller: Intel Corporation 82566DM-2 Gigabit Network Connection (rev 02)
00:1a.0 USB Controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #4 (rev 02)
00:1a.1 USB Controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #5 (rev 02)
00:1a.2 USB Controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #6 (rev 02)
00:1a.7 USB Controller: Intel Corporation 82801I (ICH9 Family) USB2 EHCI Controller #2 (rev 02)
00:1c.0 PCI bridge: Intel Corporation 82801I (ICH9 Family) PCI Express Port 1 (rev 02)
00:1c.4 PCI bridge: Intel Corporation 82801I (ICH9 Family) PCI Express Port 5 (rev 02)
00:1d.0 USB Controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #1 (rev 02)
00:1d.1 USB Controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #2 (rev 02)
00:1d.2 USB Controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #3 (rev 02)
00:1d.7 USB Controller: Intel Corporation 82801I (ICH9 Family) USB2 EHCI Controller #1 (rev 02)
00:1e.0 PCI bridge: Intel Corporation 82801 PCI Bridge (rev 92)
00:1f.0 ISA bridge: Intel Corporation 82801IR (ICH9R) LPC Interface Controller (rev 02)
00:1f.2 SATA controller: Intel Corporation 82801IR/IO/IH (ICH9R/DO/DH) 6 port SATA AHCI Controller (rev 02)
00:1f.3 SMBus: Intel Corporation 82801I (ICH9 Family) SMBus Controller (rev 02)
02:00.0 VGA compatible controller: Matrox Graphics, Inc. MGA G200e [Pilot] ServerEngines (SEP1) (rev 02)
03:02.0 Ethernet controller: Intel Corporation 82541GI Gigabit Ethernet Controller (rev 05)

$ uname -a
Linux ************ 2.6.26-1-amd64 #1 SMP Sat Jan 10 17:57:00 UTC 2009 x86_64 GNU/Linux

A sok csillag a gép neve ;~))

/mazursky

Love your job but never love your company!
Because you never know when your company stops loving you!

Az egyik szerveren szétesett a raid5, legalábbis az egyik disk kiesett a tömbböl.

Ezekkel a parancsokkal újra felhuzta a raidet és most hibamentesnek látszik:

# mdadm --fail /dev/md3 /dev/sdc5
# mdadm --remove /dev/md3 /dev/sdc5
# mdadm --add /dev/md3 /dev/sdc5

Kernel: 2.6.24.5-grsec
Rendszer: Debian etch
Diszkek: 2 db SAMSUNG HD252HJ 250GB (RAID1) rendszer, 3 db SAMSUNG HD753LJ 750GB (RAID5) data
CPU: Core2Duo E7200 2.53 Ghz
Memória: 4 GB
Alaplap: Gigabyte EP35.....

A most épp tiszta raid tömb adatai:

/dev/md3:
Version : 00.90.03
Creation Time : Sat Aug 9 12:18:19 2008
Raid Level : raid5
Array Size : 1465143808 (1397.27 GiB 1500.31 GB)
Device Size : 732571904 (698.64 GiB 750.15 GB)
Raid Devices : 3
Total Devices : 3
Preferred Minor : 3
Persistence : Superblock is persistent

Update Time : Tue Mar 3 19:51:34 2009
State : clean
Active Devices : 3
Working Devices : 3
Failed Devices : 0
Spare Devices : 0

Layout : left-symmetric
Chunk Size : 64K

UUID : 5a47cd68:6a73759d:a6913649:58ebe453
Events : 0.698334

Number Major Minor RaidDevice State
0 8 37 0 active sync /dev/sdc5
1 8 53 1 active sync /dev/sdd5
2 8 69 2 active sync /dev/sde5

Mitől történhet ilyesmi? Mivel lehet a diskeket esetleg külön tesztelni (smartmoontools speciális opciókat igényel raid esetében)? Kicsit aggasztó hogy csak igy magátol szétesik a tömb. Esetleg kernel gond?

Cool bejegyzés ;) Segített nekem is.