SOS mdadm + RAID5 probléma

Fórumok

Sziasztok!

A mai nap történései:

Reggel 8:32-kor a /dev/sda1 elkezdett errorokat dobálni. Az mdadm erről nem szólt, nem tudom miért. Fél órával később a /dev/sdb2 is elkezdte. Erről sem küldött üzenetet. A syslogon kívül sehova nem ment el az üzenet. Este fél 10-kor az mdadm elkezdett írni a syslogba, miszerint :

Feb 23 21:30:02 emark01 kernel: md: super_written gets error=-5, uptodate=0
Feb 23 21:30:02 emark01 kernel: raid5: Disk failure on sdb1, disabling device.
Feb 23 21:30:02 emark01 kernel: raid5: Operation continuing on 4 devices.

majd 2 mp-el később:

Feb 23 21:30:04 emark01 kernel: md: super_written gets error=-5, uptodate=0
Feb 23 21:30:04 emark01 kernel: raid5: Disk failure on sda1, disabling device.
Feb 23 21:30:04 emark01 kernel: raid5: Operation continuing on 3 devices.

Majd ezt követte jópár Buffer I/O és lost page write üzenet.

Újraindítottam a gépet. Az a gyanum hogy a vezérlőkártya ideiglenesen meggajdult. Újraindítás után már nem dobálták a hibákat, de a raid tömböt nem tudom összerakni. 3 eszközzel szeretné az 5 helyett.

Néhány részlet :

~# mdadm --detail /dev/md1
mdadm: md device /dev/md1 does not appear to be active.
~# cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4]
md1 : inactive sdf1[0](S) sdc1[4](S) sdb1[3](S) sdd1[2](S) sda1[1](S)
9765511360 blocks

~# mdadm --run /dev/md1
mdadm: failed to run array /dev/md1: Input/output error
~# cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4]
md1 : inactive sdf1[0] sdc1[4] sdd1[2]
5859306816 blocks

~# mdadm --detail /dev/md1
/dev/md1:
Version : 0.90
Creation Time : Fri Jan 28 13:09:35 2011
Raid Level : raid5
Used Dev Size : 1953102272 (1862.62 GiB 1999.98 GB)
Raid Devices : 5
Total Devices : 3
Preferred Minor : 1
Persistence : Superblock is persistent

Update Time : Wed Feb 23 21:30:03 2011
State : active, FAILED, Not Started
Active Devices : 3
Working Devices : 3
Failed Devices : 0
Spare Devices : 0

Layout : left-symmetric
Chunk Size : 64K

UUID : 94d81c14:ee79a2f1:24cbdb74:dd230b11 (local to host emark01)
Events : 0.61696

Number Major Minor RaidDevice State
0 8 81 0 active sync /dev/sdf1
1 0 0 1 removed
2 8 49 2 active sync /dev/sdd1
3 0 0 3 removed
4 8 33 4 active sync /dev/sdc1

~# mdadm --add /dev/md1 /dev/sdb1
mdadm: re-added /dev/sdb1
~# mdadm --detail /dev/md1
/dev/md1:
Version : 0.90
Creation Time : Fri Jan 28 13:09:35 2011
Raid Level : raid5
Used Dev Size : 1953102272 (1862.62 GiB 1999.98 GB)
Raid Devices : 5
Total Devices : 4
Preferred Minor : 1
Persistence : Superblock is persistent

Update Time : Wed Feb 23 21:30:03 2011
State : active, degraded, Not Started
Active Devices : 4
Working Devices : 4
Failed Devices : 0
Spare Devices : 0

Layout : left-symmetric
Chunk Size : 64K

UUID : 94d81c14:ee79a2f1:24cbdb74:dd230b11 (local to host emark01)
Events : 0.61696

Number Major Minor RaidDevice State
0 8 81 0 active sync /dev/sdf1
1 0 0 1 removed
2 8 49 2 active sync /dev/sdd1
3 8 17 3 active sync /dev/sdb1
4 8 33 4 active sync /dev/sdc1

Hozzá tudom adni a maradék 1 lemezt is, de eddig jutottam.

Segítsetek kérlek.

Hozzászólások

Mi a gond? 4 lemezzel sem hasznalhato a tomb?

mdadm -S /dev/md0

mdadm -A /dev/md0 /dev/sd*1

Probald ki igy. Lehet, kell neki a --run is.

Hasonlo problemain vannak egy 34 diszkes raid10-zel, de az meg szerencsere csak az initial sync-nel tart.

Mi az, hogy nem szolt az mdadm? Mikor voltak az elso md errorok?

Miert gondolod, hogy a vezerlo kartya ideiglenesen gajdult meg?

tompos

Azt hittem, hogy az újraindulás után megszüntek a problémák. Nyugtattam magam hogy nem a winyók azok. De azt hiszem megvan a gond.
A /dev/sda és a /dev/sdb is hibákat ír a syslogba :

Feb 23 22:59:20 emark01 kernel: end_request: I/O error, dev sdb, sector 191
Feb 23 22:59:20 emark01 kernel: sd 3:0:0:0: [sdb] Unhandled error code
Feb 23 22:59:20 emark01 kernel: sd 3:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb 23 22:59:20 emark01 kernel: sd 3:0:0:0: [sdb] CDB: Read(10): 28 00 00 00 00 3f 00 00 08 00
Feb 23 22:59:20 emark01 kernel: end_request: I/O error, dev sdb, sector 63
Feb 23 22:59:20 emark01 kernel: sd 3:0:0:0: [sdb] Unhandled error code
Feb 23 22:59:20 emark01 kernel: sd 3:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb 23 22:59:20 emark01 kernel: sd 3:0:0:0: [sdb] CDB: Read(10): 28 00 00 00 00 3f 00 00 08 00
Feb 23 22:59:20 emark01 kernel: end_request: I/O error, dev sdb, sector 63
Feb 23 22:59:20 emark01 kernel: sd 3:0:0:0: [sdb] Unhandled error code
Feb 23 22:59:20 emark01 kernel: sd 3:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb 23 22:59:20 emark01 kernel: sd 3:0:0:0: [sdb] CDB: Read(10): 28 00 00 00 10 3f 00 00 08 00
Feb 23 22:59:20 emark01 kernel: end_request: I/O error, dev sdb, sector 4159

Feb 23 23:01:51 emark01 kernel: end_request: I/O error, dev sda, sector 191
Feb 23 23:01:51 emark01 kernel: sd 2:0:0:0: [sda] Unhandled error code
Feb 23 23:01:51 emark01 kernel: sd 2:0:0:0: [sda] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb 23 23:01:51 emark01 kernel: sd 2:0:0:0: [sda] CDB: Read(10): 28 00 00 00 00 3f 00 00 08 00
Feb 23 23:01:51 emark01 kernel: end_request: I/O error, dev sda, sector 63
Feb 23 23:01:51 emark01 kernel: sd 2:0:0:0: [sda] Unhandled error code
Feb 23 23:01:51 emark01 kernel: sd 2:0:0:0: [sda] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb 23 23:01:51 emark01 kernel: sd 2:0:0:0: [sda] CDB: Read(10): 28 00 00 00 00 3f 00 00 08 00
Feb 23 23:01:51 emark01 kernel: end_request: I/O error, dev sda, sector 63
Feb 23 23:01:51 emark01 kernel: sd 2:0:0:0: [sda] Unhandled error code
Feb 23 23:01:51 emark01 kernel: sd 2:0:0:0: [sda] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb 23 23:01:51 emark01 kernel: sd 2:0:0:0: [sda] CDB: Read(10): 28 00 00 00 10 3f 00 00 08 00
Feb 23 23:01:51 emark01 kernel: end_request: I/O error, dev sda, sector 4159

De még azt megpróbálom amit te írtál.
Azt nem értem hogy mekkora esély van arra hogy egyszerre durranjon el két db, fél évnél fiatalabb winchesher . WD...

Fogalmam sins. A hiba ma jött elő. És már meg is szünt. Elképzelhető hogy azonos vezérlőn vannak, most ezt nem tudom megmondani. Nem vagyok a gép mellett, távolról kellett vele játszanom.

Most megy a raid tömb... olvasni tudom.. mindjárt próbálom írni.

Attól félek hogy máskor is előjön a hiba.

Olvasni 60 Mb/sec el lehet a tömböt. Írásnál viszont a következő kerül a logba:

Feb 23 23:35:31 emark01 kernel: ata4: exception Emask 0x10 SAct 0x0 SErr 0x10000 action 0xe frozen
Feb 23 23:35:31 emark01 kernel: ata4: SError: { PHYRdyChg }
Feb 23 23:35:31 emark01 kernel: ata4: hard resetting link
Feb 23 23:35:31 emark01 kernel: ata3: exception Emask 0x10 SAct 0x0 SErr 0x10000 action 0xe frozen
Feb 23 23:35:31 emark01 kernel: ata3: SError: { PHYRdyChg }
Feb 23 23:35:31 emark01 kernel: ata3: hard resetting link
Feb 23 23:35:32 emark01 kernel: ata4: COMRESET failed (errno=-19)
Feb 23 23:35:32 emark01 kernel: ata4: reset failed (errno=-19), retrying in 9 secs
Feb 23 23:35:37 emark01 kernel: ata3: link is slow to respond, please be patient (ready=-19)
Feb 23 23:35:40 emark01 kernel: ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Feb 23 23:35:40 emark01 kernel: ata3.00: configured for UDMA/100
Feb 23 23:35:40 emark01 kernel: ata3: EH complete
Feb 23 23:35:41 emark01 kernel: ata4: hard resetting link
Feb 23 23:35:42 emark01 kernel: ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Feb 23 23:35:42 emark01 kernel: ata4.00: configured for UDMA/100
Feb 23 23:35:42 emark01 kernel: ata4: EH complete

És mostmár olvasáskor is :

Feb 23 23:41:48 emark01 kernel: ata3.00: exception Emask 0x10 SAct 0x0 SErr 0x10000 action 0xe frozen
Feb 23 23:41:48 emark01 kernel: ata3: SError: { PHYRdyChg }
Feb 23 23:41:48 emark01 kernel: ata4: exception Emask 0x10 SAct 0x0 SErr 0x10000 action 0xe frozen
Feb 23 23:41:48 emark01 kernel: ata4: SError: { PHYRdyChg }
Feb 23 23:41:48 emark01 kernel: ata4: hard resetting link
Feb 23 23:41:48 emark01 kernel: ata3.00: failed command: READ DMA EXT
Feb 23 23:41:48 emark01 kernel: ata3.00: cmd 25/00:80:bf:78:ba/00:00:36:00:00/e0 tag 0 dma 65536 in
Feb 23 23:41:48 emark01 kernel: res d0/d0:d0:d0:d0:d0/d0:d0:d0:d0:d0/d0 Emask 0x12 (ATA bus error)
Feb 23 23:41:48 emark01 kernel: ata3.00: status: { Busy }
Feb 23 23:41:48 emark01 kernel: ata3.00: error: { ICRC UNC IDNF }
Feb 23 23:41:48 emark01 kernel: ata3: hard resetting link
Feb 23 23:41:50 emark01 kernel: ata3: COMRESET failed (errno=-19)
Feb 23 23:41:50 emark01 kernel: ata3: reset failed (errno=-19), retrying in 9 secs
Feb 23 23:41:50 emark01 kernel: ata4: COMRESET failed (errno=-19)
Feb 23 23:41:50 emark01 kernel: ata4: reset failed (errno=-19), retrying in 9 secs
Feb 23 23:41:58 emark01 kernel: ata3: hard resetting link
Feb 23 23:41:58 emark01 kernel: ata4: hard resetting link
Feb 23 23:42:00 emark01 kernel: ata4: COMRESET failed (errno=-19)
Feb 23 23:42:00 emark01 kernel: ata4: reset failed (errno=-19), retrying in 9 secs
Feb 23 23:42:00 emark01 kernel: ata3: COMRESET failed (errno=-19)
Feb 23 23:42:00 emark01 kernel: ata3: reset failed (errno=-19), retrying in 9 secs
Feb 23 23:42:08 emark01 kernel: ata4: hard resetting link
Feb 23 23:42:08 emark01 kernel: ata3: hard resetting link
Feb 23 23:42:09 emark01 kernel: ata4: COMRESET failed (errno=-19)
Feb 23 23:42:09 emark01 kernel: ata4: reset failed (errno=-19), retrying in 35 secs
Feb 23 23:42:09 emark01 kernel: ata3: COMRESET failed (errno=-19)
Feb 23 23:42:09 emark01 kernel: ata3: reset failed (errno=-19), retrying in 35 secs

Kipróbáltam amit leírtál. Küldöm a syslogot:

Feb 23 23:04:26 emark01 kernel: md: md1 stopped.
Feb 23 23:04:26 emark01 kernel: md: unbind
Feb 23 23:04:26 emark01 kernel: md: export_rdev(sdf1)
Feb 23 23:04:26 emark01 kernel: md: unbind
Feb 23 23:04:26 emark01 kernel: md: export_rdev(sdc1)
Feb 23 23:04:26 emark01 kernel: md: unbind
Feb 23 23:04:26 emark01 kernel: md: export_rdev(sdd1)
Feb 23 23:04:55 emark01 kernel: sd 3:0:0:0: [sdb] Unhandled error code
Feb 23 23:04:55 emark01 kernel: sd 3:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb 23 23:04:55 emark01 kernel: sd 3:0:0:0: [sdb] CDB: Read(10): 28 00 e8 d3 f3 bf 00 00 08 00
Feb 23 23:04:55 emark01 kernel: end_request: I/O error, dev sdb, sector 3906204607
Feb 23 23:04:55 emark01 kernel: sd 3:0:0:0: [sdb] Unhandled error code
Feb 23 23:04:55 emark01 kernel: sd 3:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb 23 23:04:55 emark01 kernel: sd 3:0:0:0: [sdb] CDB: Read(10): 28 00 e8 e0 88 00 00 00 08 00
Feb 23 23:04:55 emark01 kernel: end_request: I/O error, dev sdb, sector 3907028992
Feb 23 23:04:55 emark01 kernel: sd 2:0:0:0: [sda] Unhandled error code
Feb 23 23:04:55 emark01 kernel: sd 2:0:0:0: [sda] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb 23 23:04:55 emark01 kernel: sd 2:0:0:0: [sda] CDB: Read(10): 28 00 e8 d3 f3 bf 00 00 08 00
Feb 23 23:04:55 emark01 kernel: end_request: I/O error, dev sda, sector 3906204607
Feb 23 23:04:55 emark01 kernel: sd 2:0:0:0: [sda] Unhandled error code
Feb 23 23:04:55 emark01 kernel: sd 2:0:0:0: [sda] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb 23 23:04:55 emark01 kernel: sd 2:0:0:0: [sda] CDB: Read(10): 28 00 e8 e0 88 00 00 00 08 00
Feb 23 23:04:55 emark01 kernel: end_request: I/O error, dev sda, sector 3907028992
Feb 23 23:04:55 emark01 kernel: md: md1 stopped.
Feb 23 23:04:55 emark01 kernel: md: bind
Feb 23 23:04:55 emark01 kernel: md: bind
Feb 23 23:04:55 emark01 kernel: md: bind

A következő újraindítás eredményt hozott...
Össze tudtam rakni a raid tömböt, A felcsatolásnál volt egy kis időzés.

~# mount /dev/md1 /mnt

És itt állt az egész.
A raid tömb összerakásakor, és felcsatolásakor ez kerül a syslogba:

Feb 23 23:23:55 emark01 kernel: RAID5 conf printout:
Feb 23 23:23:55 emark01 kernel: --- rd:5 wd:5
Feb 23 23:23:55 emark01 kernel: disk 0, o:1, dev:sdf1
Feb 23 23:23:55 emark01 kernel: disk 1, o:1, dev:sda1
Feb 23 23:23:55 emark01 kernel: disk 2, o:1, dev:sdd1
Feb 23 23:23:55 emark01 kernel: disk 3, o:1, dev:sdb1
Feb 23 23:23:55 emark01 kernel: disk 4, o:1, dev:sdc1
Feb 23 23:23:55 emark01 kernel: md1: detected capacity change from 0 to 7999906906112
Feb 23 23:23:55 emark01 kernel: md1: unknown partition table
Feb 23 23:24:48 emark01 kernel: kvm: emulating exchange as write
Feb 23 23:26:52 emark01 kernel: kjournald starting. Commit interval 5 seconds
Feb 23 23:26:52 emark01 kernel: EXT3 FS on md1, internal journal
Feb 23 23:26:52 emark01 kernel: EXT3-fs: recovery complete.
Feb 23 23:26:52 emark01 kernel: EXT3-fs: mounted filesystem with ordered data mode.

Most működni látszik. De nem tudom meddig. Van valami ötletetek hogy ez mi volt? Vagy hogy hol keressem a hibát?