SOS mdadm + RAID5 probléma

Sziasztok!

A mai nap történései:

Reggel 8:32-kor a /dev/sda1 elkezdett errorokat dobálni. Az mdadm erről nem szólt, nem tudom miért. Fél órával később a /dev/sdb2 is elkezdte. Erről sem küldött üzenetet. A syslogon kívül sehova nem ment el az üzenet. Este fél 10-kor az mdadm elkezdett írni a syslogba, miszerint :

Feb 23 21:30:02 emark01 kernel: md: super_written gets error=-5, uptodate=0
Feb 23 21:30:02 emark01 kernel: raid5: Disk failure on sdb1, disabling device.
Feb 23 21:30:02 emark01 kernel: raid5: Operation continuing on 4 devices.

majd 2 mp-el később:

Feb 23 21:30:04 emark01 kernel: md: super_written gets error=-5, uptodate=0
Feb 23 21:30:04 emark01 kernel: raid5: Disk failure on sda1, disabling device.
Feb 23 21:30:04 emark01 kernel: raid5: Operation continuing on 3 devices.

Majd ezt követte jópár Buffer I/O és lost page write üzenet.

Újraindítottam a gépet. Az a gyanum hogy a vezérlőkártya ideiglenesen meggajdult. Újraindítás után már nem dobálták a hibákat, de a raid tömböt nem tudom összerakni. 3 eszközzel szeretné az 5 helyett.

Néhány részlet :

~# mdadm --detail /dev/md1
mdadm: md device /dev/md1 does not appear to be active.
~# cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4]
md1 : inactive sdf1[0](S) sdc1[4](S) sdb1[3](S) sdd1[2](S) sda1[1](S)
9765511360 blocks

~# mdadm --run /dev/md1
mdadm: failed to run array /dev/md1: Input/output error
~# cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4]
md1 : inactive sdf1[0] sdc1[4] sdd1[2]
5859306816 blocks

~# mdadm --detail /dev/md1
/dev/md1:
Version : 0.90
Creation Time : Fri Jan 28 13:09:35 2011
Raid Level : raid5
Used Dev Size : 1953102272 (1862.62 GiB 1999.98 GB)
Raid Devices : 5
Total Devices : 3
Preferred Minor : 1
Persistence : Superblock is persistent

Update Time : Wed Feb 23 21:30:03 2011
State : active, FAILED, Not Started
Active Devices : 3
Working Devices : 3
Failed Devices : 0
Spare Devices : 0

Layout : left-symmetric
Chunk Size : 64K

UUID : 94d81c14:ee79a2f1:24cbdb74:dd230b11 (local to host emark01)
Events : 0.61696

Number Major Minor RaidDevice State
0 8 81 0 active sync /dev/sdf1
1 0 0 1 removed
2 8 49 2 active sync /dev/sdd1
3 0 0 3 removed
4 8 33 4 active sync /dev/sdc1

~# mdadm --add /dev/md1 /dev/sdb1
mdadm: re-added /dev/sdb1
~# mdadm --detail /dev/md1
/dev/md1:
Version : 0.90
Creation Time : Fri Jan 28 13:09:35 2011
Raid Level : raid5
Used Dev Size : 1953102272 (1862.62 GiB 1999.98 GB)
Raid Devices : 5
Total Devices : 4
Preferred Minor : 1
Persistence : Superblock is persistent

Update Time : Wed Feb 23 21:30:03 2011
State : active, degraded, Not Started
Active Devices : 4
Working Devices : 4
Failed Devices : 0
Spare Devices : 0

Layout : left-symmetric
Chunk Size : 64K

UUID : 94d81c14:ee79a2f1:24cbdb74:dd230b11 (local to host emark01)
Events : 0.61696

Number Major Minor RaidDevice State
0 8 81 0 active sync /dev/sdf1
1 0 0 1 removed
2 8 49 2 active sync /dev/sdd1
3 8 17 3 active sync /dev/sdb1
4 8 33 4 active sync /dev/sdc1

Hozzá tudom adni a maradék 1 lemezt is, de eddig jutottam.

Segítsetek kérlek.

1981 megtekintés

Mi a gond? 4 lemezzel sem hasznalhato a tomb?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nem indul el.

0 szavazat

A hozzászóláshoz be kell jelentkezni

mdadm -S /dev/md0

mdadm -A /dev/md0 /dev/sd*1

Probald ki igy. Lehet, kell neki a --run is.

Hasonlo problemain vannak egy 34 diszkes raid10-zel, de az meg szerencsere csak az initial sync-nel tart.

Mi az, hogy nem szolt az mdadm? Mikor voltak az elso md errorok?

Miert gondolod, hogy a vezerlo kartya ideiglenesen gajdult meg?

tompos

0 szavazat

A hozzászóláshoz be kell jelentkezni

Azt hittem, hogy az újraindulás után megszüntek a problémák. Nyugtattam magam hogy nem a winyók azok. De azt hiszem megvan a gond.
A /dev/sda és a /dev/sdb is hibákat ír a syslogba :

Feb 23 22:59:20 emark01 kernel: end_request: I/O error, dev sdb, sector 191
Feb 23 22:59:20 emark01 kernel: sd 3:0:0:0: [sdb] Unhandled error code
Feb 23 22:59:20 emark01 kernel: sd 3:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb 23 22:59:20 emark01 kernel: sd 3:0:0:0: [sdb] CDB: Read(10): 28 00 00 00 00 3f 00 00 08 00
Feb 23 22:59:20 emark01 kernel: end_request: I/O error, dev sdb, sector 63
Feb 23 22:59:20 emark01 kernel: sd 3:0:0:0: [sdb] Unhandled error code
Feb 23 22:59:20 emark01 kernel: sd 3:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb 23 22:59:20 emark01 kernel: sd 3:0:0:0: [sdb] CDB: Read(10): 28 00 00 00 00 3f 00 00 08 00
Feb 23 22:59:20 emark01 kernel: end_request: I/O error, dev sdb, sector 63
Feb 23 22:59:20 emark01 kernel: sd 3:0:0:0: [sdb] Unhandled error code
Feb 23 22:59:20 emark01 kernel: sd 3:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb 23 22:59:20 emark01 kernel: sd 3:0:0:0: [sdb] CDB: Read(10): 28 00 00 00 10 3f 00 00 08 00
Feb 23 22:59:20 emark01 kernel: end_request: I/O error, dev sdb, sector 4159

Feb 23 23:01:51 emark01 kernel: end_request: I/O error, dev sda, sector 191
Feb 23 23:01:51 emark01 kernel: sd 2:0:0:0: [sda] Unhandled error code
Feb 23 23:01:51 emark01 kernel: sd 2:0:0:0: [sda] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb 23 23:01:51 emark01 kernel: sd 2:0:0:0: [sda] CDB: Read(10): 28 00 00 00 00 3f 00 00 08 00
Feb 23 23:01:51 emark01 kernel: end_request: I/O error, dev sda, sector 63
Feb 23 23:01:51 emark01 kernel: sd 2:0:0:0: [sda] Unhandled error code
Feb 23 23:01:51 emark01 kernel: sd 2:0:0:0: [sda] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb 23 23:01:51 emark01 kernel: sd 2:0:0:0: [sda] CDB: Read(10): 28 00 00 00 00 3f 00 00 08 00
Feb 23 23:01:51 emark01 kernel: end_request: I/O error, dev sda, sector 63
Feb 23 23:01:51 emark01 kernel: sd 2:0:0:0: [sda] Unhandled error code
Feb 23 23:01:51 emark01 kernel: sd 2:0:0:0: [sda] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb 23 23:01:51 emark01 kernel: sd 2:0:0:0: [sda] CDB: Read(10): 28 00 00 00 10 3f 00 00 08 00
Feb 23 23:01:51 emark01 kernel: end_request: I/O error, dev sda, sector 4159

De még azt megpróbálom amit te írtál.
Azt nem értem hogy mekkora esély van arra hogy egyszerre durranjon el két db, fél évnél fiatalabb winchesher . WD...

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ha a sorozatszamuk hasonlo, akkor egesz nagy az esely.

Hat, igy elegge gyaszos remenyeket fuznek hozza. Biztos, h nem egyszeruen egy azonos, hibas vezerlon vannak, vagy ilyesmi? Masik gepben is produkaljak a gebaszt?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Fogalmam sins. A hiba ma jött elő. És már meg is szünt. Elképzelhető hogy azonos vezérlőn vannak, most ezt nem tudom megmondani. Nem vagyok a gép mellett, távolról kellett vele játszanom.

Most megy a raid tömb... olvasni tudom.. mindjárt próbálom írni.

Attól félek hogy máskor is előjön a hiba.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Olvasni 60 Mb/sec el lehet a tömböt. Írásnál viszont a következő kerül a logba:

Feb 23 23:35:31 emark01 kernel: ata4: exception Emask 0x10 SAct 0x0 SErr 0x10000 action 0xe frozen
Feb 23 23:35:31 emark01 kernel: ata4: SError: { PHYRdyChg }
Feb 23 23:35:31 emark01 kernel: ata4: hard resetting link
Feb 23 23:35:31 emark01 kernel: ata3: exception Emask 0x10 SAct 0x0 SErr 0x10000 action 0xe frozen
Feb 23 23:35:31 emark01 kernel: ata3: SError: { PHYRdyChg }
Feb 23 23:35:31 emark01 kernel: ata3: hard resetting link
Feb 23 23:35:32 emark01 kernel: ata4: COMRESET failed (errno=-19)
Feb 23 23:35:32 emark01 kernel: ata4: reset failed (errno=-19), retrying in 9 secs
Feb 23 23:35:37 emark01 kernel: ata3: link is slow to respond, please be patient (ready=-19)
Feb 23 23:35:40 emark01 kernel: ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Feb 23 23:35:40 emark01 kernel: ata3.00: configured for UDMA/100
Feb 23 23:35:40 emark01 kernel: ata3: EH complete
Feb 23 23:35:41 emark01 kernel: ata4: hard resetting link
Feb 23 23:35:42 emark01 kernel: ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
Feb 23 23:35:42 emark01 kernel: ata4.00: configured for UDMA/100
Feb 23 23:35:42 emark01 kernel: ata4: EH complete

0 szavazat

A hozzászóláshoz be kell jelentkezni

És mostmár olvasáskor is :

Feb 23 23:41:48 emark01 kernel: ata3.00: exception Emask 0x10 SAct 0x0 SErr 0x10000 action 0xe frozen
Feb 23 23:41:48 emark01 kernel: ata3: SError: { PHYRdyChg }
Feb 23 23:41:48 emark01 kernel: ata4: exception Emask 0x10 SAct 0x0 SErr 0x10000 action 0xe frozen
Feb 23 23:41:48 emark01 kernel: ata4: SError: { PHYRdyChg }
Feb 23 23:41:48 emark01 kernel: ata4: hard resetting link
Feb 23 23:41:48 emark01 kernel: ata3.00: failed command: READ DMA EXT
Feb 23 23:41:48 emark01 kernel: ata3.00: cmd 25/00:80:bf:78:ba/00:00:36:00:00/e0 tag 0 dma 65536 in
Feb 23 23:41:48 emark01 kernel: res d0/d0:d0:d0:d0:d0/d0:d0:d0:d0:d0/d0 Emask 0x12 (ATA bus error)
Feb 23 23:41:48 emark01 kernel: ata3.00: status: { Busy }
Feb 23 23:41:48 emark01 kernel: ata3.00: error: { ICRC UNC IDNF }
Feb 23 23:41:48 emark01 kernel: ata3: hard resetting link
Feb 23 23:41:50 emark01 kernel: ata3: COMRESET failed (errno=-19)
Feb 23 23:41:50 emark01 kernel: ata3: reset failed (errno=-19), retrying in 9 secs
Feb 23 23:41:50 emark01 kernel: ata4: COMRESET failed (errno=-19)
Feb 23 23:41:50 emark01 kernel: ata4: reset failed (errno=-19), retrying in 9 secs
Feb 23 23:41:58 emark01 kernel: ata3: hard resetting link
Feb 23 23:41:58 emark01 kernel: ata4: hard resetting link
Feb 23 23:42:00 emark01 kernel: ata4: COMRESET failed (errno=-19)
Feb 23 23:42:00 emark01 kernel: ata4: reset failed (errno=-19), retrying in 9 secs
Feb 23 23:42:00 emark01 kernel: ata3: COMRESET failed (errno=-19)
Feb 23 23:42:00 emark01 kernel: ata3: reset failed (errno=-19), retrying in 9 secs
Feb 23 23:42:08 emark01 kernel: ata4: hard resetting link
Feb 23 23:42:08 emark01 kernel: ata3: hard resetting link
Feb 23 23:42:09 emark01 kernel: ata4: COMRESET failed (errno=-19)
Feb 23 23:42:09 emark01 kernel: ata4: reset failed (errno=-19), retrying in 35 secs
Feb 23 23:42:09 emark01 kernel: ata3: COMRESET failed (errno=-19)
Feb 23 23:42:09 emark01 kernel: ata3: reset failed (errno=-19), retrying in 35 secs

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ezek nem green power WD vinyók egy silicon image vezérlőn?

0 szavazat

A hozzászóláshoz be kell jelentkezni

De azok.

0 szavazat

A hozzászóláshoz be kell jelentkezni

1 TB-os greenpowah vinyok hasonlót műveltek egy silicon image vezérlőn nekem is nemrégen. Intel vezérlőn normálisan mennek, de funkcióját tekintve ha elköszön a tömb akkor max legyintünk szomorúan. (Nem, nem warez vagy pr0n.)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ez valami kompatibilitás probléma?

0 szavazat

A hozzászóláshoz be kell jelentkezni

1.5-ös GP-k xarok^20!
Sürgősen cseréld le RE4 (nem GP!)-re. (már ha tudod)
Avagy tegyél be hotspare diszket (bár ez egy pofon a ...nak)
.
Egyébként mdadm nem üzent?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Akkor üzent amikor mind a két hdd-t egyszerre ledobta. Egyébként 2 TB-os WDGP winyók : WD20EARS

0 szavazat

A hozzászóláshoz be kell jelentkezni

A winyókat nem nagyon tudom lecserélni, sajnos. Találtam egy régebbi bejegyzést, miszerint a GP-k nem üzemelnek jól a Silicon Image kártyákkal.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Az első md errorok ma este voltak.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Kipróbáltam amit leírtál. Küldöm a syslogot:

Feb 23 23:04:26 emark01 kernel: md: md1 stopped.
Feb 23 23:04:26 emark01 kernel: md: unbind
Feb 23 23:04:26 emark01 kernel: md: export_rdev(sdf1)
Feb 23 23:04:26 emark01 kernel: md: unbind
Feb 23 23:04:26 emark01 kernel: md: export_rdev(sdc1)
Feb 23 23:04:26 emark01 kernel: md: unbind
Feb 23 23:04:26 emark01 kernel: md: export_rdev(sdd1)
Feb 23 23:04:55 emark01 kernel: sd 3:0:0:0: [sdb] Unhandled error code
Feb 23 23:04:55 emark01 kernel: sd 3:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb 23 23:04:55 emark01 kernel: sd 3:0:0:0: [sdb] CDB: Read(10): 28 00 e8 d3 f3 bf 00 00 08 00
Feb 23 23:04:55 emark01 kernel: end_request: I/O error, dev sdb, sector 3906204607
Feb 23 23:04:55 emark01 kernel: sd 3:0:0:0: [sdb] Unhandled error code
Feb 23 23:04:55 emark01 kernel: sd 3:0:0:0: [sdb] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb 23 23:04:55 emark01 kernel: sd 3:0:0:0: [sdb] CDB: Read(10): 28 00 e8 e0 88 00 00 00 08 00
Feb 23 23:04:55 emark01 kernel: end_request: I/O error, dev sdb, sector 3907028992
Feb 23 23:04:55 emark01 kernel: sd 2:0:0:0: [sda] Unhandled error code
Feb 23 23:04:55 emark01 kernel: sd 2:0:0:0: [sda] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb 23 23:04:55 emark01 kernel: sd 2:0:0:0: [sda] CDB: Read(10): 28 00 e8 d3 f3 bf 00 00 08 00
Feb 23 23:04:55 emark01 kernel: end_request: I/O error, dev sda, sector 3906204607
Feb 23 23:04:55 emark01 kernel: sd 2:0:0:0: [sda] Unhandled error code
Feb 23 23:04:55 emark01 kernel: sd 2:0:0:0: [sda] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
Feb 23 23:04:55 emark01 kernel: sd 2:0:0:0: [sda] CDB: Read(10): 28 00 e8 e0 88 00 00 00 08 00
Feb 23 23:04:55 emark01 kernel: end_request: I/O error, dev sda, sector 3907028992
Feb 23 23:04:55 emark01 kernel: md: md1 stopped.
Feb 23 23:04:55 emark01 kernel: md: bind
Feb 23 23:04:55 emark01 kernel: md: bind
Feb 23 23:04:55 emark01 kernel: md: bind

0 szavazat

A hozzászóláshoz be kell jelentkezni

milyen linux?

0 szavazat

A hozzászóláshoz be kell jelentkezni

debian 5,0 amd64 proxmox-pve kernellel.

0 szavazat

A hozzászóláshoz be kell jelentkezni

A következő újraindítás eredményt hozott...
Össze tudtam rakni a raid tömböt, A felcsatolásnál volt egy kis időzés.

~# mount /dev/md1 /mnt

És itt állt az egész.
A raid tömb összerakásakor, és felcsatolásakor ez kerül a syslogba:

Feb 23 23:23:55 emark01 kernel: RAID5 conf printout:
Feb 23 23:23:55 emark01 kernel: --- rd:5 wd:5
Feb 23 23:23:55 emark01 kernel: disk 0, o:1, dev:sdf1
Feb 23 23:23:55 emark01 kernel: disk 1, o:1, dev:sda1
Feb 23 23:23:55 emark01 kernel: disk 2, o:1, dev:sdd1
Feb 23 23:23:55 emark01 kernel: disk 3, o:1, dev:sdb1
Feb 23 23:23:55 emark01 kernel: disk 4, o:1, dev:sdc1
Feb 23 23:23:55 emark01 kernel: md1: detected capacity change from 0 to 7999906906112
Feb 23 23:23:55 emark01 kernel: md1: unknown partition table
Feb 23 23:24:48 emark01 kernel: kvm: emulating exchange as write
Feb 23 23:26:52 emark01 kernel: kjournald starting. Commit interval 5 seconds
Feb 23 23:26:52 emark01 kernel: EXT3 FS on md1, internal journal
Feb 23 23:26:52 emark01 kernel: EXT3-fs: recovery complete.
Feb 23 23:26:52 emark01 kernel: EXT3-fs: mounted filesystem with ordered data mode.

Most működni látszik. De nem tudom meddig. Van valami ötletetek hogy ez mi volt? Vagy hogy hol keressem a hibát?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ez valoban egy 7.5T-s tomb?

tompos

0 szavazat

A hozzászóláshoz be kell jelentkezni

sajnos igen.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Miert sajnos? Akkor jol csinalta meg a tombot.

De a megoldast ugy latom, megirtak fenebb.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Azóta kiderült hogy a DISK, vagy a vezérlő volt a hibás, vagy esetleg a kettő nem szerette egymást? Nálam tegnap hasonló hiba jelentkezett: http://hup.hu/node/112966#comment-1447483

0 szavazat

A hozzászóláshoz be kell jelentkezni

Friss hozzászólások

De most a zebrakon mit… 2025-09-29T10:06:19+0200
Nem értetted meg, abból,… 2025-09-29T10:04:43+0200
Ha belejössz, akkor gyorsan… 2025-09-29T10:04:17+0200
Szerintem azért nem találsz… 2025-09-29T10:01:46+0200
Vagy akár media streaming. 2025-09-29T10:01:16+0200
The DKMS version supports… 2025-09-29T09:53:02+0200
wow :)
Ilyet 20+ éve nem… 2025-09-29T09:39:35+0200
sub 2025-09-29T09:34:55+0200
gondolod, hogy nem kerdeztem… 2025-09-29T09:50:35+0200
Az asztali gépes üzenet az… 2025-09-29T09:30:26+0200

SOS mdadm + RAID5 probléma

Hozzászólások