SZervusztok!
Van egy Debian Lenny RC-2 szerverem, amiben van 4 db hdd 3 RAID-1 tömbbe pakolva:
$ cat /proc/mdstat
Personalities : [raid1]
md2 : active raid1 sdc1[0] sdd1[1]
732563904 blocks [2/2] [UU]
md1 : active raid1 sda3[0] sdb3[1]
211624128 blocks [2/2] [UU]
md0 : active raid1 sda2[2](F) sdb2[1]
16771776 blocks [2/1] [_U]
unused devices: <none>
Ezt a logot láttam a dmesg hatására:
[456256.161326] ata1.00: exception Emask 0x10 SAct 0x0 SErr 0x4010000 action 0xe frozen
[456256.161326] ata1.00: irq_stat 0x00400040, connection status changed
[456256.161326] ata1: SError: { PHYRdyChg DevExch }
[456256.161326] ata1.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
[456256.161326] res 40/00:94:00:63:05/00:00:0e:00:00/40 Emask 0x10 (ATA bus error)
[456256.161326] ata1.00: status: { DRDY }
[456256.161326] ata1: hard resetting link
[456261.788960] ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[456261.814821] ata1.00: configured for UDMA/133
[456261.814821] ata1: EH complete
[456261.814821] sd 0:0:0:0: [sda] 490350672 512-byte hardware sectors (251060 MB)
[456261.814821] sd 0:0:0:0: [sda] Write Protect is off
[456261.814821] sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00
[456261.814821] sd 0:0:0:0: [sda] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
[456261.815959] end_request: I/O error, dev sda, sector 67087272
[456261.815959] md: super_written gets error=-5, uptodate=0
[456261.815959] raid1: Disk failure on sda2, disabling device.
[456261.815959] raid1: Operation continuing on 1 devices.
[456261.839031] md: recovery of RAID array md0
[456261.839031] md: minimum _guaranteed_ speed: 1000 KB/sec/disk.
[456261.839031] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
[456261.839031] md: using 128k window, over a total of 16771776 blocks.
[456261.839031] md: resuming recovery of md0 from checkpoint.
[456261.839031] md: md0: recovery done.
[456261.870978] RAID1 conf printout:
[456261.870978] --- wd:1 rd:2
[456261.870978] disk 0, wo:1, o:0, dev:sda2
[456261.870978] disk 1, wo:0, o:1, dev:sdb2
[456261.882453] md: recovery of RAID array md0
[456261.882453] md: minimum _guaranteed_ speed: 1000 KB/sec/disk.
[456261.882453] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for recovery.
[456261.882453] md: using 128k window, over a total of 16771776 blocks.
[456261.882453] md: resuming recovery of md0 from checkpoint.
[456261.882453] md: md0: recovery done.
[456261.955043] RAID1 conf printout:
[456261.955043] --- wd:1 rd:2
[456261.955043] disk 0, wo:1, o:0, dev:sda2
[456261.955043] disk 1, wo:0, o:1, dev:sdb2
[456261.975043] RAID1 conf printout:
[456261.975043] --- wd:1 rd:2
[456261.975043] disk 0, wo:1, o:0, dev:sda2
[456261.975043] disk 1, wo:0, o:1, dev:sdb2
[456261.986147] RAID1 conf printout:
[456261.986147] --- wd:1 rd:2
[456261.986147] disk 1, wo:0, o:1, dev:sdb2
[699679.487658] cdrom: This disc doesn't have any tracks I recognize!
Ez így normális? Vagy jól sejtem, hogy disk_döglés van?
(raid1: Disk failure on sda2, disabling device.)
Egyébként a rendszer épp az md0 -án van, a többi, csak szerver meg backup, szóval ötleteket, tippeket várok.
/mazursky
- 2664 megtekintés
Hozzászólások
Milyen diszkek és milyen sata vezérlő? A sata kábelek nem lazák?
- A hozzászóláshoz be kell jelentkezni
$ cat /proc/partitions
major minor #blocks name
8 0 245175336 sda
8 1 16771828 sda1
8 2 16771860 sda2
8 3 211624245 sda3
8 16 245175336 sdb
8 17 16771828 sdb1
8 18 16771860 sdb2
8 19 211624245 sdb3
8 32 732574584 sdc
8 33 732563968 sdc1
8 48 732574584 sdd
8 49 732563968 sdd1
9 0 16771776 md0
9 1 211624128 md1
9 2 732563904 md2
$ df -h
Filesystem Size Used Avail Use% Mounted on
/dev/md0 16G 4.4G 11G 29% /
tmpfs 2.0G 0 2.0G 0% /lib/init/rw
udev 10M 124K 9.9M 2% /dev
tmpfs 2.0G 0 2.0G 0% /dev/shm
/dev/md2 688G 300G 354G 46% /backup
/dev/sda1 16G 189M 15G 2% /boot
/dev/md1 199G 69G 121G 37% /server
Szóval ezek a HDD-k, 2db WD 250GB + 2db WD 750GB SATA disk-ek.
A kábelek lazaságára én is gondoltam, de ezt csak ma estefelé fogom megnézni,
mert bontogatni kell egy keveset, és jelenleg is dolgozik rajta 15++ db Win-es kliens.
Egyébként SMB és backup funkciót lát el, és egy hete üzemel folyamatosan
(még tesztidőszak), a régi szerver már betelt.
(MOD)
És ez a mount kimenete:
$ mount
/dev/md0 on / type ext3 (rw,errors=remount-ro)
tmpfs on /lib/init/rw type tmpfs (rw,nosuid,mode=0755)
proc on /proc type proc (rw,noexec,nosuid,nodev)
sysfs on /sys type sysfs (rw,noexec,nosuid,nodev)
procbususb on /proc/bus/usb type usbfs (rw)
udev on /dev type tmpfs (rw,mode=0755)
tmpfs on /dev/shm type tmpfs (rw,nosuid,nodev)
devpts on /dev/pts type devpts (rw,noexec,nosuid,gid=5,mode=620)
/dev/md2 on /backup type ext3 (rw)
/dev/sda1 on /boot type ext3 (rw)
/dev/md1 on /server type ext3 (rw)
/dev/sdb1 on /sisbackup type ext3 (rw)
[code]
Érdekes, hogy ha a /dev/sda "kidőlt" akkor hogy tudtam mégis lemásolni
a /boot tartalmát a /root -ba, amikor a /boot éppen a /dev/sda -n van...
/mazursky
[code]Love your job but never love your company!
Because you never know when your company stops loving you!
- A hozzászóláshoz be kell jelentkezni
Lehet kábelhiba, vagy hibás NCQ-képes driver, esetleg a vinyó haldoklik.
- A hozzászóláshoz be kell jelentkezni
A disk_döglés azt hiszem kizárható:
# mdadm --detail /dev/md0
/dev/md0:
Version : 00.90
Creation Time : Wed Feb 4 11:19:57 2009
Raid Level : raid1
Array Size : 16771776 (15.99 GiB 17.17 GB)
Used Dev Size : 16771776 (15.99 GiB 17.17 GB)
Raid Devices : 2
Total Devices : 2
Preferred Minor : 0
Persistence : Superblock is persistent
Update Time : Tue Feb 17 14:03:46 2009
State : active, degraded
Active Devices : 1
Working Devices : 1
Failed Devices : 1
Spare Devices : 0
UUID : e5770461:3b651aaf:39fb7f02:134bf370
Events : 0.37971
Number Major Minor RaidDevice State
0 0 0 0 removed
1 8 18 1 active sync /dev/sdb2
2 8 2 - faulty spare /dev/sda2
# mdadm --detail /dev/md1
/dev/md1:
Version : 00.90
Creation Time : Wed Feb 4 11:20:16 2009
Raid Level : raid1
Array Size : 211624128 (201.82 GiB 216.70 GB)
Used Dev Size : 211624128 (201.82 GiB 216.70 GB)
Raid Devices : 2
Total Devices : 2
Preferred Minor : 1
Persistence : Superblock is persistent
Update Time : Tue Feb 17 14:09:19 2009
State : clean
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0
UUID : 8a5c8d47:f5971752:2d7a5d80:30551de1
Events : 0.12
Number Major Minor RaidDevice State
0 8 3 0 active sync /dev/sda3
1 8 19 1 active sync /dev/sdb3
Ugyanis a /dev/md0 és /dev/md1 ugyanazon a lemezen van.
Egyszerűen csak "szétesett" a /dev/md0 , de hogy fogom ezt most újra összerakni?
Jelöljem hibásnak a /dev/sda2-t majd tegyem be újra a tömbbe?
/mazursky
[code]Love your job but never love your company!
Because you never know when your company stops loving you!
- A hozzászóláshoz be kell jelentkezni
Az is lehet, hogy csak bad-sectorra futott az adott diszken, mire kidobta a tömbből az mdadm.
Milyen chipset amúgy? Ha valami nv fos, érdemes az NCQ kikapcsolásával kísérletezni.
- A hozzászóláshoz be kell jelentkezni
A bad-block nem kizárt, és az semmit sem jelent hogy két hetes a HDD.
A chipset-jét nem tudom, vagy van ere valami parancs, hogy kiderítsem?
NCQ? --> Avass be, mert ezt most hallom először, és talán fontos lehet.
/mazursky
Love your job but never love your company!
Because you never know when your company stops loving you!
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
Értem én hogy villanymotor, de mi hajtja? ;~)))
Avagy, most hogy konszolidálódott a helyzet, mire tudom használni vagy éppen _nem_ haszálhatom? Mert a SATA performace látszólag elég jó. Vegyek vissza a teljesítményből?
Másképp kérdezek: vegyek vissza a teljesítményből, amikor még garanciálisak a lemezek? Na neeeee --> Hadd forogjon szét, lássuk csak mit bír a cucc! ;~))
/mazursky
Love your job but never love your company!
Because you never know when your company stops loving you!
- A hozzászóláshoz be kell jelentkezni
szerintem próbáld meg ezt:
# mdadm --fail /dev/md0 /dev/sda2
# mdadm --remove /dev/md0 /dev/sda2
# mdadm --add /dev/md0 /dev/sda2
/mazursky
Love your job but never love your company!
Because you never know when your company stops loving you!
- A hozzászóláshoz be kell jelentkezni
Köszi! Úgy tűnik működik:
# cat /proc/mdstat
Personalities : [raid1]
md2 : active raid1 sdc1[0] sdd1[1]
732563904 blocks [2/2] [UU]
md1 : active raid1 sda3[0] sdb3[1]
211624128 blocks [2/2] [UU]
md0 : active raid1 sda2[2] sdb2[1]
16771776 blocks [2/1] [_U]
[=>...................] recovery = 5.7% (970176/16771776) finish=2.9min speed=88197K/sec
THX ;~))
/mazursky
Love your job but never love your company!
Because you never know when your company stops loving you!
- A hozzászóláshoz be kell jelentkezni
Sziasztok, hasonló problémám van, de nem megy a --remove:
# cat /proc/mdstat
Personalities : [raid1]
read_ahead 1024 sectors
md0 : active raid1 sdb2[1] sda2[0](F)
243633664 blocks [2/1] [_U]
unused devices: < none >
# mdadm --fail /dev/md0 /dev/sda2
mdadm: set /dev/sda2 faulty in /dev/md0
# mdadm --remove /dev/md0 /dev/sda2
mdadm: hot remove failed for /dev/sda2: Invalid argument
Miért nem engedi? Mit lehet tenni ilyenkor?
- A hozzászóláshoz be kell jelentkezni
Valami lehet, hogy használja az eszközt.
mount mit mond?
/mazursky
Love your job but never love your company!
Because you never know when your company stops loving you!
- A hozzászóláshoz be kell jelentkezni
a man-t olvasd el a pontos hasznalat miatt (Invalid argument)
--
A vegtelen ciklus is vegeter egyszer, csak kelloen eros hardver kell hozza!
- A hozzászóláshoz be kell jelentkezni
ez alapján csináltam és működik
hogy valamennyire segítsek andrewjsi-n
/mazursky
Love your job but never love your company!
Because you never know when your company stops loving you!
- A hozzászóláshoz be kell jelentkezni
Nekem régen okozott hasonlót "hibás" kernel driver. Akkor valami nvidia-s alaplapi SATA vezérlőm volt.
Egy kernel frissítés megoldotta a problémát. Ha jól emlékszem vissza, az akkor Debian Etch volt.
- A hozzászóláshoz be kell jelentkezni
Ez egy Intel Server Board, így nem áll fenn ennek a veszélye ;~))
$ lspci
00:00.0 Host bridge: Intel Corporation 3200/3210 Chipset DRAM Controller
00:19.0 Ethernet controller: Intel Corporation 82566DM-2 Gigabit Network Connection (rev 02)
00:1a.0 USB Controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #4 (rev 02)
00:1a.1 USB Controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #5 (rev 02)
00:1a.2 USB Controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #6 (rev 02)
00:1a.7 USB Controller: Intel Corporation 82801I (ICH9 Family) USB2 EHCI Controller #2 (rev 02)
00:1c.0 PCI bridge: Intel Corporation 82801I (ICH9 Family) PCI Express Port 1 (rev 02)
00:1c.4 PCI bridge: Intel Corporation 82801I (ICH9 Family) PCI Express Port 5 (rev 02)
00:1d.0 USB Controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #1 (rev 02)
00:1d.1 USB Controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #2 (rev 02)
00:1d.2 USB Controller: Intel Corporation 82801I (ICH9 Family) USB UHCI Controller #3 (rev 02)
00:1d.7 USB Controller: Intel Corporation 82801I (ICH9 Family) USB2 EHCI Controller #1 (rev 02)
00:1e.0 PCI bridge: Intel Corporation 82801 PCI Bridge (rev 92)
00:1f.0 ISA bridge: Intel Corporation 82801IR (ICH9R) LPC Interface Controller (rev 02)
00:1f.2 SATA controller: Intel Corporation 82801IR/IO/IH (ICH9R/DO/DH) 6 port SATA AHCI Controller (rev 02)
00:1f.3 SMBus: Intel Corporation 82801I (ICH9 Family) SMBus Controller (rev 02)
02:00.0 VGA compatible controller: Matrox Graphics, Inc. MGA G200e [Pilot] ServerEngines (SEP1) (rev 02)
03:02.0 Ethernet controller: Intel Corporation 82541GI Gigabit Ethernet Controller (rev 05)
$ uname -a
Linux ************ 2.6.26-1-amd64 #1 SMP Sat Jan 10 17:57:00 UTC 2009 x86_64 GNU/Linux
A sok csillag a gép neve ;~))
/mazursky
Love your job but never love your company!
Because you never know when your company stops loving you!
- A hozzászóláshoz be kell jelentkezni
Az egyik szerveren szétesett a raid5, legalábbis az egyik disk kiesett a tömbböl.
Ezekkel a parancsokkal újra felhuzta a raidet és most hibamentesnek látszik:
# mdadm --fail /dev/md3 /dev/sdc5
# mdadm --remove /dev/md3 /dev/sdc5
# mdadm --add /dev/md3 /dev/sdc5
Kernel: 2.6.24.5-grsec
Rendszer: Debian etch
Diszkek: 2 db SAMSUNG HD252HJ 250GB (RAID1) rendszer, 3 db SAMSUNG HD753LJ 750GB (RAID5) data
CPU: Core2Duo E7200 2.53 Ghz
Memória: 4 GB
Alaplap: Gigabyte EP35.....
A most épp tiszta raid tömb adatai:
/dev/md3:
Version : 00.90.03
Creation Time : Sat Aug 9 12:18:19 2008
Raid Level : raid5
Array Size : 1465143808 (1397.27 GiB 1500.31 GB)
Device Size : 732571904 (698.64 GiB 750.15 GB)
Raid Devices : 3
Total Devices : 3
Preferred Minor : 3
Persistence : Superblock is persistent
Update Time : Tue Mar 3 19:51:34 2009
State : clean
Active Devices : 3
Working Devices : 3
Failed Devices : 0
Spare Devices : 0
Layout : left-symmetric
Chunk Size : 64K
UUID : 5a47cd68:6a73759d:a6913649:58ebe453
Events : 0.698334
Number Major Minor RaidDevice State
0 8 37 0 active sync /dev/sdc5
1 8 53 1 active sync /dev/sdd5
2 8 69 2 active sync /dev/sde5
Mitől történhet ilyesmi? Mivel lehet a diskeket esetleg külön tesztelni (smartmoontools speciális opciókat igényel raid esetében)? Kicsit aggasztó hogy csak igy magátol szétesik a tömb. Esetleg kernel gond?
- A hozzászóláshoz be kell jelentkezni
dmesg mit mond?
- A hozzászóláshoz be kell jelentkezni
Cool bejegyzés ;) Segített nekem is.
- A hozzászóláshoz be kell jelentkezni
+1
meg is jegyzem.
--
"Az a szóbeszéd járja Amerikában, hogy két intelligens faj létezik a földön: emberek és magyarok." by Isaac Asimov
- A hozzászóláshoz be kell jelentkezni