Sziasztok!
Készítettünk tavaly egy 3 gépes barkács "szerver-klasztert", HP ML150-G6 gépekkel Smart Array P410/Zero cache vezérlővel, 2x1T (SAMSUNG HD103SJ) + 2x500G (SAMSUNG HD502HJ) vinyókkal páronként RAID1-be rakva a vezérlő bios-ában. Első kernele a gyári Lenny-s linux-headers-2.6.26-2-686 volt. Hosting-ba kerüléskor az egyik gép cciss-hibával megakadt (sajnos pont emiatt nincs egyik esetről sem logom, mert readonly lett a /var is), majd reboot után "1779 POST message" volt, amiből boot-ig csak F2-vel kilépéssel lehetett eljutni.
Azóta többször is mindegyik gép megállt (volt / readonly-ra váltás, és kernel panic) már ilyen hibával és úgy gondoltam, hogy talán a Squeeze upgrade segíthet. Két héttel Miután 2.6.32-5-686 kernellel squeeze-re upgradeltem a gépeket (a cciss modul verziója pont ugyanaz ebben is), újra megállt az egyik, ip-konzolon a következő képernyő fogadott:
exim[30154]: 2011-04-22 08:59:33 Start queue run: pid=30154
exim[30154]: 2011-04-22 08:59:33 Cannot open main log file "/var/log/exim4/mainlog": Read-only file system: euid=0 egid=108
exim[30154]: exim: could not open panic log - aborting: see message(s) above
[4465698.343391] end_request: I/O error, dev cciss/c0d0, sector 18946712
[4465698.343498] end_request: I/O error, dev cciss/c0d0, sector 18946712
[4465698.343639] end_request: I/O error, dev cciss/c0d0, sector 39455767
[4465698.343693] Read-error on swap-device (104:0:39455775)
[4465698.343742] Read-error on swap-device (104:0:39455783)
[4465698.343791] Read-error on swap-device (104:0:39455791)
[4465698.343839] Read-error on swap-device (104:0:39455799)
[4465698.343887] Read-error on swap-device (104:0:39455807)
[4465698.343936] Read-error on swap-device (104:0:39455815)
[4465698.343985] Read-error on swap-device (104:0:39455823)
[4465698.344034] Read-error on swap-device (104:0:39455831)
[4465698.351856] end_request: I/O error, dev cciss/c0d0, sector 17103480
[4465698.351946] end_request: I/O error, dev cciss/c0d0, sector 17103488
[4465897.236938] end_request: I/O error, dev cciss/c0d0, sector 2238592
[4465897.237100] end_request: I/O error, dev cciss/c0d0, sector 2238600
[4465897.237388] end_request: I/O error, dev cciss/c0d0, sector 2229488
[4465897.237506] end_request: I/O error, dev cciss/c0d0, sector 2229512
[4465897.237620] end_request: I/O error, dev cciss/c0d0, sector 2229544
[4465897.237773] end_request: I/O error, dev cciss/c0d0, sector 2229544
[4465897.237962] Kernel panic - not syncing: Attempted to kill init!
A hpacucli (8.28-14_i386)-t sikerült beüzelelnem, az egyik gépen a diag kimenetében ilyen sorok vannak:
Smart Array P410 in slot 4 : Storage Enclosure 1 : Drive Cage on Port 1I : Physical Drive 1I:1:1 : Serial SCSI Physical Drive Error Log
Errors Logged 1545 (0x00000609)
--
Smart Array P410 in slot 4 : Storage Enclosure 1 : Drive Cage on Port 1I : Physical Drive 1I:1:2 : Serial SCSI Physical Drive Error Log
Errors Logged 4767 (0x0000129f)
--
Smart Array P410 in slot 4 : Storage Enclosure 1 : Drive Cage on Port 1I : Physical Drive 1I:1:3 : Serial SCSI Physical Drive Error Log
Errors Logged 6756 (0x00001a64)
--
Smart Array P410 in slot 4 : Storage Enclosure 1 : Drive Cage on Port 1I : Physical Drive 1I:1:4 : Serial SCSI Physical Drive Error Log
Errors Logged 4314 (0x000010da)
Az lspci -v kimenete
05:00.0 RAID bus controller: Hewlett-Packard Company Smart Array G6 controllers (rev 01)
Subsystem: Hewlett-Packard Company Smart Array P410
Flags: bus master, fast devsel, latency 0, IRQ 30
Memory at fb800000 (64-bit, non-prefetchable) [=4M]
Memory at fbdff000 (64-bit, non-prefetchable) [=4K]
I/O ports at d800 [=256]
Expansion ROM at fbd00000 [disabled] [=512K]
Capabilities: [40] Power Management version 3
Capabilities: [50] MSI: Enable- Count=1/1 Maskable- 64bit+
Capabilities: [70] Express Endpoint, MSI 00
Capabilities: [ac] MSI-X: Enable+ Count=16 Masked-
Capabilities: [100] Advanced Error Reporting
Kernel driver in use: cciss
Jó lenne valahogy a szerverek üzembiztosabb működéséig eljutni, mert biztos vagyok benne, hogy ez meg fog ismétlődni. Minden építő ötletet szívesen fogadok!