Sziasztok!
Készítettünk tavaly egy 3 gépes barkács "szerver-klasztert", HP ML150-G6 gépekkel Smart Array P410/Zero cache vezérlővel, 2x1T (SAMSUNG HD103SJ) + 2x500G (SAMSUNG HD502HJ) vinyókkal páronként RAID1-be rakva a vezérlő bios-ában. Első kernele a gyári Lenny-s linux-headers-2.6.26-2-686 volt. Hosting-ba kerüléskor az egyik gép cciss-hibával megakadt (sajnos pont emiatt nincs egyik esetről sem logom, mert readonly lett a /var is), majd reboot után "1779 POST message" volt, amiből boot-ig csak F2-vel kilépéssel lehetett eljutni.
Azóta többször is mindegyik gép megállt (volt / readonly-ra váltás, és kernel panic) már ilyen hibával és úgy gondoltam, hogy talán a Squeeze upgrade segíthet. Két héttel Miután 2.6.32-5-686 kernellel squeeze-re upgradeltem a gépeket (a cciss modul verziója pont ugyanaz ebben is), újra megállt az egyik, ip-konzolon a következő képernyő fogadott:
exim[30154]: 2011-04-22 08:59:33 Start queue run: pid=30154
exim[30154]: 2011-04-22 08:59:33 Cannot open main log file "/var/log/exim4/mainlog": Read-only file system: euid=0 egid=108
exim[30154]: exim: could not open panic log - aborting: see message(s) above
[4465698.343391] end_request: I/O error, dev cciss/c0d0, sector 18946712
[4465698.343498] end_request: I/O error, dev cciss/c0d0, sector 18946712
[4465698.343639] end_request: I/O error, dev cciss/c0d0, sector 39455767
[4465698.343693] Read-error on swap-device (104:0:39455775)
[4465698.343742] Read-error on swap-device (104:0:39455783)
[4465698.343791] Read-error on swap-device (104:0:39455791)
[4465698.343839] Read-error on swap-device (104:0:39455799)
[4465698.343887] Read-error on swap-device (104:0:39455807)
[4465698.343936] Read-error on swap-device (104:0:39455815)
[4465698.343985] Read-error on swap-device (104:0:39455823)
[4465698.344034] Read-error on swap-device (104:0:39455831)
[4465698.351856] end_request: I/O error, dev cciss/c0d0, sector 17103480
[4465698.351946] end_request: I/O error, dev cciss/c0d0, sector 17103488
[4465897.236938] end_request: I/O error, dev cciss/c0d0, sector 2238592
[4465897.237100] end_request: I/O error, dev cciss/c0d0, sector 2238600
[4465897.237388] end_request: I/O error, dev cciss/c0d0, sector 2229488
[4465897.237506] end_request: I/O error, dev cciss/c0d0, sector 2229512
[4465897.237620] end_request: I/O error, dev cciss/c0d0, sector 2229544
[4465897.237773] end_request: I/O error, dev cciss/c0d0, sector 2229544
[4465897.237962] Kernel panic - not syncing: Attempted to kill init!
A hpacucli (8.28-14_i386)-t sikerült beüzelelnem, az egyik gépen a diag kimenetében ilyen sorok vannak:
Smart Array P410 in slot 4 : Storage Enclosure 1 : Drive Cage on Port 1I : Physical Drive 1I:1:1 : Serial SCSI Physical Drive Error Log
Errors Logged 1545 (0x00000609)
--
Smart Array P410 in slot 4 : Storage Enclosure 1 : Drive Cage on Port 1I : Physical Drive 1I:1:2 : Serial SCSI Physical Drive Error Log
Errors Logged 4767 (0x0000129f)
--
Smart Array P410 in slot 4 : Storage Enclosure 1 : Drive Cage on Port 1I : Physical Drive 1I:1:3 : Serial SCSI Physical Drive Error Log
Errors Logged 6756 (0x00001a64)
--
Smart Array P410 in slot 4 : Storage Enclosure 1 : Drive Cage on Port 1I : Physical Drive 1I:1:4 : Serial SCSI Physical Drive Error Log
Errors Logged 4314 (0x000010da)
Az lspci -v kimenete
05:00.0 RAID bus controller: Hewlett-Packard Company Smart Array G6 controllers (rev 01)
Subsystem: Hewlett-Packard Company Smart Array P410
Flags: bus master, fast devsel, latency 0, IRQ 30
Memory at fb800000 (64-bit, non-prefetchable) [=4M]
Memory at fbdff000 (64-bit, non-prefetchable) [=4K]
I/O ports at d800 [=256]
Expansion ROM at fbd00000 [disabled] [=512K]
Capabilities: [40] Power Management version 3
Capabilities: [50] MSI: Enable- Count=1/1 Maskable- 64bit+
Capabilities: [70] Express Endpoint, MSI 00
Capabilities: [ac] MSI-X: Enable+ Count=16 Masked-
Capabilities: [100] Advanced Error Reporting
Kernel driver in use: cciss
Jó lenne valahogy a szerverek üzembiztosabb működéséig eljutni, mert biztos vagyok benne, hogy ez meg fog ismétlődni. Minden építő ötletet szívesen fogadok!
- 8218 megtekintés
Hozzászólások
Nekem több Debianom (Lenny) is fut cciss-sel p410-en. Soha nem láttam hibát. A logod meg "Physical Drive Errort ír".
-------------------------
E-learning szolgáltatások nyílt alapokon
Weblap és Bemutató rendszer
- A hozzászóláshoz be kell jelentkezni
A vinyóknál lévő számok HD502HJ: 4228, 3906, 4518, 4102, 1550, 4770. HD103SJ: 5544, 6357, 2106, 4110, 6757, 4315. Emiatt nekem nem igazán látszik annak, ami a neve.
- A hozzászóláshoz be kell jelentkezni
A hpacucli mit mond ha ezt mondod neki: ctrl all show config detail ?
- A hozzászóláshoz be kell jelentkezni
Ezt mondja:
Smart Array P410 in Slot 4
Bus Interface: PCI
Slot: 4
Serial Number: PACCR9SYP7ZM
RAID 6 (ADG) Status: Disabled
Controller Status: OK
Chassis Slot:
Hardware Revision: Rev C
Firmware Version: 2.74
Rebuild Priority: Medium
Expand Priority: Medium
Surface Scan Delay: 15 secs
Post Prompt Timeout: 0 secs
Cache Board Present: False
Drive Write Cache: Disabled
SATA NCQ Supported: True
Array: A
Interface Type: SATA
Unused Space: 0 MB
Status: OKLogical Drive: 1
Size: 465.7 GB
Fault Tolerance: RAID 1
Heads: 255
Sectors Per Track: 32
Cylinders: 65535
Stripe Size: 128 KB
Status: OK
Array Accelerator: Disabled
Unique Identifier: 600508B100105239535950375A4D0300
Disk Name: /dev/cciss/c0d0
Mount Points: /boot 188 MB, / 9.3 GB, /var 9.3 GB, none 3.7 GB, /opt 372.5 GB
Logical Drive Label: A050A907PACCR9SYP7ZM544D
Mirror Group 0:
physicaldrive 1I:1:1 (port 1I:box 1:bay 1, SATA, 500 GB, OK)
Mirror Group 1:
physicaldrive 1I:1:2 (port 1I:box 1:bay 2, SATA, 500 GB, OK)physicaldrive 1I:1:1
Port: 1I
Box: 1
Bay: 1
Status: OK
Drive Type: Data Drive
Interface Type: SATA
Size: 500 GB
Firmware Revision: 1AJ10001
Serial Number: S20BJ90Z953208
Model: ATA SAMSUNG HD502HJ
SATA NCQ Capable: True
SATA NCQ Enabled: True
PHY Count: 1
PHY Transfer Rate: 3.0GBPS
physicaldrive 1I:1:2
Port: 1I
Box: 1
Bay: 2
Status: OK
Drive Type: Data Drive
Interface Type: SATA
Size: 500 GB
Firmware Revision: 1AJ10001
Serial Number: S20BJ90Z953203
Model: ATA SAMSUNG HD502HJ
SATA NCQ Capable: True
SATA NCQ Enabled: True
PHY Count: 1
PHY Transfer Rate: 3.0GBPSArray: B
Interface Type: SATA
Unused Space: 0 MB
Status: OKLogical Drive: 2
Size: 931.5 GB
Fault Tolerance: RAID 1
Heads: 255
Sectors Per Track: 32
Cylinders: 65535
Stripe Size: 128 KB
Status: OK
Array Accelerator: Disabled
Unique Identifier: 600508B100105239535950375A4D0400
Disk Name: /dev/cciss/c0d1
Mount Points: None
Logical Drive Label: A050B9CCPACCR9SYP7ZM6362
Mirror Group 0:
physicaldrive 1I:1:3 (port 1I:box 1:bay 3, SATA, 1TB, OK)
Mirror Group 1:
physicaldrive 1I:1:4 (port 1I:box 1:bay 4, SATA, 1TB, OK)physicaldrive 1I:1:3
Port: 1I
Box: 1
Bay: 3
Status: OK
Drive Type: Data Drive
Interface Type: SATA
Size: 1TB
Firmware Revision: 1AJ10001
Serial Number: S246J9EZ904141
Model: ATA SAMSUNG HD103SJ
SATA NCQ Capable: True
SATA NCQ Enabled: True
PHY Count: 1
PHY Transfer Rate: 3.0GBPS
physicaldrive 1I:1:4
Port: 1I
Box: 1
Bay: 4
Status: OK
Drive Type: Data Drive
Interface Type: SATA
Size: 1TB
Firmware Revision: 1AJ10001
Serial Number: S246J9EZ904131
Model: ATA SAMSUNG HD103SJ
SATA NCQ Capable: True
SATA NCQ Enabled: True
PHY Count: 1
PHY Transfer Rate: 3.0GBPS
- A hozzászóláshoz be kell jelentkezni
Hát akkor nincs más hátra mint próba az fw upgrade-el.
- A hozzászóláshoz be kell jelentkezni
Köszönöm, rajta leszek!
- A hozzászóláshoz be kell jelentkezni
Még 1. A HP saját firmware-t húz a HDD-ire. Én még sosem használtam nem HP winyóval.
-------------------------
E-learning szolgáltatások nyílt alapokon
Weblap és Bemutató rendszer
- A hozzászóláshoz be kell jelentkezni
a HP a saját FW-vel bizonyos dolgokban többet tud(hat), pl pre-failure (azaz a hiba megjelenése előtt szól. még smart előtt)
- A hozzászóláshoz be kell jelentkezni
+1
dögivel használunk P410-eket, (kártyát is, meg integráltat is) és soha semmi bajunk nem volt velük...
tény viszont, hogy mindenhol van BBWC.
... no, és SAS diszkek vannak...
- A hozzászóláshoz be kell jelentkezni
samsung.
Tökéletes választás volt.
Így most nem is értem, miért nem érted.
- A hozzászóláshoz be kell jelentkezni
:)
- A hozzászóláshoz be kell jelentkezni
:-)
p.s.:
Smart Array P400 in slot 11 : Physical Drive 1I:0:1 : Physical Drive Status
SCSI Bus 0 (0x00)
SCSIID 0 (0x00)
Block Size 512 Bytes Per Block (0x0200)
Total Blocks 1.4 TB (0xaea87b30)
Reserved Blocks 0x00010000
Drive Model ATA SAMSUNG HD154UI
Drive Serial Number S1XWJ1KSB01074
Drive Firmware Revision 1AG01118
SCSI Inquiry Bits 0x02
Compaq Drive Stamped Stamped For Monitoring (0x01)
Last Failure Reason No Failure (0x00)
:-P hónapok óta megy, de van 3 másik tömböm(8disk/array) ami 1,5éve megy és csak 1 disk hiba volt. Olcsó volt pótolni.
- A hozzászóláshoz be kell jelentkezni
tippelek, de szerintem nem raktad fel a legutolsó fw upgradet (support.hp.com). érdemes.
dugd össze az ILO-t is, így a megakadt szervernek a képét is láthatod (főleg, ha az ASR-t kikapcsolod :-)
btw, a P410, zero-memory-val, hát... érdemes lenne legalább a 256M BBWC modult megvenni ~30e árban.
durván sokat tud nyújtani a battery backed write cache
- A hozzászóláshoz be kell jelentkezni
Jó a tipp, valóban nem tettem fel upgrade-t, ki fogom próbálni. Az ILO-hoz igazán nem szagoltam eddig, utánaolvasok.
A zero memory azért van, mert drbd-s fs van két gép között és valahol azt olvastam, hogy úgyis ki kellene kapcsolni a write cache-t ha lenne.
- A hozzászóláshoz be kell jelentkezni
Ez a write cache nem az a write cache. :) Minden esetre olvasásban is igen sokat segít, mert még olyat is lehet SmartArraynek mondani hogy 100%-osan csak read cache legyen.
- A hozzászóláshoz be kell jelentkezni
hoppá... %-P
- A hozzászóláshoz be kell jelentkezni
Valszin a drbd-nél a diszkek write kessére gondoltak, ami egy jó gondolat, de szerintem borzalmasan lassít. A probléma az, hogy áramszünet esetén (ami hostingban azért ritka) vagy géphalálkor egy inkonziztens állapotra elég nagy esély lesz a diszken. Az OS ugyanis azt hiszi, hogy kiírta a diszkre a cuccot, de közben meg még kessben csücsül. Ez ellen csak valamennyire véd ha mondjuk journal módban csatolsz egy filerendszert.
A hw raid vezérlőkön levő cache viszont saját kis elemmel védett és ha elmegy az áram, akkor rebootkor még tud egy flush cache-t csinálni. Tudomásom szerint a hw raid kártyák egyébként ki is kapcsolják a diszkeken a write cache-t, ezért is kerül a jobbakra már elég masszív (256MB-1GB vagy több) cache.
- A hozzászóláshoz be kell jelentkezni
Esélyes, hogy kikapcsolják illetve - specifikusan a HP P4-6-800 esetében (ami már SATA) BE is lehet kapcsolni a drive write cache-t, de külön felhívja a figyelmedet arra, hogy ezt csak akkor tedd meg, ha van UPS, ami shutdown-t is csinál, ellenkező esetben garantált az adatvesztés.
Specifikusan DRBD esetén én inkább használnék 4-6 (esetleg 8) lemezt raid10-ben mint 2-2 db-t tükörben. (persze kérdés, hogy mire használod a DRBD-t, de gondolom szolgáltatás fut rajta :-)
- A hozzászóláshoz be kell jelentkezni
Két gépen postgres-data és postgres-wal van szétválasztva a két drbd eszközre (a data az 1T-s, a wal az 500G-s RAID1 eszközön van).
- A hozzászóláshoz be kell jelentkezni
99% h jobban járnál 4db uolyan diskkel, esetleg javasolnám inkább vagy a HP midline diszkeket (~60-65e+áfa/db) ha nagy kapacitást akarsz (esetleg pl Seagate 7200 SAS disk), vagy legalább a WD 64mbyte cache-el szállított Raid Edition szériát.
- A hozzászóláshoz be kell jelentkezni
Sajnos a hardver-összetételen jelenleg nem tudok módosítani, gyakorlatilag "adott". Mivel összesen 12db HDD-re volt szükség, itt a RAID-ben az "I" inexpensive-t jelent :-/
- A hozzászóláshoz be kell jelentkezni
Pedig a P410i csak integrált. :) Minden esetre gondolom van fejlesztési terv és nem a világ végéig fognak ugyanezek a vinyók menni, tehát be lehet későbbre tervezni upgrade-et.
Szerk: Néha az occó megoldásokba belementem énis, aztán jöttek a fentihez hasonló bökkenők. Aztán elegünk lett és érdekes módon az enterspájz cuccokkal gyakorlatilag nincs gondunk és még jobban is lehet hajtani őket.
- A hozzászóláshoz be kell jelentkezni
Fejlesztési terv... az nincsen. A vasak egyébként tapasztalat hiányában kb. hasraütésszerűen lettek választva (ML150-el van némi tapasztalatunk, G2-esek is elbírták a terhelést, csak olyat már nem tudtunk újonnan beszerezni). Adott volt, hogy mekkora tárkapacitás kell és a 3db vasra elkölthető keret. Jelen teljesítményük a vasaknak elegendő lenne, ha nem állnának le véletlenszerűen.
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
Valamiért külön eszközre akartuk, hogy kerüljön a postgres és a postgres-wal, ez az ok.
- A hozzászóláshoz be kell jelentkezni
Én a SAS-t javasolnám Seagate-éktől (7200rpm constellation szinten). Ha már enterspájz diszk és ott a SAS vezérlő, akkor egy 256MB bbwc upgrade-el egybekötött SAS vinyóra upgrade-et is megejtenék. Tudom, hogy ez nem filléres dolog, de a minőségnek ára van.
- A hozzászóláshoz be kell jelentkezni
Igen, ezek is jók. Árban a HP Midline sincsen elszállva (azok asszem szintén SAS felületű - belül SATA - diskek)
- A hozzászóláshoz be kell jelentkezni
Sajnos a firmware upgrade óta még rosszabb a helyzet, 3naponta megállnak a vasak, folyton reseteltetni kell őket. Megnéztem a HP Midline-t, ez a vinyó és ez lenne, ami árban nincs elszállva? 0sszegezve mondjuk a három gépre kb. 960678Ft-t kellene költeni, hogy üzembiztosak legyenek?
Esetleg ilyen félével mernék belevágni a samsungok lecserélésébe "HPQ 3.5" HDD SATA-II 1TB 7200rpm 3.0Gb/s, 8MB Cache NCQ", vagy ennek nincs értelme?
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
+1 a SAS-nak.
- A hozzászóláshoz be kell jelentkezni
Köszönöm az infót! Ha a SAS-al számolok, akkor olyan ár jön ki a 12db vinyóra, mint amennyi a teljes klaszterre volt összesen. Sajnos ilyen cserét biztosan nem tudok keresztülvinni :(
- A hozzászóláshoz be kell jelentkezni
félreérthettél vmit, pedig odaírtam a PN-eket. A két vinyó között minimális eltérés van árban (kevesebb mint 10%). Az egyik SATA kívűl belül, amíg a másik kívűlre SAS (és belül SATA).
- A hozzászóláshoz be kell jelentkezni
Az a SAS vinyó kívül belül SAS, legfeljebb a mechanika egyezik. A SAS előnye (a raid vezérlőt tekintve), hogy 6Gbps ÉS full duplexen működik. Ezen kívül még a command set is enterspájzabb kicsit.
- A hozzászóláshoz be kell jelentkezni
nem kételkedek ebben, de azért a 7200rpm, 1T SAS csatolós (midline) vinyó nem egyezik meg
a 10-15k rpm, (jelenleg max) 450G (esetleg 600G?) SAS vinyókkal.
Sem tudásban, sem árban - de mindenképpen felette áll a normál SATA vinyóknak.
- A hozzászóláshoz be kell jelentkezni
Mindegyik szerveren megcsináltam az upgrade-t ezzel CP014169.scexe
és újra is indítottam őket. Ha legközelebb bármelyik lehal mindenképp jelentkezem. Az iLO-t egyelőre nem tudom kipróbálni, mert a bios-ban nem néztem utána így még abban sem vagyok biztos, hogy a vasak tudnak-e ilyet.
- A hozzászóláshoz be kell jelentkezni
tudnak. hponcfg-vel beállíthatod az ipcímet (default dhcp), a dobozon fityegő fecnin a user/pass - de külön eth kábel kell neki :-)
- A hozzászóláshoz be kell jelentkezni
Próbáltam a HPONCFG-t feltenni. Nem igazán sikerült, mivel a csomag a hp-health-tól függ, az viszont ezt írja:
Selecting previously deselected package hp-health.
(Reading database ... 55250 files and directories currently installed.)
Unpacking hp-health (from .../hp-health_8.5.0.1.2-1_i386.deb) ...
Setting up hp-health (8.5.0.1.2-1) ...
ERROR: This Server is NOT Supported!
Error: No supported management controller found
invoke-rc.d: initscript hp-health, action "start" failed.
Ha megerőltetem és mégis felrakom, akkor ezt mondja:
# hponcfg
HPONCFG RILOE II/iLO setup and configuration utility
Version 3.1.0 (c) Hewlett-Packard Company, 2010
ERROR: Could not find the iLO/RILOE-II Device Node.
Please check if the iLO driver module is installed and running properly.
ACTION REQUIRED: Install/Re-install hp Lights-Out driver package('hp-ilo' RPM) for iLO.
Valamit biztos kihagytam, ezzel próbálkoztam ahova innen jutottam.
- A hozzászóláshoz be kell jelentkezni
bocs, igazad van, én néztem el (vmiért ML 350-et olvastam). Ebben olyan ILO van amivel a képet át tudod venni, és státuszt ott megnézni, de a HP Linuxos cuccait nem támogatják (viszont az ILO advanced kódot megeszi).
- A hozzászóláshoz be kell jelentkezni
Sokat szívtam Samsung vinyókkal (F3EG, F4EG) a hibás NCQ kezelés miatt. Ez csak nagyobb terhelésnél jött elő és nem is mindig, de időről időre megjelent újra.
Létezik ehhez a típushoz (F3) is FW patch.
Ezt fel kell tolni rájuk (mindegyikre) DOS-ból (USB drive, CD, floppy :) lehetőleg egy egyszerű PC-n indítva.
A RAID upgrade is erősen javasolt, sőt kötelező, 3.52-nél ez olvasható a HP support oldalain:
Fixes:
Fix for an incomplete or problematic data transfer issue on RAID 0 or RAID 1 volumes, which may occur under heavy I/O workloads. This issue may happen when array accelerator cache-bypassed write operations take place on a common small Logical Block Addressing (LBA) region on the drive, following multiple discontinuous non-overlapping cached writes.
illetve:
Fix to resolve the rare potential for a data transfer from an incorrect host memory address. This issue is associated with read or write operations that span 8 GB (or higher) address boundaries in non-Windows OS using Physical Address Extensions.
Kezdd amelyikkel gondolod, én a helyedben mindegyiket upgradelném egyiket a negatív tapasztalatok, másikat a support oldalon található infók miatt.
- A hozzászóláshoz be kell jelentkezni
Köszönöm a tippeket, amennyiben így a RAID upgrade után is előkerül a probléma a HD103SJ vinyók firmware-ével fogom folytatni (csak azért nem most, mert jó messze vagyok a hostingtól és mert jelenleg nincs jogom megbontani odabenn a gépet).
szerk1: Jelenleg ezt a nem túl bíztató dolgot mondja a hpacucli diag eleje (mind3 gépen):
Smart Array P410 in slot 4 : Device Error Report Device Severity Error -------------------------- -------- ------------------------------------------------------------------------------------------------------------------------------- Smart Array P410 in slot 4 Warning Bootstrap NVRAM image failed checksum test, but a backup image was found and successfully restored. A system restart is needed.
szerk2:
Ami persze csak ijesztgetés volt, egy következő reboot után már nincs benne, a firmware verzió viszont az új.
- A hozzászóláshoz be kell jelentkezni
Sajnos tegnap ismét volt egy kis felakadás (3-ból 2db szerver állt meg). Semmit sem tudtam velük kezdeni, csak áramtalanításos reboot-ra reagáltak, előtte ez volt a konzolon:
[286046.038555] INFO: task kjournald:1026 blocked for more than 120 seconds.
[286046.038608] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[286046.038773] INFO: task rs:main Q:Reg:1323 blocked for more than 120 seconds.
[286046.038828] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[286046.039051] INFO: task postgres:13846 blocked for more than 120 seconds.
[286046.039104] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[286165.972949] INFO: task kjournald:333 blocked for more than 120 seconds.
[286165.973005] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[286165.973200] INFO: task flush-104:0:426 blocked for more than 120 seconds.
[286165.973255] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[286165.973458] INFO: task kjournald:1025 blocked for more than 120 seconds.
[286165.973511] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[286165.973681] INFO: task kjournald:1026 blocked for more than 120 seconds.
[286165.973734] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[286165.973900] INFO: task rs:main Q:Reg:1323 blocked for more than 120 seconds.
[286165.973955] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
Ez az új sor került be a hpacucli diag kimenetébe:
Yet More Controller Flags Controller Flag Status
---------------------------------------------- -------------
...
A controller lockup has occurred Warning
- A hozzászóláshoz be kell jelentkezni
http://en.wikipedia.org/wiki/Time-Limited_Error_Recovery#Overview
Nem lehet, hogy ilyenbe futsz bele?
- A hozzászóláshoz be kell jelentkezni
Ez is lehet. S.M.A.R.T-értékeket nem sikerült a vinyókról kapnom ('smartctl -d cciss,X -a /dev/cciss/c0d0'-vel próbálkoztam). Még nem tudom hogyan lehetne megtudni, hogy ezek CCTL-esek, esetleg valahogy állítgatni rajtuk. Próbálok utánanézni.
$ ./smartctl -d cciss,3 -a /dev/cciss/c0d0
smartctl 5.41 2011-04-30 r3320 [i686-linux-2.6.32-5-686] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.netUser Capacity: 1,000,204,886,016 bytes [1.00 TB]
Logical block size: 512 bytes
Logical Unit id: 0x50024e92034a4311
Serial number: S246J9EZ904131
Device type: disk
Local Time is: Mon May 2 16:08:48 2011 CEST
Device supports SMART and is Disabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]
Read defect list: asked for grown list but didn't get itError Counter logging not supported
Device does not support Self Test logging
- A hozzászóláshoz be kell jelentkezni
"Device supports SMART and is Disabled"
Kapcsold be a smartot. :)
- A hozzászóláshoz be kell jelentkezni
Sajnos elég furán reagál rá, még az addigi infót (serial, valódi méret) is elrejti.
# ./smartctl -d cciss,1 -a /dev/cciss/c0d0
smartctl 5.41 2011-04-30 r3320 [i686-linux-2.6.32-5-686] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.netUser Capacity: 500,107,862,016 bytes [500 GB]
Logical block size: 512 bytes
Logical Unit id: 0x50024e9203696edd
Serial number: S20BJ90Z953203
Device type: disk
Local Time is: Mon May 9 12:35:19 2011 CEST
Device supports SMART and is Disabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]
Read defect list: asked for grown list but didn't get itError Counter logging not supported
Device does not support Self Test logging
# ./smartctl -d cciss,1 --smart=on /dev/cciss/c0d0
smartctl 5.41 2011-04-30 r3320 [i686-linux-2.6.32-5-686] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.netInformational Exceptions (SMART) disabled
Temperature warning disabled
# ./smartctl -d cciss,1 -a /dev/cciss/c0d0
smartctl 5.41 2011-04-30 r3320 [i686-linux-2.6.32-5-686] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.netUser Capacity: 2,199,023,255,552 bytes [2.19 TB]
Logical block size: 512 bytes
Serial number:
Device type: disk
Local Time is: Mon May 9 12:35:29 2011 CEST
Device supports SMART and is Disabled
Temperature Warning Disabled or Not Supported
Log Sense failed, IE page [scsi response fails sanity test]
Read defect list: asked for grown list but didn't get itError Counter logging not supported
Device does not support Self Test logging
- A hozzászóláshoz be kell jelentkezni
Hmhm, igen ez előfordult már nem "enterspájz" vinyóval. Ezzel sokkal többet nem tudsz tenni valszin.
- A hozzászóláshoz be kell jelentkezni
Köszönöm mindenkinek az ötleteit, sajnos a milliós HDD upgrade-n kívüli próbálkozásaim nem vezettek eredményre, ezért felindulásból a P410-es vezérlőket kiszereltük a szerverekből és a RAID1-ekből 1-1db HDD-t megtartva az alaplapra kötöttük őket. Azóta a SMART olvasható és semmilyen hibát nem ír a HDD-knél, igaz még csak két hét telt el.
Konlkúzió: A RAID-vezérlő immunrendszere kifogott a barkács-megoldáson.
- A hozzászóláshoz be kell jelentkezni
Konklúziónak inkább azt vonnám le, hogy a P410-es vezérlő nem működik jól a Samsung desktop vinyókkal.
(WD SATA és Seagate SAS vinyókkal biztosan jól megy, a HP hotswap vinyókról nem is beszélve).
Btw: ha kiszámolod, hogy a p410 (új) ára simán magasabb mint 8db 1T WD1003FBYX, így nem teljesen értem a logikát
miért inkább a vezérlőt hajítod a vinyók helyett (amiket egy desktop gépben vígan használhatnál)
- A hozzászóláshoz be kell jelentkezni
Azért dobtam a vezérlőt a többi megoldás helyett, mert minden egyéb megoldás ehhez képest sok pénzbe került volna.
- A hozzászóláshoz be kell jelentkezni
exim[30154]: 2011-04-22 08:59:33 Cannot open main log file "/var/log/exim4/mainlog": Read-only file system: euid=0 egid=108
exim[30154]: exim: could not open panic log - aborting: see message(s) above
[4465698.343391] end_request: I/O error, dev cciss/c0d0, sector 18946712
[4465698.343498] end_request: I/O error, dev cciss/c0d0, sector 18946712
<---
ilyenekkel egy hibás scsi vezérlő boldogított...
- A hozzászóláshoz be kell jelentkezni
Cimborám hasonlóval küzd egy ML150 G6-on, csak Windows alatt (de szerintem ez a probléma szempontjából irreleváns)
2xHP SAS disk RAID1-ben: system
2xWD Green SATA disk RAID1-ben: adat
A SATA-kból álló RAID-et időnként hw szinten dobja a rendszer.
A gép firmware (BIOS, Array controller[P410]) frissítésein túl vagyunk, de a WD winyókhoz nem találunk frisebb fw-t (egyáltalán semmilyet)
Okozhatja a problémát a vegyes SAS SATA környezet egy bay-ben, vagy esetleg a nem HP SAS a probléma önmagában?
THX!
--
e0:deb
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
A nem HP SAS/SATA elvileg nem kéne gondot okozzon, viszont nekem is voltak érdekes problémáim WD Green vinyókkal. Elsőre a WD Green vinyókat cserélném Seagate-re vagy Hitachi-ra.
Ua. vezérlő simán eszi a vegyes vinyókat, de egy tömb CSAK SAS vagy SATA lehet.
- A hozzászóláshoz be kell jelentkezni
+1
konkrétan a WD firmware command timeout-ja nagyobb, mint amit a kontroller hajlandó várni a diszkre.
- A hozzászóláshoz be kell jelentkezni
sub
- A hozzászóláshoz be kell jelentkezni