Adaptec RAID kartya nem valaszol az arcconf-nak

Megint egy fura kerdes: az mitol lehet, hogy egy egyebkent latszolag jol mukodo kartya nem valaszol az arcconfig-nak? Illetve ez se teljesen igaz, ha a Nagios sokat probalkozik (azzal figyeljuk a tombok allapotat), neha (orankent egyszer-ketszer, teljesen random) kap valami valaszt, amitol lenyugszik, aztan megint semmi. Most lottem ki vagy 5 arcconf processzt, illetve letiltottam a szerviz ellenorzeset a nagiosban, mert ez igy fork bomb.

Nem tudom, hogy kapcsolodik-e ehhez, de a syslogban is vannak ilyen fura uzenetek:


Jul 30 00:15:34 ice2 kernel: [  506.798766] aacraid: Host adapter abort request (0,0,0,0)
Jul 30 00:15:34 ice2 kernel: [  506.798810] aacraid: Host adapter abort request (0,0,0,0)
Jul 30 00:15:34 ice2 kernel: [  506.798890] aacraid: Host adapter reset request. SCSI hang ?

Az elso ket uzenetbol tobb tiz van. Neten olvasgatva a firmware frissitestol a kartya kidobasaig sokfele tanacsot adtak, de mivel nem igazan ertem, mi baja lehet, semerre se merek elindulni.

Maga az adapter ezzel egyutt jol mukodik, ir es olvas, csak zavar, hogy monitorozni nem tudom.

Mivel nem ismerem az Adapter RAID kartyakat, nem tudom, merre tudnek elindulni.

Nem tudom fejbol az Adaptec kartya tipusat, de valami ujfajta cucc (az egesz gep van kb. ket hetes), RAID 10 van rajta, illetve:


RAID bus controller [0104]: Adaptec AAC-RAID [9005:0285] (rev 09)

Elore is koszonom a segitseget.

Hozzászólások

dmesg-et kérek, please.

az storage managert (arcconf) honnan lőtted? adaptec.com-ról? milyen verzió?

csak nem ez a verzió? (dmesgben latszik)

Adaptec aacraid driver 1.1-5[26400]-suse

ha igen, akkor számíthatsz ilyenekre is:
1.
kernel: sd 0:0:0:0: SCSI error: return code = 0x06000000
kernel: end_request: I/O error, dev sda, sector 112289
kernel: aacraid: Host adapter abort request (0,0,0,0)
kernel: aacraid: Host adapter reset request. SCSI hang ?
kernel: aacraid: Host adapter abort request (0,0,0,0)
kernel: aacraid: Host adapter reset request. SCSI hang ?
kernel: aacraid: Host adapter abort request (0,0,0,0)
kernel: aacraid: Host adapter reset request. SCSI hang ?
kernel: aacraid: Host adapter abort request (0,0,0,0)
kernel: aacraid: Host adapter reset request. SCSI hang ?
kernel: aacraid: Host adapter abort request (0,0,0,0)
kernel: aacraid: Host adapter reset request. SCSI hang ?
kernel: aacraid: Host adapter abort request (0,0,0,0)
kernel: aacraid: Host adapter reset request. SCSI hang ?
kernel: sd 0:0:0:0: SCSI error: return code = 0x06000000
kernel: end_request: I/O error, dev sda, sector 112313
kernel: Buffer I/O error on device sda1, logical block 14039
kernel: lost page write due to I/O error on sda1

2.
aacraid: Host adapter abort request (8,0,0,0)
aacraid: Host adapter abort request (8,0,0,0)
aacraid: Host adapter abort request (8,0,0,0)
aacraid: Host adapter reset request. SCSI hang ?
AAC: Host adapter BLINK LED 0x7
AAC0: adapter kernel panic'd 7.

Elég ritkán jön amúgy, nálunk 100+ db X6270-es bladen jött eddig összesen 4szer ~2 év alatt.
Ez a workaround nem segit(ett nekem)
http://niyaas.blogspot.com/2009/01/aacraid-based-controllers-timing-out…

Nekünk az Adaptec a firmware frissítést javasolta (mi mást), de a vevő nem csinálta meg, szóval nem tudom, hogy segítene-e.


Jul 30 00:07:16 ice2 kernel: [    0.692683] Adaptec aacraid driver 1.1-7[28000]-ms

@ Debian 6.0.x

A workaroundot kiprobalom, most uritettem a dmesg-et, holnap jelzek, hogy van-e valami.

Szerk: eddig bevalt, az uzenet eltunt. Koszonom.

Arcconf meg mindig nem menik.
--

Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal 

az adaptec oldaláról letöltött állományhoz mellékelt readme alapján csináltam, gyak. a bonyolultsága azonos egy mobo bios-upgrade-del, semmi extra. 2012 áprilisi firmware fájl volt az enyémhez. A storemanagert nem próbáltad monitorozáshoz? tudom hogy egy rémálom ez a javás cucc (nekem pl. a szökőmásodperces dolognál berohadt a java 100% CPU-terheléssel), de ideiglenesen megnézhetnéd, vajon a klienst is ledobálja?

--
"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség

Nem probaltam meg, mivel a gep teljesen el van szigetelve a kulvilagtol (ez egy backup szerver), ssh-zni is hop szerveren keresztul tudok csak ra (ProxyCommand ssh hop /bin/nc 1.2.3.4 22). Viszonylag korulmenyes lenne hozzaferni.
--

Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal 

Letoltom, elinditom, es nezhetem a processzek kozt, mert ha jol sejtem, ez vagy valami grafikus cucc, vagy webes cucc. Egyikkel se vagyok beljebb, mert nincs se tavmenedzsment a gephez, se VNC szervert nem akarok igazabol acsolni hozza (nem az acsolassal van a gond, hanem azzal, hogy egyszeruen kivulrol nem erheto el egyaltalan a gep, van neki egy darab privat halos IP-je es kesz).

Mihez kell bebootolni? Firmware upgrade-hez? Vagy ez a storage manager ilyen bebootolos? Vagy nem ertem, mire irod...
--

Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal 

ez egy java-motor alatt futó szerver, amihez egy kliensgépről, tcp/ip-n tudsz csatlakozni. felpattintod egy másik gépre a klienst és szépen logol mindent, a disconnectet is.
a bebootolós a firmware-ügy, mivel azt kérdezted (asszem legalábbis).
--
"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség

nah, van egy szerver, amit felraksz a linuxra (ez java-motor alatt fut, kell neki a java), és van egy kliens program, ami konnektál ehhez a csodához. utóbbiból van windows, linux-verzió is. ezzel szépen csekkolható a kártya és a kötet állapota és ha konnektben hagyod, a logban is látszani fog, mit művel a jószág esetenként...
--
"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség

Eeegen, most mar ertem. Kozben voltam kinn a szervernel is, egy szarnyalo SAS 2805-os eszkozrol van szo. Ezt csak just for the record irom le.

Ami inkabb zavaro, hogy ez a ruhes tomb elment DEGRADED allapotba ugy, hogy senki se bantotta. Es egy fura allapotban van: a RAID utolso diskje esett ki a tombbol (missing element), viszont a feluleten, ahol a diskeket latom (Initialize disk pl., de ilyen a Secure Erase is) csak ez az egy disk _szurke_, nem valaszthato ki (tudom, hogy elo tomb elemen nem csinalunk Initialize-t meg Erase-t, ez csak pelda). Ez mi a rakot jelent, es hogy gyogyitjak? Nem talaltam olyan leirast, ahol azt emlitenek, hogy mi van akkor, ha egy darab disk szurke.

Es nem is talalok olyan leirast se, ahol leirnak, hogy lehet (arcconf nelkul) modositani a RAID tomb geometriajat (force elfailedeztetni pl. azt a disket. Mivel ez egy RAID1 tombok felett letrehozott RAID0 tomb, pont senkit se erdekelne az az egy darab disk).
--

Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal 

nagyon jó a kérdés, fingom nincs - tudni kéne hogy milyen típusú vinyók, milyen firmware-verzió, mióta megy..
elvileg az asm-mel hotswap-ként menedzselhető az egész miskulancia (én telepítés után teszteltem, kikaptam menet közben az egyik vinyót a kötetből, a kliensprogi szépen jelezte a történetet, majd visszarakás után kézzel spare-ként megjelöltem és a többit intézte.) Emlékeim szerint egy ilyen jószág van benne.
Azt tudom hogy pl. az előző raid-kártyát azért dobtam ki, mert vinyócsere után nem nagyon szerette az új vinyó-garnitúrát, többek között a sata3-diskeket csak sata2-re lejumperelve volt hajlandó kb. azonnali kidobás nélkül kezelni..
--
"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség

Láttam már 2805-ön ilyen "szürke" diszket, ekkor RESCAN-t kellett nyomni, és "kifehéredett". (mondjuk én mindent arcconfig-ból szoktam csinálni)

Ha esetleg a RESCAN sem segít, akkor - ha fizikailag hozzáférsz a géphez (vagy operátor van kéznél) - és a diszkek hotplug backplane-en vannak, akkor esetleg egy kihúz-visszadug, mégjobb: kihúz-másik slotba visszadug...

"és a diszkek hotplug backplane-en vannak, akkor esetleg egy kihúz-visszadug, mégjobb: kihúz-másik slotba visszadug..."
- csak saját felelősségre! esetleg baj esetén később rákenni az egészet az operátorra...
arconfban van kötetellenőrzés, azt én megpróbálnám mindenek előtt..

--
"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség

A BIOS-ban nem igazan lattam verify parancsot hozza. A disken magan tudok egy teljes media scant vegigengedni, ez az egyetlen dolog, amihez tokeletesen enged hozzaferni (a Disk Utilities-ben (DU) nem szurke a disk, csak az Array Configuration Utility-ben (ACU). Illetve a DU-ban tudnam formazni is - nyilvan ezt nem szeretnem.

Most addig haromlabu a tomb, amig en magam at nem engedek egy teljeskoru smart tesztet a disken. Ehhez egyelore kivettem a disket.
--

Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal 

No, hat akkor kezdjuk a jo hirrel:

- Leszedtem az Adaptec oldalarol egy arcconf-ot - ezzel jo, ismet monitorozhato/kezelheto a kartya

Aztan a rossz:

- Probaltam kihuz/bedug, de nem igazan akarta menni magat
- Mivel eleg szuk a hely (nem hotplugos, semmi extra, ez egy sok winyot fogadni kepes haz, ennyi), es tele van a gep, tehat csak felcserelni tudnam a winyokat, de mivel felek attol, hogy akkor a kicserelt disket is megjeloli failedkent, igy ezt a viccet most erdeklodes hianyaban kihagyjuk.
- Most raktam bele meg 4 darab disket (egy masik tombot epitek), es erdekes modon ennel is 2 disk teljesen szurke, nem tudok vele mit csinalni, se inicializalni, se secure eraselni, semmit nem enged rajtuk, szurkek.

Akkor a kerdesek:
- Eloszor is, valaki tegyen rendet a fejemben: mit jelent az, hogy egy disk szurke? Mert a dokumentacio nem tartalmazza (vagy nem talaltam meg) a definiciot hozza. Nem latja? SMART error van rajta, es nem akarja hasznalni? Hibat erzekelt rajta (ez annak fenyeben lenne fura, hogy a 4 "uj" (valojaban regi, de az adapternek uj) diskeket _rogton_ kiszurkitette)? Mit jelent maga a kiszurkites?
- Kivettem ezt a disket. Hogy tudom megsemmisiteni az adaptec RAID kartya metaadatait rajta, hogy meg csak veletlen se ismerje fol, hogy ez valaha egy tomb resze volt? Nincs masik adapterem, egy USB rackem van, meg egy laptopom. Lehetoleg nem szeretnek ket terat nullakkal felulirni.

--

Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal 

Konkrétan nem ez a vezérlő, de aacraid drivers másik fajta Adaptec, a diskek külön elérhetőek az SCSI generic intrefacen keresztül, azaz pl. egy smartctl -a /dev/sgX segítségével simán lekérdezhető a SMART. Akár még valami read-only tesztet is lehetne csinálni külön-külön. Meg törölni őket.

Amúgy úgy vettem észre, hogy amit az arcconffal nem lehet megcsinálni, nem lehet megcsinálni, szóval a bios-beállítójával se leszel előrébb.
Törölni esetleg úgy lehet, hogy az adott diskre csinálsz egy egy-lemezes volume-ot (volt, hogy raidet se engedett bővíteni enélkül).

Egy masik kerdes:

Felraktam az Adaptec Storage Manager-t a kerdeses szerverre, a kliens (agent) fut is rajta, VPN-en be vagyok lepve a gep halojara, de egyszeruen nem tudok racsatlakozni az agent-re. Tuzfal nincs, ha ratelnetelek a portra, bejutok (pontosabban nem hajt el, nem nyeli el, hanem a kapcsolat letrejon. A protokoll ismerete nelkul telnettel ennel tovabb nem jutok), viszont az ASM folyamatosan azt mondja, hogy Unable to Connect. De hogy mi a nyugje, azt nem mondja.
--

Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal