[Megoldva] AIX DLPAR Problémák

 ( hajduarpad | 2011. szeptember 4., vasárnap - 17:03 )

Sziasztok!

Lenne a következő rendszerem:
Kettő 8233-E8B fizikai masina (Firmare: AL710_114)
Kettő 7042-CR6 HMC ami mindkét fizikai gépet látja (Verzió: 7R7.3.0 MH01263: Fix for HMC V7R7.3.0 (07-15-2011))

Minden LPAR ugyanabban az alhálózatban van, mint a két HMC. 657 UDP/TCP nyitva mindkét irányban. HMC <-> LPAR között nincs firewall

Fizikai gépenként jelenleg 6-6 LPAR található, vegyesen AIX 5.3 TL12 SP4 és AIX 6.1 TL6 SP5

A probléma ami jelentkezett:
- Az LPARok mindegyike mksysb restore-ból érkezett egy régebbi környezetből
- 4 LPAR nem hajlandó DLPAR capable módba átlépni. Ebből kettő 5.3 kettő 6.1

Végigmentem a következőkön:

/usr/sbin/rsct/install/bin/recfgct
/usr/sbin/rsct/bin/rmcctrl -z
/usr/sbin/rsct/bin/rmcctrl -A
/usr/sbin/rsct/bin/rmcctrl -p

A HMC-ken a következő történt ilyenkor:
az lspartition -dlpar kimenete az első 10 percben

<#1> Partition:<1*8233-E8B*XXXXXXX, , 111.111.11.1>
Active:<1>, OS:<, , >, DCaps:<0x0>, CmdCaps:<0x0, 0x0>, PinnedMem:

Majd pedig az Active: <1> szépen visszaáll nullára és nem épül fel a kapcsolat.

Az lssrc -a | grep rsct kimenete:

ctrmc rsct 22872174 active
IBM.DRM rsct_rm 18612258 active
IBM.ServiceRM rsct_rm 15532266 active
IBM.CSMAgentRM rsct_rm 23134226 active
IBM.HostRM rsct_rm 21233830 active
ctcas rsct inoperative
IBM.ERRM rsct_rm inoperative
IBM.MgmtDomainRM rsct_rm inoperative
IBM.AuditRM rsct_rm inoperative

tcpdump-al is megnéztem a 657-en a kommunikációt, látszik, hogy mind UDP és TCP oldalon kétirányú kommunikáció működik.

Találkozott már bárki hasonló problémával? Hogy lehetne megoldani, hogy működjön a DLPAR ?

Megoldás:
Helytelen interface mtu érték. 65390-re volt beállva. Miután visszaállítottam 1500-ra és újrakonfiguráltam az RSCT subsystemet a probléma megoldódott.

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

HMC reboot megvolt?
Nekem egyszer megoldott egy hasonló esetet.

Megvolt már mind a kettő legalább 3 alkalommal, de sajnos nem segített.

Kis digging után a következőre derült még fény:


/usr/sbin/rsct/bin/rmcdomainstatus -s ctrmc

Management Domain Status: Management Control Points
I R 0xacdb35c9e9cb6a73 0001 111.222.33.45
I R 0x77b598d8dc114013 0002 111.222.33.25

Ha jól olvastam, akkor az R azt jelenti, hogy "messages queued", de vagy hálózati gond, vagy a /var tele van. A /var alatt van hely. A hálózati túlterheltség szvsz szerint nem jöhet szóba, hisz jelenleg ez egy project és nem forgalmaz semmi.

Emelett még a /var/ct/IW/log/mc alatt a default fájlba a következőket írja:

Sun Sep 4 20:22:36 WET 2011(307495) ../../../../../src/rsct/rmc/mcdaemon/rmcd_pci.c/05055/1.107 2610-225 Communication is suspended with the node associated with IP address 111.222.33.45 and node ID acdb35c9e9cb6a73. Reason code is 1.
Sun Sep 4 20:22:36 WET 2011(808582) ../../../../../src/rsct/rmc/mcdaemon/rmcd_pci.c/05055/1.107 2610-225 Communication is suspended with the node associated with IP address 111.222.33.25 and node ID 77b598d8dc114013. Reason code is 1.

Természetesen az IBM infóoldalak megint költöztek és nem találom meg, pontosan mit jelent a 2610-225

Nézz meg kérlek 1-2 dolgot:

- Látja e az RSCT a HMC-t? (lsrsrc IBM.ManagementServer)
- traceroute-al nézd meg, hogy hány hopból látsz ár a HMC-re az LPAR-okról (mind a müködő/nem működő LPAR-ok alól) - elképzelhető, hogy ottmaradt valami hülye routing bejegyzés
- Ha a /etc/hosts alatt ott a HMC, akkor nzéd meg, hogy jó címmel e, mivel amit írsz az 80%-ban network communication issue (valószínű kliens oldalon)

jah igen: az hogy az RSCT inactive-ba megy az ilyen helyzetben normális. Amint sikerül ezt kijavítani active-ban marad majd

____________________________________
Az embert 2 éven át arra tanítják hogyan álljon meg a 2 lábán, és hogyan beszéljen... Aztán azt mondják neki: -"Ülj le és kuss legyen!"..

- Látja e az RSCT a HMC-t? (lsrsrc IBM.ManagementServer)
Ez egy érdekes kérdés. És két választ tudok rá adni:
A két 5.3-as esetén látja az LPAR mind a kettő HMC-t. És ad vissza a parancs értelmezhető eredményt.
A két 6.1-es esetén csak a "Resource Persistent Attributes for IBM.ManagementServer" sor jön és semmi több

- traceroute-al nézd meg, hogy hány hopból látsz ár a HMC-re az LPAR-okról (mind a müködő/nem működő LPAR-ok alól) - elképzelhető, hogy ottmaradt valami hülye routing bejegyzés
Sajnos a hálózatban per default tiltva van a traceroute, esélytelen az engedélyeztetése. A routing tábla jó. Ellenőriztem, nincs benne semmi olyan, aminek nem kéne lennie. A működő és nem működő hostokon megegyezik a default GW beállítás.

Annyit még hozzáfűznék, hogy a 4 LPAR-ban az az érdekes, hogy ők voltak egyedül a HACPM cluster részei. (2-2 egy-egy cluster), és csak ezeken nem működik a DLPAR.

Ha HACMP, akkor mgé gyanúsabb, hogy valami rejtett interface/netmask issue lesz a bűnös. Nézd már át pls, hogy mely IP címek és milyen netmask-al járkálnak a gépeken, nehogy az legyen már valahol valami gátló tényező.
A másik amit vess össze az a 'no -a' a működő/nem müködő node-ok között.
____________________________________
Az embert 2 éven át arra tanítják hogyan álljon meg a 2 lábán, és hogyan beszéljen... Aztán azt mondják neki: -"Ülj le és kuss legyen!"..

http://publibfp.boulder.ibm.com/epubs/pdf/22789115.pdf
alapjan pedig kommunikacios problema.

Network esetén az emlékeim szerint elég a ping és a telnet az ellenőrzésre.

S remélem nem viszlek el teljesen rossz irányba, de két tippem van:
Az rsct ssh host keyekkel kommunikál.
Egy ilyen problémát megoldottunk már, de jelenleg nem találom a megoldást rá...
Ellenben van itt egy doksi és benne a parancs:
reg094.cct.lsu.edu/pdf//index.php?pdf=/rsct/5.3/bl5dia02.pdf
/usr/sbin/rsct/bin/rmcdomainstatus -s ctrmc -a ip

A másik pedig ez:
http://publib.boulder.ibm.com/infocenter/aix/v6r1/index.jsp?topic=%2Fcom.ibm.aix.install%2Fdoc%2Finsgdrf%2Fnaming_os_hostname.htm

Megvan a bűnös!!!!

Az MTU ... valamilyen érthetetlen ok miatt 65535-re volt állítva.

Az lsdev -El en0 1500-at mutatott
A netstat -in pedig szépen mutatta a 65535-öt.

Átállítottam 1500-ra majd egy shutdown -Fr now után elkezdett működni.

Most már csak egy dolog zavar:
A HMC szerint rendben van a DLPAR - végre!

Az LPAR szerint pedig nincs IBM.ManagementServer resource ...

Akkor most játszd el újra az RSCT reinit-et amit már 1x csináltál :)

/usr/sbin/rsct/install/bin/recfgct
/usr/sbin/rsct/bin/rmcctrl -z
/usr/sbin/rsct/bin/rmcctrl -A
/usr/sbin/rsct/bin/rmcctrl -p

Ez után adj neki olyan 5-10 percet, és nézd meg újra
____________________________________
Az embert 2 éven át arra tanítják hogyan álljon meg a 2 lábán, és hogyan beszéljen... Aztán azt mondják neki: -"Ülj le és kuss legyen!"..