AIX CSM cluster - szinkronizációs problémák

Tünetek:
- 'cfmupdatenode -v -n [nodename]' esetén az alábbi hibaüzenetet kapjuk:
"cfm_local: 2657-259 No hostname or ip address to which the files are being sent matched the local hostname or ip address"
- A node az 'lsnode -p' szerint alive állapotban van
- A CW és a node is jól (!) fel van véve a /etc/hosts-ban
- Név feloldás, és kommunikáció a node-CW között szépen megy
- Az összes szükséges subsystem fut, ahogy kell
- Latest (1.7.1.7) CSM client telepítve
- Node újradefiniálás nem segít.
- A CW-node szinkronizáció az istenért se akar menni ( a CSM beállítások a CW-n garantáltan jók )

Kis utánajárás után (illetve a /opt/csm/csmbin/cfm_local script analizálását követően) az alábbi hibaüzenet 2 eshetőség esetén jöhet elő:
- A generált /var/opt/csm/cfmlocal/.runclocal file-ban a file-ok/mappák végén nincs nodename megadva, csupán egy randa CFM_MODE_CFM=
- A feloldott hostname, vagy IP cím nem egyezik a file-ban talált hostname-el, vagy feloldott IP címmel.

Jelen esetben a hostname fel volt sorolva (ha valaki utána akarna nézni, akkor 'export CSM_CFM_DEBUG=1 cfmupdatenode -v -n [nodename]'), így visszanéztem hogy is nézi vissza a gyógyegér a hostnevet:

	/usr/bin/lsrsrc-api -i -s IBM.ManagementServer::"ManagerType='CSM'"::LocalHostname

Jelen esetben ez volt a gázos - Az itt található hostname a HMC-hez kellett volna tartozzon.. Így hát persze hogy nem volt jó.. Na de akkor mi van a HMC-nél??

	/usr/sbin/rsct/bin/lsrsrc IBM.ManagementServer

Hopp.. Semmi.. Csak CSM-hez volt bejegyezve.. Mit utólag kiderült ennek az az oka, hogy a node definiálásakkor még jó IP-t/nevet vesz fel, de ha a HMC-s classhoz nincs semmi definiálva, akkor azt a gép hajlamos felülvágni.. Na akkor hozzuk ezt helyre:

Konfoljuk újra az RSCT-s cuccokat from scratch:

	/usr/sbin/rsct/install/bin/recfgct

Engedélyezzük újra a távoli RSCT konneckiókat:

	/usr/sbin/rsct/bin/rmcctrl -p

# Most várunk 1-2 percet, míg az RSCT észre veszi magát, és a HMC-s kapcsolatot visszaépíti.. /usr/sbin/rsct/bin/lsrsrc IBM.ManagementServer-vel nézzük, hogy visszajött e már.. (Amíg nem jött vissza ne definiáljuk újra a node-ot, mert az updatenode meg fogja hülyíteni az egészet ismét )

Definiáljuk újra a node-unka:

	rmnode, definenode, updatenode

És ne felejtsük el a CSM group-ba bevenni az újra definiált node-ot!

Hállelújja... 4,5 órányi nyomozás eredménye :)

Szerk: Egy kis finomítás a node újradefiniálás előtt
Szerk2: Ha valaki ne adj isten azt tapasztalná, hogy az újra definíció után rövid idővel a CSM-hez tartozó entry ismét a HMC IP-jét viseli (ergo a probléma ismét előállt), az frissítse fel a csm.client-et 1.7.1.7-re! (ahogy nézem az alap issue 1.7.1.6-nál jött elő)

Hozzászólások

yeah ;-)

Egyik 'gepemen' nem ment a DLPAR, aztan kiderult, hogy arrol a hostrol hianyzik 3 CSM/RSCT fileset, haha ;-)

szerk. az rmcctrl -z / -d / -A ugyanugy ujradefinialja a node-ot, nem?

Az csak a node akkor.. Ettől még a CW nem fogja tudni, hogy változott a helyzet ( meg biztos ami tuti még mindig jobb, ha a CW-ről megy a node definiálás )
____________________________________
Az embert 2 éven át arra tanítják hogyan álljon meg a 2 lábán, és hogyan beszéljen... Aztán azt mondják neki: -"Ülj le és kuss legyen!"..

Az nem oldja meg a hibát :)) Egyszerűen az 1.7.1.6-nál bejött egy hiba, amit hiába update-elsz, a fentebb felsoroltak még attól sajna kellenek.. Annyi, hogy most találkoztam máshol is ezzel az issue-val (ismét) és kijött, hogy hiába hozza az említett módszer helyre a hibát, attól még a CSM egy idő után hajlamos ugyan úgy szétcseszni, de persze nem mindig (annak már lusta voltam utánanézni, hogy milyen csillagegyüttállás szükséges, hogy terrorista legyen a CSM-ből) .. Ennek jártam most utána, és update-eltem a "doksit" :)
btw - csm.server-t nem kell hozzá frissíteni :)
____________________________________
Az embert 2 éven át arra tanítják hogyan álljon meg a 2 lábán, és hogyan beszéljen... Aztán azt mondják neki: -"Ülj le és kuss legyen!"..