[MEGOLDVA] Pacemaker / Corosync cluster szétesés...

Sziasztok!

A probléma a következő. Összedobtam egy 2 node -ból álló cluster -t ami virtualizált teszt környezetben terhelés nélkül tökéletesen működik. Ugyan ezzel a konfiggal éles környezetben az a történés hogy elindítom corosync -et, crm status dobja, hogy minden oké, mindkét node és resource online. A resource témákat tudom is mozgatni tökéletesen a node -ok között. Oké...

Eltelik x idő (nekem random -nak tűnik) és a cluster gyakorlatilag szétesik... Az node1 -en azt látni, hogy ő online és a node2 offline, illetve node2 -ő azt mondja, hogy ő online és node1 offline, tehát gyakorlatilag szétesik a sztori.

Az ntp szinkronnal nincs probléma, illetve egymás nevét is feltudják oldani a node -ok. Annyit viszont tudni kell, hogy az egyik node jóval terheltebb mint a másik. Tehát az egyik node 8-9 es load -al üzemel. Erre log -ban panaszkodik is néha crmd.


compatibility: whitetank
totem {
version: 2
token: 3000
token_retransmits_before_loss_const: 10
join: 60
consensus: 3600
vsftype: none
max_messages: 20
secauth: off
threads: 0
clear_node_high_bit: yes
rrp_mode: none
# window_size=300
interface {
ringnumber: 0
bindnetaddr: xx.xx.xx.0
mcastaddr: 226.94.1.1
mcastport: 5405
ttl: 1
}
}

logging {
fileline: off
to_stderr: no
to_logfile: yes
to_syslog: yes
syslog_facility: daemon
logfile: /var/log/cluster/corosync.log
debug: off
timestamp: on
logger_subsys {
subsys: AMF
debug: off
tags: enter|leave|trace1|trace2|trace3|trace4|trace6
}
}

amf {
mode: disabled
}

Mielőtt pedig szétesne a cluster a következő üzeneteket kezdi hányni a corosync.log -ba:

Mar 23 11:34:58 corosync [TOTEM ] Retransmit List: xy zf stb...

Perceken át, ha nem lövöm ki a process -t....

Annyi még, hogy próbáltam a kulcsot is újra generálni, de a hiba úgy is jelentkezett...

Előre is köszi a segítséget!!

Hozzászólások

Lehet, hogy multicast/unicast problémáskodik? Mindenesetre próba cseresznye :D

EliteBook 8540p
Fedora 21
Startup finished in 2.637s (kernel) + 875ms (initrd) + 1.777s (userspace) = 5.290s