Couchbase fagyás, adatvesztés

Sziasztok,

adott két Debian-t futtató HW, mindkét vason fut 2xN vm, ezek a PROD és a TEST rendszerek.

A produktív és a teszt rendszerek clusterbe vannak szervezve, ahol szükséges (Corosync), van, ahol az alkalmazás megoldja, pl Couchbase.

A Couchbase-t egy Wildfly alkalmazás hívogatja.

Pár hete egyik éjjel ugyanabban a másodpercben a Couchbase megállt működni mindkét környezetben: mind a PROD, mint a TEST alatt. A virtuális gépeket futtató rendszeren semmi nyoma nincs semmilyen hibának, minden más VM kifogástalanul futott tovább, és a fenti VM-ekben minden más processz szintén. A Couchbase újraindítása után (ill emiatt a Wildfly megtöltötte a log partíciókat, és kilépett, tehát ezt rendbetettük) az addigi adatok eltüntek.

Mentésből visszaálltunk, és az élet ment tovább.

Ezután az alkalmazás fejlesztője átnézte a rendszert, a logok alapján ő erre gyanakodott:


[ns_server:debug,2019-04-01T15:41:53.996+02:00,ns_1@tweb1.local:compaction_new_daemon<0.14453.1774>:compaction_new_daemon:process_compactors_exit:1353]Finished compaction iteration.
[ns_server:debug,2019-04-01T15:41:53.996+02:00,ns_1@tweb1.local:compaction_new_daemon<0.14453.1774>:compaction_scheduler:schedule_next:60]Finished compaction for compact_views too soon. Next run will be in 30s
[ns_server:debug,2019-04-01T15:42:22.137+02:00,ns_1@tweb1.local:compaction_new_daemon<0.14453.1774>:compaction_new_daemon:process_scheduler_message:1312]Starting compaction (compact_kv) for the following buckets: [<<"DP1IP">>,<<"DP1">>]

(ez amúgy egy későbbi log részlet, de a probléma ua).

A fregmentáció az indexeknél kb 23%, az adatoknál kb 89-90% körül mozog. Mindez friss betöltés után.

Utánanéztünk, és találtunk egy olyat, hogy az 5-ös Couchbase-ben volt egy ilyen hiba, ez a 6-osban javítva lett.

Frissítettem 6-osra a TEST rendszerekben mindkét node-on a Couchbase-t 6-osra, de a fenti esemény folyamatosan jön.
(A fenti logrészlet már a 6-os Couchbase logjából származik.)

A legelső megállás óta nem volt semmilyen incidens, de szeretnénk megelőzni a következő ilyet.

Van valakinek ötlete, mit tudunk csinálni, merre induljunk?

Az indulás előtt állítólag volt memtest a gépeken, hogy biztosra menjen az akkori üzemeltető. Egyébként HW hibára utaló jel nincs a gépeken.

Totál kezdő vagyok a Couchbase-ben, a rendszereket pár hete vettem át.

Minden segítséget köszi,

a.