Kb 10 évig használtuk, aztán 2018 nyár körül egy kernel upgrade olyan bugot hozott, hogy random split-brain állapotba került. Upgrade után pár napra jelentkezett és 3-7 naponta. Nem találtunk okot. Előző kernellel bootolva hibátlan volt ismét, ahogy előtte is.
Ez azt hiszem még egyszer megtörtént, na akkor dobtuk.
Volt olyan is, RAID-1-ben lévő hibás diszk megfogta az mdadm raid tömböt. Erről ment a DRBD és hibára kiállította a DRBD-t. Szétesett itt is a szinkron a párjával.
2 aktív-aktív host volt így összekötve. Akkor még nem engedett többet. Ez persze megágyazta a problémák alapját. Ezeket leszámítva, stabilan ment, de ezek után már időzített bombának éreztük. Egy darabig master-slave módon vittük tovább, majd inkább elbontottuk, mert ahogy mondtad, egy standalone szerver hosszú távon stabilabb, mint az ezzel járó random szívás. A 10+ évenkénti komoly HW meghibásodás pedig belefér az SLA-ba. A többi ellen a redundáns diszk, táp, net véd.