A problema a feladat specifikalasaval van, onmagaban az, hogy 'a cluster statusa' nem jelent semmit.
Kulonbozo parametereket figyelhetsz a tomcatjeiden, ezek kozul egy a sessionok szama, de onmagaban ez nem nyujt eleg informaciot semmirol.
Szerintem amiket erdemes figyelni, azok amik a scriptben is szerepelnek, szabad heap space, garbage collectionban toltott ido, szabad permgen space, foglalt threadek szama, szabad threadek szama szazalekban, etc
A scripttel minden metricre kulon alert triggert is lehet tenni, tehat pl beallithatod, hogyha a JVM tobb idot tolt GC-ben mint 300ms, akkor legyen warning/critical.
Ugyancsak onmagaban az, hogy a heap tele van, meg nem jelenti azt, hogy a JVM rosszul mukodik.
Szerintem minnel tobb parametert figyeltess, es lehetoseg szerint rajzoltass fel trend monitorozo alkalmazassal, es egy ido utan latni fogod, hogy mi az, amire erdemes riasztast beallitani.
Ezen kivul en meg csinalnek egy HTTP/HTTPS checket, ami az alkalmazas egy monitor endpointjat hivogatja, es valami stringet keres benne, pl 'ALL OK', amit maga a webapp irat ki, es csak akkor, ha minden alrendszer mukodik.
Azt hiszem a scriptet ennek alapjan raktam ossze:
http://archive.apachecon.com/na2013/presentations/27-Wednesday/A_Patchy…