( SzBlackY | 2020. 02. 15., szo - 11:58 )

+1. (mondjuk ez nálam Icingával játszik, de az elv a lényeg) Amin még érdemes lehet elgondolkodni: leülni és egy doksiba/wikibe/akármibe bevésni, hogy melyik check mit figyel, ha X állapota van, akkor mi a teendő. Így ránézésre látni fogod, hogy mi az, amit feleslegesen figyelsz / feleslegesen riasztasz rá, abból, hogy nincs nála értelmes magyarázat / eljárásrend (nálam is van néhány check, ami simán statisztikát gyűjt, de kb. ha nem lángol a fél épület, azok sosem lesznek nem OK-k). És még csak bonyolult dolog sem kell: pl. van egy terminál szerverünk, ami szándékosan kicsire van méretezve, úgyhogy időnként picsog az icinga, hogy jajúristen fogy a hely... "Ha warningol és nem vagy patchelési időszak környékén, lépj be, delprof2, oszt jónap" [mert a régen használt profilokat csak újraindításkor hajlandó egyébként törölni]. Monitorozhatnám a gépben levő RAID kártya cache hit ratio-ját, rajzolgathatnék belőle színes-szagos grafikont, beállíthatnák rá riasztást, de értelme nem lenne: azon kívül, hogy lelövök mindent azon a gépen és ciklusban írok-és-olvasok egy cache méretű fájlt, túl sok értelmes dolgot úgyse tudok vele kezdeni (oks, grafikonra statisztikának érdekes lehet, pl. hogy lehessen mutogatni, hogy az újonnan beállított app lőtte lábon a cache-t és ezzel a régi cuccok alatt az IO-t...)

Volt kollégánál merült ki a monitorozás abban, hogy egy-két gépre (ahol eszébe jutott? nem tudom, nem sikerült mögötte a logikát megértenem) feltette a munint, ráeresztette a disztróból szállított összes plugint, hogy legyen sok-sok adata... amivel pont akkor nem ment semmire, amikor gond volt, mert ahogy zeller is írta, a nagy zajban elveszett a lényeges infó, a root cause helyett a már annak következményeként beálló kiugró értékeket kezdte vadászni (már amikor volt kiugró érték, mert ugye a gyári összes plug-in Murphy törvénye szerint pont azt nem tartalmazza, amire szükséged lenne :) ).

BlackY