"Nohát írtak neked sokféle szoftvert, azt valahogy egyikben sem volt jó neked pont."
Én úgy láttam, hogy a fent említett szoftverekben nincsenek előre beállított gyári határértékek. Ha benéztem, elnézést. Van ilyen mégis?
"Hiába jó úgy ötmillió gépen, ha nálad épp nem és persze fordítva is lesz, hogy van ami nálad pontjó és közben meg másnál nem."
Ez nem baj! Nekem pont olyan kellene, ami már bizonyított ötmillió gépen. Ha jön alert, majd elolvasom, miért jött, és vagy örülök, hogy elkapott valami igazi hibát, vagy átállítom.
Az a lényeg, hogy legyen kiindulási alap, ne a 0-ról kelljen összeszedni. Könnyű eljutni onnan, hogy "azt akarom, hogy szóljon, ha kevés a diszk" odáig, hogy manual olvasása alapján össze tudok rakni egy query-t vagy beleírok 3 sort egy config fájlba. Ez is sok idő tud lenni, akár még favágó szintűen unalmas is lehet egyesével mindenen végigmenni, de oké.
A nehezebb rész az, hogy honnan jön maga az ötlet, hogy ezt vagy azt a metrikát kellene nézni? Érdemes nézni a softirq %-ot? Érdemes nézni a HDD-k IO latenciáját és az 1, 2, X hónappal ezelőttihez hasonlítani? Érdemes-e nézni a /sys/kernel/irq/130/per_cpu_count értékét és mi számít túl soknak vagy túl kevésnek? Stb. stb. stb... Akár egyesével mindegyikkel el lehet tölteni egy-egy napot Guglizással meg mittudomén, hogy megtanuljam.
"Vegyünk inkább a loadot, az jóval inkább gépfüggő, hogy mi a jó."
Tudtommal a load normális értéke CPU-szám függő, tehát avval leosztva már nem fog nagy határok között mozogni. És igenis lehet rá általános alertet íri. Egyrészt szerintem létezik abnormális érték (ha mondjuk 0..1/CPU szokott lenni jó esetben, akkor 10/CPU fölött szólunk). Vagy ha adott gépen megszokott értékhez képest hirtelen felugrik, vagy elkezd lassan növekedni (ld. https://anomaly.io/anomaly-detection-normal-distribution/).