( joco01 | 2018. 01. 21., v – 10:36 )

Akkor pontosabban fogalmazok.

CPU load, memory usage, disk utilizatiom, hőmérséklet, stb. annyira alap, hogy még egy majom is tudja. Ha ezeket a riasztásokat, grafikonokat kézzel kell *létrehozni* is, már rossz. Legyen benne alapból. Én maximum a thresholdot reszelem, de legyen benne valami általános alap határérték azért (nem olyan nehéz pár konzervatív számot előre beírni, pl. diszk=0 már tuti riaszt, hőmérséklet=100°C már tuti riaszt, stb.). Ez volna a minimum elvárás. De ezek olyan alap dolgok, hogy magam is meg tudnám csinálni, de akkor minek is van rá kész szoftver?

A még ideálisabb eset, a "mindent mérjünk": mérjen olyan dolgokat, ami nekem nem jutna eszembe, a fent említett körön kívül van. Nézd meg ezt: https://london.my-netdata.io/default.html . Itt van kb. 200 (!) grafikon. Ha ilyet akarok, nekem 2 akadály is van: tényleg nem jutna eszembe egy csomó dologról, hogy mérni lehetne, illetve kézzel beállítani rengeteg idő egy ekkora dashboardot, ha az adott szoftver semmit nem ad alapból. Miért van erre szükség, ha ez nem is kritikus szerver? Egyrészt érdekesség, és tanulni akarok belőle, másrészt ha egyszer valami HW/SW hiba beüt, akkor simán lehet, hogy a fenti minimum körből létrehozott mérések nem mutatják ki, és kellene a többi is. Hogy itt mire lehetne riasztani: egyrészt itt is sok esetben meg lehet adni konzervatív határértékeket, másrészt anomáliákra lehet automatikusan riasztani szinte bármilyen adatforrásnál annak valódi ismerete nélkül is.

Tehát megállja a helyét az, hogy nem tudom pontosan, mit akarok, de csak azért, mert léteznek ennek a szakmának számomra ismeretlen mélységei. De azt fenntartom, hogy az a tudás, amit keresek, az valahol létezik, mert sokan mások megoldották már ezt remélhetőleg általánosítható módon. Az áramellátós példádra: igenis lehetne mindent mérni, véges számú mérőeszköz van, amiket nem viccből raktak oda, az egy másik dolog, hogy az illető nem tudta, melyik mit jelent, így valóban nehéz, de ha lett volna szakértő, aki tudja, akkor ez egy megoldható feladat.

Velem már sokszor előfordult munka közben, hogy beütött a krach, és debug közben derült ki, hogy ezt meg azt már eleve mértük, mert okos emberek régen kitalálták, hogy jól jön az még, és csak meg kellett keresni az adott dashboardot, és ott volt a válasz. (https://www.youtube.com/watch?v=LlvJdK1xsl4) Ugyebár a másik eset az, hogy beüt a krach, és rájössz, hogy mit kellett *volna* mérni, aztán beállítod, hogy legközelebb ne forduljon elő.