Nagios meghülyül

 ( hnsz2002 | 2012. december 19., szerda - 15:34 )

Van egy olyan problémám, hogy a nagios néha meghülyül, és folyamatosan hibát vagy warningot jelez egy adott szolgáltatásra, ami be van állítva figyelésre. Hogy mi ez, teljesen random, van hogy egy ping, van hogy egy tcp service, vagy hogy a check_nrpe. A hiba persze nem valós, de magától nem tűnik el. Csak úgy tudom eltüntetni (ideiglenesen), ha egy kis időre (pár perc) leállítom a nagiost, majd újra elindítom. Viszont ha egyszer elkezdi, akkor utána véletlen idő múlva, véletlen service-zel előfordul újra, csak akkor szűnik meg huzamosabb időre (több hónap), ha a komplett /var/spool/nagiost törlöm, de ezzel ugye akkor oda minden előzmény.
Ezt most épp freebsdn tapasztalom, de linuxon is előfordult már korábban többször.

Találkoztatok már vele? Mit lehet vele csinálni?

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

sub.

Nem találkoztam még vele, de amit átnéznék: net stabilitása, a nagios gép szabad erőforrása, nagios + rendszer frissítés.

+1
Nálam túl terhelt ilyenkor a Nagios host gép !

Kizárt, csak a nagios fut rajta.

last pid: 82086;  load averages:  0.09,  0.06,  0.01                                                                                                                                      up 17+21:48:10  16:20:07
47 processes:  1 running, 46 sleeping
CPU:  0.0% user,  0.0% nice,  0.0% system,  0.0% interrupt,  100% idle
Mem: 38M Active, 192M Inact, 106M Wired, 120K Cache, 59M Buf, 141M Free
Swap: 512M Total, 512M Free

--
Discover It - Have a lot of fun!

Nézz még kérlek hozzá egy iostat-ot, meg egy netstat-ot.
Más ötletem nincs :(

Net teljesen stabil, a szabad erőforrással nincs gond, kizárólag a nagios fut a gépen, és régi a probléma (1-2 éve tapasztaltam először), szóval nem az adott nagios verzió bugos, vagy distro hülyeség. És különböző fizikai vasakon is jelentkezik.
--
Discover It - Have a lot of fun!

Sajnos ilyen nálam is előfordul. egy távoli gép (hostingos) MySql ellenőrzése játssza azt, hogy óránként 2-3 alkalommal időtúllépés. Hibakeresés okán befűtöttem egy másik az eredetitől különböző ellenőrzést, és nagyjából ugyanarra az időpontra tettem az ellenőrzési időt. Az egyik szakadozik, a másik is, de sose egyszerre... A ping amúgy folyamatos, extrém terhelés nincs egyik vason sem. Nincs 5letem, mert csak valamelyik frissítés után kezdte el a dolgot. Előtte atomstabilitás jellemezte az egész rendszert.

Az egy dolog, hogy timeout... Olyan előfordul néha itt is, főleg a check_nrpe-knél. De ez inkább a plugin hibája. Vagy lehetne próbálkozni a timeout magasabbra vételével is.
Nekem az a bajom, hogy van egy pillanatnyi warning, mondjuk egy adott szerver pingje felmegy 60ms fölé, és ez az infó "beragad". Szóval a nagstamon, androidon az anag is jelzi, weben is ezt látom, és mailok meg sms-ek is jönnek fél óránként (ennyire van állítva) ha nem nyomok rá ack-ot, hogy probléma még mindig fennáll, tehát nem a kliens bugos. A probléma persze rég megszűnt, de akár az is lehet, hogy 100% packet loss, vagy 1500ms lett a ping, a nagios folyamatosan ezt a 60ms-os warningot mutatja, amíg le nem állítom "pihentetni" kicsit.
--
Discover It - Have a lot of fun!

Na nálam nem ez a helyzet. 1 perc után helyreáll, és a következő "ciklusáig" semmi baja.

Nos, barmi otlet?
Ma reggel megint arra keltem, hogy vagy 10 service be van ragadva...
--
Discover It - Have a lot of fun!

HellÓ,

ilyen esetben egy beragadt plugin-t kézzel futtatva mit ad eredményként?
Mi a Next Update, Last Update, Check Type, current attempt értéke?