Sziasztok!
200+ eszköz monitorozására keresek olyan tool-t, ami folyamatos ping alapján figyelmeztet, loggol. A legjobb lenne egy "aktív history" képernyő, amin megjelennek a legfrissebb események. Akár web-based is lehet...
Üdv,
- 3836 megtekintés
Hozzászólások
A Google első pár találati oldalán levő eszközökkel mi a gond? :)
- A hozzászóláshoz be kell jelentkezni
Nagios, Munin, Cacti, MRTG ...stb
-------------------------
Dropbox refer - mert kell a hely: https://db.tt/V3RtXWLl
neut @ présház
- A hozzászóláshoz be kell jelentkezni
amit leirt arra a nagios a legjobb.
- A hozzászóláshoz be kell jelentkezni
> folyamatos ping alapján figyelmeztet, loggol
Milyen mintavételezési sűrűségre gondolsz? A kutyaközönséges ping ugye ~ másodpercenként mintavételez, a "tipikus" monitorozó eszközök jellemzően 1-5 percenként szoktak, már csak azért is, merthogy 200+ eszköz...
- A hozzászóláshoz be kell jelentkezni
Többségében másodperceseket tervezek. Jelenleg a mikrotik netwatch funkcióját használom, de mostanában megnőttek a véletlenszerű 1 ping hibák olyan eszközöknél is, ahol kizárnám a hálózati hibát. Arra gyanakszom, hogy a hardver miatt, amin fut (3011).
Kipróbálnék linux x86 alatt valami másik szoftvert...
- A hozzászóláshoz be kell jelentkezni
a véletlenszerű 1 ping hibák
(kizarolag) ping alapjan monitorozni nem okos dolog. Masodpercenkent pingelni detto ertelmetlen. Ha meg az elveszett 1 pingekre meg riasztast is kuldesz magadnak, na az meg az ontokonloves minositett esete...
--
A rendszervaltas jeloltjei: https://rendszervaltas2018.hu/
- A hozzászóláshoz be kell jelentkezni
+1
- A hozzászóláshoz be kell jelentkezni
+1
en pythonban irtam ilyet ami cronbol lefut percenkent, es a statusz valtozasokrol kuld emailt, de nagyon sok igy is a fals riasztas:
out = os.system("/bin/ping -q -c1 -w2 "+ip+" >/dev/null")
if out==0:
# host up!
return 0;
if out!=256:
# system error
return -1;
# try again
out = os.system("/bin/ping -q -c3 -w5 "+ip+" >/dev/null")
if out==0:
return 0 # ha 3 ping mind megjon akkor OK
out = os.system("/bin/ping -q -c10 "+ip+" >/dev/null")
if out==0:
return 1 # ha 10 pingbol legalabb 1 megjott akkor WARN, kulonben ERR
return 2
- A hozzászóláshoz be kell jelentkezni
es a statusz valtozasokrol kuld emailt, de nagyon sok igy is a fals riasztas
hat pont errol beszeltem :-) Btw. ha mar ajanlgatod a nagios-t, akkor miert nem hasznalod (legalabb azt)? Abban legalabb van flap detection (bar azert tulzasba nem viszik)...
--
A rendszervaltas jeloltjei: https://rendszervaltas2018.hu/
- A hozzászóláshoz be kell jelentkezni
mert utalom :) iszonyu kenyelmetlen a konfigolasa, foleg ha van par 100 hostod fa strukturaban (egymastol is fuggenek). amugy eredetileg ahhoz kezdtem irni egy konfig generalot, de aztan rajottem hogy a pingeleshez tok felesleges a nagios, azt en is meg tudom csinalni... 93 sorban. jo, flap detect nelkul, de mint irtad az a nagiosban sem az igazi. raadasul a nagiost akarhogy reszeltem, min 5 perc delay volt mire riaszt egy host leallasakor, nekem meg elobb kellett.
- A hozzászóláshoz be kell jelentkezni
Csak egyszer kell végigszenvedni amig kialakitod a hostgroup dependency-ket, utána egy hostot hozzáadni egyszerő. De vannak rá guik is, pl nagconf.
-------------------------
Dropbox refer - mert kell a hely: https://db.tt/V3RtXWLl
neut @ présház
- A hozzászóláshoz be kell jelentkezni
tudom, volt ahol vegig szenvedtem. utana dontottem el hogy ezt igy soha tobbet :)
gui se nagy segitseg, mert jobb generalni egy meglevo listabol mint egyesevel felvenni kezzel...
- A hozzászóláshoz be kell jelentkezni
A GUI akkor működik jól, ha alapból abban csinálod meg 0-ról. Én anno egy custom configot örököltem, próbáltam belefaragni, de a végén inkább ráhagytam. Most van már működő nagconf amit használok és teljesen kényelmes.
-------------------------
Dropbox refer - mert kell a hely: https://db.tt/V3RtXWLl
neut @ présház
- A hozzászóláshoz be kell jelentkezni
És a host hozzáadása után még most is restart az egész motyó, nemde...?
- A hozzászóláshoz be kell jelentkezni
hogyne. es ha elirsz valamit valahol nem indul el es napokig keresheted a hibat mert azt baxik kiirni hol :)
- A hozzászóláshoz be kell jelentkezni
erre az (lehet) a megoldas, ha a konfigjat generalod, verziokezeled :-)
--
A rendszervaltas jeloltjei: https://rendszervaltas2018.hu/
- A hozzászóláshoz be kell jelentkezni
A verziókezelés oké, de ha van 234 hostom, és jön egy 235. akkor nem biztos, hogy az az üdvözítő megoldás, hogy az egész monitorozó motyót újra kell indítani...
- A hozzászóláshoz be kell jelentkezni
tudom, ezert is kezdtem el irni egy konfig generalot, csak menet kozben rajottem hogy igazabol a nagios folosleges az egeszhez :)
- A hozzászóláshoz be kell jelentkezni
Az "elírsz valamit" megkeresésére a legfapadosabb verziókezelő is segítség lehet. Az egy módosítás - indítsd újra az egészet működés (örökség, szerintem nagyon sokat kéne reszelni a kódon hogy ne így legyen) elég gáz, pláne, hogy elég könnyű elbökni a beállításokat úgy, hogy elinduljon, de egyik-másik check mégse működjön.
- A hozzászóláshoz be kell jelentkezni
+1 :(
A nagios konfiguralasa kb pont azon a szinten van mint a web desing-ja, olyan 15 ev minuszban vannak mindkettoben. Es valoban... szeirntem 15 eve is pont ugyanigy nezett ki.
- A hozzászóláshoz be kell jelentkezni
Érdekes, amikor írtam egy hálózat monitorozó rendszert, ami mellékesen a hálózat dokumentálását is segíti, van vagyonvédelmi része is, akkor mindenki azt írta rá, hogy minek, felesleges, ott a Nagios, meg a többiek.
Most meg kiderül, hogy a Nagios a legjobb, de mégsem egy tuti rendszer?
(Én ezt használom, és fejlesztem: https://github.com/csikfer/lanview2 lehet vele elvileg másodpercenként pingelni, de az szerintem is rossz ötlet.)
- A hozzászóláshoz be kell jelentkezni
senki nem mondta, hogy a nagios a legjobb. Bar en nem tartom akkora ervagasnak, hogy restart-olni kell (btw. reload nem eleg?), ha modositod a konfigjat. Gondolom, ez nem egy suru esemeny azert...
--
A rendszervaltas jeloltjei: https://rendszervaltas2018.hu/
- A hozzászóláshoz be kell jelentkezni
A restart talán tényleg nem az a rettenet (az én rendszeremnél is újra kell indítani modulokat, ha változás van), de szerintem a text konfig egy bizonyos host és szolgáltatás szám után nagyon nyűgös tud lenni. Azonkívül a hálózat menedzsment nem abból áll, hogy megye, vagy nem valami. Néha az is feladattá növi ki magát, hogy az ember eligazodjon a rendszerben.
- A hozzászóláshoz be kell jelentkezni
Azért párszáz eszköz meg ebből fakadóan néhányezer monitorozott paraméter esetén a "na most mindent újrakezdünk" elég csúnya tranzienst tud csinálni - gyakorlatilag nem lehet megmondani, hogy egy újraindítás után adott check mennyi idő mulva fog ismét lefutni.
- A hozzászóláshoz be kell jelentkezni
Egyrészt lehet csökkenteni a tranzienst, ha elegendő erőforrás van, és van a rendszer mögött egy rendes adatbázis. Másrészt pár dolgot vagy újraindítasz, vagy szarrá bonyolítod a rendszert, amire sosem lesz elegendő fejlesztői kapacitás.
- A hozzászóláshoz be kell jelentkezni
A nagios felépítéséből adódóan ilyen, hiába teszel mögé akármilyen adatbázist - tök mindegy, hogy fájlból olvas _egyszer_ vagy adatbázisból. Ezt a működést meg tényleg nem lenne egyszerű kigyógyítani belőle - nem is kell, hogy cél legyen - cserébe el kell fogadni, hogy a nagy, sokezer figyelt érték/állapot monitorozására, pláne ha az infrastruktúrában gyakori változások, módosítások vannak erősen szuboptimális az, ahogy a Nagios működik.
Nem véletlen, hogy az általam látott nagyobbacska rendszerekben, főleg ahol a "megy/nem megy" szinten túl kellett lépni, ott nem a Nagios-családból választottak/választottunk eszközt.
- A hozzászóláshoz be kell jelentkezni
mit valasztottatok?
- A hozzászóláshoz be kell jelentkezni
tuti, valami z-betuset :-) Btw. az ujabb jatekosok kozott is, pl. prometheus, tick stack, ... is erdemes szetnezni. Bar ehhez a 2-hoz eppen kell egy agent is, igy halozati eszkozok monitorozasahoz nem a legjobbak...
--
A rendszervaltas jeloltjei: https://rendszervaltas2018.hu/
- A hozzászóláshoz be kell jelentkezni
Nem (csak) a Nagios-ról beszéltem.
- A hozzászóláshoz be kell jelentkezni
Csak azért említettem,mert az a legismertebb, ami ilyen khm. szuboptimálisan kezeli a konfigurációkat.... Jut eszembe: https://hup.hu/node/158592
- A hozzászóláshoz be kell jelentkezni
Évekkel ezelőtt volt Nagios a kezeim között, de tudtommal ezek a problémák már akkor is meg voltak? oldva benne:
https://assets.nagios.com/downloads/nagioscore/docs/nagioscore/3/en/con…
Az use_retained_scheduling_info=1,retain_state_information=1 beállítások nem ezt a problémakört oldják meg?
Ha csak ping kell akor meg:
- A hozzászóláshoz be kell jelentkezni
OFF: megneztem (ujra, anno lattam mar egy korabbi verziojat) ezt a lanview-et. en is fejlesztek hasonlot mar 15 eve, ami az ARP tablat es a switch adatokat veti ossze a sajat adatbazisaval es gyujt adatokat az eszkozokrol. beleneztem kivancsisagbol a portmac implementaciodba (mivel ezzel szoptam en is a legtobbet), de ugy latom nincs tulbonyolitva :) es csak a teljesen szabvanyos, snmp+lldp eszokokkel mukodik. nekem pont azzal ment el rengeteg ido hogy a mindenfele gagyi sw-ket (tplink es dlink csodai, de a web-only managementes linksys-cisco is ide tartozik) implementaljam. egyelore ugyfelenkent reszelem a kodot, jo lenne egy generalis megoldas ami mindennel mukodik (legalabb ami snmp-s), de egyre inkabb ugy tunik, hogy ez kb lehetetlen :( az olcsobb eszkozokon annyira tojnak az snmp-re hogy ha implementalnak is valamit, az kb teljesen random, hianyoznak mib-ek vagy epp custom mib-ben van a lenyeg, valtozo formatumu a port neve, es sw model/firmware verziotol is fuggoen valtozik. persze leheten mondani hogy vegyen mindenki enterprise hp/cisco switcheket, de nem vesznek... es meg ott sem egyseges a vlanok kezelese ugye.
- A hozzászóláshoz be kell jelentkezni
mind a ketten feljebb tévedtek. másodpercenként van csak igazán értelme mérni. 200 eszköz? nyilvánvalóan a network stacket nem viseli meg 200 packet. lehet, hogy régi monitorozó szoftvert használtok? :)
- A hozzászóláshoz be kell jelentkezni
merni igen. riasztani nem.
- A hozzászóláshoz be kell jelentkezni
attól függ :) gyakran állítok be riasztást ritkán előforduló eseményre, hogy tudjam, mikor kell ránézni. az OP is véletlenszerű "ping hibát" nyomoz.
nyilván nem mp-enkénti alert, hanem első előfordulás.
- A hozzászóláshoz be kell jelentkezni
másodpercenként van csak igazán értelme mérni.
magyarazd mar el, legy szives, hogy mi a banatra jo az, ha masodpercenkent elkuldesz egy pinget?
--
A rendszervaltas jeloltjei: https://rendszervaltas2018.hu/
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
cuki. Lattam egy 6 oras ablakban 2 elveszett pinget. Szoval meg egyszer: ez mire jo, ebbol mit hozol ki?
--
A rendszervaltas jeloltjei: https://rendszervaltas2018.hu/
- A hozzászóláshoz be kell jelentkezni
Mikrotik - Dude
- A hozzászóláshoz be kell jelentkezni
5 perces fping (több IP címet megadva) és az egyes HOST-ok sikeres pingszáma alapján a Nagios-nak felküldeni a "0" (oké) "1" (warning) "2" (critical) jelzést, üzenetben pedig a százalékos veszteséget.
- A hozzászóláshoz be kell jelentkezni
Ha tényleg csak a ping kell, akkor szerintem: https://oss.oetiker.ch/smokeping-demo/?target=Customers.OP
- A hozzászóláshoz be kell jelentkezni
Smokeping-re +1, tokeletes erre.
---------------------------------------------------
Hell is empty and all the devils are here.
-- Wm. Shakespeare, "The Tempest"
- A hozzászóláshoz be kell jelentkezni
mivel csucsu bajtars nem mondott tobbet arrol, hogy mi az a 200+ eszkoz, igy eljunk azzal a feltetelezessel, hogy halozati eszkozok: leginkabb router-ek, switch-ek. Ha megsem ezek, akkor majd finomitunk :-)
Amint fentebb irtam, nem az icmp echo request - reply (aka ping) fele mennek el, bar lehet ez is egy teszt (mondjuk a szokasos 5 percenkent 10-20 csomagot elkuldeni), de csak erre nem alapoznek riasztasokat. Emellett ugy is lehetne az eszkozok elerhetoseget vizsgalni, hogy pl. snmp-n lekerdezed az uptime erteket. Az snmp okos - abban az ertelemben, hogy - van benne retry (ha hasznalod), ill. a kinyert ertekbol azt is tudod, hogy miota mukodik. Ha mar snmp, akkor erdemes a portok forgalmat is merni, ill. figyelni, hogy nincs-e huzamosabb ideig kitomve az adott link (mert ha igen, akkor sanszos, hogy az icmp csomagjaid mennek a levesbe). Emellett lehet hibas csomagokat szamolni (van ra snmp oid), whatever. Vegul lehet azt is figyelni, hogy elered-e ssh-n az adott eszkozt. Nem kell belepni, ha megjon az ssh prompt az eszkoztol, akkor koser. Ill. amikor a nemzetkozi vonalaink sla-jat mertem, akkor csinaltam egy olyat is, hogy lekerdeztem a verisign webszerverenek az ip-cimet. Ez azert volt mokas, mert a www.verisign.com ttl-je 1 perc volt, tehat garantaltan friss eredmeny jott - meg a dns cache-tol is.
Szoval a lenyeg az, hogy lehet azert finomitani a "masodpercenkent 1 ping nalunk a monitorozas" koncepciojan...
--
A rendszervaltas jeloltjei: https://rendszervaltas2018.hu/
- A hozzászóláshoz be kell jelentkezni
"Nem kell belepni, ha megjon az ssh prompt az eszkoztol, akkor koser."
Viszonylag minor, de ez esélyes, hogy meglátszik a logban (openssh-val ezt konkrétan sikerült :) ), és lehet valaki sírni fog miatta (kellemetlenebb esetben egy fail2ban).
- A hozzászóláshoz be kell jelentkezni
meg ott tartunk, hogy router-ek/switch-ek a celkozonseg. Azokon meg jellemzoen nem openssh van, nincs ez a fail2ban hulyeseg sem, ill. eleve nyilvan ugy kell megtervezni a monitorozast, hogy ne utana legyen siras, hogy mi ez az 5 percenkenti nem felepitett ssh kapcsolat, mert valakinek bantja a feng shui-jat...
--
A rendszervaltas jeloltjei: https://rendszervaltas2018.hu/
- A hozzászóláshoz be kell jelentkezni
Mint mondtam minor, csak érdemes ránézni, hogy hogyan nem fáj a logban :)
- A hozzászóláshoz be kell jelentkezni
Köszönöm a hozzászólásokat!
A másodperces pingek azért lennének fontosak, mert többnyire mikrohullámú linkek lennének a végpontok. Egy-egy ping kimaradásából is lehet következtetni olyan átviteli problémákra, amiket más paraméterekből nem lehet egyértelműen leszürni.
- A hozzászóláshoz be kell jelentkezni
Egy-egy ping kimaradásából is lehet következtetni olyan átviteli problémákra, amiket más paraméterekből nem lehet egyértelműen leszürni.
igen, a masodperces pingekbol leginkabb arra lehet kovetkeztetni, hogy fingod nincs a monitorozasrol...
--
A rendszervaltas jeloltjei: https://rendszervaltas2018.hu/
- A hozzászóláshoz be kell jelentkezni
igen de arra jobb ha nem riaszt minden kimaradt csomagra, mivel mikros linken gyakori a 0.1-1% koruli allando packet loss, ami raadasul a csomag meretetol es idojarastol is erosen fugg. ott inkabb merni kene a packet losst es ha atlep egy hatarerteket (mondjuk 3%) akkor riasszon. persze van ahol atm/l2tp/ppp/openvpn vagy ilyesmi tunnelben megy a data a mikron at ami elfedi a packetlosst (ujrakuldi) ezeknel a valaszido fog nagyon ingadozni.
pl: http://arp.interoot.hu/cgi-bin/ping.py?time=1522000723&zoom=72&w=1200&i…
- A hozzászóláshoz be kell jelentkezni
A jelenlegi rendszerrel, amit összeraktam a netwatch-ból, egész idáig jól elvoltam. Szerintem a sok host miatt hozza a hibákat, mert egy másik eszközről megfigyelve nincs hiba.
Egyébként a vonalainkon egyátalán nem jellemző az állandó packet loss. Időjárás miatt pedig pláne nem.
- A hozzászóláshoz be kell jelentkezni
hat irigyellek, eleg sok ugyfelunknek van mikros netje pest kornyeken, es a nagyobb viharoknal a folyamatosan erkezo riasztasokbol latni epp merre jar a vihar, epp hol szakadozik a net :)
- A hozzászóláshoz be kell jelentkezni
SNMP-n is monitorozd, mikrotik eleg sok metrikat ad.
http://www.observium.org
- A hozzászóláshoz be kell jelentkezni
Összeraktam egy perl scriptet a feladatra, de ezzel is ugyanaz a problémám. Ha pár host-ot figyelek jól működik. Ha rátöltök 150 host-ot, a terhelés felugrik 30% környékére (CPU E31220) és elkezd fals hibákat hozni...
Nem hiszem, hogy 150 pingnek ennyire le kéne terhelni a procit...
Nem kifejezetten értek a perl-hez, de ezt tudtam összehozni más forrásokból:
#! /usr/bin/perl
# to check ping from a file of IPs using threadsuse strict;
use warnings;
use threads;
use threads::shared;
use Net::Ping;
use Time::HiRes qw(usleep);
use Time::Piece;my $timeout = 2;
open CFILE, "./netwatch.conf" ;
my @host_array = ;
close CFILE ;my @screen_array = ();
my @threads;
foreach my $addr(@host_array){
chomp($addr);
my $thr = threads->new(\&sub_ping,$addr);
push(@threads,$thr);
usleep(5);
}my $thr = threads->new(\&sub_scr,1);
push(@threads,$thr);foreach (@threads){
my $val = $_->join();
print "Trying to ping $val complete\n";
}sub sub_scr {
while (1) {
# print "screen1\n";
sleep(1);
}
return 1;
}sub sub_ping {
my $host = shift; #to get $ARGV[0]
my $status = '';
my $ping_handle = Net::Ping->new("icmp",$timeout) or die "\n ping unsuccessful. $!";;
# $ping_handle->hires();
while (1) {
my ($ret, $lat, $ip) = ($ping_handle->ping($host));if ($ret) {
# printf "$host \($ip\) responds to pings at %.2f msec.\n", ($lat//0)*1000;
if ( $status ne 'up') {
$status = 'up';
print localtime->strftime('%Y-%m-%d %H:%M:%S '); printf "$host is %s!!!\n", $status;
}
}
else {
if ( $status ne 'down') {
$status = 'down';
print localtime->strftime('%Y-%m-%d %H:%M:%S '); printf "$host is %s!!!\n", $status;
}
}
#$ping_handle->close();
sleep(1);
}
return $host;
}
- A hozzászóláshoz be kell jelentkezni
mar irtam neked, hogy egyreszt maga a koncepcio fucked by design, masreszt 150 allandoan futo thread, ami gyakorlatilag sose megy sleep-be (es itt visszaternek a koncepciod elbaszottsagara) siman okozhat nagy load-ot. Tovabbi kellemes letolt gatyas rohangalast a faszerdoben... :-)
--
A rendszervaltas jeloltjei: https://rendszervaltas2018.hu/
- A hozzászóláshoz be kell jelentkezni
A letolt gatya mellett a szája is tátva van :-D
- A hozzászóláshoz be kell jelentkezni
hat de miert kell kulon thread mindegyikhez?
az en (igaz c-ben irt) pingelom (most probaltam ki 350 hosttal) is csak 0.9% cpu eszik (igaz Intel(R) Xeon(R) CPU E5607 @ 2.27GHz, de nem egy mai vas ez se)
nalam ugy mukodik hogy 1mp-kent kikuldi az osszes hostra a pinget aztan varakozik a bejovo csomagokra: http://thot.banki.hu/arpi/pingstat3.c
- A hozzászóláshoz be kell jelentkezni
Broadcast addressre is lehet pinget küldeni. A ping csomagméretet is lehet minimalizálni. Én azonban snmp get-et küldenék.
- A hozzászóláshoz be kell jelentkezni
Pontosan, minimális kiindulási alapként ifInErrors, ifOutErrors, ifOutQLen, ifInDiscards, ifLastChange, és még az a többtíz paraméter, amik érdekesek lehetnek. Aztán ezzel összhangban lehet a mikró beltériket kérdezgetni a rádiós átvitel paramétereiről, jelszintekről, javított és javíthatatlan hibákról stb.
Ezen felül meg még ott van a BFD is, erre (is) lehet alkalmazni.
"többnyire mikrohullámú linkek lennének a végpontok"
Amúgy ezek licencelt, vagy bárki által szabadon használható frekvenciasávban üzemelő mikrók? Mert ha jól értem az eddigiekből, ez a packetloss/frameloss jelenség rendszeresen és tömegesen fordul elő, ami lehet, hogy "normális", ha más is bezavarhat.
- A hozzászóláshoz be kell jelentkezni
ping csomagmeret: hat eppenseggel mikronal a csomagmerettel exponencialisan no a hibak szama. mivel hibajavitas nincs, nagyobb csomagnal nagyobb valoszinuseggel lesz bithiba ami miatt eldobja az egeszet. en emiatt 1460-al pingelek, egesz mas eredmenyt ad ki mikros vonalaknal mint a kis csomagmerettel.
- A hozzászóláshoz be kell jelentkezni
Linuxon hogyan?
Vagy türelmetlen vagyok, vagy nem működik a ping -b 172.16.255.255...
- A hozzászóláshoz be kell jelentkezni
Biztos, hogy a Linuxon nem működik, és nem az van, hogy a subnetben lévő eszközök nem válaszolnak a broadcast pingre? (pl.: Linuxon /proc/sys/net/ipv4/icmp_echo_ignore_broadcasts).
"nem működik a ping -b 172.16.255.255"
A subnet jó?
- A hozzászóláshoz be kell jelentkezni
Semmi sem biztos, csak feltételeztem, hogy legalább a router válaszol.
A subnet jó.
- A hozzászóláshoz be kell jelentkezni
Broadcast addressre is lehet pinget küldeni.
ja, a smurf az olyan XX. szazadi attack volt. Azota kb. mindenhol default blokkolva van - okkal.
--
A rendszervaltas jeloltjei: https://rendszervaltas2018.hu/
- A hozzászóláshoz be kell jelentkezni