Debian elérhetetlenné válik

Fórumok

Sziasztok,

néhány napja az egyik gépem elérhetetlenné vált. Bementem a szerverparkba, és átnéztem a gépet. Látszólag elfogyott a memória, és szépen kilőtte a rendszer a folyamatokat. Muninban látszott egy magas load (25 körül azt hiszem). Ezután nem lehetett a szervert semmilyen formában elérni. Csak a ping működött.
Ujraindítás után látszólag minden rendben volt. De ma ismét jelentkezett a szituáció, így kértem rá egy újraindítást. Belépés után igazából semmi gyanúsat nem láttam a naplófileokban. Figyeltem a memóriát, load-ot, de nem volt vészes egyik sem most. A fizikai memória nagyrészt ki volt használva, de a swap majdnem üres volt.
Aztán egyszer minden jel nélkül ismét megzűnt a kapcsolat. Ekkor futott a top, de nem voltak furcsa jelek itt sem.
Újraindítást követően beléptem ssh-n, majd pár másodperccel később ismét megszűnt a kapcsolat.
Innen elég gyanús a külső beavatkozás.

Abban szeretnék segítséget kérni, hogy kiderítsem, tényleg külső beavatkozás -e, vagy esetleg valamilyen szoftveres/hardveres hibáról van -e szó.

Hozzászólások

Milyen kernel van fent?
Esetleg egy RAMTESZT érdemes lenne...

Hőmérsékleteket figyeled a munin -ban, nem melegszik túl?
Acpi, snmpd más egyéb távoli leállításra alkalmas program?
Memetest ?

----
올드보이
http://molnaristvan.eu/

/proc/meminfo mit ír?

Konzolra sem írt semmit, mikor fagyott?

Memtest, hőmérséklet-figyelés nem árt, de én azért körbenéznék kicsit jobban az OS környékén. Nem lett valami hardver hozzáadva az utóbbi időben, valami frissítés, új program feltéve stb? Interruptok nem mozognak nagyon fagyás előtt?

(párszor láttam csodálatos kernel modulokat megbolondulni, hasonló dolgokat okozva)

cat /proc/meminfo
MemTotal: 1034224 kB
MemFree: 700968 kB
Buffers: 15040 kB
Cached: 201204 kB
SwapCached: 0 kB
Active: 176044 kB
Inactive: 133112 kB
HighTotal: 129440 kB
HighFree: 224 kB
LowTotal: 904784 kB
LowFree: 700744 kB
SwapTotal: 1951856 kB
SwapFree: 1951856 kB
Dirty: 692 kB
Writeback: 0 kB
AnonPages: 93028 kB
Mapped: 30224 kB
Slab: 14108 kB
SReclaimable: 8076 kB
SUnreclaim: 6032 kB
PageTables: 1700 kB
NFS_Unstable: 0 kB
Bounce: 0 kB
WritebackTmp: 0 kB
CommitLimit: 2468968 kB
Committed_AS: 548172 kB
VmallocTotal: 114680 kB
VmallocUsed: 3596 kB
VmallocChunk: 110932 kB
HugePages_Total: 0
HugePages_Free: 0
HugePages_Rsvd: 0
HugePages_Surp: 0
Hugepagesize: 4096 kB

Konzolom akkor még nem volt. Hardver nem változott. Új vhostok lettek beállítva (php-s wbshop), amik akár gyanúsak is lehetnek. Külön user nevével futnak, de nincsenek korlátozva erőforrás használat szempontjából.

Interrupoknál nem látok semmi kiemekedőt, a local timer ~500 korül mozog, ez mintha fagyás előtt lement volna 400-ra. És a múltkori fagyásnál a rescheduling interrupts megugrott 355-ig.

Ezen kívül a fail2bant piszkáltam még, mert idegesített a sok pma és társai próbálkozás.

Szóval a mai kapcsolat gondjait a fail2ban okozta, ezt kiderítettem:
egy régi számítógépemen (amit rég óta nem kapcsoltam be) bentmaradt egy firefox plugin, ami kapcsolatot létesített a szerverrel, és az idő közben bekonfigurált fail2ban ezt rossz néven vette.
Így marad a néhány nappal korábbi eset, ami viszont azóta nem jelentkezett és akkor egyértelműen szoftver okozta a galibát.

Mindenesetre betettem a muninba a hőmérsékletet (8 Celsius-t mutat?!) és amíg van konzolom lehet egy memtestet is megnézek.