Haldokló szerver - mit-merre-hogyan?
Sziasztok!
Némi segítségre lenne szükségem azt illetően, hogy egy adott szervergépen hogyan és mint lehetne behatárolni egy nehezen felderíthető hibát, ami kernel oopsokat és a folyamatok szépen, sorban történő elhalását eredményezi: először mysql (igen hamar, akár rögtön, indításkor), aztán named, majd megint más, általában hasonló sorrendben.
Memtest hibátlanul lefutott, live-cd-ről az fsck minden partícióra hibátlanul lefutott, ugyancsak live-cd-ről indított "cat /dev/sd[a,b,..] > /dev/null" parancsra szintén nem panaszkodott a rendszer.
Rootkit vizsgálat még nem volt, de - nem mintha láttam volna már rootkites gépet - a tünetek alapján úgy sejtem, hogy nem ilyesmi okozza.
Konfiguráció:
- Broadcom HT1000 csipszet
- AMD Opteron 2212, 2ghz
- 2GB DDR2 Kingston ECC RAM
- 2db Samsung HD501LJ merevlemez, szoftveres raid1-ben
- Debian Etch
- JFS fájlrendszer minden partíción
Van valakinek ötlete, merre tovább? Cserebere, hogy próbáljuk ki más cuccokkal, darabonként cseréljünk ki mindent stb., nehezen vagy egyáltalán nem oldható meg. Minden olyan Samsung vinyóval rossz tapasztalatom van, aminek valaha a közelébe kerültem, ami nagyobb 80GB-nál. Másnak is esetleg? Furcsállom, hogy rendesen lefutott a memtest - igaz, csak egyszer -, mert tipikusan memória-hibának tűnik a dolog. Tud valaki olyanról, hogy az ECC-nek köszönhetően egy memtest lefut, "élesben" viszont előjön egy hiba?
Tipikusan ilyeneket látni a dmesg-ben:
Unable to handle kernel paging request at 00002aaac7083000 RIP:
[]
PGD 1994f067 PUD 19da9067 PMD 0
Oops: 0002 [1] SMP
CPU 0
... regiszterek tartalma...
Process [folyamat neve] (pid: 3459, threadinfo ffff810018d1a000, task ffff810029453080)
Stack: 0000000000000000 ffffffff8020bce8 00000000402295e0 00002aaac543f910
ffff810028db8ec0 ffffffff88035000 00002aaac543f910 ffffffff88035000
0000000028db8ec0 00002aaac70835dc ffff81003ea802c0 00002aaac7083000
Call Trace:
[] _atomic_dec_and_lock+0x39/0x57
[] system_call+0x7e/0x83
A géppel közel egy évig semmi gond sem volt. (Más: az ilyen témákat hova kell tenni itt, a fúrumon belül? Még ez tűnt a leginkább testhezállónak.)
Tud esetleg valaki egy jó, diagnosztikai programot, ami jó eséllyel behatárolja a hibát?
Előre is köszi minden építő hozzászólást!
Chreex
- Tovább (Haldokló szerver - mit-merre-hogyan?)
- 1410 megtekintés