Sziasztok!
Némi segítségre lenne szükségem azt illetően, hogy egy adott szervergépen hogyan és mint lehetne behatárolni egy nehezen felderíthető hibát, ami kernel oopsokat és a folyamatok szépen, sorban történő elhalását eredményezi: először mysql (igen hamar, akár rögtön, indításkor), aztán named, majd megint más, általában hasonló sorrendben.
Memtest hibátlanul lefutott, live-cd-ről az fsck minden partícióra hibátlanul lefutott, ugyancsak live-cd-ről indított "cat /dev/sd[a,b,..] > /dev/null" parancsra szintén nem panaszkodott a rendszer.
Rootkit vizsgálat még nem volt, de - nem mintha láttam volna már rootkites gépet - a tünetek alapján úgy sejtem, hogy nem ilyesmi okozza.
Konfiguráció:
- Broadcom HT1000 csipszet
- AMD Opteron 2212, 2ghz
- 2GB DDR2 Kingston ECC RAM
- 2db Samsung HD501LJ merevlemez, szoftveres raid1-ben
- Debian Etch
- JFS fájlrendszer minden partíción
Van valakinek ötlete, merre tovább? Cserebere, hogy próbáljuk ki más cuccokkal, darabonként cseréljünk ki mindent stb., nehezen vagy egyáltalán nem oldható meg. Minden olyan Samsung vinyóval rossz tapasztalatom van, aminek valaha a közelébe kerültem, ami nagyobb 80GB-nál. Másnak is esetleg? Furcsállom, hogy rendesen lefutott a memtest - igaz, csak egyszer -, mert tipikusan memória-hibának tűnik a dolog. Tud valaki olyanról, hogy az ECC-nek köszönhetően egy memtest lefut, "élesben" viszont előjön egy hiba?
Tipikusan ilyeneket látni a dmesg-ben:
Unable to handle kernel paging request at 00002aaac7083000 RIP:
[]
PGD 1994f067 PUD 19da9067 PMD 0
Oops: 0002 [1] SMP
CPU 0
... regiszterek tartalma...
Process [folyamat neve] (pid: 3459, threadinfo ffff810018d1a000, task ffff810029453080)
Stack: 0000000000000000 ffffffff8020bce8 00000000402295e0 00002aaac543f910
ffff810028db8ec0 ffffffff88035000 00002aaac543f910 ffffffff88035000
0000000028db8ec0 00002aaac70835dc ffff81003ea802c0 00002aaac7083000
Call Trace:
[] _atomic_dec_and_lock+0x39/0x57
[] system_call+0x7e/0x83
A géppel közel egy évig semmi gond sem volt. (Más: az ilyen témákat hova kell tenni itt, a fúrumon belül? Még ez tűnt a leginkább testhezállónak.)
Tud esetleg valaki egy jó, diagnosztikai programot, ami jó eséllyel behatárolja a hibát?
Előre is köszi minden építő hozzászólást!
Chreex
- 1405 megtekintés
Hozzászólások
próbáltad már nulláról újrarakni 64 bites lennyvel?
nálam a sorrend:
- melegedés, vagyis hűtés ellenőrzése
- memória cserebere
- táp (esetleg ha volt, szünetmentes mellőzése egy időre)
igazi gyilkolászást több, párhuzamos kernelfordítással lehet csinálni, sok jobbal.
- A hozzászóláshoz be kell jelentkezni
+1
Pedig viszonylag 1xű a játék, ha reprodukálható a hiba akkor alkatrész cserélgetéssel be lehet határolni mi okozhatja. Ez megtörtént már?
Szerk. ja hogy nem (most látom). Pedig kellene...
- A hozzászóláshoz be kell jelentkezni
+1 melegedés ( cpu, chipset ) portalanítás majd újraindítás.
--
üdv: virtualm
- A hozzászóláshoz be kell jelentkezni
"Tud valaki olyanról, hogy az ECC-nek köszönhetően egy memtest lefut, "élesben" viszont előjön egy hiba? "
Az ECC-tol fuggetlenul, de mar lattunk ilyet.
Mikor volt utoljara kernel upgrade?
Azokat az oops-okat lathatnank egeszben (mondjuk az utolso >3 db-ot)?
--
Fontos feladatot soha ne bizz olyan gepre, amit egyedul is fel tudsz emelni!
- A hozzászóláshoz be kell jelentkezni
Nem láttam lehetőséget arra, hogy fájlt csatoljak vagy kultúráltan megadjam a magasságát a code doboznak, minden esetre itt van egy pár, a /var/log/kern.log fájlból:
Aug 31 16:24:39 XXXX kernel: ACPI: Sleep Button (FF) [SLPF]
Aug 31 16:24:39 XXXX kernel: ACPI: Power Button (CM) [PWRB]
Aug 31 16:25:05 XXXX kernel: Unable to handle kernel paging request at 00002aaac7083000 RIP:
Aug 31 16:25:05 XXXX kernel: [<ffffffff8820112f>]
Aug 31 16:25:05 XXXX kernel: PGD 1994f067 PUD 19da9067 PMD 0
Aug 31 16:25:05 XXXX kernel: Oops: 0002 [1] SMP
Aug 31 16:25:05 XXXX kernel: CPU 0
Aug 31 16:25:05 XXXX kernel: Modules linked in: binfmt_misc button ac battery ipv6 dm_snapshot dm_mirror dm_mod loop i2c_piix4 psmouse pcspkr i2c_core serio_raw shpchp pci_hotplug evdev jfs raid1 md_mod ide_generic ide_cd cdrom sd_mod serverworks sata_svw libata scsi_mod generic ide_core ehci_hcd ohci_hcd e1000 thermal processor fan
Aug 31 16:25:05 XXXX kernel: Pid: 3459, comm: java Not tainted 2.6.18-6-amd64 #1
Aug 31 16:25:05 XXXX kernel: RIP: 0010:[<ffffffff8820112f>] [<ffffffff8820112f>]
Aug 31 16:25:05 XXXX kernel: RSP: 0018:ffff810018d1bec8 EFLAGS: 00010297
Aug 31 16:25:05 XXXX kernel: RAX: 00002aaac7083000 RBX: 00002aaac543f910 RCX: 0000000000000002
Aug 31 16:25:05 XXXX kernel: RDX: 000000000000002f RSI: 0000000000000296 RDI: 0000000000000000
Aug 31 16:25:05 XXXX kernel: RBP: ffff810018d1bf78 R08: 0000000000000296 R09: 0000000000000000
Aug 31 16:25:05 XXXX kernel: R10: 0000000000000080 R11: ffffffff8026ea83 R12: 0000000040113598
Aug 31 16:25:05 XXXX kernel: R13: 0000000000000000 R14: 0000000040229718 R15: 0000000040113400
Aug 31 16:25:05 XXXX kernel: FS: 000000004022b960(0063) GS:ffffffff80522000(0000) knlGS:0000000000000000
Aug 31 16:25:05 XXXX kernel: CS: 0010 DS: 0000 ES: 0000 CR0: 000000008005003b
Aug 31 16:25:05 XXXX kernel: CR2: 00002aaac7083000 CR3: 0000000019ff9000 CR4: 00000000000006e0
Aug 31 16:25:05 XXXX kernel: Process java (pid: 3459, threadinfo ffff810018d1a000, task ffff810029453080)
Aug 31 16:25:05 XXXX kernel: Stack: 0000000000000000 ffffffff8020bce8 00000000402295e0 00002aaac543f910
Aug 31 16:25:05 XXXX kernel: ffff810028db8ec0 ffffffff88035000 00002aaac543f910 ffffffff88035000
Aug 31 16:25:05 XXXX kernel: 0000000028db8ec0 00002aaac70835dc ffff81003ea802c0 00002aaac7083000
Aug 31 16:25:05 XXXX kernel: Call Trace:
Aug 31 16:25:05 XXXX kernel: [<ffffffff8020bce8>] _atomic_dec_and_lock+0x39/0x57
Aug 31 16:25:05 XXXX kernel: [<ffffffff80257c16>] system_call+0x7e/0x83
Aug 31 16:25:05 XXXX kernel:
Aug 31 16:25:05 XXXX kernel:
Aug 31 16:25:05 XXXX kernel: Code: 88 10 48 83 45 d8 01 48 83 45 d0 01 83 45 e4 01 8b 45 e4 3b
Aug 31 16:25:05 XXXX kernel: RIP [<ffffffff8820112f>]
Aug 31 16:25:05 XXXX kernel: RSP <ffff810018d1bec8>
Aug 31 16:25:05 XXXX kernel: CR2: 00002aaac7083000
Aug 31 16:25:25 XXXX kernel: <1>Unable to handle kernel paging request at 00002aaaabfc2000 RIP:
Aug 31 16:25:25 XXXX kernel: [<ffffffff881ff12f>]
Aug 31 16:25:25 XXXX kernel: PGD 35eaf067 PUD 34f17067 PMD 324b8067 PTE 0
Aug 31 16:25:25 XXXX kernel: Oops: 0002 [2] SMP
Aug 31 16:25:25 XXXX kernel: CPU 1
Aug 31 16:25:25 XXXX kernel: Modules linked in: binfmt_misc button ac battery ipv6 dm_snapshot dm_mirror dm_mod loop i2c_piix4 psmouse pcspkr i2c_core serio_raw shpchp pci_hotplug evdev jfs raid1 md_mod ide_generic ide_cd cdrom sd_mod serverworks sata_svw libata scsi_mod generic ide_core ehci_hcd ohci_hcd e1000 thermal processor fan
Aug 31 16:25:25 XXXX kernel: Pid: 3582, comm: mysqld Not tainted 2.6.18-6-amd64 #1
Aug 31 16:25:25 XXXX kernel: RIP: 0010:[<ffffffff881ff12f>] [<ffffffff881ff12f>]
Aug 31 16:25:25 XXXX kernel: RSP: 0018:ffff810015989ec8 EFLAGS: 00010297
Aug 31 16:25:25 XXXX kernel: RAX: 00002aaaabfc2000 RBX: 0000000044066892 RCX: 0000000000000001
Aug 31 16:25:25 XXXX kernel: RDX: 000000000000002f RSI: 0000000000000296 RDI: 0000000000000000
Aug 31 16:25:25 XXXX kernel: RBP: ffff810015989f78 R08: 0000000000000296 R09: 0000000000000000
Aug 31 16:25:25 XXXX kernel: R10: 0000000000000080 R11: ffffffff8026ea83 R12: 000000004406689a
Aug 31 16:25:25 XXXX kernel: R13: 0000000044066a90 R14: 0000000000000008 R15: 000000004405c467
Aug 31 16:25:25 XXXX kernel: FS: 000000004406a960(0063) GS:ffff81003f1b5ac0(0000) knlGS:0000000000000000
Aug 31 16:25:26 XXXX kernel: CS: 0010 DS: 0000 ES: 0000 CR0: 000000008005003b
Aug 31 16:25:26 XXXX kernel: CR2: 00002aaaabfc2000 CR3: 000000003bebe000 CR4: 00000000000006e0
Aug 31 16:25:26 XXXX kernel: Process mysqld (pid: 3582, threadinfo ffff810015988000, task ffff81003e13b870)
Aug 31 16:25:26 XXXX kernel: Stack: 00000010000200d0 ffff81003f56e710 000000004405c380 000000004405c450
Aug 31 16:25:26 XXXX kernel: ffff8100102a5d80 ffffffff88035000 000000004405c450 ffffffff88035000
Aug 31 16:25:26 XXXX kernel: 000000003f1df680 00002aaaabfc25dc ffff8100358bf630 00002aaaabfc2000
Aug 31 16:25:26 XXXX kernel: Call Trace:
Aug 31 16:25:26 XXXX kernel: [<ffffffff80257c16>] system_call+0x7e/0x83
Aug 31 16:25:26 XXXX kernel:
Aug 31 16:25:26 XXXX kernel:
Aug 31 16:25:26 XXXX kernel: Code: 88 10 48 83 45 d8 01 48 83 45 d0 01 83 45 e4 01 8b 45 e4 3b
Aug 31 16:25:26 XXXX kernel: RIP [<ffffffff881ff12f>]
Aug 31 16:25:26 XXXX kernel: RSP <ffff810015989ec8>
Aug 31 16:25:26 XXXX kernel: CR2: 00002aaaabfc2000
Aug 31 16:36:05 XXXX kernel: <1>Unable to handle kernel paging request at 00002aaaaae00000 RIP:
Aug 31 16:36:05 XXXX kernel: [<ffffffff881e9134>]
Aug 31 16:36:05 XXXX kernel: PGD 3cd68067 PUD 3b939067 PMD 0
Aug 31 16:36:05 XXXX kernel: Oops: 0002 [3] SMP
Aug 31 16:36:05 XXXX kernel: CPU 1
Aug 31 16:36:05 XXXX kernel: Modules linked in: binfmt_misc button ac battery ipv6 dm_snapshot dm_mirror dm_mod loop i2c_piix4 psmouse pcspkr i2c_core serio_raw shpchp pci_hotplug evdev jfs raid1 md_mod ide_generic ide_cd cdrom sd_mod serverworks sata_svw libata scsi_mod generic ide_core ehci_hcd ohci_hcd e1000 thermal processor fan
Aug 31 16:36:05 XXXX kernel: Pid: 2407, comm: named Not tainted 2.6.18-6-amd64 #1
Aug 31 16:36:05 XXXX kernel: RIP: 0010:[<ffffffff881e9134>] [<ffffffff881e9134>]
Aug 31 16:36:05 XXXX kernel: RSP: 0018:ffff81003a503ec8 EFLAGS: 00010293
Aug 31 16:36:05 XXXX kernel: RAX: 00002aaaaae00000 RBX: 0000000000723400 RCX: 0000000000000001
Aug 31 16:36:05 XXXX kernel: RDX: 000000000000002f RSI: 0000000000000296 RDI: 0000000000000000
Aug 31 16:36:05 XXXX kernel: RBP: ffff81003a503f78 R08: 0000000000000296 R09: 0000000000000000
Aug 31 16:36:05 XXXX kernel: R10: 0000000000000080 R11: ffffffff8026ea83 R12: 0000000000723400
Aug 31 16:36:05 XXXX kernel: R13: 00002ababf9399d1 R14: 00002ababfa5cc60 R15: 0000000000000000
Aug 31 16:36:05 XXXX kernel: FS: 0000000040800960(0063) GS:ffff81003f1b5ac0(0000) knlGS:0000000000000000
Aug 31 16:36:05 XXXX kernel: CS: 0010 DS: 0000 ES: 0000 CR0: 000000008005003b
Aug 31 16:36:05 XXXX kernel: CR2: 00002aaaaae00000 CR3: 000000003cd64000 CR4: 00000000000006e0
Aug 31 16:36:05 XXXX kernel: Process named (pid: 2407, threadinfo ffff81003a502000, task ffff81003e13b140)
Aug 31 16:36:05 XXXX kernel: Stack: 000000012fdb0002 fffffffffffffffe 00000000000001b6 00002ababf9399d1
Aug 31 16:36:05 XXXX kernel: 0000000000000000 ffffffff88035000 00002ababf9399d1 ffffffff88035000
Aug 31 16:36:05 XXXX kernel: 0000000000000001 00002aaaaae005dc 00002aaaaae00004 00002aaaaae00000
Aug 31 16:36:05 XXXX kernel: Call Trace:
Aug 31 16:36:05 XXXX kernel: [<ffffffff80257c16>] system_call+0x7e/0x83
Aug 31 16:36:05 XXXX kernel:
Aug 31 16:36:05 XXXX kernel:
Aug 31 16:36:05 XXXX kernel: Code: 88 10 48 83 45 d8 01 48 83 45 d0 01 83 45 e4 01 8b 45 e4 3b
Aug 31 16:36:05 XXXX kernel: RIP [<ffffffff881e9134>]
Aug 31 16:36:05 XXXX kernel: RSP <ffff81003a503ec8>
Aug 31 16:36:05 XXXX kernel: CR2: 00002aaaaae00000
Aug 31 17:32:58 XXXX kernel: <1>Unable to handle kernel paging request at 00002aaaab0d2000 RIP:
Aug 31 17:32:58 XXXX kernel: [<ffffffff8820112f>]
Aug 31 17:32:58 XXXX kernel: PGD 2aa6d067 PUD 2aa6e067 PMD 2ba4f067 PTE 0
Aug 31 17:32:58 XXXX kernel: Oops: 0002 [4] SMP
Aug 31 17:32:58 XXXX kernel: CPU 0
Aug 31 17:32:58 XXXX kernel: Modules linked in: binfmt_misc button ac battery ipv6 dm_snapshot dm_mirror dm_mod loop i2c_piix4 psmouse pcspkr i2c_core serio_raw shpchp pci_hotplug evdev jfs raid1 md_mod ide_generic ide_cd cdrom sd_mod serverworks sata_svw libata scsi_mod generic ide_core ehci_hcd ohci_hcd e1000 thermal processor fan
Aug 31 17:32:58 XXXX kernel: Pid: 5878, comm: clamd Not tainted 2.6.18-6-amd64 #1
Aug 31 17:32:58 XXXX kernel: RIP: 0010:[<ffffffff8820112f>] [<ffffffff8820112f>]
Aug 31 17:32:58 XXXX kernel: RSP: 0018:ffff81001cf07ec8 EFLAGS: 00010293
Aug 31 17:32:58 XXXX kernel: RAX: 00002aaaab0d2000 RBX: 00000000ffffffff RCX: ffff810009815140
Aug 31 17:32:58 XXXX kernel: RDX: 000000000000002f RSI: 0000000000000296 RDI: 0000000000000000
Aug 31 17:32:58 XXXX kernel: RBP: ffff81001cf07f78 R08: 0000000000000296 R09: 0000000000000000
Aug 31 17:32:58 XXXX kernel: R10: ffff810000678d18 R11: ffff8100006781e8 R12: 00002aaaab1008d0
Aug 31 17:32:58 XXXX kernel: R13: 000000000165a570 R14: 000000000165a570 R15: 00000000407fcfa0
Aug 31 17:32:58 XXXX kernel: FS: 0000000040800960(0063) GS:ffffffff80522000(0000) knlGS:0000000000000000
Aug 31 17:32:58 XXXX kernel: CS: 0010 DS: 0000 ES: 0000 CR0: 000000008005003b
Aug 31 17:32:58 XXXX kernel: CR2: 00002aaaab0d2000 CR3: 0000000021d55000 CR4: 00000000000006e0
Aug 31 17:32:58 XXXX kernel: Process clamd (pid: 5878, threadinfo ffff81001cf06000, task ffff810009815100)
Aug 31 17:32:58 XXXX kernel: Stack: 0000000000000000 0000000000000000 00000000407fcfa0 000000000165a570
Aug 31 17:32:58 XXXX kernel: 000000000165a570 ffffffff88035000 000000000165a570 ffffffff88035000
Aug 31 17:32:58 XXXX kernel: 0000000000000003 00002aaaab0d25dc 0000000000000018 00002aaaab0d2000
Aug 31 17:32:58 XXXX kernel: Call Trace:
Aug 31 17:32:58 XXXX kernel: [<ffffffff80257c16>] system_call+0x7e/0x83
Aug 31 17:32:58 XXXX kernel:
Aug 31 17:32:58 XXXX kernel:
Aug 31 17:32:58 XXXX kernel: Code: 88 10 48 83 45 d8 01 48 83 45 d0 01 83 45 e4 01 8b 45 e4 3b
Aug 31 17:32:58 XXXX kernel: RIP [<ffffffff8820112f>]
Aug 31 17:32:58 XXXX kernel: RSP <ffff81001cf07ec8>
Aug 31 17:32:58 XXXX kernel: CR2: 00002aaaab0d2000
A kernel verziója 2.6.18-6-amd64 - mivel nem szoktam debiannal foglalkozni, nem tudom, hogy ez mennyire friss.
Viszont a "system_call+0x7e/0x83" szövegrészletre keresve találtam ezt a linket: http://ubuntuforums.org/showthread.php?t=930139 - itt a végén az ember az APIC-LAPIC kikapcsolásával eredményt ért el. Bár a stack-trace-ek tartalma az esetemben másról szól, ennek azért adok holnap egy esélyt, hátha.
- A hozzászóláshoz be kell jelentkezni
Marmint ugy ertettem, hogy kozottuk egy reboot-al.
--
Fontos feladatot soha ne bizz olyan gepre, amit egyedul is fel tudsz emelni!
- A hozzászóláshoz be kell jelentkezni
Képzeld el ugyanezt háromszor, egymás után, némileg eltérő időbélyegekkel. :) Tényleg szinte bitre megegyeznek.
Mindenkinek köszi az ötleteket, asszem, marad az alkatrészcsere - muszáj lesz megoldani.
- A hozzászóláshoz be kell jelentkezni
Akkor ez nem igazan tunik hw-hibanak.
Masold ki livecd-rol bootolva a kernel image-t + a kernel modulokat, es hasonlitsd ossze egy ugyanilyen szuz debianeval, meg esetleg probald ki ujonnan forditott vanilla kernellel.
--
Fontos feladatot soha ne bizz olyan gepre, amit egyedul is fel tudsz emelni!
- A hozzászóláshoz be kell jelentkezni
Én is jártam már úgy, hogy adott gép viszonylag ritkán, de rendszeresen hibajelenségeket produkált, általában 1-2 hét alatt megállt. Memtest nem volt hosszan futtatva, de néhány kör alatt semmi hibát nem jelzett...
Ugyanakkor RAM-cserével már fél éve nincs vele gond.
Ettől függetlenül mindenekelőtt melegedés (pl. CPU /esetleg hővezető paszta csere/, ventik /kosz, fordulatszám/, chipset hűtés), táp ellenőrzése nem árt.
- A hozzászóláshoz be kell jelentkezni
nekem 870 napos uptime-t vitt el egy memória hiba, brühühü
memória csere óta jól megy...
- A hozzászóláshoz be kell jelentkezni
Cserebere helyett - ha van rá fiskális keret - először csinálj másikat, utána ráérsz ezt mosdatni.
Nekem gyanús volt az örökölt szerverem, ezért először összeraktam egy működő másikat. Csak aztán szöszöltem a publikus forgalomból kivont régin; mert muszály rájönni, hogy mi a szentszar van, - a probléma ettől még probléma maradt - de így nyugisabb a tetvészkedés mint élesben.
- A hozzászóláshoz be kell jelentkezni
Valamilyen frissites vagy SW telepites nem elozte meg ezeket a hibakat? Volt-e rendszer frissites a hiba keletkezese elott? Single mode-ban is produkalja a tuneteket? Top mit mond mi fut? Dmesg? Logok?
Nekem a debian az intel atom-os alaplapomon szorakozott idonkent el-el szallt magatol. Mint kesobb kiderult, az ACPI kezelessel volt a problemaja, amit azota sem tudtam debian alatt beuzemelni. Proba keppen egy Ubuntu servert tettem ra, azzal szepen megy azota is. Esetleg probalj meg masik OS-t tenni ra (Akar live CD-rol is.), lehet egy bug valamelyik driverben.
--
TH
- A hozzászóláshoz be kell jelentkezni