[MEGOLDVA] Haldoklo Debian router

Fórumok

Adott egy regi Celeronos gep (Abit BX6-rev2, celeron500, 256M ram, SMC2-1211TX + Dlink (Rhine-III) LAN, WDC AC313000R hdd.
Es 2-3 naponta a kovetkezot jatsza el: Pingelni lehet, de semmilyen szolgaltatast nem lehet elerni, kepernyo sotet, billentyuzet nem reagal, csak a reset segit.
Volt mar alaplapcsere (a regi noname lapot csereltem a fent leirtra, az uj lapban masik proci, masik memcsi, tehat azok is cserelodtek) de a hiba ugyanaz. Lecsereltem a kernelt 2.6.20-rol 2.6.22.1 -re, de a helyzet valtozatlan.

Ma sikerult elcsipnem egy logot is:
Aug 6 09:06:30 tvegergw kernel: BUG: unable to handle kernel paging request at virtual address ffffff7f
Aug 6 09:06:30 tvegergw kernel: printing eip:
Aug 6 09:06:30 tvegergw kernel: c0191d81
Aug 6 09:06:30 tvegergw kernel: *pde = 00001067
Aug 6 09:06:30 tvegergw kernel: *pte = 00000000
Aug 6 09:06:30 tvegergw kernel: Oops: 0002 [#1]
Aug 6 09:06:30 tvegergw kernel: Modules linked in: ppp_deflate zlib_deflate zlib_inflate bsd_comp ppp_async crc_ccitt ppp_generic slhc xt_limit ipt_REJECT xt_tcpudp xt_state iptable_filter ipt_MASQUERADE iptable_nat nf_conntrack_ipv4 ip_tables x_tables nf_nat_ftp nf_nat nf_conntrack_ftp nf_conntrack nfnetlink af_packet reiserfs 8250 serial_core via_rhine 8139too mii bitrev crc32
Aug 6 09:06:30 tvegergw kernel: CPU: 0
Aug 6 09:06:30 tvegergw kernel: EIP: 0060:[] Not tainted VLI
Aug 6 09:06:30 tvegergw kernel: EFLAGS: 00010283 (2.6.22.1 #1)
Aug 6 09:06:30 tvegergw kernel: EIP is at ext3_clear_inode+0x41/0xa0
Aug 6 09:06:30 tvegergw kernel: eax: c93ecca0 ebx: c93ecc10 ecx: 00000000 edx: ffffff7f
Aug 6 09:06:30 tvegergw kernel: esi: c93ecca0 edi: 00000000 ebp: 0000000f esp: c12c5ec8
Aug 6 09:06:30 tvegergw kernel: ds: 007b es: 007b fs: 0000 gs: 0000 ss: 0068
Aug 6 09:06:30 tvegergw kernel: Process kswapd0 (pid: 48, ti=c12c4000 task=c129e550 task.ti=c12c4000)
Aug 6 09:06:30 tvegergw kernel: Stack: c93ecca0 c93ecdac c12c5f04 c015da94 0000000f c93ecca0 c93ecca8 c015dd3a
Aug 6 09:06:30 tvegergw kernel: 00000080 c93ed2a0 00000080 c12c5f04 c015df2e 00000000 00000080 c93ece58
Aug 6 09:06:30 tvegergw kernel: c93d0d08 0000dd7c 000000d0 c123eae0 000000d0 c01391b3 0000d2cb 0049ffd3
Aug 6 09:06:30 tvegergw kernel: Call Trace:
Aug 6 09:06:30 tvegergw kernel: [] clear_inode+0x54/0xf0
Aug 6 09:06:30 tvegergw kernel: [] dispose_list+0x1a/0xb0
Aug 6 09:06:30 tvegergw kernel: [] shrink_icache_memory+0x15e/0x210
Aug 6 09:06:30 tvegergw kernel: [] shrink_slab+0x103/0x160
Aug 6 09:06:30 tvegergw kernel: [] kswapd+0x2eb/0x3d0
Aug 6 09:06:30 tvegergw kernel: [] autoremove_wake_function+0x0/0x50
Aug 6 09:06:30 tvegergw kernel: [] kswapd+0x0/0x3d0
Aug 6 09:06:30 tvegergw kernel: [] kthread+0x42/0x70
Aug 6 09:06:30 tvegergw kernel: [] kthread+0x0/0x70
Aug 6 09:06:30 tvegergw kernel: [] kernel_thread_helper+0x7/0x14
Aug 6 09:06:30 tvegergw kernel: =======================
Aug 6 09:06:30 tvegergw kernel: Code: 8b 53 68 8b 7b 54 85 d2 74 15 83 fa ff 74 10 ff 0a 0f 94 c0 84 c0 75 52 c7 43 68 ff ff ff ff 8b 53 6c 85 d2 74 15 83 fa ff 74 10 0a 0f 94 c0 84 c0 75 28 c7 43 6c ff ff ff ff 89 f0 e8 38 5b
Aug 6 09:06:30 tvegergw kernel: EIP: [] ext3_clear_inode+0x41/0xa0 SS:ESP 0068:c12c5ec8

Smartctl szerint a vinyo is jo, meg cserelodott az IDE kabel is.

Help pls!

Hozzászólások

Javasolnék egy tápvizsgálatot.
Mert lehet hogy idővel már nem adja ki magából ami kell a megadott árammal és feszültséggel. Ettől is tud ám fagyni a dolog, meg hülyeség lenni.

Egyszerübb ha cserélsz bele egy tuti jó tápot, teszt képpen.
Vagy leállsz 3-4 multival méregetni a feszeket hogy melyik mennyi terhelés alatt.

Táp is halahat meg idővel, főleg ha mindig megy, mert kiszáradnak a kondik a melegtől.

Nekem volt egyszer, hogy hibás RAM volt a gépben, és ennek hatására a vinyón is jelent meg corrupted adat.
Ennek ellenére egy-két csomag újratelepítése után (és persze miután kivettem a hibás modult) ment a dolog.
Most 18 nap uptime-nál tart, csak áramszünet esetén megy ki :)
Lehet nálad is valami kritikus file mehetett tönkre, újra nem tudod telepíteni?

Aug 6 09:06:30 tvegergw kernel: BUG: unable to handle kernel paging request at virtual address ffffff7f

Esetleg a swap partíciót kreáld újra ha kizárdat az összes hardveres bibi -t.

___________________________________________________________________
Lógnak a pálmafán a kókuszok .... :)
http://laszlo.co.hu/

az is lehet, hogy bad-sectoros ott a hdd, ahol a swap van és csak pár nap mulva ir oda, de ezt ugy meg tudod csinálni, ha írsz egy progit, amit telecseszi a ramodat és elkezd swapelni.
esetleg egy memtest-et is ráengedhetnél.

szerk:
Aug 6 09:06:30 tvegergw kernel: EIP is at ext3_clear_inode+0x41/0xa0 egy fsck nyomjál rá

Nekem mindig igazam van, ha nem, akkor nincs igazam, szoval megint igazam van hogy nincs igazam.

debian 4.0 - linux-2.6.22.1-pancs1-wifi1 - 2.6.22.1 kernel madwifivel itt

Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 200 200 051 Pre-fail Always - 0
4 Start_Stop_Count 0x0012 095 095 040 Old_age Always - 5835
5 Reallocated_Sector_Ct 0x0013 200 200 001 Pre-fail Always - 0
9 Power_On_Hours 0x0012 062 062 000 Old_age Always - 28202
10 Spin_Retry_Count 0x0013 100 100 051 Pre-fail Always - 0
11 Calibration_Retry_Count 0x0013 100 100 051 Pre-fail Always - 0
12 Power_Cycle_Count 0x0012 095 095 000 Old_age Always - 5537
198 Offline_Uncorrectable 0x0012 200 200 000 Old_age Always - 0
199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 5
200 Multi_Zone_Error_Rate 0x0009 200 200 051 Pre-fail Offline - 0

Vinyo jo.

A cserecucc adast feliratozott, jo stabil volt, memtest meg amugy is futott mar rajta regebben (akkor a winnel volt zur, a virusok szepen kinyirtak)

fsckt meg mindjart elinditom...

Eddig a kovetkezo cserek voltak:
-Alaplapcsere + a rajta levo ram + proci
-Tapcsere
-IDEkabel csereje

Kb 1 hete volt idom ujra foglalkozni a geppel hogy vegleg megszuntessem a hibat, ugyhogy a kovetkezoket csinaltam meg:

-HDDcsere (WD 13GB+Seagate 3.2GB-rol Samsung 40GB-ra + uj rendszer felrakasa
-CPUcsere (Celeron 500-rol P3-600ra)

A helyzet sajnos meg mindig ugyanaz, azt leszamitva hogy 1-1.5 nap helyett kibir majdnem egy hetet.

Ma delutan megint elojott a baja, majd rendszerfrissites kozben megint:
Log: http://syserr.hu/messages 14:27-kor kezdodnek az erdekes dolgok.

Ilyenkor mar a restart se megy, mert elkezd leallni de meg is all leallitas kozben. -> reset

jelenlegi config:
00:00.0 Host bridge: Intel Corporation 440BX/ZX/DX - 82443BX/ZX/DX Host bridge (rev 03)
00:01.0 PCI bridge: Intel Corporation 440BX/ZX/DX - 82443BX/ZX/DX AGP bridge (rev 03)
00:07.0 ISA bridge: Intel Corporation 82371AB/EB/MB PIIX4 ISA (rev 02)
00:07.1 IDE interface: Intel Corporation 82371AB/EB/MB PIIX4 IDE (rev 01)
00:07.2 USB Controller: Intel Corporation 82371AB/EB/MB PIIX4 USB (rev 01)
00:07.3 Bridge: Intel Corporation 82371AB/EB/MB PIIX4 ACPI (rev 02)
00:09.0 Ethernet controller: Realtek Semiconductor Co., Ltd. RTL-8169 Gigabit Ethernet (rev 10)
00:0d.0 Ethernet controller: VIA Technologies, Inc. VT6105 [Rhine-III] (rev 86)
tvegergw:~#

tvegergw:~# cat /proc/cpuinfo
processor : 0
vendor_id : GenuineIntel
cpu family : 6
model : 8
model name : Pentium III (Coppermine)
stepping : 3
cpu MHz : 601.384
cache size : 256 KB
fdiv_bug : no
hlt_bug : no
f00f_bug : no
coma_bug : no
fpu : yes
fpu_exception : yes
cpuid level : 2
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 sep mtrr pge mca cmov pat pse36 mmx fxsr sse
bogomips : 1203.19
clflush size : 32

tvegergw:~#

Egyebkent gyakorlatilag mar minden ki van cserelve. (tul van a masodik tapcseren is)

milyen neten lóg? mert volt egy hely, ahhol gépet szereltem, a gépen minden ki lett cserélva, több szervízben is hibátlanul ment, hazahoztam, itthon is hibátlanul ment, erre lenéztem a csajhoz, hogy mit csinál a gép és kiderül, hogy az adsl modem volt a szar és az baszta le a gépet mindig, elötte ők is hívtak villanyszerelőt is, hátha avval van a gond ... .de a modem volt

linux v2.6.22.14 + madwifi v0.9.3.3-mal itt
debian gnu/linux @ linux-2.6.22.14-pancs1-wifi3


Dec  6 14:29:03 tvegergw kernel: swapper: page allocation failure. order:1, mode:0x20
Dec  6 14:29:03 tvegergw kernel:  [<c0135879>] __alloc_pages+0x239/0x2f0
Dec  6 14:29:03 tvegergw kernel:  [<d0897b1d>] __nf_ct_refresh_acct+0x5d/0x130 [nf_conntrack]
Dec  6 14:29:03 tvegergw kernel:  [<c0149456>] cache_alloc_refill+0x286/0x4a0
Dec  6 14:29:03 tvegergw kernel:  [<c023735d>] skb_checksum+0x4d/0x290
Dec  6 14:29:03 tvegergw kernel:  [<c01496c5>] __kmalloc+0x55/0x60
Dec  6 14:29:03 tvegergw kernel:  [<c02383b1>] __alloc_skb+0x51/0x110
Dec  6 14:29:03 tvegergw kernel:  [<c0262e80>] tcp_collapse+0x150/0x370
Dec  6 14:29:03 tvegergw kernel:  [<c0262e1e>] tcp_collapse+0xee/0x370
Dec  6 14:29:03 tvegergw kernel:  [<c027f1b6>] nf_ip_checksum+0x66/0x120
Dec  6 14:29:03 tvegergw kernel:  [<c02631ca>] tcp_prune_queue+0x12a/0x2c0
Dec  6 14:29:03 tvegergw kernel:  [<c0263aaf>] tcp_data_queue+0x74f/0xb80
Dec  6 14:29:03 tvegergw kernel:  [<d089b390>] tcp_packet+0x0/0xb40 [nf_conntrack]
Dec  6 14:29:03 tvegergw kernel:  [<c026542e>] tcp_rcv_established+0x36e/0x6a0
Dec  6 14:29:03 tvegergw kernel:  [<c026b0b0>] tcp_v4_do_rcv+0xa0/0x310
Dec  6 14:29:03 tvegergw kernel:  [<c024c270>] nf_iterate+0x70/0xb0
Dec  6 14:29:03 tvegergw kernel:  [<c02519d0>] ip_local_deliver_finish+0x0/0x1b0
Dec  6 14:29:03 tvegergw kernel:  [<c026d34a>] tcp_v4_rcv+0x88a/0x8a0
Dec  6 14:29:03 tvegergw kernel:  [<c024c35e>] nf_hook_slow+0xae/0xf0
Dec  6 14:29:03 tvegergw kernel:  [<c025229e>] ip_local_deliver+0x13e/0x210
Dec  6 14:29:03 tvegergw kernel:  [<c02519d0>] ip_local_deliver_finish+0x0/0x1b0
Dec  6 14:29:03 tvegergw kernel:  [<c0251f18>] ip_rcv+0x2c8/0x510
Dec  6 14:29:03 tvegergw kernel:  [<c0251700>] ip_rcv_finish+0x0/0x2d0
Dec  6 14:29:03 tvegergw kernel:  [<d087f30c>] packet_rcv_spkt+0xec/0x190 [af_packet]
Dec  6 14:29:03 tvegergw kernel:  [<c023cba9>] netif_receive_skb+0x189/0x210
Dec  6 14:29:03 tvegergw kernel:  [<d0822fbd>] rhine_napipoll+0x23d/0x500 [via_rhine]
Dec  6 14:29:03 tvegergw kernel:  [<d0823ccd>] rhine_interrupt+0x4d/0x730 [via_rhine]
Dec  6 14:29:03 tvegergw kernel:  [<d0822df8>] rhine_napipoll+0x78/0x500 [via_rhine]
Dec  6 14:29:03 tvegergw kernel:  [<d0822df8>] rhine_napipoll+0x78/0x500 [via_rhine]
Dec  6 14:29:03 tvegergw kernel:  [<c023e86d>] net_rx_action+0x5d/0x100
Dec  6 14:29:03 tvegergw kernel:  [<c0115752>] __do_softirq+0x42/0x90
Dec  6 14:29:03 tvegergw kernel:  [<c01157c7>] do_softirq+0x27/0x30
Dec  6 14:29:03 tvegergw kernel:  [<c01044e9>] do_IRQ+0x39/0x70
Dec  6 14:29:03 tvegergw kernel:  [<c0102a3f>] common_interrupt+0x23/0x28
Dec  6 14:29:03 tvegergw kernel:  [<c0320000>] rtc_init+0x40/0x180
Dec  6 14:29:03 tvegergw kernel:  [<c010164a>] default_idle+0x2a/0x40
Dec  6 14:29:03 tvegergw kernel:  [<c0100d41>] cpu_idle+0x41/0x60
Dec  6 14:29:03 tvegergw kernel:  [<c0312b0f>] start_kernel+0x1ff/0x250
Dec  6 14:29:03 tvegergw kernel:  [<c0312450>] unknown_bootoption+0x0/0x260

szar a hálókártyád, vagy az elöbb említett indokom, ha meg nem ezek, akkor meg tegyél fel egy 2.6.22.14-es kernel vagy egy 2.6.24-rc4-gitX-et, mert abban javítottak valami via-s cuccot

linux v2.6.22.14 + madwifi v0.9.3.3-mal itt
debian gnu/linux @ linux-2.6.22.14-pancs1-wifi3