Lehalt linux - INFO: task bdi-default:13 blocked for more than 120 seconds.

Fórumok

Sziasztok!

Arra lettünk figyelmesek, hogy a gépen futó jboss szerver nem válaszol. Majd nem ment az ssh sem. Konzolon kb 2 parancs után teljesen lehalt a rendszer, már csak resetelni lehetett. Utána a kernel logban az alábbi hibaüzenetet találtuk több példányban:


Mar  7 15:21:20 erp kernel: [ 1061.760345] INFO: task bdi-default:13 blocked for more than 120 seconds.
Mar  7 15:21:20 erp kernel: [ 1061.760551] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
Mar  7 15:21:20 erp kernel: [ 1061.760857] bdi-default   D ffff88007783a350     0    13      2 0x00000000
Mar  7 15:21:20 erp kernel: [ 1061.760861]  ffff88007783a350 0000000000000046 0000000000000001 ffff88015f16bd40
Mar  7 15:21:20 erp kernel: [ 1061.760865]  ffff88015ec27c78 ffffffff810bc0c2 000000000000f9e0 ffff88015f16bfd8
Mar  7 15:21:20 erp kernel: [ 1061.760867]  0000000000015780 0000000000015780 ffff88015f0c5530 ffff88015f0c5828
Mar  7 15:21:20 erp kernel: [ 1061.760870] Call Trace:
Mar  7 15:21:20 erp kernel: [ 1061.760878]  [<ffffffff810bc0c2>] ? pagevec_lookup_tag+0x1a/0x21
Mar  7 15:21:20 erp kernel: [ 1061.760882]  [<ffffffff812fb53d>] ? schedule_timeout+0x2e/0xdd
Mar  7 15:21:20 erp kernel: [ 1061.760885]  [<ffffffff812fb3f4>] ? wait_for_common+0xde/0x15b
Mar  7 15:21:20 erp kernel: [ 1061.760889]  [<ffffffff8104a450>] ? default_wake_function+0x0/0x9
Mar  7 15:21:20 erp kernel: [ 1061.760892]  [<ffffffff81064d8a>] ? kthread_create+0x93/0x121
Mar  7 15:21:20 erp kernel: [ 1061.760896]  [<ffffffff810c8fde>] ? bdi_start_fn+0x0/0xd2
Mar  7 15:21:20 erp kernel: [ 1061.760899]  [<ffffffff8105a854>] ? lock_timer_base+0x26/0x4b
Mar  7 15:21:20 erp kernel: [ 1061.760902]  [<ffffffff8105a8dc>] ? try_to_del_timer_sync+0x63/0x6c
Mar  7 15:21:20 erp kernel: [ 1061.760904]  [<ffffffff8105a8f1>] ? del_timer_sync+0xc/0x16
Mar  7 15:21:20 erp kernel: [ 1061.760907]  [<ffffffff812fb5bc>] ? schedule_timeout+0xad/0xdd
Mar  7 15:21:20 erp kernel: [ 1061.760909]  [<ffffffff8105a970>] ? process_timeout+0x0/0x5
Mar  7 15:21:20 erp kernel: [ 1061.760912]  [<ffffffff810c8f16>] ? bdi_forker_task+0x1f5/0x2bd
Mar  7 15:21:20 erp kernel: [ 1061.760915]  [<ffffffff8103aa76>] ? __wake_up_common+0x44/0x72
Mar  7 15:21:20 erp kernel: [ 1061.760918]  [<ffffffff810c8d21>] ? bdi_forker_task+0x0/0x2bd
Mar  7 15:21:20 erp kernel: [ 1061.760920]  [<ffffffff81064c4d>] ? kthread+0x79/0x81
Mar  7 15:21:20 erp kernel: [ 1061.760924]  [<ffffffff81011baa>] ? child_rip+0xa/0x20
Mar  7 15:21:20 erp kernel: [ 1061.760926]  [<ffffffff81064bd4>] ? kthread+0x0/0x81
Mar  7 15:21:20 erp kernel: [ 1061.760928]  [<ffffffff81011ba0>] ? child_rip+0x0/0x20

# cat /etc/debian_version
6.0.2
# uname -a
Linux erp 2.6.32-5-amd64 #1 SMP Tue Jun 14 09:42:28 UTC 2011 x86_64 GNU/Linux

Bárkinek bármi ötlet, hogy mi történt és hogyan előzhető meg a probléma újboli előfordulása?
Köszi!

Hozzászólások

Szokásos ellenőrzések megvoltak? Ha tippelnem kellene, akkor memória. De csak tipp.

-----------
"640GB sokmindenre elég"

Ahogy irja is az uzenetben, ez csak egy warning arrol, hogy blockoltak a process-ek, nem tudnak futni.
Ha van monitorozas, nezd meg, mi valtozott. Olyan lehet pl, hogy a diszk alrendszer paff-ra megy (csak pelda), az fs beall vagy vmi barmi mas.

tompos