Ötelek: BUG: soft lockup - CPU#5 stuck for 61s! [kswapd0:84]

Van egy párgépes clusterem, ennek egyik node-ja a fenti hibát dobta ezt a hibát dobta:

kernel BUG at /build/buildd/linux-2.6.32/fs/ocfs2/dlm/dlmmaster.c:540!
Sep 8 11:38:40 server3 kernel: [7406224.658444] invalid opcode: 0000 [#1] SMP
Sep 8 11:38:40 server3 kernel: [7406224.658904] last sysfs file: /sys/devices/pci0000:00/0000:00:1c.6/0000:03:00.0/local_cpus
Sep 8 11:38:40 server3 kernel: [7406224.659475] CPU 5

[...]

BUG: soft lockup - CPU#5 stuck for 61s! [kswapd0:84]

A gép kernele:
Linux gep3 2.6.32-24-server #42-Ubuntu SMP Fri Aug 20 15:38:55 UTC 2010 x86_64 GNU/Linux

Ubuntu 10.04 server 64 bit.

Egyelőre Google-n keresem, mi lehet a gond. De bízom benne a kollégák esetleg láttak ilyet és csípőből vágják a megoldást.

Előre is köszönöm!

KAMI

Hozzászólások

+sub - mert hogy nálam egy 326m csinálja ezt az utóbbi időben és rá nem tok jönni mi a nyűgje!? Érdekes módon csak 64 bites Ubuntuval, Debiannal semmi baja nem volt előtte

Ez a bug a 8.04-es ubuntutól (32bitben tuti) már létezett és ez az oka annak hogy letettünk az OCFS2-ről teljesen. És emiatt utálta meg egy kollégám az Ubit naon... Nem hittem volna hogy 10.04 64biten viszontlátom. Azóta mi nfs-re loggolunk egy gépen, és nfsről kiszolgálunk egy másik gépen és az OCFS2 höz képest 3-7x sebességgel, és azóta hiba nélkül.

Sajnálom hogy segíteni nem tudtam, de nem jósolok sok jót ha OCFS2ről van szó.

talalkoztam vele

storage-nek szant peeceen fordul elo egeszen rendes diszkterheles mellet. Volt mar szintetikus tesztnel es egyszeru raid szinkronnal is.

megoldas nincs. esetleges kernelverzional elojon, masnal nem. Volt vanilla kernellel es disztrib kerneljevel is.

Ugy gondolom, hogy a diszkek iranyaba nezo low-level driver es mas kernelrendszerek inkompatibilitasa a ludas.

Nagyjabol ez az az ok, ami miatt, ha vegre van egy olyan storage szerver osszeallitas, ami mukodik,a kkor ahoz 5 evig nem nyulunk (nincs upgrade)

Egyik szemem sír, másik nevet... Egyrészt örülök, mert ezek szerint nem feltétlen én vok a ludas. :) Viszont ezek szerint a reménykedésen, hogy egyszer összeáll a rendszer más nem nagyon marad :(
Esetleg nincs vkinek tippje, hogy egyedi kernellel hogyan lenne ez kiküszöbölhető? Vagy az sem járható út?
Egyébként érdekes amiket írtatok. Nálunk is egy storage -nek használt gép tolja ezeket a hibákat. Virtuális gépek merevlemezkép fájljai lennének rajta + irodai megosztás.

ketteszeded a projectet. Varhatoan a feladat nem irgalmatlan IO intenziv, megengedheto, hogy kulon storage legyen es kulon virtualizacios rendszer.

A kulon storage (amiben sok-sok diszk van)
es a kulon virtualizacios gep (amiben sok-sok memoria es cpu) etherneten van osszekotve, es iSCSI -vel vagy nfs-sel viszed at a az adatot. Igy a storage gep nagyon-nagyon egyszeru tud lenni, es van eselyed talalni egy olyan kernelt, amivel fut. Harom-negy verzio vegigprobalasaval altalaban osszejon egy nem stuckolo konfig. Mivel a hiba eloidezesehez eros terheles kell, igy terhelesgeneratort kell csinalni, amivel a hiba jol reprodukalhato. Ez sokaig tart