Rendszer fagyás adatmásolás esetén

 ( maszili | 2011. október 29., szombat - 11:48 )

Üdv mindenkinek,

Szeretnénk üzembe állítani egy új szervert.

CPU: 1x Intel(R) Xeon(R) CPU E31220 @ 3.10GHz
MEM: 4x Kingston DIMM DDR3 ECC Synchronous 1333 MHz (0.8 ns) 2GByte

NIC Alaplapon: Intel 82579LM Gigabit Network Connection
NIC: 2x Intel 82571EB Gigabit Ethernet Controller

HDD vezérlő: LSI SAS1068E PCI-Express Fusion-MPT SAS
HDD: 4x WDC WD5003ABYX-0 500GByte HDD
HDD: 4x ST3500514NS 500GByte HDD
HDD: 2x KINGSTON SH100S3 120GByte SSD

Oprendszer: Debian GNU/Linux
Kernel: v3.0.0

Amikor rsync-el nagyobb mennyiségű adatot másolunk rá akkor egy idő után "lefagy" a gép. A hálózat felől elérhetetlen, pingre nem válaszol a konzolon a következő van.
http://kepfeltoltes.hu/111029/snapshot4_www.kepfeltoltes.hu_.png

Időnként egy-egy újabb ilyen adatot jelenít meg a konzolon miközben a szerver teljesen elérhetetlen.
A másolás közben nem jelentkezik nagy terhelés a rendszeren. IOWait 0-2% között van, nagy ritkán 5%, egyébként Idle 98-99%. A hálózati adatforgalom esetenként 50-100MByte/sec.

Azt szeretném kérdezni, hogy ami a konzolon van az tulajdonképpen mi is? Elég régen láttam már kernelpánikot de az emlékeim szerint nem így nézett ki.

A válaszokat előre is köszönöm.

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

Nem akarlak félrevinni, de lehet hogy érdemes lenne kipróbálni másik hálókártyával is, és két hdd között direkt másolva is.

--
"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség

Megpróbálok mindent kidobálni a gépből és valami minimális konfiggal tesztet csinálni, hátha kiderül merre lehet a hiba.

--
maszili

Majd jönnek egyesek, hogy nyilván hw hiba :)

nyilván nem nyilván, de kizárni se kéne teljesen...

--
"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség

Majd jonnek egyesek, hogy probalja meg win7-tel :)

--
Az emberek azt állítják, hogy múlik az idő, az idő viszont csak mosolyog, mert látja, hogy az emberek múlnak. - tibeti közmondás

Mi a francért ne lehetne hw hiba?

Ki írta, hogy nem lehet az?

ezt így konkrétan ugyan nem írtad le, csak éppen úgy fogalmaztál mintha ez lenne a véleményed.

--
"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség

Ja hát itt divat a gondolatolvasás :)

azt nem tudom hogy itt mi a divat, de itt speciel nem volt ilyen, én legalábbis nem tudok ilyet, viszont a tudálékos okostónikat élből felismerem.

--
"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség

Akkor ezt még gyakorold :)

...pláne ha önként jelentkezik...

--
"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség

Próbáltad már betölteni a legfrissebb microcode-ot a processzorodhoz? Mintha ~éve pont így fagyott volna ki folyamatosan az egyik szerver...

Szerverre miért testing Debiant teszel? Próbáld ki a stabillal szvsz.
Egyébként a /var/log alatt végignyálaztál mindent? Próbálj meg minden szolgáltatást kilőni, használd csak az rsync-et és nézd meg, hogy úgy előjön -e a hiba.
A konzol mennyire fagy le egyébként? Tudsz tty-t váltani?

A 3.0-s kernel miatt.
Sajnos a logokban nincs semmi. Csak az látszik, hogy mikor volt a filmszakadás és aztán a következő bejegyzés a reset utáni rendszer indulás.
Semmilyen szolgáltatás nem fut. Egy minimális rendszer és SSH.
Konzol se reagál semmire. Annyi az összes infó ami a képen látszik.

ui.

Pontosan ugyanez a rendszer egy másik szerveren gond nélkül működik.

--
maszili

"A 3.0-s kernel miatt."
- emiatt nem kéne testinget feltenni, felrakod a legutolsó stablet (asszem' 6.0.3) és az unstable repóból pedig a legújabb kernelt. a másik szerver hardveresen megegyezik ezzel?

--
"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség

Miért "musthave" a 3.0-s kernel? A logban csak akkor látszana, ha lenne ereje kiírni bármit is a diszkre - viszont ahogy írtad, pont akkor f0ss@ össze magát, amikor a háttértárat picit jobban meghajtod...

Fájlrendszer?

Interrupt feldolgozása közben száll szét szerintem... (IRQ - EOI)

Milyen alaplap (Intel szerver)? - csak érdekelne...

"Jegyezze fel a vádhoz - utasította Metcalf őrnagy a tizedest, aki tudott gyorsírni. - Tiszteletlenül beszélt a feljebbvalójával, amikor nem pofázott közbe."

Valszeg elpánikol a kernel. De ez csak a vége annak, amit kiír. Jó lenne látni az elejét is.
Legújabb kernellel is ezt csinálja?

"Jegyezze fel a vádhoz - utasította Metcalf őrnagy a tizedest, aki tudott gyorsírni. - Tiszteletlenül beszélt a feljebbvalójával, amikor nem pofázott közbe."

Állíts be távoli logolást, lehet, hogy amit helyben nem ír ki logba, azt távolra még igen.

Ha egy interrupt feldolgozásába beledöglik a kernel, akkor baromira nem ír semmit sehova, max. a konzolra a stacktrace-t, a screenshot meg ilyen elborulást mutat.

sub

Nem akarom elkiabálni de úgy néz ki, hogy az egyik kétportos hálózati kártya volt rossz. Azt kivettük a gépből és eddig nem jelentkezett a probléma. Egy hétig még teszteljük a rendszert (folyamatos másolás megy) és ha nem döglik meg akkor elviekben megoldódott a hiba.

Köszi mindenkinek a segítséget.

--
maszili

...akkor tippnek nem is volt olyan rossz...

--
"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség