Centos 5.7 - spontán reboot

 ( wowbagger | 2011. szeptember 2., péntek - 11:42 )

Kedves Fórumtársak!

Egy HP ProLiant microserver-re tettem egy CentOS 5.6-ot nemrégiben, amire feltettem a VMware Server 2.0.2-t, ami alá egy korábban fizikai vason levő Slackware 13.37 telepítést migráltam.
A gépben egy alaplapi Broadcom (tg3) hálókártya van, valamint tettem bele egy kétportos Intel Pro 1000PT dual portos (e1000e) PCIe kártyát.
A két Inteles gigás portot odaadtam a VMware-net bridge-elt interfészként. (wmnet0 NAT-olva eth0-ra, wmnet1 bridge-elve eth1-re, wmnet2 bridge-elve eth2-re, wmnet3 host-only)
Ha a virtális gépre nagyobb fájlokat másolok scp-fel (pl. dvd iso-k), akkor a másolás előrehalad egy darabig, majd a host szó, és bármilyen logok nélkül rebootol.
Ez akkor történik, ha az adatok az eth1/wmnet1-en érkeznek be egy másik gépről. Ha feltöltöm előbb a hosztra, és a wmnet3-on keresztül másolom át scp-vel, akkor rendesen lemegy a kb. 25 GB másolása.
A host rebootkor nem ír ki semmit a rendszerkonzolra, hanem egyszer csak elmegy a kép, és utána elkezd bootolni a gép. Az ilyen spontán reboot előtt a guest-en előbb megáll az scp másolás, majd kb 5 sec múlva rebootol a gép.
A gép BIOS-át már próbáltam frissíteni, de nem befolyásolja az újraindulásokat.

Egyelőre a hálókártyára gyanakszom, bár mindenkppen gyanús, hogy semmilyen log, kimenet nincs magáról a rebootról, vagy az okáról.

Valaki találkozott már ilyennel?

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

bump.
-------------------------------------------------------------------------------
Az életben csak egy dolog a szép, de az épp nem jut eszembe.

Slackware Linux 13.37 | 2.6.39.3-janos

- Milyen proci
- Mennyi mem (Host/VM)
- Milyen winyok
- Milyen csatolon
- Hany bites OS
- VMware modulok milyenek, mikoriak, honnet vannak
- VMware Server pontos verzioszama (build number)
- Kernel pontos verzioja
- Milyen olyan dolog fut a hoston, ami nem VMware Server
- Ezek kozul mi az, ami nem volt beepitve a CentOS-be
- A CentOS up-to-date?

Legyszi ezekre sorrendben.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal

- Milyen proci
AMD Athlon(tm) II Neo N36L Dual-Core Processor

- Mennyi mem (Host/VM)
Host: 4 GB
Guest: 1 GB

- Milyen winyok
[0:0:0:0] disk ATA SAMSUNG HD103SJ 1AJ1 /dev/sda

- Milyen csatolon
00:11.0 SATA controller: ATI Technologies Inc SB700/SB800 SATA Controller [AHCI mode] (rev 40)

- Hany bites OS
64 (host), 32 (guest)

- VMware modulok milyenek, mikoriak, honnet vannak
A vmware server gyári telepítócsomagjából.

- VMware Server pontos verzioszama (build number)
VMware-server-2.0.2-203138

- Kernel pontos verzioja
(gyári) Linux conflux 2.6.18-238.19.1.el5 #1 SMP Fri Jul 15 07:31:24 EDT 2011

- Milyen olyan dolog fut a hoston, ami nem VMware Server
proftpd

- Ezek kozul mi az, ami nem volt beepitve a CentOS-be
proftpd

- A CentOS up-to-date?
5.6, és nincs frissítendő csomag

-------------------------------------------------------------------------------
Az életben csak egy dolog a szép, de az épp nem jut eszembe.

Slackware Linux 13.37 | 2.6.39.3-janos

Tippek:

- VMware modulokból megpróbálni az any-any verziót, vannak benne bugfixek is ha jól emléxem
- Átmenetileg szüneteltetni (stop) a ProFTPd-t a gépen, és úgy próbálkozni a másolással
- Megtolni nagy terheléssel a fizikai kártyát (iperf), packet arányokat nézni, föleg a dropped/resent arányokat.
- A közted és a gép között levö eszköz (switch, router, hub...) logjait megnézni
- Legvégsö esetben megnézni egy újabb kernelt, hátha abban már fixálták. Ekkor viszont mindenképp kelleni fognak az any-any modulok.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal

Honnan lehet lehalászni a vmware-modules 'any-any'-t?
-------------------------------------------------------------------------------
Az életben csak egy dolog a szép, de az épp nem jut eszembe.

Slackware Linux 13.37 | 2.6.39.3-janos

Google is our best friend.
http://www.piotrkrzyzek.com/vmware-any-any-update-116/
Szerk: picit frissebb (117) http://www.mediafire.com/?nmmqytet2gn
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal

Ez az update még a vmware server 1 korából származik. Biztos, hogy ez jó vmware server 2-re is?

A guest-re úgy döntöttem, hogy az open-vm-tools-ot teszem fel próbaképpen.
-------------------------------------------------------------------------------
Az életben csak egy dolog a szép, de az épp nem jut eszembe.

Slackware Linux 13.37 | 2.6.39.3-janos

Hmmm... lehet... tul regen hasznaltam mar vmware server-t. Akkor sorry. De iperf-fel mindenkepp merd meg a halokarit.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal

Egyelőre odáig jutottam, hogy az open-vm-tools-t feltegyem, és beüzemeljem. Sajnos ez nem segített, bármely nagyobb ~4+ GB-os fájl (jelen esetben iso) esetén rebootol a host.

Update:
Azóta volt egy upgrade CentOS 5.7-re, de ugyanúgy összedől az egész. Próbáltam más guest-ről is előidézni az omlasztást, és sikerült is, tehát nem a Slackware-es guest miatt van.

Update 2:
A jelenlegi beállítások szerint:

[root@conflux ~]# cat /proc/sys/kernel/panic
0

Vagyis egy kernel pánik után nem lenne szabad újrabootolnia, hanem várnia kellene a fizikai beavatkozást. Ennek ellenére mégis rebootol. Lehet, hogy ennek valami mélyebben rejlő oka van, hátha az okozza.
Kipróbálom majd, hogy mit csinál egy másik kétportos intel gigabites kártyával.

Update 3:
Kicseréltem az Intel kétportos kártyát egy ugyanolyanra, a rebootolás továbbra is konzekvensen reprodukálható.
Ha leállítom a vmware servert (2), és a hosztra másolok scp-vel 2-3 GB-nál nagyobb iso-kat az Intel-es kártyán keresztül, akkor ugyanúgy összeomlik a gép.
Lassan eljutok oda, hogy beszerzek egy-két !Intel gyártmányú kétportos gigabites kártyát, hogy kipróbálhassam, hogy mi lehet a gond.
-------------------------------------------------------------------------------
Az életben csak egy dolog a szép, de az épp nem jut eszembe.

Slackware Linux 13.37 | 2.6.39.3-janos

::beneztem

Oszt' véemvertúlsz figyel e?

Félig-meddig. A guest kernele túlságosan új (2.6.38.8), így csak a memória-megosztás-kezelő modul működik.
-------------------------------------------------------------------------------
Az életben csak egy dolog a szép, de az épp nem jut eszembe.

Slackware Linux 13.37 | 2.6.39.3-janos

any-any -val van eselye, hogy az is elstartol.
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal

Hőmérsékletek normálisak?bár mondjuk ha túlmelegszik leállítani szokta nem rebootolni, de hátha. ha megoldható próbálj meg egy tápcserét én ennyi alapján a hardwareban keresném a hibát.

Hát, a tápcsere elég bajos lenne, mivel speckós, aprócska táp van benne.
Mint írtam, csak akkor fagy, ha az intel kártyán át megy az scp, ha a host-only virtuális hálózaton másolok, akkor átmegy az egész, és reboot sincs.
-------------------------------------------------------------------------------
Az életben csak egy dolog a szép, de az épp nem jut eszembe.

Slackware Linux 13.37 | 2.6.39.3-janos

Időközben beszereztem két másmilyen dual portos gigabites PCI-e kártyát.
Feltehetőleg az Intel kártyákkal volt valami kompatibilitási gond (ez meglepett).
Egyelőre csak az egyik kártya (SysKonnect SK-9E21D 10/100/1000Base-T Adapter, Copper RJ-45) érkezett még meg, de azzal megy rendesen a másolgatás. (Jelenleg is tesztelem, de még nem jelentkezett az Intel kártyánál szokásos reboot.)
Ha majd megérkezik a második kártya (Broadcom chipes), akkor majd még azt is kipróbálom, és lesz update.

Update: Megérkezett a második kártya is, egészen pontosan egy HP NC382T Broadcom chip-es dual portos kártya.
A korábban tapasztalt fagyásokat ez sem produkálja, megy vele szépen a másolás.
Ebből következik tehát, hogy az Intel-es kártyákkal volt valamilyen probléma a HW és/vagy az OS részéről.
-------------------------------------------------------------------------------
Az életben csak egy dolog a szép, de az épp nem jut eszembe.

Slackware Linux 13.37 | 2.6.39.3-janos

Köszi, hogy megosztottad, hasznos. Ugyanakkor meredek, hogy egy nyomorult hálókártya így meg tudta borítani a rendszert/gépet.

Hasonló szitu.
2x xeon 5620 CPU, supermicro alaplap
lspci

Centos 5.7, mint XEN dom0.
Több domU fut rajta. ha domU-ban lévő vps-re másolok hálón, semmi gond terrás mennyiségnél sem.
Ha dom0-ra másolok akár csak 10 GB-t is, random újraindul. Logban semmi nyom. Most távoli logolást bekapcsoltam hátha...

Azt megelőzően, hogy tiltsam le az alaplapi hálókártyát és próbáljak bele másik hálókártyát, egyéb ötlet?

update: valami hasonló fincsiség lehet, mint itt: link
A hálókártyát tesztelő socat parancs hasznos, csontra kihajtja a hálókarit.

Rendszer + kernel frissítés + 2011.10.25 -i intel driverrel a teszt során nem vérzett el.