XenServer 6.2: vhd-util kinyírja a gépet és leállítani sem lehet.

Fórumok

Sziasztok,

A XenServer-t másfél éven át szinte hibamentesen futtattuk (pár újraindítás volt DomU téren, a VM-eket gyakrabban indítottuk újra), mostanában egy olyan hiba jött, amire széttártuk a kezünket. A DELL által biztosított eszközökkel nem találtunk hardware hibát.

A szerverünk paraméterei az alábbiak:

DELL T420
- Intel(R) Xeon(R) CPU E5-2407 (4 Core)
- 32GB RAM (ECC) -- egy procival csak 24GB lát :-)
- 4 x 1 TB HDD (RAID 10)

Összesen 5 VM-et futtatunk (mind Debian Linux). Az első Hosting VM 12 GB rammal rendelkezik, levelezés, web, dns, mysql van rajta (2 darab 200 GB-s VHD-t tartalmaz LVM-ben). Van egy 4 GB-s sandbox, ami ilyen binhost és fejlesztünk rajta (50 GB-s VHD). Plusz még három bérbe adott VM (mind a háromban 2 GB ram és 100 GB VHD van). Figyeltünk rá hogy a VHD ne haladja meg a 300 GB-t sehol.

A hibajelenség a következő:

Kb. úgy keltünk, hogy a szerver elérhetetlenen, DomU processzor használat 100% minden CPU-n, "vhd-util" és a "tapdisk" a toplista élén. A VM-ek halottak, max 2 MB/s I/O. Elsőnek RAID kártyára vagy DISZK-re gyanakodtunk, de a hosszú hibavadászat eredménye: egy egyszerű teljes újratelepítés és patch-elés. A csereszerverről visszaköltöztünk, és két hétre rá előjött megint ugyanez a hiba, teljesen újrarakott környezetben. A plusz poén, hogy közben egy sokáig halogatott Debian 6 -> Debian 7 frissítést is megcsináltunk. És ismét csereszerveren vagyunk :-).

A hiba egyébként terhelés alatt bukott ki: Szóval minden este szokott hajnali 2-3 óra között teljes vagy növekményes mentés menni, a CPU használat alapján ez pont a backup 3/4-énél jött elő.

A XenServer Dom0 telepítés teljesen szabvány volt, nem tértünk el semmitől.

Nos találkozott-e már valaki hasonlóval? :-)

Hozzászólások

Ötletelés:
Biosban a processzor c-state -eket kikacsoltátok? -> random fagyást okoz
NFS-ről vagy más távoli helyről nincs behúzva iso library ami ekkortájt elérhetetlen? -> amig elérhetetlen, tetszhalott állapotot képes produkálni a xenserver.

Bios: Utánanézek, nem vagyok benne biztos! Amit utoljára állítgattunk az raid vezérlőn a disk write cache volt.

NFS: A mentési rendszerünk NFS-en megy, egy külsős NAS-ra (lan-ba kötve, gigás link).

Bár az NFS-t azért zárnám ki, mert a hiba újraindítás után is jelentkezett (és Dom0-án direkt nincs csatolva NFS, maximum VM telepítésnél, de a végénél mindent lecsatolunk). Tehát csináltunk egy teljes szerver újraindítást, a vhd-util újraindult és újra elkezdte az ellenőrzéseket. Arra tippelek, hogy a VHD sérülhetett meg valamiért (vagy érezte úgy a vhd-util h megsérült), mert igazából jelét nem láttuk a problémának. A gáz az, hogy még dell supporthoz se mehetünk így :-).

Azt elárulom viszont, hogy volt egy-két hónapos support küzdelmünk régebben. A RAID vezérlő volt a probléma, mert üzemhőmérsékleten felül volt mindig (60-70 C). Nagy küzdelmek árán konstrukció hibát állapítottak meg, és minden DELL T420 tulajnak küldtek plusz egy ventilátort. :-)

Most csereszerveren vagyunk, és ott fél hónapja fut minden zökkenőmentesen. Ezért gyanakszunk hardware hibára, külön gond a hiba reprodukálhatatlansága.

Update: Az első hibajelenségnél nem volt felrakva a *CTX131673 hotfix, de poén, hogy miután minden patch-t felraktunk (ideértve a *CTX131673-at), ennek ellenére is előjött a hiba. Ez áll a legközelebb ahhoz a hibához, amit tapasztaltunk.

* http://support.citrix.com/article/CTX131673

Hardweres RAID van benne? Ha igen, mi a típusa, nem ez véletlenül?

03:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 1078 (rev 04)

Ez ugyan egy PowerEdge R610, és eddig csak egyszer csinálta, de a RAID vezérlő vmi firmwarehiba miatt megállított minden I/O-t. Reboot, azóta minden rendben megy. Ez kb. 2 év alatt egyszer fordult elő és egy gyakorlatilag teljesen terheletlen gépen.

--
„Spiró ótvar, Konrád átok, Nádastól meg mindjárt hányok!”

Igen Hardwares RAID van benne, kicsit újabbja, az alábbi típus:

08:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 2208 [Thunderbolt] (rev 05)

Terhelés ugyan volt rajta, de nem olyan nagy mértékben, ennek ellenére is ment a 400% CPU.

Az igaz, hogy régóta nem volt firmware frissítés, se szerveren, se raid-en.

A frissítést megejtem hamarosan, köszi!

Megpróbáljuk a support-ot is, mert ez azért elég gáz. Szerintem :-). Az is biztos, hogy nem áldozunk újabb T420-ra a jövőben, akkor már inkább 2 x T110 II.

Egy magot tartsatok meg a dom0-nak dedikálva, a többi 3-at osszátok csak ki. Hátha.

Sajna nem segítene, hamarább megy a CPU-kra a terhelés Dom0-án, mint hogy a VM-ek kapnának bármiféle jelentősebb erőforrást.

Itt egy kép a Dom0 okt 7.-es állapotáról:
http://screencloud.net/v/uD4H

Mint látszik az újraindítások sem hatották meg, most tartunk egy nagy log vadászatot, hátha lesz valami eredmény, bár eddig sikertelen volt.

Ez tök jó felület, én csak xm/xl top-ot szoktam nézni. :)
Kezdő kollegáknak jól jöhetne, majd átgondolom...

Mondjuk ebből a képből nekem nem jön le, h mi terhel. Ha 1 magot megtartasz a rendszernek, akkor azt nem tudja leterhelni, ergo legalább a hosthoz (tudom, xen esetén nincs host) tuti hozzáfértek.

Tényleg jó felület az alapfeladatok ellátására! Bár ha komolyabban hozzá kell nyúlni a rendszerhez, akkor nem kerülhető el a cli :-). Továbbá a felhasználó/jogosultságkezelés csak Active Directory-val lehetséges. Eddig csak a XenServer-es telepítővel láttam csak jól működni a XenCentert, bár ha jól gondolom nem lehet bonyolult dolog egy XAPI-t felhúzni custom telepítés mellé. Ezen kívül sokat bengázik a konzolos felület, nem frissít mindig jól, plusz magyar billentyűzettel nem éppen boldogul jól, pontosabban sehogy. Ennyit tudok hirtelen negatívként felhozni.

Visszatérve a szerver problémára: Nagy valószínűséggel I/O alapú, és mindezt a hardveres RAID kártya okozza. Ezért tudott ilyen jól elrejtőzni eddig előlünk probléma. :-) Bár az eddigi diagnosztikák esküsznek rá, hogy minden OK, de a gyakorlat mást mond.

Mostanra lekerült az összes VM a szerverről, ezzel együtt megszűnt a CPU 400% és nyugi van. Szóval tesztelések sora indul, meglátjuk hol lesz elhasalás. :)

Support lett belőle, majd beszámolok a részletekről. :-)

Az összes patch fent van belőle? Ha igen, akkor rebutoljatok egyet a node-on. A másik kérdés, hogy mennyi memóriát adtok a dom0-nak? Ha a gyári 7xx MB-on van akkor állítsátok be a 2940MB-on értékre, de a pontosat nézzétek meg Citrixéknél.