Sziasztok,
A XenServer-t másfél éven át szinte hibamentesen futtattuk (pár újraindítás volt DomU téren, a VM-eket gyakrabban indítottuk újra), mostanában egy olyan hiba jött, amire széttártuk a kezünket. A DELL által biztosított eszközökkel nem találtunk hardware hibát.
A szerverünk paraméterei az alábbiak:
DELL T420
- Intel(R) Xeon(R) CPU E5-2407 (4 Core)
- 32GB RAM (ECC) -- egy procival csak 24GB lát :-)
- 4 x 1 TB HDD (RAID 10)
Összesen 5 VM-et futtatunk (mind Debian Linux). Az első Hosting VM 12 GB rammal rendelkezik, levelezés, web, dns, mysql van rajta (2 darab 200 GB-s VHD-t tartalmaz LVM-ben). Van egy 4 GB-s sandbox, ami ilyen binhost és fejlesztünk rajta (50 GB-s VHD). Plusz még három bérbe adott VM (mind a háromban 2 GB ram és 100 GB VHD van). Figyeltünk rá hogy a VHD ne haladja meg a 300 GB-t sehol.
A hibajelenség a következő:
Kb. úgy keltünk, hogy a szerver elérhetetlenen, DomU processzor használat 100% minden CPU-n, "vhd-util" és a "tapdisk" a toplista élén. A VM-ek halottak, max 2 MB/s I/O. Elsőnek RAID kártyára vagy DISZK-re gyanakodtunk, de a hosszú hibavadászat eredménye: egy egyszerű teljes újratelepítés és patch-elés. A csereszerverről visszaköltöztünk, és két hétre rá előjött megint ugyanez a hiba, teljesen újrarakott környezetben. A plusz poén, hogy közben egy sokáig halogatott Debian 6 -> Debian 7 frissítést is megcsináltunk. És ismét csereszerveren vagyunk :-).
A hiba egyébként terhelés alatt bukott ki: Szóval minden este szokott hajnali 2-3 óra között teljes vagy növekményes mentés menni, a CPU használat alapján ez pont a backup 3/4-énél jött elő.
A XenServer Dom0 telepítés teljesen szabvány volt, nem tértünk el semmitől.
Nos találkozott-e már valaki hasonlóval? :-)
- 4445 megtekintés
Hozzászólások
Ötletelés:
Biosban a processzor c-state -eket kikacsoltátok? -> random fagyást okoz
NFS-ről vagy más távoli helyről nincs behúzva iso library ami ekkortájt elérhetetlen? -> amig elérhetetlen, tetszhalott állapotot képes produkálni a xenserver.
- A hozzászóláshoz be kell jelentkezni
Bios: Utánanézek, nem vagyok benne biztos! Amit utoljára állítgattunk az raid vezérlőn a disk write cache volt.
NFS: A mentési rendszerünk NFS-en megy, egy külsős NAS-ra (lan-ba kötve, gigás link).
Bár az NFS-t azért zárnám ki, mert a hiba újraindítás után is jelentkezett (és Dom0-án direkt nincs csatolva NFS, maximum VM telepítésnél, de a végénél mindent lecsatolunk). Tehát csináltunk egy teljes szerver újraindítást, a vhd-util újraindult és újra elkezdte az ellenőrzéseket. Arra tippelek, hogy a VHD sérülhetett meg valamiért (vagy érezte úgy a vhd-util h megsérült), mert igazából jelét nem láttuk a problémának. A gáz az, hogy még dell supporthoz se mehetünk így :-).
Azt elárulom viszont, hogy volt egy-két hónapos support küzdelmünk régebben. A RAID vezérlő volt a probléma, mert üzemhőmérsékleten felül volt mindig (60-70 C). Nagy küzdelmek árán konstrukció hibát állapítottak meg, és minden DELL T420 tulajnak küldtek plusz egy ventilátort. :-)
Most csereszerveren vagyunk, és ott fél hónapja fut minden zökkenőmentesen. Ezért gyanakszunk hardware hibára, külön gond a hiba reprodukálhatatlansága.
Update: Az első hibajelenségnél nem volt felrakva a *CTX131673 hotfix, de poén, hogy miután minden patch-t felraktunk (ideértve a *CTX131673-at), ennek ellenére is előjött a hiba. Ez áll a legközelebb ahhoz a hibához, amit tapasztaltunk.
- A hozzászóláshoz be kell jelentkezni
Hardweres RAID van benne? Ha igen, mi a típusa, nem ez véletlenül?
03:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 1078 (rev 04)
Ez ugyan egy PowerEdge R610, és eddig csak egyszer csinálta, de a RAID vezérlő vmi firmwarehiba miatt megállított minden I/O-t. Reboot, azóta minden rendben megy. Ez kb. 2 év alatt egyszer fordult elő és egy gyakorlatilag teljesen terheletlen gépen.
--
„Spiró ótvar, Konrád átok, Nádastól meg mindjárt hányok!”
- A hozzászóláshoz be kell jelentkezni
Igen Hardwares RAID van benne, kicsit újabbja, az alábbi típus:
08:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS 2208 [Thunderbolt] (rev 05)
Terhelés ugyan volt rajta, de nem olyan nagy mértékben, ennek ellenére is ment a 400% CPU.
Az igaz, hogy régóta nem volt firmware frissítés, se szerveren, se raid-en.
A frissítést megejtem hamarosan, köszi!
Megpróbáljuk a support-ot is, mert ez azért elég gáz. Szerintem :-). Az is biztos, hogy nem áldozunk újabb T420-ra a jövőben, akkor már inkább 2 x T110 II.
- A hozzászóláshoz be kell jelentkezni
Egy magot tartsatok meg a dom0-nak dedikálva, a többi 3-at osszátok csak ki. Hátha.
- A hozzászóláshoz be kell jelentkezni
Sajna nem segítene, hamarább megy a CPU-kra a terhelés Dom0-án, mint hogy a VM-ek kapnának bármiféle jelentősebb erőforrást.
Itt egy kép a Dom0 okt 7.-es állapotáról:
http://screencloud.net/v/uD4H
Mint látszik az újraindítások sem hatották meg, most tartunk egy nagy log vadászatot, hátha lesz valami eredmény, bár eddig sikertelen volt.
- A hozzászóláshoz be kell jelentkezni
Ez tök jó felület, én csak xm/xl top-ot szoktam nézni. :)
Kezdő kollegáknak jól jöhetne, majd átgondolom...
Mondjuk ebből a képből nekem nem jön le, h mi terhel. Ha 1 magot megtartasz a rendszernek, akkor azt nem tudja leterhelni, ergo legalább a hosthoz (tudom, xen esetén nincs host) tuti hozzáfértek.
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
Tényleg jó felület az alapfeladatok ellátására! Bár ha komolyabban hozzá kell nyúlni a rendszerhez, akkor nem kerülhető el a cli :-). Továbbá a felhasználó/jogosultságkezelés csak Active Directory-val lehetséges. Eddig csak a XenServer-es telepítővel láttam csak jól működni a XenCentert, bár ha jól gondolom nem lehet bonyolult dolog egy XAPI-t felhúzni custom telepítés mellé. Ezen kívül sokat bengázik a konzolos felület, nem frissít mindig jól, plusz magyar billentyűzettel nem éppen boldogul jól, pontosabban sehogy. Ennyit tudok hirtelen negatívként felhozni.
Visszatérve a szerver problémára: Nagy valószínűséggel I/O alapú, és mindezt a hardveres RAID kártya okozza. Ezért tudott ilyen jól elrejtőzni eddig előlünk probléma. :-) Bár az eddigi diagnosztikák esküsznek rá, hogy minden OK, de a gyakorlat mást mond.
Mostanra lekerült az összes VM a szerverről, ezzel együtt megszűnt a CPU 400% és nyugi van. Szóval tesztelések sora indul, meglátjuk hol lesz elhasalás. :)
- A hozzászóláshoz be kell jelentkezni
valószínűleg én vagyok a béna, de Debian alatt XAPI-t nem sikerült összelőni iSCSI-vel, csak local storage-el.
- A hozzászóláshoz be kell jelentkezni
Support lett belőle, majd beszámolok a részletekről. :-)
- A hozzászóláshoz be kell jelentkezni
Van már eredmény ?
Fedora 21, Thinkpad x220
- A hozzászóláshoz be kell jelentkezni
Az összes patch fent van belőle? Ha igen, akkor rebutoljatok egyet a node-on. A másik kérdés, hogy mennyi memóriát adtok a dom0-nak? Ha a gyári 7xx MB-on van akkor állítsátok be a 2940MB-on értékre, de a pontosat nézzétek meg Citrixéknél.
- A hozzászóláshoz be kell jelentkezni