Proxmox szerver lefagy!

Sziasztok!

Az egyik P93 szerver, amelyet a Hetznertől bérelek, random lefagy.

Software:
A legfrissebb Proxmox VE 7.2-4 (kernel: 5.15.35-2-pve) fut rajta, az alatt pedig 13 virtuális gép.

Hardware:
Intel® Xeon® W-2295 18-Core CPU
256 GB (8 x 32 GB DDR4 ECC) RAM,
2 x 3.84 TB NVMe SSD Datacenter Edition -> rendszer és VM-ek, ZFS + compression,
2 x 16 TB SATA Enterprise HDD -> backup, ZFS + dedup (szerk.: azóta kikapcsolva) + compression,
Hardware RAID nincs

Amit eddig tettem a megoldás érdekében:
Kicseréltettem a RAM-okat, a tápegységet, majd az egész szervert,
kikapcsoltam a NUMA-t, az SSD emulation-t (bár ez tudtommal semmit nem csinál) és az IO thread-et is minden VM-nél,
22 CPU mag és 144 GB RAM van most kiosztva a VM-eknek (3 CPU és 32 GB RAM a legtöbb 1 VM esetén)

A "tünetek":
Ha ssh-n bejelentkezve ér a fagyás, akkor a konzolon hasonló üzenetek kezdenek ömleni:

Message from syslogd@Server at Jun 12 11:19:57 ...
 kernel:[101078.245390] NMI watchdog: Watchdog detected hard LOCKUP on cpu 26

Message from syslogd@Server at Jun 12 11:19:57 ...
 kernel:[101080.968427] NMI watchdog: Watchdog detected hard LOCKUP on cpu 0

Message from syslogd@Server at Jun 12 11:19:57 ...
 kernel:[101085.584163] watchdog: BUG: soft lockup - CPU#1 stuck for 23s! [kvm:497638]

Message from syslogd@Server at Jun 12 11:19:57 ...
 kernel:[101085.588163] watchdog: BUG: soft lockup - CPU#2 stuck for 26s! [kvm:995268]

Message from syslogd@Server at Jun 12 11:20:09 ...
 kernel:[101097.612269] watchdog: BUG: soft lockup - CPU#14 stuck for 22s! [kworker/14:2:1965617]

Message from syslogd@Server at Jun 12 11:20:25 ...
 kernel:[101104.376759] NMI watchdog: Watchdog detected hard LOCKUP on cpu 28

Message from syslogd@Server at Jun 12 11:20:25 ...
 kernel:[101112.091159] NMI watchdog: Watchdog detected hard LOCKUP on cpu 5

Message from syslogd@Server at Jun 12 11:20:25 ...
 kernel:[101112.599352] NMI watchdog: Watchdog detected hard LOCKUP on cpu 31

Message from syslogd@Server at Jun 12 11:20:25 ...
 kernel:[101113.588410] watchdog: BUG: soft lockup - CPU#2 stuck for 52s! [kvm:995268]

Message from syslogd@Server at Jun 12 11:20:25 ...
 kernel:[101113.600410] watchdog: BUG: soft lockup - CPU#9 stuck for 22s! [atop:1970572]

Message from syslogd@Server at Jun 12 11:20:29 ...
 kernel:[101114.959585] NMI watchdog: Watchdog detected hard LOCKUP on cpu 1

Message from syslogd@Server at Jun 12 11:20:29 ...
 kernel:[101117.592445] watchdog: BUG: soft lockup - CPU#4 stuck for 23s! [kvm:835684]

Message from syslogd@Server at Jun 12 11:20:33 ...
 kernel:[101121.628481] watchdog: BUG: soft lockup - CPU#24 stuck for 22s! [kworker/24:2:374]

Message from syslogd@Server at Jun 12 11:20:37 ...
 kernel:[101125.612516] watchdog: BUG: soft lockup - CPU#14 stuck for 48s! [kworker/14:2:1965617]

A VM-ek elérhetetlenekké válnak, a Proxmox WEB UI elkezd "homokozni". A Hetzner felületén indított hardware reset után a gép újra megy.
Van, hogy naponta háromszor fagy le, van hogy megy 8 napig is.

A syslogban nincs semmi furcsa a lefagyás előtt.

Kérlek, segítsetek megtalálni és megszüntetni a lefagyások okát.

1974 megtekintés

A szerver cserét úgy kell érteni, hogy a diskeket áttették egy másik, ugyan ilyen gépbe.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Valamilyen monitoringod van? Különös tekintettel a hoszt RAM, IO és CPU használatára Mert ezek a hibák azt jelentik mit mondanak, hogy egy-egy process ennyire beakadt. Lehet IO probléma, vagy CPU tekerés. Ha megnézed, akkor nincs véletlenül overbooking? Ezt KVM-nél össze lehet hozni, és mellesleg ha 32GB-ot adtál a VM-nek, simán 34-38GB-ot felszippanthat maga a qemu process.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Zabbix monitorozza a hostot és a VM-eket is.
Volt olyan, hogy épp a WEB UI előtt ültem, a load felment 100 fölé a CPU is 30% feletti terhelést mutatott, az IO delay is 30-40% körül, pedig semmi extra nem ment a gépeken.
Olyan is volt, hogy IO delay 0%, CPU 2% körül, load is 2% körül, mégis lefagyott.

Eddig általában hétköznap hajnali 1 és reggel 7 között, ill hétvégeken napközben is történtek a fagyások. Ilyenkor a VM-eket (szinte) senki nem használja.
Én a 16 TB HDD dedupra gyanakszom, de mielőtt beszántanék kb 6-7 TB, 180 napnyi inkrementális backupot, keresnék más megoldást.
A dedup azért gyanús, mert van, amikor 1.05x, később 1.03x, most pedig épp 1.12x dedupot ír a

# zpool list
NAME     SIZE  ALLOC   FREE  CKPOINT  EXPANDSZ   FRAG    CAP  DEDUP    HEALTH  ALTROOT
Backup  14.5T  6.59T  7.96T        -         -    24%    45%  1.12x    ONLINE  -

Ha a dedup nem on-the-fly történik, lehet, hogy az idle időben végzett dedup öli meg a vasat.
Az is lehet, hogy az ARC eszi meg a RAM-ot... sajnos ZFS tuningból sem vagyok még profi...

0 szavazat

A hozzászóláshoz be kell jelentkezni

ha tenyleg a zfs dedup a hiba, akkor valts proxmox backup serverre. abban is van "dedup" es nemkell neki csillio ram: ha ket 4 megas chunk ugyanaz, akkor egyszer tarolja. nalam ~10x korul szokott lenni a dedup factor. 100G tarhelyen ~1T backupot (12backup/gep) elfer.

A vegtelen ciklus is vegeter egyszer, csak kelloen eros hardver kell hozza!

0 szavazat

A hozzászóláshoz be kell jelentkezni

Sajnos nem tudom, hogy az-e a hiba. Hogyan deríthető ki, hogy a dedup miatt fagy-e le a szerver?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Hááttt, gépen belül a backup az necces. A 2x16TB-re mentesz, ott gyakorlatilag nagyon minimális IOPS-ed van, ahhoz hogy csapass jobban. Azt mindenképp látnod kéne, hogy valami valahol megzabálja a RAM-ot, és az meg a diszk IO-t, és aztán meg beakad ettől az élet. Ezek nem a semmiben történnek.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Természetesen ez csak az egyik backup és más gépek is mentenek ide. Minden backup szekvenciálisan követi egymást, tehát akkor indul el az egyik, amikor a másik végzett, hogy ne akarja több processz egyszerre használni a HDD-ket. De ezek a backupok éjjel lemennek, a gép meg ma pl. 11:20-kor fagyott le, amikor minden órák óta "pihent". Senki nem csinált semmit egyik VM-ben sem és a terhelés gyakorlatilag 0 közeli volt.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Szia!

Amit bemásoltál logokat, azt akkor dobálja ha valami felzabálja a CPU erőforrását / valami nagyon "tekeri" - ha ez egy hosszabb ideig tart - akkor előfordúlhat pl.: egy VM szétfagy/megáll - láttam már ilyet, de amúgy ezek az üzenetek nem jelentenek problémát.

Másik ilyen amitől "keményre fagy" ha van pl.: egy NFS mount-od és kimegy alóla a hálózati interfész/másik oldal hirtelen összefossa magát - na ilyenkor megáll az egész mint a szög :D

Korábban teszteltem ZFS féle dedup=on, sync=always, de azt vettem észre erőforrásigényes, sokkal lassabb a diszk teljesítménye, biztos szükséged van rá ?

zfs set dedup=off <pool>
zfs set compression=lz4 <pool>
zfs set sync=standard <pool>

0 szavazat

A hozzászóláshoz be kell jelentkezni

NFS nincs, sőt, semmilyen hálózati mount nincs kifelé vagy erre a szerverre máshonnan.

A deduptól próbálok most megszabadulni, erre nyitottam egy másik topicot.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Közvetlenül nem lesz megoldás amit írok, de átgondolni érdemes!
Nagyon sok Proxmox-ot üzemeltetünk, az elején a telepítések 99% ZFS alapú volt, ZFS nyújtotta vélt előnyök miatt.
Viszont ZFS alapból egy erőforrást igénylő fájlrendszer, minél több hasznos funkciót kapcsolsz be – compress, dedup – annál többet igényel.
A VM futtatásához szükséges dedikált erőforrásokon kívül, ezeknek is rendelkezésre kell állnia, különben a nálad is tapasztalható anomáliák lépnek fel.
Ez hatványozottan igaz KVM használata esetén, LCX-nél - konténeres mivolta miatt – nem tapasztaltunk ilyeneket.
A megoldás Proxmox megtartása mellett, ZFS-től elköszönés jelentette, sima HW RAID + LVM + KVM, és atom stabilak a proxmox-ok, akkor is ha a fizikai memória és a VM-ek memóriája ki van centizve!

Proxmox már annyira jól fel van építve, hogy pl. ZFS által nyújtott snapshot kezelést teljesen kiváltja a saját block szintű megoldásával. Ezt tudja local-ban, vagy pl. a fent is említett Proxmox Backup serverre.

Ha meg tudod oldani a VM-ek exportálását, újratelepítését, majd importálást – akár úgy is hogy a gépbe kérsz addig egy szükséges nagyságú HDD-t – akkor érdemes lehet megfontolni!

0 szavazat

A hozzászóláshoz be kell jelentkezni

Olyan voltá már nektek, hogy a KVM VM alatt a lemez partíciós táblája eltűnik? Megy a VM szépen, ír/olvas, de már nincs partíció. Kiváncsi lennék mi okozhatja... Szívtam vele más sokat. Most már testdisk-el újra írtatom, ha boot lemez akkor boot repair és megy minden tovább.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nekem már csak az hiányzik, hogy visszatérjek a sokat szidott VirtualBox-ra :D

0 szavazat

A hozzászóláshoz be kell jelentkezni

Régen local fájlszervernek amikor még nem több TB kellett egy kis irodába is, Ubuntu + PHPVirtualBox csináltam párat. Azzal semmi baj nem volt.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Igazából semmilyen problémánk nincsen Proxmox-al! De tényleg, ezért is használjuk sok helyen.

Ahogy írtam, ZFS miatt hajlamos kifutni az erőforrásokból, ha nagyon ki van számolva pl. RAM.
Persze lehet limitálni ZFS memória használatot, de ezzel pont ZFS-t ölöd le, és az sem megoldás mindig.

Van egy hat gépes PVE clusterünk, shared storage nincsen, minden gépen local storage (SSD, HDD vegyesen) ZFS-el. Itt a VM-ek 90%-a LXC, 300-400 napos uptime-ok teljesen természetesek.
Főleg webes kiszolgálást végeznek a VM-ek, kapnak terhelést, így sincsen gond. De a hostok memóriájának átlag 60% van VM-ek részére kiosztva.

KVM VM esetén simán kiosztható 90-95% is.

KVM VM-ek jellemzően Windows-ok, nem volt még lemez problémánk.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Mekkora a diszk, milyen fs van a hoszton?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Az a vicces, hogy egy Raspberry 4-en, 4 GB RAM-mal, 5 TB USB-s külső HDD-vel, deduppal és compressionnal együtt fél éve megy hibátlanul egy x. backup.
A 18 magos, 256 GB RAM-os gép meg hetente 2x lefagy!?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Szerintem ez nem furcsa. Több RAM több hibalehetőség. Gyorsabban járó CPU szintén nagyobb hibalehetőség. Ráadásul nem igazán összehasonlítható. Az egyik ARM, a másik Intel. Persze ettől még nem kellene lefagynia. Egybként minden CPU-ban hatalmas mennyiségi hardware bug van. Kérdés, hogy ismerjük-e azt, ami a hibát okozza, ha ismerjük, van-e rá workaround, s ha van, azt alkalmazzák-e a kernelben. És akkor ott van egy rakás egyéb chip. Ha valami deadlock állapotba kerül, akkor a kernel legfeljebb szomorúan néz, de nem nagyon tud mit tenni.

tr '[:lower:]' '[:upper:]' <<<locsemege
LOCSEMEGE

0 szavazat

A hozzászóláshoz be kell jelentkezni

Gondolom ARM-on nem virtualizálsz.

Annó mikor kezdtem a virtualizációt, az volt az alapvetés, hogy a hypervisor, ne csináljon semmi fölöslegeset, egyrészt, hogy minden erőforrás a VM-eknek legyen meg, valamint kevesebb program kevesebb hibalehetőség, nagyobb stabilitás stb, ehhez képest meg már mindent is csinál a hypervisor ...

Fedora 43, Thinkpad x280

0 szavazat

A hozzászóláshoz be kell jelentkezni

Backup ECC nélküli gépen?
Csak így tovább!

0 szavazat

A hozzászóláshoz be kell jelentkezni

Habár engem konzolon bejelentkezve soha nem ért fagyás, viszont nekem a logokban volt jele, hogy az ethernet (eno1) kifagy. Teljesen random következett be. Ezt találtam akkor a proxmox fórumon (interface fájlba beszúrni):

auto eno1
iface eno1 inet static
#teszt a interface kifagyása miatt
offload-gso off
offload-gro off
offload-tso off
offload-rx off
offload-tx off
offload-rxvlan off
offload-txvlan off
offload-sg off
offload-ufo off
offload-lro off
#teszt rész vége

Ennek jó fél éve, azóta kopp-kopp-kopp rendben van

üdv: pomm

A 852-es kídlap telepötúsa sikeresen befejezádétt

1 szavazat

A hozzászóláshoz be kell jelentkezni

Mit keressek a logokban, ami a hálókártya fagyására utal?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Itt is tárgyalják:

https://forum.proxmox.com/threads/e1000-driver-hang.58284/page-8

üdv: pomm

A 852-es kídlap telepötúsa sikeresen befejezádétt

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nálam nincs jele a logokban, hogy a hálókártya fagyna le.
Kerestem a "Detected Hardware Unit Hang" kifejezást, de nincs.
A hálókártya egyébként:

# lspci -nnk | grep -A2 Ethernet
06:00.0 Ethernet controller [0200]: Intel Corporation I210 Gigabit Network Connection [8086:1533] (rev 03)
        Subsystem: ASUSTeK Computer Inc. I210 Gigabit Network Connection [1043:8557]
        Kernel driver in use: igb

0 szavazat

A hozzászóláshoz be kell jelentkezni

Szia, esetleg probald meg a 7.2-es upgrade-et. Ettol fuggetlenul ezek a "NMI watchdog: Watchdog detected hard LOCKUP on cpu" jellegu uzenetek nekem majdnem minden DELL es SuperMicro serveren jelentkeznek, csak nincs mellette fagyas. Illetve a vm.swappiness mire van allitva? En levettem 10-re, illetve ahol SSD-m van, ott 0-ra allitom.

-- Soha ne vitatkozz idiotakkal! Lesulyedsz az O szintjukre es legyoznek a rutinjukkal ! --

0 szavazat

A hozzászóláshoz be kell jelentkezni

esetleg probald meg a 7.2-es upgrade-et

Minden a legfrissebb, nincs (nálam még) elérhető 7.2

A vm.swappiness 60-on volt, délelőtt levettem 0-ra, most az előbb megint lefagyott a szerver.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nekem még nem tiszta, hogy mikor "lefagy" akkor csontra fagy, azaz a konzolján se reagál semmire ?

Fedora 43, Thinkpad x280

0 szavazat

A hozzászóláshoz be kell jelentkezni

Elérhetetlenné válik az összes VM, a bejelentkezett felhasználóknak (Windows RDP) megszakad a kapcsolata, a szolgáltatott weboldalak elérhetetlenek, a Proxmox WEB UI elkezd homokotni, majd egy idő után "disconnected", a szerver a 7 IP címe közül egyiken sem elérhető (pl. ssh-n)... Szóval minden szolgáltatás leáll szépen, egymás után.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ok, ez eddig is tiszta volt. DE ez lehet hogy csak lepusztul a halokari driver.

Fizikai konzol hozzáférés van ? Tehát ahol, nem a neten keresztül éred el, hanem olyan mintha előtte ülnél.

Fedora 43, Thinkpad x280

0 szavazat

A hozzászóláshoz be kell jelentkezni

Épp kezdtem szerkeszteni az előzőt, de gyorsabb voltál. :)

Az első esetnél megkértem a Hetznereseket, nézzenek rá a gépre. Azt mondták, a konzolon sem volt kép, így nyomtak a gépnek egy resetet.
Most hogy ez a konzol KVM konzol volt-e vagy fizikai, azt nem tudom.

1 szavazat

A hozzászóláshoz be kell jelentkezni

Hát de attól, hogy nem mutat semmit, az csak azt jelenti, hogy lekapcsolta a monitort X perc után. Ha tesznek rá billt és megnyomnak egy gombot, akkor pl bejön-e valami, vagy marad kuka.

Viszont akkor ezek szerinten nincsen konzol

Fedora 43, Thinkpad x280

0 szavazat

A hozzászóláshoz be kell jelentkezni

Gyanítom, egy hosring cégnél van annyi eszük, hogy nem csak ránéznek egy öres monitorra... :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Én nem feltétlen gondolnám ezt, főleg ott ahol óccsé van minden is :D Kis pénz kis foci, kérdezz csak rá nyugodtan. Persze akkor lehet belökik, hogy az már akkor + 20 juro :D

Fedora 43, Thinkpad x280

0 szavazat

A hozzászóláshoz be kell jelentkezni

Van/volt már jópár szerverem, vagy VPS-em sok hoszing cégnél (Kanada, USA, Franciaország, Németország, Svájc, Lengyelország, Litvánia, Csehország, Szingapúr, ...), de eddig Ők tűnnek a legfelkészültebbnek, a legprofibbnak az összes közül.

De attól még lehet igazad... :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

https://docs.hetzner.com/robot/dedicated-server/maintainance/kvm-consol…

https://docs.hetzner.com/robot/dedicated-server/maintainance/ipmi

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ezeket miért kaptam?
KVM-et szoktam kérni/használni, IPMI meg csak DELL szervereken van, az enyém valami ASUS vas.

0 szavazat

A hozzászóláshoz be kell jelentkezni

csak arra, hogy kvm-en nézd majd meg hogy amikor a szolgáltatások elérhetetlenek akkor itt moccan-e bármi. Mennyire rendszeres? a legjobb az lenne ha folyamatosan rajta lógna, hogy el tudd kapni kvázi azonnal ha jön a riasztás:

https://hup.hu/comment/2796011#comment-2796011

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ha éjjel lesz a következő, kérek KVM-et és megnézem.
1-8 naponta fordul elő, van, hogy napi 3x is.
Sajnos max. 3 órára adnak, de szinte azonnal, bármikor is kérem.

1 szavazat

A hozzászóláshoz be kell jelentkezni

Nem éppen, IPMI az Intelligent Platform Management Interface minden valamire való szerveren/alaplapon szokott lenni. Erre vagy ezen felül építi a gyártó a saját cuccait, a Dellnek iDrac, HP nak iLO stbstb

Nagy előnye, hogy akkor is elérhető logol stb ha az oprendszernek kampeca (nagyjából)

Attól hogy asus lapod van, még lehet benne. Tedd fel az ipmitool majd

ipmitool sel list

esetleg

modprobe ipmi_si

Fedora 43, Thinkpad x280

0 szavazat

A hozzászóláshoz be kell jelentkezni

Pontatlanul fogalmaztam. Ha rákattintassz a 2. linkre, ott ezt írja a Hetzner:

Hetzner IPMI information

In 2019, we at Hetzner decided to no longer provide customers with additional IPMI or KVM modules to install on their dedicated root servers. There are two exceptions: DELL servers and DELL servers from the Server Auction. Just in case there is a fault, we have kept a few of these IPMI modules.

# ipmitool sel list
Could not open device at /dev/ipmi0 or /dev/ipmi/0 or /dev/ipmidev/0: No such file or directory
# modprobe ipmi_si
modprobe: ERROR: could not insert 'ipmi_si': No such device

0 szavazat

A hozzászóláshoz be kell jelentkezni

Szerintem ezt a feltételezést bizonyítanod / cáfolnod kéne hogy legyen valami tény a kezedben.

Másképp kell hozzáállni egy hálókártya (driver) lefagyáshoz mint egy alaplap/cpu/kernel pusztuláshoz.

Nem irigylem a szituációt - sokáig lehet vele szívni ellenben tanulsága nem sok lesz.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Jól esik az együttérzésed. :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

ha vm.swappiness=0, akkor egyáltalán nem használ swap-et, így ha elfogy a memória, akkor vége a dalnak. Én szerver esetén 1 és 10 között tartom akkor is ezt az értéket, ha történetesen nagyon sok memória vana gépben, és nem allokálom semmire egy részét (elvelg nem fogyhatna el). Ha meg nincs annyira sok memória és/vagy nagyon ki van centizve, akkor pláne ne legyen nulla.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Hogyhogy nincs? Hetek óta van. 7.2-4 van már.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Jogos, nálam is az van fenn, a nyitó postban elírtam.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Akkor az upgrade mint potenciális megoldás ezennel kuka :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Regebbi kernel verzioval probalkoztal mar?

Pl.: pve-kernel-5.13.19-6-pve_5.13.19-15

Az 5.13 -> 5.15 valtas nem volt mindenkinek zokkenomentes.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Most, hogy így említed, akartam is mondani, hogy az 5.15 kernellel egyidőben kezdődtek ezek a problémák. Hogy van-e összefüggés, azt nem tudom.
Milyen zökkenők voltak a váltásnál?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Egy a sok kozul (Kernel BUG CPU Soft lockup: Dell PowerEdge R440, R450, R750; Cisco UCS C240 M4S):

https://forum.proxmox.com/threads/kernel-bug-cpu-soft-lockup.110059

0 szavazat

A hozzászóláshoz be kell jelentkezni

Hálás köszönet!
Tegnap visszatettem az 5.13-as kernelt. Remélem, ez megoldja a gondokat.

0 szavazat

A hozzászóláshoz be kell jelentkezni

5.13-assal probald ki minden fele keppen, raid kartyaval is van gondja a 15-osnek

0 szavazat

A hozzászóláshoz be kell jelentkezni

Milyen összefüggés van a között, hogy nem HDD, hanem SSD tárterület van a gépben és a vm.swappiness értékét 0-ra állítod? Mi köze a kettőnek egymáshoz?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Érdemes kikapcsolni a biosban a C-statekeket és egéb energiagazdálkodási funkciókat.

~10 éve engem a C-state szivatott meg. A XenServer random csontra fagyott tőle.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Homeserver-ben első generációs Threadripper ugyanezt csinálta, és ez 2 éve volt. Volt hogy napokig húzta, volt hogy egy nap többször is csontra fagyott. A BIOS-ban a megfelelő energiagazdálkodási lehetőségek kikapcsolása után beton stabil lett.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Proxmox alatt történt a fagyás?

Egy kicsit konkretizálnád, hogy pontosan milyen energiagazdálkodási lehetőségeket érdemes / kell kikapcsolni? Most fogok telepíteni Proxmoxot két Dell szerverre is, probléma esetén jó lenne, ha tudom mit kell kikapcsolni.

A választ akár ide is írhatod, de indítottam egy másik fórumot (Proxmox - BIOS energiagazdálkodási beállítások ...) ezzel kapcsolatban, inkább ott (vagy ott is) várnám a választ.

Köszönöm!

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nem ide

0 szavazat

A hozzászóláshoz be kell jelentkezni

A messages/syslog-ban kellene látnod stacktrace-eket, amikor a soft lockup történik. Abból talán kiderül, hogy mi ragad be olyankor.

0 szavazat

A hozzászóláshoz be kell jelentkezni

# grep -i stacktrace /var/log/syslog
# grep -i stacktrace /var/log/messages
#

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nen lesz benne a stacktrace szó szerintem

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ilyesminek kellene benne lennie:

https://access.redhat.com/articles/371803

0 szavazat

A hozzászóláshoz be kell jelentkezni

Megint lefagyott, feltettem a syslog-ot és a messages-t pastebinre
Már kikapcsoltam a BIOS-ban (UEFI) a CPU Autonomous Core C-State (Alaplap dokumentáció, 60. oldal) beállírást is tegnap 22h-kor.
A deduplikációt is megszüntettem a 16 TB ZFS-en (a eoot poolon nem is volt bekapcsolva), így már az sem lehet a fagyás oka...

Van még valami ötletetek? Én kifogytam.

Szerk.: Utoljára úgy szállt el, hogy a szerver és a VM-ek nagyrésze már riasztott, hogy 5 perce nem elérhetőek, de az egyik Windowsba RDP-n még be tudtam lépni és egy ügyfél még számlázott rajta (Multipoint Dashboardon láttam a képernyőjét), tehát a hozzá tartozó Samba VM is ment még.
Két másik Windows VM-nél (egyik 2016, másik 2022 Windows Server) megugrott a CPU terhelés 40-60% közé (3-5%-ról), az egyik Debian, amit RDP-n használnak, szintén magas COU terhelést jelzett, valamint további 2 Debian VM szintén. Az egyik 100% CPU-t írt a Proxmox grafikonján.

Így a hálókártya(driver) fagyás-teória is megdőlni látszik.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Szia!

Kezdjük sorban:
1., PowerSaving/C-States - opciók kikapcsolva ?
2., AMD SMT letiltva (hyperthreading)?
3., Megnéztem a syslog-t amit felraktál, ha ez egy AMD processzor miért van kvm_intel modul betöltve? Nemhogy ez okozza a problémát?
INTEL-CPU_nál
kvm
kvm_intel
AMD-CPU_nál:
kvm
kvm_amd

Szerintem valamelyik kernel modullal lesz a probléma,
Korábban énis jártam így NVIDIA videókártyával: "nvidiafb" modul blacklistelni kellett, utána már működött a nvidia kártya, előtte szétfagyott a monitor.

Probáld meg ezt:

Ebbe a fájlba "/etc/modprobe.d/kvm.conf" tedd bele ezt:
blacklist kvm_intel

majd
$> update-initramfs -c -d -u
$> update-grub

0 szavazat

A hozzászóláshoz be kell jelentkezni

Már kikapcsoltam a BIOS-ban (UEFI) a CPU Autonomous Core C-State (Alaplap dokumentáció, 60. oldal) beállírást is tegnap 22h-kor.

Intel a CPU, a nyitó posztban a linken meg tudod nézni a gépet.
Intel® Xeon® W-2295 18-Core
Cascade-Lake W

0 szavazat

A hozzászóláshoz be kell jelentkezni

Benéztem, akkor INTEL CPU
Többi akkor is kérdés:

1., PowerSaving/C-States opciók - KIKAPCSOLVA
2., INTEL SpeedSpectrum opciók?
3., INTEL hyperthreading opciók?
4., Belinkelt Syslog alapján:

RIP: 0010:native_queued_spin_lock_slowpath+0x1e4/0x230
RIP: 0010:vprintk_emit+0x1d4/0x270
>> Erre van megoldás, grub-ban a soros-portot le kell tiltani, bővebben:
https://www.suse.com/support/kb/doc/?id=000020516


RIP: 0010:smp_call_function_single+0xe3/0x120
RIP: 0010:smp_call_function_many_cond+0x13c/0x350
>> Passz, ez mi okozza

Következőket, próbálnám még meg:
2., 3., pontban lévőket is kikapcsolnám a BIOS-ba, megnézném úgy kifagy-e.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nézted a BIOS kézikönyvét (fentebb belinkeltem).
Csak azt a C-States-t kapcsoltam ki egyelőre, ami a 60. oldal alján található a kézikönyvben.
A HypreThreading-et miért kellene kikapcsolni (tudatlanságból kérdezem, nem kötekszem. :))
Kicseréltettem az egész gépet alaplapostul, procistul egy másikra, tehát azt kizárnám, hogy ez a CPU is rossz lenne. A régi gép is ugyan ezt csinálta, mint az új.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Szia!

Akkor szivatsz minket, megnéztem kézikönyvet, ezeket kelll beállítani hogy "rendesen" kikapcsolja a C-States -t:
( Ha csak az elsőt tiltottad le, kb semmit nem csináltál ).

CPU Configuration

Autonomus Core C-State: DISABLED
Enchanced Halt State(C1E): DISABLED
CPU C6 report: DISABLED
Package C State: DISABLED
Enhanced Intel Speedstep Technology: DISABLED
Turbo Mode: DISABLED
Hyper-threading: DISABLED*

A "HyperThreading" régi vita téma, hypervisor alatt nem nyersz vele semmit, de gondot tud okozni ( én kikapcsolom minden szervernél ami hypervisor - Desktop PC alatt lehet értelme ):

https://virtualizationreview.com/articles/2016/12/08/should-you-use-hyp…

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ha ezt letiltom:

Autonomus Core C-State: DISABLED

a többi szürke (és Disabled) lesz, de este megnézem újra.
A HT-t és a Speedstepet is ki fogom kapcsolni. a Turbo Mode-al együtt.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Szia!

Ha a fentiek egyike se oldotta meg a problémát, akkor van mégegy hiba lehetőség:
> CPU hűtése kevés, azaz túlmelegszik, ezért kifagy (NMI watchdog: Watchdog detected hard LOCKUP on cpu X)

Ez úgy fordulhat elő, pl.: hűtőborda nincsen rendesen rajta CPU-n, ezt csak fizikailag lehet ellenőrizni ( esetleg a CPU hőmérsékletét loggolni ).

0 szavazat

A hozzászóláshoz be kell jelentkezni

Néztem a hőfokokat, nem melegszik túl semmi.
Valamint kicseréltettem már az egész gépet, az új is ugyan ezt csinálja.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Szia!

Legutoljára azt tudom akkor javasolni, hogy használd a korábbi stable verziót a proxmox-ból. ( Proxmox 6.4 )

http://download.proxmox.com/iso/

Aranyszabály, hogy sose használjuk a legújabbat, mindíg az egyel korábbi stable ágat, mert azt már rendesen kikalapálták lehetőleg ( ez igaz az összes LINUX -ra ).

https://pve.proxmox.com/wiki/Roadmap

Proxmox 6.4 -ben QEMU 5.2 van
Proxmox 7.x -ben már QEMU 6.x van

0 szavazat

A hozzászóláshoz be kell jelentkezni

ugyanazt sikerült kétszer felraknod

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ha nincs meg a fagyás oka, állíts be remote syslog szervert valahol és küldj oda (is) minden logot. Hátha fagyás előtt még elsírja bánatát, de diszkre már nem tudja kiírni. Raid kártyával jártam így.

Korábban eth driverrel is volt szívásom, most hogy említik itt fentebb. Nagyobb terhelésnél, jellemzően backupnál kernel pánikot okozott.

1 szavazat

A hozzászóláshoz be kell jelentkezni

Ha a korábbi feltevés jön össze, hogy hálókártya kampeca, akkor a remote logging sem fog összejönni. De egy misét megér, mert mi van, ha mégsem az?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Jaja. Amúgy a net kártya hiba nem tudom már hogy derült ki. Lehet, hogy crash előtt már csipogott a syslogba vagy már csak az IPMI konzolon láttam, hogy hello van. Az tuti nagy szívás volt. Valami (akkor) új fajta broadcom driver volt. Hálókártya csere orvosolta a dolgot, amin intel chip volt.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Komolyan nem vágom miért kínlódsz egy darab ilyen orbitális konfiggal, miért nem jó ezt 2-3 darabra szedni?
Nekem valahogy nagyon egyensúlytalan az egész.

0 szavazat

A hozzászóláshoz be kell jelentkezni

2-3x kiadás, ugyan annyi bevétel.
Röhögve el kellene bírnia ezt a terhelést egy ilyen gépnek. A load 0.5 és 3 között van átlagban, a RAM 60-70%-át használják a VM-ek, a CPU terhelés is 7% alatt mindig... kivétel, mikor legafy az efész...

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nyilván fele ekkora vasakra gondoltam. Abból kettő az pont ugyanennyi pénz, valamivel több munka viszont ha clustert építesz belőle akkor akár tudhatsz rendelkezésreállást növelni is akár.

1 szavazat

A hozzászóláshoz be kell jelentkezni

Én a leiratod alapján konfiguráltam ez a gépet a szolgáltatódnál, és létezik, hogy ezért ilyen havi 150e HUF nagyságrendet fizetsz?

Csak azért kérdem, mert ilyen költség helyett ha veszel egy használt, de rendes (mondjuk Dell, mert a HP-t utálom) szervert, és Te magad teszed hosting-ba (itthon, ahol könnyen elérhető és kapsz hozzáférést a BMC-hez is), akkor kb. 3-6 havi díjból megvan egy nagyon jó szerver, aztán egy 2U készülék havi hosting díja nem több 30e Ft-nál még mostani villany árak mellett sem (IP címmel, internet szolgáltatással).

Mi anno sokat számolgattunk a VPS, bérszerver, saját szerver hosting-ban kérdéskört, de sehogyan sem jött az ki, hogy VPS-szel vagy bérszerverrel jobban járnánk. Így lett saját HW. Persze ezzel nekem kell tamagocsizni, ha megáll, de arra meg van onsite garink (használt szerverek egyébként), így elvileg oda se kellene mennem ha megállna valami. Ja, meg cluster, szóval ügyfél felé nem áll meg akkor sem semmi.
Nyilván nem való mindenkinek a saját cucc, sima "felhasználó" számára nagyon király a VPS vagy a bérszerver, de aki így üzemeltet és tovább értékesíti szolgáltatásként, annál inkább kényelmes, mint gazdaságos szerintem.

A cluster építéses javaslatra pedig +1000. Ha az lenne, akkor csak VM-ek újraindulásából vennéd észre a szerver halálát (persze ügyfél szemmel az sem az igazi váratlanul, de jobb, mint a határozatlan idejű leállás), nem abból, hogy megáll minden és matekozni kell, mi legyen.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Matekoztam én is és jobban járnék saját szerverekkel, de:
1. Néhány Ügyfelem nem akar Magyarországi szervert, ragaszkodik a külföldhöz, míg másoknak tökmindegy,
2. Ha ez nem lenne, akkor is gond lenne, hogy Bp. 140 km-re van tőlem. Nem szívesen autóznék kicserélni egy tápot, vagy bármit éjjel (nappal meg pláne)

A HP, Dell témában egy a véleményünk. :) A HP a hardverek Micro$oftja a szememben. :D

Tervben van a cluster és a közös storage szerber is, ha lesz annyi Ügyfelem, hogy gazdaságos legyen.
Sajnos a mostani problémámon a cluster sem segítene. Így is 2-3 perc alatt újraindítom a szervert, de jobb lenne, ha működne terv szerint.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Az átlagos ügyfeleknél pont fordítva szokott lenni, inkább a magyarországi helyszíneket preferálják, meg vannak olyanok (államigazgatás, alapítványok, központi finanszírozású non-profit, stb.), ahol ez előírás is. Ha valaki kifejezetten külföldet preferálja, az bennem kérdéseket vet fel... (mert ugye az manapság már nem indok, hogy sok a külföldi ügyfele és onnan könnyebb kiszolgálni sávszél tekintetében)

Tőlünk is 120 km BP, én sem szeretnék oda szaladni egy tápcserére, ezért vettük onsite garival a gépeket, ezért javasoltam ezt a verziót. Meg ezért is kell a magas fokú redundancia, hogy ha valami megáll, a szolgáltatás ne szenvedje kárát. Ha ilyen üzletbe vágsz, akkor a kezdeti beruházás mindenképp X összeg ha jól akarod csinálni, függetlenül attól, hogy mennyi bevétel van indulásnál. Nem hiszem, hogy az ügyfelek hosszabb távon tolerálni fogják ezeket a leállásokat, záros határidőn belül tovább állnak majd.

Egyébként itt jut eszembe, hogy ha nem szeretnél véletlenszerű jogi problémákat Windows szerver téren, akkor ellenőrizd, hogy a VM-eken futó Windows szerver példányok annyi magra vannak-e licencelve, amennyi a host-ban van. Sokan nem tudják, hogy hiába futtatják VM-ben csak néhány vCPU-val a Windows Server-t, azt mindig a host gép magszámára kell licencelni. Ahogy írod, Te egy 18 magos gépet üzemeltetsz, ahhoz a gyárilag legnagyobb 16 magos licenc kell, meg még egy kiegészítő 2 magos licenc (16 mag felett kettesével lehet CPU magot licencelni). Ráadásul ha cluster-ben futtatod, és migrálni is szeretnéd olykor, akkor a cluster legnagyobb magszámú gépére kell a licencet megvenni (ha nem azonos kiépítésűek a node-ok).

Szerk.: Azt elfelejtettem írni, hogy nekünk Dell R630 node-ok esetében a BIOS majdnem gyári default-on fut (mínusz HíperThreading, az tiltva van), semmilyen C-state vagy energia gazdálkodás nincs variálva. Egyszer sem volt lefagyás. Szerintem neked a szerver gép miatt vannak ezek a gondok. De van ügyfelünknél HP DL385G8-as szerveren is PVE6, 2x32 magos AMD CPU-kon, azon sincs a BIOS semmi módon default-ról elállítva, és eddig (néhány éve megy) nem volt vele gond.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Szakmai kíváncsiságból kérdezem: a Dell R630 szerveren miért kapcsoltátok ki a HT-t?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Igazi tudományos/tapasztalati alapja nem volt, csak (amikor a rendszer készült) több, virtualizációval foglalkozó írásban említiették, hogy van olyan sérülékenység, ami a HT letiltásával megelőzhető.

Viszont még csak igazat sem mondtam ezzel kapcsolatban, mert most ránéztem, és engedélyezve van a HT a node-okon... Tehát csak úgy emlékeztem, hogy kikapcsoltuk, de valójában vagy nem kapcsoltuik ki, vagy nem hagytuk kikapcsolva. Biztosan találtunk olyan írásokat, amik azt mondták, hogy azt a sérülékenységet rettentő nehéz kihasználni.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Tegnap visszatettem az 5.13.19-6-pve kernelt.
Üzemeltetek több hasonló gépet, amely nem produkálja ezt a hibát. Ugyan ez a P93 szerver a Hetznernél. Igaz, másik ország, de a szolgáltató cég ua., 128 GB RAM (vs. 256 GB), kevesebb, mint 50% kiosztva a VM-eknek (vs. 60-70%), 3-4 VM (vs. 13), 1 IP (vs. 7), 4x nVME (vs. 2x nVME + 2x HDD), default BIOS beállítás (vs. kikapcsoltuk már a jövő hetet is), Debian 11 + Proxmox LVM-el a root (vs. ZFS root), stb...
Már csak 2 (+1) kérdésem maradt.
1. azok miért nem érintettek ezzel a (tfh.) kernel bug-gal kapcsolatban?
2. ha mondjuk a következő 2 hétben nem jön elő a hiba (eddig 8 napnál többet nem ment egyhuzamban) az érintett szerveren, akkor a többin is downgrade-eljek 5.13.19-6-pve kernelre (és soha többé ne frissítsek kernelt? :D)?
+1. én vagyok ilyen szerencsétlen, hogy az "ez IPARI cucc, nem otthoni játékszer", "ATOMSTABIL", "10+ éve üzemeltetünk végtelen számú Proxmox szervert hiba nélkül", stb. Proxmox élete első hibájába belefutottam, vagy ...?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Hát tudtommal a proxmox, főleg ha ingyé van akkor te vagy a tesztelő, beta channel. Mit vársz ?

Nem ismerem a proxmox policy-t, egy kernel bugot hogyan javítanak. Bár a fentiek ismeretében a javítás egy új kernelt jelent ennek minden előnyével és hátrányával.

Szerencsére a xcp-ng 4.19 patchelgeti ... Atomstabil

Fedora 43, Thinkpad x280

0 szavazat

A hozzászóláshoz be kell jelentkezni

Az előfizetéses Proxmoxban melyik kernerl verzió van?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Fogalmam sincsen. Nem használok proxmoxot, illetve valahol még fut egy 2.2 es.

Fedora 43, Thinkpad x280

0 szavazat

A hozzászóláshoz be kell jelentkezni

0 szavazat

A hozzászóláshoz be kell jelentkezni

Hát annó volt olyan, hogy szétvált a repo az ingyeneskre és a fizetősökre:

Itt is valami ilyesmit írnak:

https://pve.proxmox.com/wiki/Package_Repositories

Tehát idézet onnan:

Proxmox VE Enterprise Repository

This is the default, stable, and recommended repository, available for all Proxmox VE subscription users. It contains the most stable packages and is suitable for production use. The pve-enterprise repository is enabled by default:

És van a

Proxmox VE No-Subscription Repository

This is the recommended repository for testing and non-production use. Its packages are not as heavily tested and validated. You don’t need a subscription key to access the pve-no-subscription repository.

Ezek szerint lehet különbség. És eleve ezt mondják production-use ra.

Szóval attól mert nem használom, nagyjából tisztában vagyok vele.

Vagy valamit kihagytam ?

Fedora 43, Thinkpad x280

0 szavazat

A hozzászóláshoz be kell jelentkezni

kérdés, hogy ez mennyire "marketing" :-)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Proxmox 7.2 Enterprise: kernel 5.15

Proxmox 7.2 telepito ISO: kernel 5.15

0 szavazat

A hozzászóláshoz be kell jelentkezni

+1: "10+ éve üzemeltetünk végtelen számú...", mert ők üzemeltetik. Azaz az ilyen kernel problémákra (már ha ez a hiba) van belső megoldásuk. Az üzemeltetés erről szól. Te nem üzemelteted, csak használni akarod és szolgáltatást nyújtasz. AZ üzemeltetés azt jelentené, hogy van 1-2 teszt szerver, amelyeket terhelten futtatsz, nézed a működésüket, verzióléptetés előtt komolyabb teszt, a munkaidőd egy része a proxmox fórumok túrása.

üzemeltetést != használat

0 szavazat

A hozzászóláshoz be kell jelentkezni

Amivel meg lehetne az 5.15-os kernel-nel kiserletezni:

"intel_iommu=off" a Grub-ba v. Systemd-boot-ba

lasd:

https://pve.proxmox.com/wiki/Roadmap#7.2-known-issues

https://pve.proxmox.com/pve-docs/chapter-sysadmin.html#sysboot_edit_ker…

1 szavazat

A hozzászóláshoz be kell jelentkezni

Tegnap frissítettem 7.2-5 verzióra (Linux 5.15.35-3-pve #1 SMP PVE 5.15.35-6 (Fri, 17 Jun 2022 13:42:35 +0200)).
Az "intel_iommu=off" kernel paramétert beírtam a Systemd-boot-ba... ma 11:47-kor újra megadta magát a technika -> hard reset.
Pin-elem a 5.13.19-6-pve verziót és meglátom, az működik-e!?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Az 5.19-es Kernel-el is ki lehetne probalni.

Opt-in Linux 5.19 Kernel for Proxmox VE 7.x available:

https://forum.proxmox.com/threads/opt-in-linux-5-19-kernel-for-proxmox-ve-7-x-available.115090

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nekem pár hónapja volt ilyen hiba: i7-12700K + Windows 11 64 bit + Virtualbox esetén.

Bármilyen VM fut, egy idő után timeout kezd lenni, de néha elsőre sem jó, az a lényeg hogy megbízhatatlan, nem használható. Fut a Linux, majd kezd nem reagálni, vagy be sem kapcsol rendesen. Órákig próbálgattam mindenféle beállítást, HTt kikapcsoltam a processzorban, az E magokat is, meg pár bios beállítást, de nem változott.

Én megoldottam: másik gépen futtatok VMeket, amin nincs ez a bug. Majd valamikor újra megnézem, de roppant idegesítő, hogy az egész guest lehal, nem tud írni, mert a CPU nem végzi el a műveletet. A virtualizáláson kívül minden jól működik és atom stabil. Lehet a Virtualbox nem csinálta meg jól ennek a processzornak a támogatását. Vagy a Windows 11 nem kezeli jól.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ez azért radikálisan különböző felállás, bár a tünet hasonló. Ugyanis a legfrissebb Windows plusz legfrissebb VirtualBox, desktop hardveren az nem a stabilitás bástyája soha...

Érdekelne az a verzió, ha a Windows saját Hyper-V-jét használnád az adott VM(eke)t, akkor is jelentkezne-e a probléma, vagy azzal tökéletes lenne. Merthogy a Windows-ban (már a 10-ben is) rengeteg minden működik a háttérben Hyper-V alapokon, és két hípervisor jellemzően nem fér meg egy csárdában, régen is tiltani kellett a Hyper-V-t a VirtualBox hibátlan működéséhez.

0 szavazat

A hozzászóláshoz be kell jelentkezni

A pár generációval régebbi generációs i7 processzort is akkor vettem, amikor megjelent, és egyből ment Virtualbox esetén is. Tippre itt az P és E mag kavar be, vagy a Windows 11 újfajta ütemezője.

Úgy tudom, nincs felrakva Windows 11-re semmilyen Hyper-V modul nekem.

0 szavazat