Proxmox szerver lefagy!
Sziasztok!
Az egyik P93 szerver, amelyet a Hetznertől bérelek, random lefagy.
Software:
A legfrissebb Proxmox VE 7.2-4 (kernel: 5.15.35-2-pve) fut rajta, az alatt pedig 13 virtuális gép.
Hardware:
Intel® Xeon® W-2295 18-Core CPU
256 GB (8 x 32 GB DDR4 ECC) RAM,
2 x 3.84 TB NVMe SSD Datacenter Edition -> rendszer és VM-ek, ZFS + compression,
2 x 16 TB SATA Enterprise HDD -> backup, ZFS + dedup (szerk.: azóta kikapcsolva) + compression,
Hardware RAID nincs
Amit eddig tettem a megoldás érdekében:
Kicseréltettem a RAM-okat, a tápegységet, majd az egész szervert,
kikapcsoltam a NUMA-t, az SSD emulation-t (bár ez tudtommal semmit nem csinál) és az IO thread-et is minden VM-nél,
22 CPU mag és 144 GB RAM van most kiosztva a VM-eknek (3 CPU és 32 GB RAM a legtöbb 1 VM esetén)
A "tünetek":
Ha ssh-n bejelentkezve ér a fagyás, akkor a konzolon hasonló üzenetek kezdenek ömleni:
Message from syslogd@Server at Jun 12 11:19:57 ...
kernel:[101078.245390] NMI watchdog: Watchdog detected hard LOCKUP on cpu 26
Message from syslogd@Server at Jun 12 11:19:57 ...
kernel:[101080.968427] NMI watchdog: Watchdog detected hard LOCKUP on cpu 0
Message from syslogd@Server at Jun 12 11:19:57 ...
kernel:[101085.584163] watchdog: BUG: soft lockup - CPU#1 stuck for 23s! [kvm:497638]
Message from syslogd@Server at Jun 12 11:19:57 ...
kernel:[101085.588163] watchdog: BUG: soft lockup - CPU#2 stuck for 26s! [kvm:995268]
Message from syslogd@Server at Jun 12 11:20:09 ...
kernel:[101097.612269] watchdog: BUG: soft lockup - CPU#14 stuck for 22s! [kworker/14:2:1965617]
Message from syslogd@Server at Jun 12 11:20:25 ...
kernel:[101104.376759] NMI watchdog: Watchdog detected hard LOCKUP on cpu 28
Message from syslogd@Server at Jun 12 11:20:25 ...
kernel:[101112.091159] NMI watchdog: Watchdog detected hard LOCKUP on cpu 5
Message from syslogd@Server at Jun 12 11:20:25 ...
kernel:[101112.599352] NMI watchdog: Watchdog detected hard LOCKUP on cpu 31
Message from syslogd@Server at Jun 12 11:20:25 ...
kernel:[101113.588410] watchdog: BUG: soft lockup - CPU#2 stuck for 52s! [kvm:995268]
Message from syslogd@Server at Jun 12 11:20:25 ...
kernel:[101113.600410] watchdog: BUG: soft lockup - CPU#9 stuck for 22s! [atop:1970572]
Message from syslogd@Server at Jun 12 11:20:29 ...
kernel:[101114.959585] NMI watchdog: Watchdog detected hard LOCKUP on cpu 1
Message from syslogd@Server at Jun 12 11:20:29 ...
kernel:[101117.592445] watchdog: BUG: soft lockup - CPU#4 stuck for 23s! [kvm:835684]
Message from syslogd@Server at Jun 12 11:20:33 ...
kernel:[101121.628481] watchdog: BUG: soft lockup - CPU#24 stuck for 22s! [kworker/24:2:374]
Message from syslogd@Server at Jun 12 11:20:37 ...
kernel:[101125.612516] watchdog: BUG: soft lockup - CPU#14 stuck for 48s! [kworker/14:2:1965617]
A VM-ek elérhetetlenekké válnak, a Proxmox WEB UI elkezd "homokozni". A Hetzner felületén indított hardware reset után a gép újra megy.
Van, hogy naponta háromszor fagy le, van hogy megy 8 napig is.
A syslogban nincs semmi furcsa a lefagyás előtt.
Kérlek, segítsetek megtalálni és megszüntetni a lefagyások okát.
- Tovább (Proxmox szerver lefagy!)