esxi magas latency

Fórumok

Sziasztok,

Otthon beüzemeltem egy esxi környezetet pár vm-el és olyan jelenségem van, hogy ha próbálok hálózaton bármit másolni a vm-ekre akkor lecsökken a sávszélesség, majd el is fogy.

Iperf-el megteszteltem közvetlenül az esxi-t úgy rendben van a kapcsolat.

A környezet:

MSI H110i, i5-6500, 16GB DDR4 2133MHZ, 256 m2.ssd

WAN: r8168 - 1gbps
LAN: qlcnic -10gbps

Szoftver verzió: ESXi-6.7.0-20191204001-standard-customized (VMware, Inc.)
Az esxi egy penről bootol(gyors pen, 3.0-an.)

VM: routeros, debian, pihole.

A debianon van samba, illetve iscsi ezeknél a szolgáltatásoknál vettem elsősorban észre, innen indult a nyomozás. De a transmission is hullámzó teljesítményt ad.

Elég sokat nyomoztam már, próbálgattam a CPU környezet vagy a memóriát állítgatni, hogy foglalja le, de nem jutottam előre.
Remélem tudtok valami támpontot adni a probléma megoldásához.

Előre is köszönöm, ha velem gondolkodsz! :)

 4:12:32pm up 19:41, 510 worlds, 3 VMs, 7 vCPUs; CPU load average: 0.06, 0.07, 0.05
PCPU USED(%): 8.4 4.1 4.2 4.4 AVG: 5.3
PCPU UTIL(%): 8.3 4.3 4.3 4.6 AVG: 5.4

      ID      GID NAME             NWLD   %USED    %RUN    %SYS   %WAIT %VMWAIT    %RDY   %IDLE  %OVRLP   %CSTP  %MLMTD  %SWPWT
   15055    15055 Debian             16   10.58   10.20    0.22 1589.13    0.00    1.26  391.62    0.21    0.00    0.00    0.00
   11329    11329 CHR                 9    5.92    5.78    0.00  893.11    0.02    1.44   94.34    0.04    0.00    0.00    0.00
   46414    46414 esxtop.2106642      1    2.01    2.05    0.00   97.97       -    0.02    0.00    0.00    0.00    0.00    0.00
       1        1 system            190    0.55  381.41    0.00 18599.82       -   20.35    0.00    1.61    0.00    0.00    0.00
   15008    15008 piHole             10    0.44    0.42    0.01  999.85    0.00    0.10  199.84    0.01    0.00    0.00    0.00
    5846     5846 hostd.2098539      27    0.03    0.04    0.00 2700.00       -    0.01    0.00    0.00    0.00    0.00    0.00
    9488     9488 vpxa.2099044       32    0.02    0.01    0.00 3200.00       -    0.01    0.00    0.00    0.00    0.00    0.00
   46326    46326 sshd.2106631        1    0.01    0.01    0.00  100.00       -    0.01    0.00    0.00    0.00    0.00    0.00
    5523     5523 hostdCgiServer.    12    0.01    0.01    0.00 1200.00       -    0.00    0.00    0.00    0.00    0.00    0.00
    2237     2237 net-lacp.209772     3    0.01    0.01    0.00  300.00       -    0.00    0.00    0.00    0.00    0.00    0.00
    1123     1123 vmsyslogd.20974     5    0.01    0.01    0.00  500.00       -    0.00    0.00    0.00    0.00    0.00    0.00

Alább vannak az iperf eredmények.

Bármilyen végpontról VM-re:

[  4]   4.00-5.02   sec  1.12 MBytes  9.27 Mbits/sec
[  6]   4.00-5.02   sec   384 KBytes  3.09 Mbits/sec
[  8]   4.00-5.02   sec  2.12 MBytes  17.5 Mbits/sec
[ 10]   4.00-5.02   sec  4.12 MBytes  34.0 Mbits/sec
[ 12]   4.00-5.02   sec   256 KBytes  2.06 Mbits/sec
[ 14]   4.00-5.02   sec  17.8 MBytes   146 Mbits/sec
[ 16]   4.00-5.02   sec  0.00 Bytes  0.00 bits/sec
[ 18]   4.00-5.02   sec  0.00 Bytes  0.00 bits/sec
[ 20]   4.00-5.02   sec  0.00 Bytes  0.00 bits/sec
[ 22]   4.00-5.02   sec   640 KBytes  5.15 Mbits/sec
[ 24]   4.00-5.02   sec   256 KBytes  2.06 Mbits/sec
[ 26]   4.00-5.02   sec  0.00 Bytes  0.00 bits/sec
[ 28]   4.00-5.02   sec   128 KBytes  1.03 Mbits/sec
[ 30]   4.00-5.02   sec  13.9 MBytes   114 Mbits/sec
[ 32]   4.00-5.02   sec   128 KBytes  1.03 Mbits/sec
[ 34]   4.00-5.02   sec  0.00 Bytes  0.00 bits/sec
[ 36]   4.00-5.02   sec  12.0 MBytes  98.9 Mbits/sec
[ 38]   4.00-5.02   sec   256 KBytes  2.06 Mbits/sec
[ 40]   4.00-5.02   sec   512 KBytes  4.12 Mbits/sec
[ 42]   4.00-5.02   sec  0.00 Bytes  0.00 bits/sec
[SUM]   4.00-5.02   sec  53.5 MBytes   441 Mbits/sec

Bármilyen végpontról esxi-re:

[  5]   8.00-9.00   sec  54.4 MBytes   456 Mbits/sec    0    210 KBytes
[  7]   8.00-9.00   sec  52.4 MBytes   439 Mbits/sec    0    211 KBytes
[  9]   8.00-9.00   sec  54.8 MBytes   459 Mbits/sec    0    210 KBytes
[ 11]   8.00-9.00   sec  54.3 MBytes   455 Mbits/sec    0    212 KBytes
[ 13]   8.00-9.00   sec  52.5 MBytes   440 Mbits/sec    0    210 KBytes
[ 15]   8.00-9.00   sec  54.5 MBytes   457 Mbits/sec    0    211 KBytes
[ 17]   8.00-9.00   sec  54.3 MBytes   456 Mbits/sec    0    211 KBytes
[ 19]   8.00-9.00   sec  51.8 MBytes   435 Mbits/sec    0    212 KBytes
[ 21]   8.00-9.00   sec  54.0 MBytes   453 Mbits/sec    0    212 KBytes
[ 23]   8.00-9.00   sec  52.8 MBytes   443 Mbits/sec    0    215 KBytes
[ 25]   8.00-9.00   sec  51.1 MBytes   429 Mbits/sec    0    210 KBytes
[ 27]   8.00-9.00   sec  51.2 MBytes   430 Mbits/sec    0    211 KBytes
[ 29]   8.00-9.00   sec  54.5 MBytes   457 Mbits/sec    0    210 KBytes
[ 31]   8.00-9.00   sec  49.7 MBytes   417 Mbits/sec    0    211 KBytes
[ 33]   8.00-9.00   sec  52.1 MBytes   437 Mbits/sec    0    211 KBytes
[ 35]   8.00-9.00   sec  49.9 MBytes   419 Mbits/sec    0    212 KBytes
[ 37]   8.00-9.00   sec  50.1 MBytes   420 Mbits/sec    0    212 KBytes
[ 39]   8.00-9.00   sec  54.8 MBytes   459 Mbits/sec    0    211 KBytes
[ 41]   8.00-9.00   sec  53.8 MBytes   451 Mbits/sec    0    212 KBytes
[ 43]   8.00-9.00   sec  50.5 MBytes   423 Mbits/sec    0    211 KBytes
[SUM]   8.00-9.00   sec  1.03 GBytes  8.84 Gbits/sec    0

Bármilyen VM-ről végpontra:

[  5]   6.00-7.00   sec  54.3 MBytes   456 Mbits/sec    0    211 KBytes
[  7]   6.00-7.00   sec  52.1 MBytes   437 Mbits/sec    0    212 KBytes
[  9]   6.00-7.00   sec  53.3 MBytes   447 Mbits/sec    0    214 KBytes
[ 11]   6.00-7.00   sec  54.3 MBytes   455 Mbits/sec    0    212 KBytes
[ 13]   6.00-7.00   sec  52.7 MBytes   442 Mbits/sec    0    210 KBytes
[ 15]   6.00-7.00   sec  53.6 MBytes   450 Mbits/sec    1    211 KBytes
[ 17]   6.00-7.00   sec  53.9 MBytes   452 Mbits/sec    0    211 KBytes
[ 19]   6.00-7.00   sec  50.7 MBytes   425 Mbits/sec    0    212 KBytes
[ 21]   6.00-7.00   sec  54.7 MBytes   459 Mbits/sec    0    214 KBytes
[ 23]   6.00-7.00   sec  50.9 MBytes   427 Mbits/sec    0    215 KBytes
[ 25]   6.00-7.00   sec  49.8 MBytes   418 Mbits/sec   30    210 KBytes
[ 27]   6.00-7.00   sec  51.7 MBytes   434 Mbits/sec    0    211 KBytes
[ 29]   6.00-7.00   sec  53.7 MBytes   451 Mbits/sec    0    210 KBytes
[ 31]   6.00-7.00   sec  50.7 MBytes   425 Mbits/sec    0    210 KBytes
[ 33]   6.00-7.00   sec  51.4 MBytes   431 Mbits/sec    0    210 KBytes
[ 35]   6.00-7.00   sec  50.8 MBytes   426 Mbits/sec    0    220 KBytes
[ 37]   6.00-7.00   sec  50.6 MBytes   424 Mbits/sec    0    212 KBytes
[ 39]   6.00-7.00   sec  53.3 MBytes   447 Mbits/sec    0    210 KBytes
[ 41]   6.00-7.00   sec  53.1 MBytes   445 Mbits/sec    0    212 KBytes
[ 43]   6.00-7.00   sec  50.1 MBytes   420 Mbits/sec    0    211 KBytes
[SUM]   6.00-7.00   sec  1.02 GBytes  8.77 Gbits/sec   31

 

--update .1
 

DIGI - MSIH110[(integrált lan-vmnic0) - WAN Port Group- vswitchwan] -Router OS VM - [pcie HP NC523SFP (vmnic1) - LAN Port Group - vSwitch0] --> Mikrotik CRS305-1G-4S+IN fizikai switch.

2 vswitch: Wan,Lan
2 Port Group: Wan,Lan

CHR: Wan,Lan
Debian: Lan
piHole: Lan

HP NC523SFP hálókártyák
10GB OM3-MM optikai kábelek
Ubiquity DAC kábel a H110-es pc és a mikrotik switch között.

--update .2

Topológia vázlat:
https://drive.google.com/file/d/1y1aeLMP5necN7SEdQHlTaPNwwLgxcEqu/view?usp=sharing

DD eredmény VM-en belül:

time dd if=/dev/zero of=/root/testfile.3 bs=1M count=1024 oflag=direct
1024+0 beolvasott rekord
1024+0 kiírt rekord
1073741824 bájt (1,1 GB, 1,0 GiB) másolva, 0,890372 s, 1,2 GB/s

real    0m0,891s
user    0m0,000s
sys     0m0,187s

DD eredmény esxi-n a datastore-n futtatva.

time dd if=/dev/zero of=test.3 bs=1M count=1024
1024+0 records in
1024+0 records out
real    0m 3.11s
user    0m 0.88s
sys     0m 0.00s

Hozzászólások

Lehet hulye otlet, de nekem ugy tunik, hogy elfogy a write-IO, mondjuk a garbage collector nem tud utemezetten a hatterben takaritani, csak iraskor.. Az OS tamogatja a trim-et az adott hardveren? Nem kapcsolt be a thermal-throttling irasnal? Mondjuk rosszul szellozo haz?

Amit írsz érdekes gondolat lehet. A garbage collector nem tudom mi, erre hamarosan rákeresek és átolvasom nálam ez lehet-e hiba. Úgy tudom a vmfs6 ami az nvme ssd-n van mint egyedülálló datastore az már támogatja a "trim"-et mint unmap processing.
Gondoltam rá, most egy noctua ventit vettem a procira is, meg a 10gbps-s hálókártyára is raktam egy noiseblocker ventit. A házikó egy cooler master elite 120, 4 vinyó van benne, meg egy fsp táp.

A halozati es storage topologiat kifejthetned bovebben, hogy erdemben segiteni tudjunk.

Az "esxi-re" esetet hogy erted? Az iperf server az ESXi-n fut? Van ilyen .vib vagy hogy?

Storage:

Egy m2-es  Samsung SM951-NVMe (256GB) ssd-m van, ezen vannak a vm-ek. Nem nagyon tudok ezzel kapcsolatban mit konfigolni. Ezt formáztam VMFS6-ra.

Van még 4 HDD - 2db 3tb,2db 4tb. Ezeket simán (RDM) lemezként odaadom a Debian-nak és abban van egy szoftveres raid. Kirpóbáltam egy frissen telepített debiannal is csak az ssd-n, de sajnos azon is ugyanez volt az eredmény.

Hálózat:

DIGI - MSIH110[(integrált lan-vmnic0) - WAN Port Group- vswitchwan] -Router OS VM - [pcie HP NC523SFP (vmnic1) - LAN Port Group - vSwitch0] --> Mikrotik CRS305-1G-4S+IN fizikai switch.

2 vswitch: Wan,Lan
2 Port Group: Wan,Lan

CHR: Wan,Lan
Debian: Lan
piHole: Lan

HP NC523SFP hálókártyák
10GB OM3-MM optikai kábelek
Ubiquity DAC kábel a H110-es pc és a mikrotik switch között.
 

A switch után van még egy 10gb-s optika a gépemig, szintén HP NC523SFP hálókártyával. A másik switch portokon Mikrotik gigabites switch található szintén opikával az RJ45-ös eszközöknek.
Innen csatlakozva is hasonló eredmények születnek. 

Egy kicsit nehéz átlátni a dolgot, egy rajz jobb lenne. Persze ha sokszor elolvasnám, és átgondolnám, jobban érteném, mert vélhetően pontosan leírtál mindent. Szóval ezeket figyelembe véve:

- Bootolnék egy live Linuxot a hoston, és mérnék azzal is iperf-el.

- A 10G qlogic NIC elég régi darab, a HCL-t megnézted? Valamint a firmware/driver/esxi verzió kombó rendben van?

Köszönöm, megnéztem.

Live linux-al rendben van, stabil mindkét irány, mintha tényleg az esxi-ben futott iperf-et futtatnám.

A driver vonatkozásában nem vagyok biztos, mert magam csináltam az iso-t és egy korábbi 6.0-ához való drivert telepítettem vib csomagkezelővel.

vmkload_mod -s qlcnic |grep Version
 Version: Version 6.1.191, Build: 2494585, Interface: 9.2 Built on: May 28 2015

Ez is okozhat problémát? Ilyen nagy az eltérés a verziók között?

A vmk0-át meghagytam az általa létrehozott Management Network Port groupban és ennek van egy 19.250-es IP-je, erre engedem rá az Iperf-et.

Problémát jelenthet a több Port group ugyanazon a vswitch-en?

DD eredmény VM-en belül:

time dd if=/dev/zero of=/root/testfile.3 bs=1M count=1024 oflag=direct
1024+0 beolvasott rekord
1024+0 kiírt rekord
1073741824 bájt (1,1 GB, 1,0 GiB) másolva, 0,890372 s, 1,2 GB/s

real    0m0,891s
user    0m0,000s
sys     0m0,187s

DD eredmény esxi-n a datastore-n futtatva.

time dd if=/dev/zero of=test.3 bs=1M count=1024
1024+0 records in
1024+0 records out
real    0m 3.11s
user    0m 0.88s
sys     0m 0.00s

Beállítottam. 

Az iperf most jobbnak néz ki:

[  4]   3.00-4.00   sec  50.5 MBytes   423 Mbits/sec
[  6]   3.00-4.00   sec  20.1 MBytes   169 Mbits/sec
[  8]   3.00-4.00   sec  14.6 MBytes   123 Mbits/sec
[ 10]   3.00-4.00   sec  51.0 MBytes   428 Mbits/sec
[ 12]   3.00-4.00   sec  55.1 MBytes   462 Mbits/sec
[ 14]   3.00-4.00   sec  11.9 MBytes  99.5 Mbits/sec
[ 16]   3.00-4.00   sec  20.6 MBytes   173 Mbits/sec
[ 18]   3.00-4.00   sec  34.5 MBytes   289 Mbits/sec
[ 20]   3.00-4.00   sec  43.6 MBytes   366 Mbits/sec
[ 22]   3.00-4.00   sec   768 KBytes  6.29 Mbits/sec
[ 24]   3.00-4.00   sec  61.8 MBytes   518 Mbits/sec
[ 26]   3.00-4.00   sec  40.1 MBytes   336 Mbits/sec
[ 28]   3.00-4.00   sec  72.9 MBytes   611 Mbits/sec
[ 30]   3.00-4.00   sec  43.1 MBytes   362 Mbits/sec
[ 32]   3.00-4.00   sec  18.2 MBytes   153 Mbits/sec
[ 34]   3.00-4.00   sec  84.0 MBytes   704 Mbits/sec
[ 36]   3.00-4.00   sec  59.8 MBytes   501 Mbits/sec
[ 38]   3.00-4.00   sec  67.4 MBytes   565 Mbits/sec
[ 40]   3.00-4.00   sec  65.5 MBytes   549 Mbits/sec
[ 42]   3.00-4.00   sec  29.9 MBytes   250 Mbits/sec
[SUM]   3.00-4.00   sec   845 MBytes  7.09 Gbits/sec
- - - - - - - - - - - - - - - - - - - - - - - - -
[  4]   4.00-5.00   sec  30.2 MBytes   254 Mbits/sec
[  6]   4.00-5.00   sec  51.2 MBytes   430 Mbits/sec
[  8]   4.00-5.00   sec  57.4 MBytes   481 Mbits/sec
[ 10]   4.00-5.00   sec  62.9 MBytes   527 Mbits/sec
[ 12]   4.00-5.00   sec  53.4 MBytes   448 Mbits/sec
[ 14]   4.00-5.00   sec  64.2 MBytes   539 Mbits/sec
[ 16]   4.00-5.00   sec  60.2 MBytes   505 Mbits/sec
[ 18]   4.00-5.00   sec  28.8 MBytes   241 Mbits/sec
[ 20]   4.00-5.00   sec  10.0 MBytes  83.9 Mbits/sec
[ 22]   4.00-5.00   sec  29.2 MBytes   245 Mbits/sec
[ 24]   4.00-5.00   sec  54.5 MBytes   457 Mbits/sec
[ 26]   4.00-5.00   sec  30.4 MBytes   255 Mbits/sec
[ 28]   4.00-5.00   sec  51.5 MBytes   432 Mbits/sec
[ 30]   4.00-5.00   sec  32.1 MBytes   269 Mbits/sec
[ 32]   4.00-5.00   sec  43.6 MBytes   366 Mbits/sec
[ 34]   4.00-5.00   sec  36.4 MBytes   305 Mbits/sec
[ 36]   4.00-5.00   sec  36.2 MBytes   304 Mbits/sec
[ 38]   4.00-5.00   sec  28.2 MBytes   237 Mbits/sec
[ 40]   4.00-5.00   sec  54.9 MBytes   460 Mbits/sec
[ 42]   4.00-5.00   sec  25.0 MBytes   210 Mbits/sec
[SUM]   4.00-5.00   sec   840 MBytes  7.05 Gbits/sec

 

Viszont másoláskor még mindig nem az igazi. Érdekesség, hogy ilyen 450megabájtokat irkál, miközben a raid teljesítménye tudom, hogy nem annyi. :)

https://imgur.com/zoOq5DI

Ugyan nem esxi, hanem KVM, de szintén kisértetiesen hasonló problémára a megoldás az volt, hogy kidobtuk az 1500 forintos "desktop" gigabit lan kártyát, és vettünk egy rendes gigabites "szerver" hálókártyát. Tény hogy nem ma volt, de...

Én is a HCL körül keresgetnék, és lehet megpróbálkoznék egy másik hálókártyával.

Gondoltam rá, de sajnos nincs több helyem az alaplapon, nem tudom már mivel bővíteni.
Mini ITX, így a lehetőségek korlátozottak. Esetleg azt tudom lepróbálni, hogy beleteszek egy usb3.0-ás kártyát.
Az integrált lan egyébként csak a WAN oldalért felel, ami nem gondolom, hogy beleszámítana pl a samba írásakor.

Bár nem ismerem a topológiát, első kérdésem az lenne CHR-en milyen licenc van ?

Fedora 31, Thinkpad x220

Az nem az én dolgom, de az ingyenes licence uploadban 1Mbitet tud.

Nekem ez tünt fel, és mivel mint mondtam nem tudok semmit a hálózat felépítéséből gondoltam megkérdem mennyit tud a licence.

[ 12]   4.00-5.02   sec   256 KBytes  2.06 Mbits/sec
[ 14]   4.00-5.02   sec  17.8 MBytes   146 Mbits/sec
[ 16]   4.00-5.02   sec  0.00 Bytes  0.00 bits/sec
[ 18]   4.00-5.02   sec  0.00 Bytes  0.00 bits/sec
[ 20]   4.00-5.02   sec  0.00 Bytes  0.00 bits/sec

Nem feltétlen kell egy vagyon, ha van mikrotik.com-hoz accountod, akkor 30 vagy talán még 60 napra tudsz igényelni próbalicencet, amit elvileg tudsz hosszabbítani. 

Fedora 31, Thinkpad x220

Köszönöm a kezdeményezést, P10 licence van beállítva.
Ez volt az első amit beállítottam.

A hálózatot a CHR vm csinálja, egy interface a Wan oldal(PPPoE) egy pedig a LAN oldal, erre szórja ki a dhcp-t is. NAtolni elég szépen tud, olyan 900mbit meg szokott lenni mikor a Digi hálózata is akarja.

Köszi, jó lesz ez. Lassan összeáll az én fejemben legalábbis. (Csak a tisztánlátás végett: ha jól látom, akkor ez úgy van megépítve, hogy ha nem megy a host, akkor nagyon hálózatod sincs? Gondolom ennek valami célja van.)

Elnézve a dd-s eredményeket, szvsz az ssd-t, mint problémaforrást lehúznám a listáról. (Bár pont 1 gigányit írtál ki, ha jól emlékszem nekem meg valami olyasmi él a fejemben régről, hogy 1GB-os dram van cache-nek ezekben a vackokban. Vagy azóta már több.)

Még az usb-s rendszerről is elmerengtem, hogy talán, de nem találtam rá indokot, hogy miért írna rá bármit is a vmware másolás közben. Tudtommal nem kerülhet oda swap se. Aztán az is felötlött, hogy hurok, de ahhoz máskor is be kellene állnia a hálózatnak szerintem.

Nem tudom, ez most így sötétben tapogatózás részemről.

Igen, ha elmegy a host akkor nincs hálózat sem. Mivel ez az itthoni cuccom, ezért nem bánom ha ez lép fel. A Mikrotiket nagyon szeretem, de nem tudok most a 4011-re áldozni, ezért is döntöttem, hogy átszerelem így a konfigot. Van egy hexS-em azon kezdtem, de kevés volt a NAT-olási képesség, illetve vpn-en(ipsec/sstp) a sávszélesség. Így, hogy az esxi-n van a CHR 130/150 mbit is megvan, az meg azért már bőven jó. :) 

Nekem is van otthon egy 2 node + 1 storage felállású cuccom, ahol kedvemre bohóckodhatok, de az egy lépéssel hátrébb van a hálózaton. A management részt elérem közvetlen, két-két láb úgy van beállítva. Egy vm ki van nevezve "tűzfalnak", de össz funkciója csak, hogy nat-ol, egy lábon az is kilát. Minden más eldugva, storage külön láb, külön switch, nfs. Belül meg egy rakat vm, amihez éppen kedvem van. Van elég erőforrás, snapshot, lehet próbálkozni. Igaz nincs 10Gb, csak 1, de az is nagyon elég a feladatra. És ez 5.5-ös vmware, a 6.7-es két node-al nem jött össze, a center nem akarta kezelésbe venni a második node-ot, meg a roppant nagy erőforrásigénye miatt is visszakoztam. (meg ez a buzisága az esx-nek, hogy magyar kiosztással nem fogadja el a jelszót...)

Ez az eset meg tanulságos volt, legalábbis nekem.