elkezdtuk nyomozni mi van (mondtam mar, hogy a datadog milyen jo? majd egy masik postban), rogton feltunt, hogy bizony nagyon sok TCP retransmit van. strace-el latszik, hogy a connect() neha oda sem er a masik oldalra, siman elnyelodik valahol (iface/switch hw countereken nulla drop van), egyszeruen nem tudunk ~8-8.5GB/s fole menni, pedig a vas (POWER8, 2x10 mag, 2-way SMT, 3db 2x100GbE NIC v3 x16-ban) tudna tobbet.
nyitottam egy hibat a Mellanoxnal (a switchek es a NIC is Mellanox) hogy ugyanmar nezzek mar meg. sok ora webex utan vegre elhittek, hogy nem en benazok, mondtam a csavonak, hogy van 8db ugyanilyen gepem, egyiken ECMP, masikon bonding, mindketto rossz - o nem is hallott meg(!) unnumbered BGP + ECMP-rol, ugyhogy "biztos a bonding rossz valahol", namondom koszi, veled is csak tobben vagyunk.
IBM appliance, elvileg nem lehet ilyet, dehat cegen belul... szoval felkalapaltunk ra egy Ubuntu 16.04-et, legujabb HWE kernel, es ta-da, kijon belole 3 porton ~275Gbit/s - ECMP-vel majd lemerem kesobb.
szoval en egy sorben fogadnek ra, hogy a RHEL 7.4 a hunyo, gondolom nem sokan akarnak 3db 100GbE-s NIC-et egy gepben hajtani (Intelen problemas a NUMA es a PCI-e buszok szama miatt, Poweren legalabb ezzel nincs problema, a NUMA problemat "erobol" megoldjuk - van eleg savszel), dehat kerem, csak tesztelhettek volna.
- NagyZ blogja
- A hozzászóláshoz be kell jelentkezni
Hozzászólások
Mellanox OFED-et használtok? Ilyenkor én mindig afelé szoktam menekülni az inbox driverek elől.
Ilyen sztorikat én is tudnék mesélni: POWER8 + 100Gb Infiniband-en 10 Gbit/s (!) TCP sebesség, amit egy hónapos reszeléssel sikerült 40 Gb-ig feltolni. Ja és se a Mellanox se az IBM nem tudta reprodukálni a hibát, mert a LAB-ban náluk még csak ConnectX 3 van a POWER szerverekben. (Egy éves sztori)
De nézz meg egy OFED release notes-ot:
http://www.mellanox.com/related-docs/prod_software/Mellanox_OFED_Linux_…
~30 oldal known bugs és ez volt vagy 60 is amikor a 4.0 kijött. Az embernek van egy "egyáltalán ez mitől működik" érzése.
- A hozzászóláshoz be kell jelentkezni
OFED csak akkor kell, ha IB-t hasznalunk, igy amit irsz 10Gbit/s az gondolom IPoIB?
mivel az RDMA nem tud olyat, hogy a 6 interfeszunk egyetlen egy halozaton legyen, netalaltan ECMP-vel (WTF amugy...) igy en nagyon orulnek ha nem lenne fent az OFED, de igen, fent van a driver.
lehet letakaritom, es megnezem ugy :)
- A hozzászóláshoz be kell jelentkezni
Nem csak ahhoz, mivel a mlx5_core modul tartalmazza az Ethernet drivereket, tehát az OFED installálásakor azok is lecserélődnek.
Igen, mi IPoIB-vel szenvedtünk.
Mikor mi valami hibát találunk, akkor első körben mindig az Inbox driver <> OFED ugrást végezzük el, aztán lehet jelentgetni a RHEL-nek vagy Mellanoxnak attól függően, hogy melyik driverben van a hiba.
Mit értesz egy hálózat alatt? RoCEv2 UDP felett megy, annak szerintem mindegy a közeg, amiben utazik.
- A hozzászóláshoz be kell jelentkezni
van kulon Ethernet-only driver is, ott nincs semmi ilyesmi magic, nem? es akkor nincs OFED. de bevallottan nem vagyok IB expert :)
a halozat alatt azt ertem, hogy ha van 3 dualportos halokartyad (azaz 6 iface) akkor a 6 iface-re kell 6db kulon IP cim, sotmitobb a legtobb vendor ajanlas szerint kulonboz subnetbol - RoCEv2 routeolhatosag ide, vagy oda.
de mondom a legnagyobb problemat: a klienseinkben csak 2db kartya van, igy nekem kezzel kene osszevadasznom, hogy akkor sum(kliensek)/3 2 subnetre log ra, a masik harmada a masik ketto, es az utolso az utolso kettore... ezt en annyira rossznak ereztem, hogy inkabb TCP-n hajtjuk a rendszert jelenleg.
vagyhat hajtanank, ha mukodne :)
- A hozzászóláshoz be kell jelentkezni
ejha, az enterspájzban jobban mukodik az ubuntu, mint az rhel :D
--
Live free, or I f'ing kill you.
- A hozzászóláshoz be kell jelentkezni
275Gbit/s < 70GB/s = 560 Gbit/s
--
Worrying about killer AI and the superintelligent robots is like worrying about overcrowding on Mars. - Garry Kasparov
- A hozzászóláshoz be kell jelentkezni
a 70GB/s az 8 szerverre volt kb 40 kliensrol sum(), es i/o teszt volt, a 275Gbit/s a vegen amit irt az meg 1 szerverre network teszt. csak menozni akart, az erthetoseg nem szamitott:P :*
- A hozzászóláshoz be kell jelentkezni
csak egy hülye kérdés, de gondolom RHEL felé jelezted a problémát? :)
- A hozzászóláshoz be kell jelentkezni
Ha OFED* van rajta, akkor a RHEL visszadobja a ticketet.
*Az OFED egy infiniband/ethernethez kapcsolódó szoftvercsomag, ami kernel modulokat és userspace programokat tartalmaz.
- A hozzászóláshoz be kell jelentkezni
oh, köszi ^^ akkor tárgytalan a kérdésem :)
- A hozzászóláshoz be kell jelentkezni
maga a helyzet sem ilyen egyszeru, ez egy IBM Appliance, igy en nem tudom bejelenteni oda a hibat :)
normal IBM ugyfel az IBM-hez jelenti be, es cegen belul intezik a RHEL/Mellanox fele, csak mivel latom par ember felkeszultseget (eheheh) igy ugy gondoltam hogy kezbe veszem a dolgokat.
a Mellanox fogja a RHEL-hez bejelenteni a hibat, most rakjak ossze a perf laborjukban ugyanezt a setupot.
- A hozzászóláshoz be kell jelentkezni
Köszi a választ! :) Így már "értem", legalábbis fogjuk rá :))
- A hozzászóláshoz be kell jelentkezni