a bleeding-edge hatranyai

 ( NagyZ | 2017. október 21., szombat - 10:34 )

tortent vala, hogy megjott az uj storage, es elkezdtuk tesztelni mennyit tudunk kihuzni belole. random write, sok kliensrol, es kb ~70GB/s alatt picivel koppol. (gigabyte, nem gigabit, csak azert, hogy nem eliras). mas orvendezett volna, mert azert parmillio 4k IOps is kijon belole, de en ugy ereztem ez keves - kb 3x ennyinek kene lennie.

elkezdtuk nyomozni mi van (mondtam mar, hogy a datadog milyen jo? majd egy masik postban), rogton feltunt, hogy bizony nagyon sok TCP retransmit van. strace-el latszik, hogy a connect() neha oda sem er a masik oldalra, siman elnyelodik valahol (iface/switch hw countereken nulla drop van), egyszeruen nem tudunk ~8-8.5GB/s fole menni, pedig a vas (POWER8, 2x10 mag, 2-way SMT, 3db 2x100GbE NIC v3 x16-ban) tudna tobbet.

nyitottam egy hibat a Mellanoxnal (a switchek es a NIC is Mellanox) hogy ugyanmar nezzek mar meg. sok ora webex utan vegre elhittek, hogy nem en benazok, mondtam a csavonak, hogy van 8db ugyanilyen gepem, egyiken ECMP, masikon bonding, mindketto rossz - o nem is hallott meg(!) unnumbered BGP + ECMP-rol, ugyhogy "biztos a bonding rossz valahol", namondom koszi, veled is csak tobben vagyunk.

IBM appliance, elvileg nem lehet ilyet, dehat cegen belul... szoval felkalapaltunk ra egy Ubuntu 16.04-et, legujabb HWE kernel, es ta-da, kijon belole 3 porton ~275Gbit/s - ECMP-vel majd lemerem kesobb.

szoval en egy sorben fogadnek ra, hogy a RHEL 7.4 a hunyo, gondolom nem sokan akarnak 3db 100GbE-s NIC-et egy gepben hajtani (Intelen problemas a NUMA es a PCI-e buszok szama miatt, Poweren legalabb ezzel nincs problema, a NUMA problemat "erobol" megoldjuk - van eleg savszel), dehat kerem, csak tesztelhettek volna.

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

Mellanox OFED-et használtok? Ilyenkor én mindig afelé szoktam menekülni az inbox driverek elől.

Ilyen sztorikat én is tudnék mesélni: POWER8 + 100Gb Infiniband-en 10 Gbit/s (!) TCP sebesség, amit egy hónapos reszeléssel sikerült 40 Gb-ig feltolni. Ja és se a Mellanox se az IBM nem tudta reprodukálni a hibát, mert a LAB-ban náluk még csak ConnectX 3 van a POWER szerverekben. (Egy éves sztori)

De nézz meg egy OFED release notes-ot:
http://www.mellanox.com/related-docs/prod_software/Mellanox_OFED_Linux_Release_Notes_4_1-1_0_2_0.pdf

~30 oldal known bugs és ez volt vagy 60 is amikor a 4.0 kijött. Az embernek van egy "egyáltalán ez mitől működik" érzése.

OFED csak akkor kell, ha IB-t hasznalunk, igy amit irsz 10Gbit/s az gondolom IPoIB?

mivel az RDMA nem tud olyat, hogy a 6 interfeszunk egyetlen egy halozaton legyen, netalaltan ECMP-vel (WTF amugy...) igy en nagyon orulnek ha nem lenne fent az OFED, de igen, fent van a driver.

lehet letakaritom, es megnezem ugy :)

Nem csak ahhoz, mivel a mlx5_core modul tartalmazza az Ethernet drivereket, tehát az OFED installálásakor azok is lecserélődnek.

Igen, mi IPoIB-vel szenvedtünk.

Mikor mi valami hibát találunk, akkor első körben mindig az Inbox driver <> OFED ugrást végezzük el, aztán lehet jelentgetni a RHEL-nek vagy Mellanoxnak attól függően, hogy melyik driverben van a hiba.

Mit értesz egy hálózat alatt? RoCEv2 UDP felett megy, annak szerintem mindegy a közeg, amiben utazik.

van kulon Ethernet-only driver is, ott nincs semmi ilyesmi magic, nem? es akkor nincs OFED. de bevallottan nem vagyok IB expert :)

a halozat alatt azt ertem, hogy ha van 3 dualportos halokartyad (azaz 6 iface) akkor a 6 iface-re kell 6db kulon IP cim, sotmitobb a legtobb vendor ajanlas szerint kulonboz subnetbol - RoCEv2 routeolhatosag ide, vagy oda.

de mondom a legnagyobb problemat: a klienseinkben csak 2db kartya van, igy nekem kezzel kene osszevadasznom, hogy akkor sum(kliensek)/3 2 subnetre log ra, a masik harmada a masik ketto, es az utolso az utolso kettore... ezt en annyira rossznak ereztem, hogy inkabb TCP-n hajtjuk a rendszert jelenleg.

vagyhat hajtanank, ha mukodne :)

ejha, az enterspájzban jobban mukodik az ubuntu, mint az rhel :D

--
Live free, or I f'ing kill you.

275Gbit/s < 70GB/s = 560 Gbit/s

--
Worrying about killer AI and the superintelligent robots is like worrying about overcrowding on Mars. - Garry Kasparov

a 70GB/s az 8 szerverre volt kb 40 kliensrol sum(), es i/o teszt volt, a 275Gbit/s a vegen amit irt az meg 1 szerverre network teszt. csak menozni akart, az erthetoseg nem szamitott:P :*

csak egy hülye kérdés, de gondolom RHEL felé jelezted a problémát? :)

Ha OFED* van rajta, akkor a RHEL visszadobja a ticketet.

*Az OFED egy infiniband/ethernethez kapcsolódó szoftvercsomag, ami kernel modulokat és userspace programokat tartalmaz.

oh, köszi ^^ akkor tárgytalan a kérdésem :)

maga a helyzet sem ilyen egyszeru, ez egy IBM Appliance, igy en nem tudom bejelenteni oda a hibat :)

normal IBM ugyfel az IBM-hez jelenti be, es cegen belul intezik a RHEL/Mellanox fele, csak mivel latom par ember felkeszultseget (eheheh) igy ugy gondoltam hogy kezbe veszem a dolgokat.

a Mellanox fogja a RHEL-hez bejelenteni a hibat, most rakjak ossze a perf laborjukban ugyanezt a setupot.

Köszi a választ! :) Így már "értem", legalábbis fogjuk rá :))