Első ránézés llama.cpp rpc

WORKS

Szereztem egy RTX 3090 -et a másodlagos számítógépembe, hogy ki ne maradjak a legújabb tetris örületből :-)
Ill kiprobáltam llama-rpc -t.

Elsődleges számítógépben egy 16GB Radeon 6900xt és tudnak együtt dolgozni.

KB 200Mbit sávszélességet használ ami még gigbit etherneten is megéri CPU(+desktop memória) használata helyett.
40GbE (effective 25GbE mivel 4x gen3 PCIe ) lanet használ, egy desktop nincs megáldva sok PCIe lene-el.
Per token network miatti késleltetés igy <<1ms szemben >>10ms el.
Modell workerre tétele is sávszél igényes, gigabit-en egy örökkévalóság.

RTX 3090 elég jó árban van memória sávszélleséghez mérve,
de a VRAM nagyon melegszik. Érdemes power limitálni  200~250~280W -ra,
250W felett token/Joule roszabbul mutat, valamint a ventik sem mennek annyit.
Megpróbálom majd kicserélni a padeket a hátsó VRAM -on, hátha segít.

~15 t/s 27B(q8)~32B(q6) modellel,
mivel más is fut amit most nem akkarok lelőni, ez nem a végső szám.

Hozzászólások

mit rovidit szerinted a "GBe"? mit jelent a "40GBe"?

A kartya x8-as gen3. de a slot-bol csak x4 jut neki.
A slot tudna gen4 -et.

                LnkSta: Speed 8GT/s, Width x4 (downgraded)
                        TrErr- Train- SlotClk+ DLActive- BWMgmt- ABWMgmt-

Igen 8GTx4 az 24 nem 25 ;-)

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

4 ethernet lane van itt,  ket iranyu, szoval 8 diff pair ,
az 40GbE -nek mondja magat:

    Link partner advertised link modes:  40000baseCR4/Full
                                         56000baseCR4/Full

    Speed: 40000Mb/s
    Duplex: Full
    Auto-negotiation: on
    Port: Direct Attach Copper

Network controller: Mellanox Technologies MT27500 Family [ConnectX-3]

(Lecsereltem a QDR infiniband-et FDR -re, ha a sokkal korabbi irasok tevesztenenek meg, Ethernet modban van, RoCE, dual port)

De nem Network lane-ekrol beszeltem, hanem PCIe lane-ekrol,
ami tenyleges limitalja a sebbesseget.
8 lane-re terveztek a kartyat, de csak 4 jut neki.

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

GbE

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

pytorch, llama.cpp meg nem megy exo -val a fooldala szerint,
tinygrad https://github.com/tinygrad/7900xtx/tree/master tamogatas van (geohot kapott nehany kartyat), de nekem regi 6900 van.

hasonlo project, p2p nem biztos hogy erti a network configomat, egy model egyszerre.
https://localai.io/features/distribute/

Barmit nezek valami hianyzik.
 - speculative (pl. draft model)
 - distrubuted
 - old amd card support
 - UI mutatja hogy menyire biztos egy tokenbe
 - flash attention proper support
 - model tipus tamogatas
 

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

QwQ --repeate-penalty >= 1.1 valoszinuleg rosz otlet megha sok helyen javsolt is.

q4 es q6 kozott van kulobseg a q6 jobb, de lassabb.
q6 q8 kozott valaki eszlelet erdemleges valtozast ?
 

Amit nem lehet megirni assemblyben, azt nem lehet megirni.