Első ránézés llama.cpp rpc

WORKS

Szereztem egy RTX 3090 -et a másodlagos számítógépembe, hogy ki ne maradjak a legújabb tetris örületből :-)
Ill kiprobáltam llama-rpc -t.

Elsődleges számítógépben egy 16GB Radeon 6900xt és tudnak együtt dolgozni.

KB 200Mbit sávszélességet használ ami még gigbit etherneten is megéri CPU(+desktop memória) használata helyett.
40GbE (effective 25GbE mivel 4x gen3 PCIe ) lanet használ, egy desktop nincs megáldva sok PCIe lene-el.
Per token network miatti késleltetés igy <<1ms szemben >>10ms el.
Modell workerre tétele is sávszél igényes, gigabit-en egy örökkévalóság.

RTX 3090 elég jó árban van memória sávszélleséghez mérve,
de a VRAM nagyon melegszik. Érdemes power limitálni 200~250~280W -ra,
250W felett token/Joule roszabbul mutat, valamint a ventik sem mennek annyit.
Megpróbálom majd kicserélni a padeket a hátsó VRAM -on, hátha segít.

~15 t/s 27B(q8)~32B(q6) modellel,
mivel más is fut amit most nem akkarok lelőni, ez nem a végső szám.

turul16 blogja
A hozzászóláshoz be kell jelentkezni
547 megtekintés

mit rovidit szerinted a "GBe"? mit jelent a "40GBe"?

0 szavazat

A hozzászóláshoz be kell jelentkezni

GbE -re javitva.

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

0 szavazat

A hozzászóláshoz be kell jelentkezni

40GbE (effective 25GbE mivel 4x gen3 PCIe ) lanet használ, egy desktop nincs megáldva sok PCIe lene-el.

"40 gigabit ethernet lanet hasznal"? mi a faszom ez a mondat? se fule, se farka

0 szavazat

A hozzászóláshoz be kell jelentkezni

A kartya x8-as gen3. de a slot-bol csak x4 jut neki.
A slot tudna gen4 -et.

LnkSta: Speed 8GT/s, Width x4 (downgraded)
TrErr- Train- SlotClk+ DLActive- BWMgmt- ABWMgmt-

Igen 8GTx4 az 24 nem 25 ;-)

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

0 szavazat

A hozzászóláshoz be kell jelentkezni

mi az a "40 gigabit ethernet lanet"? erre valaszolj.

mert a GT az nem GBe, se nem GbE.

0 szavazat

A hozzászóláshoz be kell jelentkezni

4 ethernet lane van itt, ket iranyu, szoval 8 diff pair ,
az 40GbE -nek mondja magat:

Link partner advertised link modes: 40000baseCR4/Full
56000baseCR4/Full

    Speed: 40000Mb/s
    Duplex: Full
    Auto-negotiation: on
    Port: Direct Attach Copper

Network controller: Mellanox Technologies MT27500 Family [ConnectX-3]

(Lecsereltem a QDR infiniband-et FDR -re, ha a sokkal korabbi irasok tevesztenenek meg, Ethernet modban van, RoCE, dual port)

De nem Network lane-ekrol beszeltem, hanem PCIe lane-ekrol,
ami tenyleges limitalja a sebbesseget.
8 lane-re terveztek a kartyat, de csak 4 jut neki.

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

0 szavazat

A hozzászóláshoz be kell jelentkezni

GbE

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Az exo elvileg jó nagyobb modellek szétosztására:

https://github.com/exo-explore/exo

Még nem volt időm kipróbálni, de érdekelne, ha neked sikerült.

0 szavazat

A hozzászóláshoz be kell jelentkezni

pytorch, llama.cpp meg nem megy exo -val a fooldala szerint,
tinygrad https://github.com/tinygrad/7900xtx/tree/master tamogatas van (geohot kapott nehany kartyat), de nekem regi 6900 van.

hasonlo project, p2p nem biztos hogy erti a network configomat, egy model egyszerre.
https://localai.io/features/distribute/

Barmit nezek valami hianyzik.
- speculative (pl. draft model)
- distrubuted
- old amd card support
- UI mutatja hogy menyire biztos egy tokenbe
- flash attention proper support
- model tipus tamogatas

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

0 szavazat