Szereztem egy RTX 3090 -et a másodlagos számítógépembe, hogy ki ne maradjak a legújabb tetris örületből :-)
Ill kiprobáltam llama-rpc -t.
Elsődleges számítógépben egy 16GB Radeon 6900xt és tudnak együtt dolgozni.
KB 200Mbit sávszélességet használ ami még gigbit etherneten is megéri CPU(+desktop memória) használata helyett.
40GbE (effective 25GbE mivel 4x gen3 PCIe ) lanet használ, egy desktop nincs megáldva sok PCIe lene-el.
Per token network miatti késleltetés igy <<1ms szemben >>10ms el.
Modell workerre tétele is sávszél igényes, gigabit-en egy örökkévalóság.
RTX 3090 elég jó árban van memória sávszélleséghez mérve,
de a VRAM nagyon melegszik. Érdemes power limitálni 200~250~280W -ra,
250W felett token/Joule roszabbul mutat, valamint a ventik sem mennek annyit.
Megpróbálom majd kicserélni a padeket a hátsó VRAM -on, hátha segít.
~15 t/s 27B(q8)~32B(q6) modellel,
mivel más is fut amit most nem akkarok lelőni, ez nem a végső szám.
- turul16 blogja
- A hozzászóláshoz be kell jelentkezni
- 547 megtekintés
Hozzászólások
mit rovidit szerinted a "GBe"? mit jelent a "40GBe"?
- A hozzászóláshoz be kell jelentkezni
GbE -re javitva.
Amit nem lehet megirni assemblyben, azt nem lehet megirni.
- A hozzászóláshoz be kell jelentkezni
40GbE (effective 25GbE mivel 4x gen3 PCIe ) lanet használ, egy desktop nincs megáldva sok PCIe lene-el.
"40 gigabit ethernet lanet hasznal"? mi a faszom ez a mondat? se fule, se farka
- A hozzászóláshoz be kell jelentkezni
A kartya x8-as gen3. de a slot-bol csak x4 jut neki.
A slot tudna gen4 -et.
LnkSta: Speed 8GT/s, Width x4 (downgraded)
TrErr- Train- SlotClk+ DLActive- BWMgmt- ABWMgmt-
Igen 8GTx4 az 24 nem 25 ;-)
Amit nem lehet megirni assemblyben, azt nem lehet megirni.
- A hozzászóláshoz be kell jelentkezni
mi az a "40 gigabit ethernet lanet"? erre valaszolj.
mert a GT az nem GBe, se nem GbE.
- A hozzászóláshoz be kell jelentkezni
4 ethernet lane van itt, ket iranyu, szoval 8 diff pair ,
az 40GbE -nek mondja magat:
Link partner advertised link modes: 40000baseCR4/Full
56000baseCR4/Full
Speed: 40000Mb/s
Duplex: Full
Auto-negotiation: on
Port: Direct Attach Copper
Network controller: Mellanox Technologies MT27500 Family [ConnectX-3]
(Lecsereltem a QDR infiniband-et FDR -re, ha a sokkal korabbi irasok tevesztenenek meg, Ethernet modban van, RoCE, dual port)
De nem Network lane-ekrol beszeltem, hanem PCIe lane-ekrol,
ami tenyleges limitalja a sebbesseget.
8 lane-re terveztek a kartyat, de csak 4 jut neki.
Amit nem lehet megirni assemblyben, azt nem lehet megirni.
- A hozzászóláshoz be kell jelentkezni
Az exo elvileg jó nagyobb modellek szétosztására:
https://github.com/exo-explore/exo
Még nem volt időm kipróbálni, de érdekelne, ha neked sikerült.
- A hozzászóláshoz be kell jelentkezni
pytorch, llama.cpp meg nem megy exo -val a fooldala szerint,
tinygrad https://github.com/tinygrad/7900xtx/tree/master tamogatas van (geohot kapott nehany kartyat), de nekem regi 6900 van.
hasonlo project, p2p nem biztos hogy erti a network configomat, egy model egyszerre.
https://localai.io/features/distribute/
Barmit nezek valami hianyzik.
- speculative (pl. draft model)
- distrubuted
- old amd card support
- UI mutatja hogy menyire biztos egy tokenbe
- flash attention proper support
- model tipus tamogatas
Amit nem lehet megirni assemblyben, azt nem lehet megirni.
- A hozzászóláshoz be kell jelentkezni
QwQ --repeate-penalty >= 1.1 valoszinuleg rosz otlet megha sok helyen javsolt is.
q4 es q6 kozott van kulobseg a q6 jobb, de lassabb.
q6 q8 kozott valaki eszlelet erdemleges valtozast ?
Amit nem lehet megirni assemblyben, azt nem lehet megirni.
- A hozzászóláshoz be kell jelentkezni
reka-flash-3 q6 q8 kozott van kulonmbseg, q8 javara.
Amit nem lehet megirni assemblyben, azt nem lehet megirni.
- A hozzászóláshoz be kell jelentkezni