A kisebb modell 13 GB-os, a nagyobb 65 GB-os GGUF-ként már tölthető is (tetű lassan). Ez a verziója - mármint a 20b-s (*) -kifejezetten lokális használatra van pozicionálva, meglátjuk, mit hoz a teszt :-) (Elérhető a HuggingFace-en, Github-on, és a https://gpt-oss.com oldalon lehet próbálkozni vele. Mind a letöltés, mind a tesztoldal kissé lassúcska.)
(*) bocsánat az utólagos magyarázkodásért, amikor írtam, akkor még csak a kisebbről tudtam nyilatkozni, és nem volt szó a 120-asról
- Zahy blogja
- A hozzászóláshoz be kell jelentkezni
- 832 megtekintés
Hozzászólások
Fent van az ollama library-ben is: https://ollama.com/library/gpt-oss
Én épp szabadságon vagyok, érdekelne ki mit tapasztal. Az nVidia szerint minden rtx támogatja az mxfp4-et, de gyanítom mindennek up-to-date-nek kell lennie hozzá.
- A hozzászóláshoz be kell jelentkezni
kifejezetten lokális használatra van pozicionálva
Kiváncsi leszek a lokális használatra, mert szerintem a 20B ami egy "átlag" beszerezhető RTX-en (16-24GB VRAM) egyáltalán szóba jöhet kvantálva 4 bitre és/vagy vLLM-el ... de ha FP16 akkor ez inkább 64-128 GB RAM és valami brutális M-es CPU ha mac, vagy ha nem mac, akkor meg GPU legalább 40 GB VRAM-al ami localhoston nem túl reális, ez inkább távoli bérelt kapacitások / cloud világ.
- A hozzászóláshoz be kell jelentkezni
CPU nem is rúghat labdába ezekkel a modellekkel?
Színes vászon, színes vászon, fúj!
Kérem a Fiátot..
- A hozzászóláshoz be kell jelentkezni
Erre kíváncsi lennék én is. Egy nagyobb ryzen mellé be lehet pakolni 128-192GB ramot. 16 mag, egyenként 3db AVX512 egységgel, egészen sok (100+) aritmetikai műveletet el tud végezni minden egyes adaton úgy, hogy még mindig a memóriasávszélesség marad a korlátozó tényező. Én azt gondolom, hogy papíron legalább úgy kéne teljesítenie, ahogy a GPU memóriasebessége aránylik a CPU memóriasebességéhez. Ami persze lehet elég fos... mondjuk egy Radeon RX9070-nek van 640GB/s, egy RTX5090 kb ennek a duplája. Egy Ryzen 9950X-nek meg van ~90GB/s...
Régóta vágyok én, az androidok mezonkincsére már!
- A hozzászóláshoz be kell jelentkezni
a nagyobb 120B model 4 bittel elfut kb 6 token/s-el csak cpu-n (xeon 6226R) es egesz jo, bar neha tori a magyart
megneztem i9-el ddr5 memoriaval 17 token/s a 120b, ha az elso 12 layert (kb 22GB) az rtx3090 szamolja akkor 20-21 t/s
- A hozzászóláshoz be kell jelentkezni
Tehát, egy másfél millióból lehetne egy tesztgépet összerakni? Kinek éri ez meg?
trey @ gépház
- A hozzászóláshoz be kell jelentkezni
kevesebbol is. azert egy jobb cpu + 64gb (inkabb 80-128) ddr5 nem kerul mar milliokba...
cegeknek megerheti akik on-prem ai-t szeretnenek. a deepseek hw igenyehez kepest ez lofax.
- A hozzászóláshoz be kell jelentkezni
rtx3090
Majdnem 1 millió.
cegeknek megerheti akik on-prem ai-t szeretnenek
Igen, ilyesmin töröm a fejem, de ha 1,5 millióból csak olyasmire futja, amit 50 ember sem tud megfelelő sebességgel használni, akkor felejtős, mert ezt kihozom fizetős ChatGPT Vállalkozás csomagból.
trey @ gépház
- A hozzászóláshoz be kell jelentkezni
> rtx3090 Majdnem 1 millió.
majd. nem. 2 eve volt 600k az uj, en 300-ert vettem akkor.
1 misiert mar rtx5090-et kapsz 32gb ddr7-el...
de cpu-rol szolt a thread amugy, csak erdekessegkent kiprobaltam ha a model harmadat a gpu-n futtatom (tobb nem is fer bele) mennyivel gyorsabb, hat nem sokkal.
> amit 50 ember sem tud megfelelő sebességgel használni
hat ezt 1 max 2 ember tudja, es nem hasznalni hanem bohockodni vele, azert a kanyarba sincs a nagy modellekhez (deepseek 720b, gemini, fizetos chatgpt stb) kepest. de a hasonlo meretu llama4-hez (vagy a tobbi <100b modelhez) kepest azert sokkal jobb, raadasul gyuorsabb is erezhetoen (llama4 nekem ugyanezen a vason cpu+gpuval 6t/s korul futott).
de ilyen weboldalba integralt kamu ugyfelszolgalat chatbotnak vagy emaileket, pdf-eket, weboldalakat osszefoglalni roviden feladatokra ez is jo. de programozni ne akarj vele :)
- A hozzászóláshoz be kell jelentkezni
Felejtős akkor, Microsoft partnerként kapok egy rakat Copilot-ot, ami ráadásul az üzletmenetbe integrált. Akkor erre se időt, se pénzt nem áldozok.
trey @ gépház
- A hozzászóláshoz be kell jelentkezni
ok, de nem is fer bele a modelled egy rtx3090-be... amibe beleferne GPU (vagy netan ketto), az meg nem 1 millanal indul. darabja. vagy ugye van a 96BG-os modell 10k USD-ert.
(most engedd el, h ilyet amugy sem maganban veszel AFA-val ujonnan, a nagysagrend a lenyeg)
https://www.arukereso.hu/videokartya-c3142/pny/nvidia-rtx-6000-48gb-ddr…
CPU-n pedig egy embert se szolgal ki ertelmesen (meg a milla+-os CPU sem!), nemhogy egy kisebb ceget. :) ott mar clusterrol beszelgetunk.
- A hozzászóláshoz be kell jelentkezni
> CPU-n pedig egy embert se szolgal ki ertelmesen
azert a 16 token/s mar egesz jol fossa a szoveget, foleg hogy ebben ugy latszik jobb a tokenizer, es nem betunkent vagy byteonkent rakja a magyar szavakat se mint a llama es a deepseek.
> nem is fer bele a modelled egy rtx3090-be
jo hat abba mondjuk kb semmi hasznalhato nem fer bele :) A100/H100 alatt nem is erdemes llm-hez gput nezni es abbol sem art ha van 4-8 db :) az meg mar nem 1 milla de nem is 10. inkabb ugy 300 geppel egyutt...
amugy az llm-eknel (foleg a nagyoknal) sokkal tobbet szamit a memoria sebessege, mint a cpu/gpu szamitasi kapacitasa, mert nagyon sok (akar 1-3TB) adaton kell nagyon egyszeru (szorzas, osszeadas) muveleteket vegezni. szoval a memory bandwith az elsodleges, azon mulik minden.
- A hozzászóláshoz be kell jelentkezni
Szerintem az a kerdes, hogy kell-e nektek onprem LLM (mert jo esellyel nem kell).
PoC-ra ki kell berelni egy gepet amig tart a projekt, aztan lehet tesztelni anelkul, hogy elmenne ra masfel milla. Ha meg ChatGPT-re van szukseg, akkor azt kell venni, mert azzal nem biztos, hogy ki van segitve az 50 kollega, hogy futtatsz nekik egy mezitlabas modellt.
- A hozzászóláshoz be kell jelentkezni
en egy dologra tudnam ezt elkepzelni, es lehet ki is probalom poenbol. a bejovo L1 user support ticketekre generalni egy elso automata valaszt. probalgattam mar a regebbi modeleket is, de a kicsit nem voltak eleg jok, a deepseek meg tul lassu/eroforrasigenyes erre, de ez elfut egy picit izmosabb desktop vagy egy regebbi szrever gepen is, a max 3 ticket/perc rate limitbe beleferne szerintem.
Fogalmazz egy nagyon kedves valaszt az alabbi hibajelenesre, hivd fel az user figyelmet a hibajegy hianyossagaira is:
" Szar a wifi a jegypénztárnál "
Kedves [Felhasználónév]!
Köszönjük, hogy jelezted a problémát – nagyon fontos számunkra, hogy a jegypénztárunkban a Wi‑Fi a lehető legstabilabb legyen. 🙏
A leírás alapján már tudunk indulni a vizsgálatban, de néhány további információ nagyban segítene a hiba pontos beazonosításában és gyors megoldásában:
- Melyik helyszínen (pult, váróterem, stb.) és pontosan mikor (dátum, időpont) tapasztaltad a problémát?
- Milyen eszközön (laptop, tablet, okostelefon, stb.) és milyen operációs rendszeren (Windows 10/11, macOS, Android, iOS) jelentkezett a gond?
- Milyen jellegű a „szar” Wi‑Fi? (pl. lassú adatátvitel, gyakori lekapcsolódás, egyáltalán nem csatlakozik, stb.)
- Meg tudnád osztani a Wi‑Fi erősségét (RSSI‑érték, jel‑ikon) vagy egy képernyőképet a hálózat állapotáról?
- Ha lehetséges, kérlek írd le a lépéseket, amik után a probléma jelentkezik (pl. „bejelentkezés után csatlakozni próbáltam a ‘TicketOffice‑WiFi’ hálózathoz, majd 2 perc után elveszítettem a kapcsolatot”).
- Volt-e esetleg másik hálózati eszköz (pl. mobil adat) használatával is hasonló gond?
- Kérlek, jelöld meg a hibajegy súlyosságát (pl. „kritikus” – a jegyvásárlás közben, vagy „közepes” – csak néhány percig), hogy priorizálni tudjuk a javítást.
Ha ezeket az információkat hozzáadod a hibajegyhez, sokkal könnyebb lesz reprodukálni a hibát, és a technikai csapatunk gyorsabban tud majd megoldást találni.
Nagyon értékeljük a segítségedet, hiszen a részletes visszajelzésed révén javíthatjuk a szolgáltatásunk minőségét mindenki számára. Kérlek, ha bármilyen kérdésed van, vagy további részletekkel tudsz szolgálni, ne habozz jelezni!
Köszönettel és üdvözlettel,
[Te neved] – Ügyfélszolgálati csapat
[cég neve]
📧 support@[cég].hu
📞 +36 XX XXXXXXX
- A hozzászóláshoz be kell jelentkezni
Ez amugy jo otlet, nekem is van hasonlo, hogy bekopizom neki a kelloen felszines kerdest, es osszeirja a kerdeseket helyettem, de erre nem biztos, hogy kell onprem LLM.
Ha van mar vas hozza, akkor so-so (bar igen erdekes lenne, hogy mondjuk van egy outage, hirtelen sok ticket nyilik, es rantja magaval a ticketing rendszert :)), de ha nincs, akkor egy videokartya arabol hany db ticket lenne megvalaszolhato mondjuk egy olcsobb openai API hivassal?
- A hozzászóláshoz be kell jelentkezni
> mondjuk egy olcsobb openai API hivassal?
erdekes felvetes. egyreszt sok helyen eroltetik a GDPR es egyeb adtavedelmet, hogy csak helyben vagy max EU-ban lehet a szerver
masreszt az API-zas nem tervezheto elore, es folyamatos koltseget jelent, amit sok ceg nem szeret. inkabb vesznek 1x (akar palyazati penzbol) egy erosebb vasat, aztan nincs tovabbi koltsege.
- A hozzászóláshoz be kell jelentkezni
Llama.cpp
Miert nem lep meg, hogy ezek mogott se Rust van? ;)
- A hozzászóláshoz be kell jelentkezni
A mistralrs és a candle vsz. fogja tudni kezelni ezt is, de a háttérben általában CUDA van.
- A hozzászóláshoz be kell jelentkezni
Java jobb lenne?
Színes vászon, színes vászon, fúj!
Kérem a Fiátot..
- A hozzászóláshoz be kell jelentkezni
A Java fejlesztok nem terjesztenek nagy szamossagban olyan hulyesegeket, hogy a C es a C++ felesleges nyelv. A Rust vallasuak (nem az osszes Rust fejleszto, de kinosan sok kozuluk) viszont igen. Igy a Java nem tartozik a targyhoz.
- A hozzászóláshoz be kell jelentkezni
mert a python jobbabb! :)))
- A hozzászóláshoz be kell jelentkezni
Ja, hogy rosszul tudtam, es a cpp-ben az egyik p a python? Remelem a masik nem a perl. ;)
- A hozzászóláshoz be kell jelentkezni
persze, mert a PHP az. :D
Régóta vágyok én, az androidok mezonkincsére már!
- A hozzászóláshoz be kell jelentkezni
jo a llama.cpp az pont cpp, de a legtobb AI/LLM cucc pythonban van amugy... ennek is a hivatalos implementacioja py.
- A hozzászóláshoz be kell jelentkezni
Idealis esetben a python a prompt lib, a C++ meg az engine es a data gondolom.
- A hozzászóláshoz be kell jelentkezni
kiprobaltam, igy 27 t/s-el hasit es csak 8GB vramot hasznal...
sot kis finomhangolassal ez meg feltornazhato 33 t/s-re, ugy hogy a moe-k egy resze is a gpun fut, kihasznalva a 24gb vramot:
./llama-server --host 0.0.0.0 -m /home/2025/gpt-oss-120b-mxfp4-00001-of-00003.gguf -c 0 -fa --jinja --reasoning-format none -ngl 128 --n-cpu-moe 26
- A hozzászóláshoz be kell jelentkezni