Tölthető az openai/gpt-oss:120B és :20B verziója

Ma jelentették be, és helyből vLLM, Llama.cpp, és ollama támogatással rendelkezik. A hivatalos oldala: https://openai.com/open-models/ A  GPT-o4-mini teljesítményével összemérhető a reklám szerint.

A kisebb modell 13 GB-os, a nagyobb 65 GB-os GGUF-ként már tölthető is (tetű lassan). Ez a verziója - mármint a 20b-s (*) -kifejezetten lokális használatra van pozicionálva, meglátjuk, mit hoz a teszt :-) (Elérhető a HuggingFace-en, Github-on, és a https://gpt-oss.com oldalon lehet próbálkozni vele. Mind a letöltés, mind a tesztoldal kissé lassúcska.)

(*) bocsánat az utólagos magyarázkodásért, amikor írtam, akkor még csak a kisebbről tudtam nyilatkozni, és nem volt szó a 120-asról

Hozzászólások

Fent van az ollama library-ben is: https://ollama.com/library/gpt-oss 

Én épp szabadságon vagyok, érdekelne ki mit tapasztal. Az nVidia szerint minden rtx támogatja az mxfp4-et, de gyanítom mindennek up-to-date-nek kell lennie hozzá. 

kifejezetten lokális használatra van pozicionálva

Kiváncsi leszek a lokális használatra, mert szerintem a 20B ami egy "átlag" beszerezhető RTX-en (16-24GB VRAM) egyáltalán szóba jöhet kvantálva 4 bitre és/vagy vLLM-el ... de ha FP16 akkor ez inkább 64-128 GB RAM és valami brutális M-es CPU ha mac, vagy ha nem mac, akkor meg GPU legalább 40 GB VRAM-al ami localhoston nem túl reális, ez inkább távoli bérelt kapacitások / cloud világ.  

Erre kíváncsi lennék én is. Egy nagyobb ryzen mellé be lehet pakolni 128-192GB ramot. 16 mag, egyenként 3db AVX512 egységgel, egészen sok (100+) aritmetikai műveletet el tud végezni minden egyes adaton úgy, hogy még mindig a memóriasávszélesség marad a korlátozó tényező. Én azt gondolom, hogy papíron legalább úgy kéne teljesítenie, ahogy a GPU memóriasebessége aránylik a CPU memóriasebességéhez. Ami persze lehet elég fos... mondjuk egy Radeon RX9070-nek van 640GB/s, egy RTX5090 kb ennek a duplája. Egy Ryzen 9950X-nek meg van ~90GB/s... 

Régóta vágyok én, az androidok mezonkincsére már!

rtx3090

Majdnem 1 millió.

cegeknek megerheti akik on-prem ai-t szeretnenek

Igen, ilyesmin töröm a fejem, de ha 1,5 millióból csak olyasmire futja, amit 50 ember sem tud megfelelő sebességgel használni, akkor felejtős, mert ezt kihozom fizetős ChatGPT Vállalkozás csomagból.

trey @ gépház

> rtx3090 Majdnem 1 millió.

majd. nem. 2 eve volt 600k az uj, en 300-ert vettem akkor.

1 misiert mar rtx5090-et kapsz 32gb ddr7-el...

de cpu-rol szolt a thread amugy, csak erdekessegkent kiprobaltam ha a model harmadat a gpu-n futtatom (tobb nem is fer bele) mennyivel gyorsabb, hat nem sokkal.

> amit 50 ember sem tud megfelelő sebességgel használni

hat ezt 1 max 2 ember tudja, es nem hasznalni hanem bohockodni vele, azert a kanyarba sincs a nagy modellekhez (deepseek 720b, gemini, fizetos chatgpt stb) kepest. de a hasonlo meretu llama4-hez (vagy a tobbi <100b modelhez) kepest azert sokkal jobb, raadasul gyuorsabb is erezhetoen (llama4 nekem ugyanezen a vason cpu+gpuval 6t/s korul futott).

de ilyen weboldalba integralt kamu ugyfelszolgalat chatbotnak vagy emaileket, pdf-eket, weboldalakat osszefoglalni roviden feladatokra ez is jo. de programozni ne akarj vele :)

ok, de nem is fer bele a modelled egy rtx3090-be... amibe beleferne GPU (vagy netan ketto), az meg nem 1 millanal indul. darabja. vagy ugye van a 96BG-os modell 10k USD-ert.
(most engedd el, h ilyet amugy sem maganban veszel AFA-val ujonnan, a nagysagrend a lenyeg)
https://www.arukereso.hu/videokartya-c3142/pny/nvidia-rtx-6000-48gb-ddr…

CPU-n pedig egy embert se szolgal ki ertelmesen (meg a milla+-os CPU sem!), nemhogy egy kisebb ceget. :) ott mar clusterrol beszelgetunk.

> CPU-n pedig egy embert se szolgal ki ertelmesen

azert a 16 token/s mar egesz jol fossa a szoveget, foleg hogy ebben ugy latszik jobb a tokenizer, es nem betunkent vagy byteonkent rakja a magyar szavakat se mint a llama es a deepseek.

> nem is fer bele a modelled egy rtx3090-be

jo hat abba mondjuk kb semmi hasznalhato nem fer bele :)  A100/H100 alatt nem is erdemes llm-hez gput nezni es abbol sem art ha van 4-8 db :) az meg mar nem 1 milla de nem is 10. inkabb ugy 300 geppel egyutt...

amugy az llm-eknel (foleg a nagyoknal) sokkal tobbet szamit a memoria sebessege, mint a cpu/gpu szamitasi kapacitasa, mert nagyon sok (akar 1-3TB) adaton kell nagyon egyszeru (szorzas, osszeadas) muveleteket vegezni. szoval a memory bandwith az elsodleges, azon mulik minden.

Szerintem az a kerdes, hogy kell-e nektek onprem LLM (mert jo esellyel nem kell).

PoC-ra ki kell berelni egy gepet amig tart a projekt, aztan lehet tesztelni anelkul, hogy elmenne ra masfel milla. Ha meg ChatGPT-re van szukseg, akkor azt kell venni, mert azzal nem biztos, hogy ki van segitve az 50 kollega, hogy futtatsz nekik egy mezitlabas modellt.

en egy dologra tudnam ezt elkepzelni, es lehet ki is probalom poenbol. a bejovo L1 user support ticketekre generalni egy elso automata valaszt.  probalgattam mar a regebbi modeleket is, de a kicsit nem voltak eleg jok, a deepseek meg tul lassu/eroforrasigenyes erre, de ez elfut egy picit izmosabb desktop vagy egy regebbi szrever gepen is, a max 3 ticket/perc rate limitbe beleferne szerintem.

Fogalmazz egy nagyon kedves valaszt az alabbi hibajelenesre, hivd fel az user figyelmet a hibajegy hianyossagaira is:

" Szar a wifi a jegypénztárnál "

 

Kedves [Felhasználónév]!

Köszönjük, hogy jelezted a problémát – nagyon fontos számunkra, hogy a jegypénztárunkban a Wi‑Fi a lehető legstabilabb legyen. 🙏

A leírás alapján már tudunk indulni a vizsgálatban, de néhány további információ nagyban segítene a hiba pontos beazonosításában és gyors megoldásában:

  1. Melyik helyszínen (pult, váróterem, stb.) és pontosan mikor (dátum, időpont) tapasztaltad a problémát?
  2. Milyen eszközön (laptop, tablet, okostelefon, stb.) és milyen operációs rendszeren (Windows 10/11, macOS, Android, iOS) jelentkezett a gond?
  3. Milyen jellegű a „szar” Wi‑Fi? (pl. lassú adatátvitel, gyakori lekapcsolódás, egyáltalán nem csatlakozik, stb.)
  4. Meg tudnád osztani a Wi‑Fi erősségét (RSSI‑érték, jel‑ikon) vagy egy képernyőképet a hálózat állapotáról?
  5. Ha lehetséges, kérlek írd le a lépéseket, amik után a probléma jelentkezik (pl. „bejelentkezés után csatlakozni próbáltam a ‘TicketOffice‑WiFi’ hálózathoz, majd 2 perc után elveszítettem a kapcsolatot”).
  6. Volt-e esetleg másik hálózati eszköz (pl. mobil adat) használatával is hasonló gond?
  7. Kérlek, jelöld meg a hibajegy súlyosságát (pl. „kritikus” – a jegyvásárlás közben, vagy „közepes” – csak néhány percig), hogy priorizálni tudjuk a javítást.

Ha ezeket az információkat hozzáadod a hibajegyhez, sokkal könnyebb lesz reprodukálni a hibát, és a technikai csapatunk gyorsabban tud majd megoldást találni.

Nagyon értékeljük a segítségedet, hiszen a részletes visszajelzésed révén javíthatjuk a szolgáltatásunk minőségét mindenki számára. Kérlek, ha bármilyen kérdésed van, vagy további részletekkel tudsz szolgálni, ne habozz jelezni!

Köszönettel és üdvözlettel,
[Te neved] – Ügyfélszolgálati csapat
[cég neve]
📧 support@[cég].hu
📞 +36 XX XXXXXXX

Ez amugy jo otlet, nekem is van hasonlo, hogy bekopizom neki a kelloen felszines kerdest, es osszeirja a kerdeseket helyettem, de erre nem biztos, hogy kell onprem LLM.

Ha van mar vas hozza, akkor so-so (bar igen erdekes lenne, hogy mondjuk van egy outage, hirtelen sok ticket nyilik, es rantja magaval a ticketing rendszert :)), de ha nincs, akkor egy videokartya arabol hany db ticket lenne megvalaszolhato mondjuk egy olcsobb openai API hivassal?

> mondjuk egy olcsobb openai API hivassal?

erdekes felvetes. egyreszt sok helyen eroltetik a GDPR es egyeb adtavedelmet, hogy csak helyben vagy max EU-ban lehet a szerver

masreszt az API-zas nem tervezheto elore, es folyamatos koltseget jelent, amit sok ceg nem szeret. inkabb vesznek 1x (akar palyazati penzbol) egy erosebb vasat, aztan nincs tovabbi koltsege.

Llama.cpp

Miert nem lep meg, hogy ezek mogott se Rust van? ;)

kiprobaltam, igy 27 t/s-el hasit es csak 8GB vramot hasznal...

sot kis finomhangolassal ez meg feltornazhato 33 t/s-re, ugy hogy a moe-k egy resze is a gpun fut, kihasznalva a 24gb vramot:

./llama-server --host 0.0.0.0 -m /home/2025/gpt-oss-120b-mxfp4-00001-of-00003.gguf -c 0 -fa --jinja --reasoning-format none -ngl 128 --n-cpu-moe 26