Tölthető az openai/gpt-oss:120B és :20B verziója

Ma jelentették be, és helyből vLLM, Llama.cpp, és ollama támogatással rendelkezik. A hivatalos oldala: https://openai.com/open-models/ A GPT-o4-mini teljesítményével összemérhető a reklám szerint.

A kisebb modell 13 GB-os, a nagyobb 65 GB-os GGUF-ként már tölthető is (tetű lassan). Ez a verziója - mármint a 20b-s (*) -kifejezetten lokális használatra van pozicionálva, meglátjuk, mit hoz a teszt :-) (Elérhető a HuggingFace-en, Github-on, és a https://gpt-oss.com oldalon lehet próbálkozni vele. Mind a letöltés, mind a tesztoldal kissé lassúcska.)

(*) bocsánat az utólagos magyarázkodásért, amikor írtam, akkor még csak a kisebbről tudtam nyilatkozni, és nem volt szó a 120-asról

Zahy blogja
A hozzászóláshoz be kell jelentkezni
907 megtekintés

Fent van az ollama library-ben is: https://ollama.com/library/gpt-oss 

Én épp szabadságon vagyok, érdekelne ki mit tapasztal. Az nVidia szerint minden rtx támogatja az mxfp4-et, de gyanítom mindennek up-to-date-nek kell lennie hozzá.

0 szavazat

A hozzászóláshoz be kell jelentkezni

kifejezetten lokális használatra van pozicionálva

Kiváncsi leszek a lokális használatra, mert szerintem a 20B ami egy "átlag" beszerezhető RTX-en (16-24GB VRAM) egyáltalán szóba jöhet kvantálva 4 bitre és/vagy vLLM-el ... de ha FP16 akkor ez inkább 64-128 GB RAM és valami brutális M-es CPU ha mac, vagy ha nem mac, akkor meg GPU legalább 40 GB VRAM-al ami localhoston nem túl reális, ez inkább távoli bérelt kapacitások / cloud világ.

2 szavazat

A hozzászóláshoz be kell jelentkezni

CPU nem is rúghat labdába ezekkel a modellekkel?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Erre kíváncsi lennék én is. Egy nagyobb ryzen mellé be lehet pakolni 128-192GB ramot. 16 mag, egyenként 3db AVX512 egységgel, egészen sok (100+) aritmetikai műveletet el tud végezni minden egyes adaton úgy, hogy még mindig a memóriasávszélesség marad a korlátozó tényező. Én azt gondolom, hogy papíron legalább úgy kéne teljesítenie, ahogy a GPU memóriasebessége aránylik a CPU memóriasebességéhez. Ami persze lehet elég fos... mondjuk egy Radeon RX9070-nek van 640GB/s, egy RTX5090 kb ennek a duplája. Egy Ryzen 9950X-nek meg van ~90GB/s...

Régóta vágyok én, az androidok mezonkincsére már!

0 szavazat

A hozzászóláshoz be kell jelentkezni

a nagyobb 120B model 4 bittel elfut kb 6 token/s-el csak cpu-n (xeon 6226R) es egesz jo, bar neha tori a magyart

megneztem i9-el ddr5 memoriaval 17 token/s a 120b, ha az elso 12 layert (kb 22GB) az rtx3090 szamolja akkor 20-21 t/s

0 szavazat

A hozzászóláshoz be kell jelentkezni

Tehát, egy másfél millióból lehetne egy tesztgépet összerakni? Kinek éri ez meg?

trey @ gépház

0 szavazat

A hozzászóláshoz be kell jelentkezni

kevesebbol is. azert egy jobb cpu + 64gb (inkabb 80-128) ddr5 nem kerul mar milliokba...

cegeknek megerheti akik on-prem ai-t szeretnenek. a deepseek hw igenyehez kepest ez lofax.

1 szavazat

A hozzászóláshoz be kell jelentkezni

rtx3090

Majdnem 1 millió.

cegeknek megerheti akik on-prem ai-t szeretnenek

Igen, ilyesmin töröm a fejem, de ha 1,5 millióból csak olyasmire futja, amit 50 ember sem tud megfelelő sebességgel használni, akkor felejtős, mert ezt kihozom fizetős ChatGPT Vállalkozás csomagból.

trey @ gépház

0 szavazat

A hozzászóláshoz be kell jelentkezni

> rtx3090 Majdnem 1 millió.

majd. nem. 2 eve volt 600k az uj, en 300-ert vettem akkor.

1 misiert mar rtx5090-et kapsz 32gb ddr7-el...

de cpu-rol szolt a thread amugy, csak erdekessegkent kiprobaltam ha a model harmadat a gpu-n futtatom (tobb nem is fer bele) mennyivel gyorsabb, hat nem sokkal.

> amit 50 ember sem tud megfelelő sebességgel használni

hat ezt 1 max 2 ember tudja, es nem hasznalni hanem bohockodni vele, azert a kanyarba sincs a nagy modellekhez (deepseek 720b, gemini, fizetos chatgpt stb) kepest. de a hasonlo meretu llama4-hez (vagy a tobbi <100b modelhez) kepest azert sokkal jobb, raadasul gyuorsabb is erezhetoen (llama4 nekem ugyanezen a vason cpu+gpuval 6t/s korul futott).

de ilyen weboldalba integralt kamu ugyfelszolgalat chatbotnak vagy emaileket, pdf-eket, weboldalakat osszefoglalni roviden feladatokra ez is jo. de programozni ne akarj vele :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Felejtős akkor, Microsoft partnerként kapok egy rakat Copilot-ot, ami ráadásul az üzletmenetbe integrált. Akkor erre se időt, se pénzt nem áldozok.

trey @ gépház

2 szavazat

A hozzászóláshoz be kell jelentkezni

ok, de nem is fer bele a modelled egy rtx3090-be... amibe beleferne GPU (vagy netan ketto), az meg nem 1 millanal indul. darabja. vagy ugye van a 96BG-os modell 10k USD-ert.
(most engedd el, h ilyet amugy sem maganban veszel AFA-val ujonnan, a nagysagrend a lenyeg)
https://www.arukereso.hu/videokartya-c3142/pny/nvidia-rtx-6000-48gb-ddr…

CPU-n pedig egy embert se szolgal ki ertelmesen (meg a milla+-os CPU sem!), nemhogy egy kisebb ceget. :) ott mar clusterrol beszelgetunk.

0 szavazat

A hozzászóláshoz be kell jelentkezni

> CPU-n pedig egy embert se szolgal ki ertelmesen

azert a 16 token/s mar egesz jol fossa a szoveget, foleg hogy ebben ugy latszik jobb a tokenizer, es nem betunkent vagy byteonkent rakja a magyar szavakat se mint a llama es a deepseek.

> nem is fer bele a modelled egy rtx3090-be

jo hat abba mondjuk kb semmi hasznalhato nem fer bele :) A100/H100 alatt nem is erdemes llm-hez gput nezni es abbol sem art ha van 4-8 db :) az meg mar nem 1 milla de nem is 10. inkabb ugy 300 geppel egyutt...

amugy az llm-eknel (foleg a nagyoknal) sokkal tobbet szamit a memoria sebessege, mint a cpu/gpu szamitasi kapacitasa, mert nagyon sok (akar 1-3TB) adaton kell nagyon egyszeru (szorzas, osszeadas) muveleteket vegezni. szoval a memory bandwith az elsodleges, azon mulik minden.

1 szavazat

A hozzászóláshoz be kell jelentkezni

Szerintem az a kerdes, hogy kell-e nektek onprem LLM (mert jo esellyel nem kell).

PoC-ra ki kell berelni egy gepet amig tart a projekt, aztan lehet tesztelni anelkul, hogy elmenne ra masfel milla. Ha meg ChatGPT-re van szukseg, akkor azt kell venni, mert azzal nem biztos, hogy ki van segitve az 50 kollega, hogy futtatsz nekik egy mezitlabas modellt.

2 szavazat

A hozzászóláshoz be kell jelentkezni

en egy dologra tudnam ezt elkepzelni, es lehet ki is probalom poenbol. a bejovo L1 user support ticketekre generalni egy elso automata valaszt. probalgattam mar a regebbi modeleket is, de a kicsit nem voltak eleg jok, a deepseek meg tul lassu/eroforrasigenyes erre, de ez elfut egy picit izmosabb desktop vagy egy regebbi szrever gepen is, a max 3 ticket/perc rate limitbe beleferne szerintem.

Fogalmazz egy nagyon kedves valaszt az alabbi hibajelenesre, hivd fel az user figyelmet a hibajegy hianyossagaira is:

" Szar a wifi a jegypénztárnál "

Kedves [Felhasználónév]!

Köszönjük, hogy jelezted a problémát – nagyon fontos számunkra, hogy a jegypénztárunkban a Wi‑Fi a lehető legstabilabb legyen. ?

A leírás alapján már tudunk indulni a vizsgálatban, de néhány további információ nagyban segítene a hiba pontos beazonosításában és gyors megoldásában:

Melyik helyszínen (pult, váróterem, stb.) és pontosan mikor (dátum, időpont) tapasztaltad a problémát?

Milyen eszközön (laptop, tablet, okostelefon, stb.) és milyen operációs rendszeren (Windows 10/11, macOS, Android, iOS) jelentkezett a gond?

Milyen jellegű a „szar” Wi‑Fi? (pl. lassú adatátvitel, gyakori lekapcsolódás, egyáltalán nem csatlakozik, stb.)

Meg tudnád osztani a Wi‑Fi erősségét (RSSI‑érték, jel‑ikon) vagy egy képernyőképet a hálózat állapotáról?

Ha lehetséges, kérlek írd le a lépéseket, amik után a probléma jelentkezik (pl. „bejelentkezés után csatlakozni próbáltam a ‘TicketOffice‑WiFi’ hálózathoz, majd 2 perc után elveszítettem a kapcsolatot”).

Volt-e esetleg másik hálózati eszköz (pl. mobil adat) használatával is hasonló gond?

Kérlek, jelöld meg a hibajegy súlyosságát (pl. „kritikus” – a jegyvásárlás közben, vagy „közepes” – csak néhány percig), hogy priorizálni tudjuk a javítást.

Ha ezeket az információkat hozzáadod a hibajegyhez, sokkal könnyebb lesz reprodukálni a hibát, és a technikai csapatunk gyorsabban tud majd megoldást találni.

Nagyon értékeljük a segítségedet, hiszen a részletes visszajelzésed révén javíthatjuk a szolgáltatásunk minőségét mindenki számára. Kérlek, ha bármilyen kérdésed van, vagy további részletekkel tudsz szolgálni, ne habozz jelezni!

Köszönettel és üdvözlettel,
[Te neved] – Ügyfélszolgálati csapat
[cég neve]
? support@[cég].hu
? +36 XX XXXXXXX

1 szavazat

A hozzászóláshoz be kell jelentkezni

Ez amugy jo otlet, nekem is van hasonlo, hogy bekopizom neki a kelloen felszines kerdest, es osszeirja a kerdeseket helyettem, de erre nem biztos, hogy kell onprem LLM.

Ha van mar vas hozza, akkor so-so (bar igen erdekes lenne, hogy mondjuk van egy outage, hirtelen sok ticket nyilik, es rantja magaval a ticketing rendszert :)), de ha nincs, akkor egy videokartya arabol hany db ticket lenne megvalaszolhato mondjuk egy olcsobb openai API hivassal?

1 szavazat

A hozzászóláshoz be kell jelentkezni

> mondjuk egy olcsobb openai API hivassal?

erdekes felvetes. egyreszt sok helyen eroltetik a GDPR es egyeb adtavedelmet, hogy csak helyben vagy max EU-ban lehet a szerver

masreszt az API-zas nem tervezheto elore, es folyamatos koltseget jelent, amit sok ceg nem szeret. inkabb vesznek 1x (akar palyazati penzbol) egy erosebb vasat, aztan nincs tovabbi koltsege.

0 szavazat

A hozzászóláshoz be kell jelentkezni

https://hup.hu/comment/3210212#comment-3210212

trey @ gépház

0 szavazat

A hozzászóláshoz be kell jelentkezni

Llama.cpp

Miert nem lep meg, hogy ezek mogott se Rust van? ;)

1 szavazat

A hozzászóláshoz be kell jelentkezni

A mistralrs és a candle vsz. fogja tudni kezelni ezt is, de a háttérben általában CUDA van.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Egyelőre ezek egyikét se láttam még működni, de ma szembejött a Shimmy. Valakinek van összehasonlítása?

tl;dr
Egy-két mondatban leírnátok, hogy lehet ellopni egy bitcoin-t?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Java jobb lenne?

1 szavazat

A hozzászóláshoz be kell jelentkezni

A Java fejlesztok nem terjesztenek nagy szamossagban olyan hulyesegeket, hogy a C es a C++ felesleges nyelv. A Rust vallasuak (nem az osszes Rust fejleszto, de kinosan sok kozuluk) viszont igen. Igy a Java nem tartozik a targyhoz.

1 szavazat