AI/LLM manapság

Látván hogy Zen5 desktop CPU elég júl teljesít AI benchmarkon megnéztem, hogyan állnak az LLM-ek.
Most csak Zen4 -el, illetve mások gépén :-)
 

Deepseek R1

Effective fut a desktopomon (128GB ram 4400Mhz), 16GB AMD GPU,
de még igy is olvasgat sokat az nvme-röl kb 1GB/sec . ~1token/sec.
Persze quantized.
https://unsloth.ai/blog/deepseekr1-dynamic

R1 reasoning model, úgyhogy general egy raklap tokent a válasz előtt.
Jelenleg legjobbnak tartott open weight model.

DeepSeek v2.5 1210:

 - Q2_K mőködő képes, de drafting modellel sem jutok el 5 t/s -ig nagyobb válaszoknál.
High end dual socket Intel vagy threadripper Zen5 talán jó volna.
16B active parameter miatt elég kevés a számítas igénye, talán ez az amit
használhat az akinek szerver szerű gépe van GPU nélkül.
236B parameter quantálva is ~80GB.
BTW, CPU inference nem skálázodik jól >64 core -ra,
ill hyperhreding sem hasznos. Ill. elég zaj érzékeny
úgyhogy az öszes core befogása nem ajánlott.
Ha nincs HT akkor is érdemes egy core-t legalább kihagyni,
ill lehet játszani realtime prioritással,
nohz_full -al vagy cpusetv2-cgroupsv2 exclusive CPU-kkal.

Gemma 3 27B:
8bit alatt nem túl jó, egyebkent most ez a trendi open model.
DeepSeek R1 közeli eredményekkel sok területen, Vision képes.
Még 8bit-en is kisebb, mint egy 70B model quantalva 4 bit -re.

LLama 70B 3.3:
Elég jó, de sokat eszik.
Ha szertnéd látni gyorsan működni (ingyen):
https://inference.cerebras.ai/

DeepSeek-Coder-V2-Lite-Instruct 16B

2 Bit változata használhatatlan, 4 bit bele fér a GPU -mba (>100 t/s).
A telómon is majdnem eléri az 5 t/s -t,
Képsségei vetekednek 7-8B modelekkel, miközben csak 2.4B active parametere van.

xAI Grok 3

Jelenleg Grok 3 vezeti a chat aréna mezőnyt,
az előfizetés 50$/hónap körül mozog, ami elég borsos. (szerk: van olcsóbb)
https://en.wikipedia.org/wiki/List_of_large_language_models Grok-1 314B
https://x.ai/news/grok-3 >8-szor nagyobb mint elődei.

"memorizing the whole Wikidata’s facts requires training an LLM with 1000B non-embed parameters for 100 epochs,"
https://arxiv.org/html/2406.15720v1

OpenAI/ChatGPT 

Jó modellek .
A pro verzió 20$/Hó.
API nem olcsó.

Anthropic/Claude
A token árak ellenére nagyon jól fogy az openrouter -en amit gyakorta fejlesztők használnak.
BTW, az openrouteren vannak igyen tokenek más modelekhez.
Ha JS kodot -t kérsz a mobil app is lefutatja neked.

Gemini

DeepSeek r1 megjelenése óta igen kedvező aru lett az API.
A mobil verzio is jó, előfizetve 2TB tárhely is jár hozzá.
Flash meglepően gyors.

Vannak igyenes API tokenek.
Átlagon felüli context méret.

A fizetet tokeneket nem tartolják örökké,
a többit meg ha érdekesnek vélik.
 

Perplexity

Deepresearch elég jó, bar néha nem adja megfelelő linkeket,
ha revolut prémium felhasználó vagy egy év ingyenes,
+5$ API credit per hó.

 

Ahogy elnézem Dekstop CPU -val  DeepSeek V2 Code Lite lehet amit érdems futatni max,
persze, ha nem chatelni akkarsz vagy code aidet, jóval kisebb modellek is jók lehetnek.

Ha valaki LLM-et akkar tolni érdemes legaláb 24GB VRAM-ot szerezni.
AMD GPU -már nem pilota vizsgás, de még minidg nincs minden rá,
Ha pletykák igazak és lesz 32GB változat érdemes megfontolni.

Threadripper + Sok GPU helyett érdekes alternativának látszik a Project Digis:
https://www.nvidia.com/en-us/project-digits/

Gépet szerezni LLM-hez egy dolog, de jelenleg a jogi kérdések még problémasak a tekintetben,
hogy ténylegesen hogyan használhatod az eredményket.
AI gép vásárlása várhat a jogi helyzet tisztázódásáig.

Hozzászólások

Szerkesztve: 2025. 03. 18., k – 17:35

Jelenleg Grok 3 vezeti a chat aréna mezőnyt,
az előfizetés 50$/hónap körül mozog, ami elég borsos.

X Premium előfizetéssel is használható, úgy meg azért nem annyira vészes (£8,40).

Wow, tegnap jól meglepődtem. Havonta cserélgetem az LLM-eket, hogy mire vagyok előfizetve, de ez most egy elég nagy ugrásnak tűnik a $currentGen ChatGPT-hez képest.

Van egy kérdésem Google Cloud ügyben, ami nincs benne a doksiban. Nem, nem egy balfasz vagyok, aki nem tudja használni a gúgit, hanem konkrétan a product teamből valaki elismerte valaki, hogy tényleg nincs benne. Bedobtam a Groknak, hogy keresgéljen. 8 perccel és 411 forrással később megállapította (kicsit bizonytalanul), hogy "The evidence leans toward [ez és ez]"

Na, valahogy ezt validálni is kéne, úgyhogy visszaírtam a premium support ticketre, hogy vajon ez stimmel-e.

"Yes, understanding is correct. But I will double check with our internal team and get back to you tomorrow March 20th."

Meglátjuk, mit mondanak ma. update: a google illetékes product groupja szerint a groknak igaza volt, majd beteszik a doksiba a hiányzó infót

Eddig elégedett vagyok, jól elköltött 3500 forint volt ez. (A pricingot sajnos továbbra sem vágom, hogy miért kerül a grok.com-on többször annyiba, mint egy x.com előfizu, amihez a grok is jár – ez vajon csak árukapcsolás, vagy ténylegesen többet tud a natív előfizetés?)

Nem semmi.

Elon és az xAI nagyot alkotott, pedig elég későn szálltak be a csatába.

A pricingot sajnos továbbra sem vágom...

Nem emlékszem én se pontosan, de valamelyik bejelentésben volt róla szó. 

Grok ezt adta ki nekem.

Tier Access Key Features Usage Limits Pricing
Free All X users Basic Grok 3 access Strict limits Free
X Premium X Premium subscribers Grok 3 with more features than free Moderate limits $7/month (annual), $8/month (monthly)
X Premium+ X Premium+ subscribers Full Grok 3 access, Think, DeepSearch Higher limits $40/month (monthly), $396/year (annual)
SuperGrok Standalone xAI subscription Advanced features, no X benefits Likely high limits Rumored $30/month or $300/year

---

Mondjuk én csak XP user vagyok, nem XP+, mégis hozzáférek a Think-hez és DS-höz, bár az lehet, hogy csak a beetetési kampány része.

Mondjuk én csak XP user vagyok, nem XP+, mégis hozzáférek a Think-hez és DS-höz, bár az lehet, hogy csak a beetetési kampány része.

Ez a fenntartásom nekem is, igen. :)

Nem mintha a 30/40 dollárt nem tudnám felköhögni érte egy hónapban, de jobban szeretem tudni, miért, mennyit kell fizetnem.

Nem tudom pontosan, de eddig nem volt problémám vele, pedig használom melóban is.

Mondjuk tegnap elkezdett valami errorokat osztani, de nem tudom hogy ez csak valami szerverhiba volt vagy limit.

Három retry után azért mindig adott rendes választ.

Szerkesztve: 2025. 03. 20., cs – 06:13

Most neztem az nvidia keynote-ot.

https://youtu.be/_waPvOwL9Z8?t=5211

"I need to seat 7 people around a table at my wedding reception, but my parents and in-laws should not seat next to each other. Also, my wife insist we look better in the pictures when she's on my left, but I need to sit next to my best man. How do I seat us on a round table? But then, what happen if we invite our pastor to sit with us ?"

Deepseek R1 - online valasza:

To seat your wedding party under the given constraints:

For 7 People:

It’s impossible to seat all 7 people without violating the "no parents next to in-laws" rule. Here’s why:

  • Fixed positions: You (seat 1), your wife (to your left, seat 7), and your best man (to your right, seat 2).

  • Remaining seats (3, 4, 5, 6) must accommodate 2 parents and 2 in-laws. With only 4 seats, parents and in-laws will inevitably end up adjacent (e.g., alternating them forces parent-in-law adjacents, grouping them creates a boundary clash).

For 8 People (Including the Pastor):

Adding the pastor as the 8th person resolves the conflict. Here’s a valid arrangement:

  1. You at seat 1.

  2. Best Man at seat 2 (your right).

  3. Your Parent 1 at seat 3.

  4. Your Parent 2 at seat 4.

  5. Pastor at seat 5 (separates parents and in-laws).

  6. In-Law 1 at seat 6.

  7. In-Law 2 at seat 7.

  8. Your Wife at seat 8 (your left).

Adjacency Check:

  • Parents (seats 3–4) are grouped and separated from in-laws (seats 6–7) by the pastor (seat 5).

  • No parent-in-law adjacents. Constraints are satisfied!

Key Takeaway:

With 7 guests, the seating isn’t possible under your constraints. Inviting the pastor allows a valid arrangement by using them as a buffer between parents and in-laws.

Nvidia orul a reasning modeleknek mert tobb token kell,
MoE modeleknek nem feltetlen, mert kevesebb szamitas, de VRAM az kell.

Edit:
QwQ 32B Q4_K_M (draft QwQ 0.5B Q4_K_S) megoldja (18980 tokens reasoning-el egyutt)
ChatGPT reasioning megoldja.
70B r1 distil nem oldja meg, legtobb jatekos elrontja.
Grok 3 Thinking mode, nincs valasz . (Infinite loop ?)
DeepSeek-R1-UD-IQ1_S (1.58 bit) is meg valaszolja.

BTW project digis hardware nem eleg az igazi deepseek r1 futatasahoz, csak distilekre.

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

Gemma3 azért tetszik, mert egész jól ír magyarul, már a 4b:int4 verzió is. Van még mistral, granite3.2 (IBM termék, kis méretű vision modellje is van), Phi4-multimodal (vision és audio egyben).

A kis modellek szerintem hasznosak, a perplexica-t (vagy csak searcxng-t) futtatva simán el lehet beszélgetni a webes keresésekkel. 

Granite 2B eleg jol szerepel az arenaban, valoszinuleg felrakom a telomra megnezni.
Phi-4 egyenlore nem gyozott meg, de meg ot is tesztelgetem. Kivancsi vagyok lesz -e MoE valtozat ebbol is. Jobb mint a korabbi verziok.
Qwen2.5 sem szokot jol valaszolni, de kozel van, ot is tesztelgetem meg.
 

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

qwen2.5 14B code , jobban codol mint a phi-4. Ugy nezem a promtra codeolo modellek valahol itt kezdodnek, de meg nem az igazi.
codestral 22B eleg jo, de non production license van alapbol.

complexebb feladatot 16B active paremeterrel (236B total) egyenlore csak ds v2.5 tudott megoldani ha  <=16B active parametert nezuk,
codestral 22B megkozeliti, 22B active 22B total
gemma 3 27B 8bit is jo, de nem mindenre.
QwQ sokat reseaningezik ezert nem gyors, ill. kell a nagy conext size, lehet promotolni, hogy kevesebbet gondolkozzon.
Command A 03-2025 (111B) 4bit -en is 67.1GB.

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

Szerkesztve: 2025. 03. 21., p – 06:53

48GB Radeon Pro W7900  araban ott mozog, ahol egy nvidia 5090 32GB.
Az viccess lene, ha valaki kitolna egy >=48GB-t egyszeru halandoknak arazva ;-)

Edit: Eleg sok aramot esznek ezek a consumer GPU-k, 24x7-ben jaratva az alap orajeleken az othoni aram kolseg problemesabb lehet.
Infernce egyetlen home GPU -n nem tul gazdasagos.

Elso kozelitesben akkar $1 /1M output , <$0.1 1M/ input lehet a kolseg, 5 evre szamolva a HW eletartalmat.
Valaki ki szamolta mar ?

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

Szerkesztve: 2025. 03. 20., cs – 21:27

Project digit , ebbe csak RJ-45 van,
Othoni halozat "szentsegtelen trio", 2xQSFP+ 40/56 jelenleg, switch nelkul directben,
3.-ik gep oreg, ez eveben vagy kozetkezoben cserelendo.

digits -nek ConnectX-7 -e van , aminek lene jo valtozata,
ConnectX-8 mar nem megy 25G/lane ala.

Nagysagrendileg regi GPU-kbol, ill. regi threadripperbol epitkezni sem olcso,
Kivancsi vagyok mit adanak majd es tenyleges mennyiert lehet lesz megvenni.
 

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

Igen arrol.
Ugy nezem L4 teljestimenyet hozza ,alacsony a fogyasztas, de 24GB helyett 128GB , lehet belole clustert epiteni, mint Rasberry-Pi -bol ;-)
Kis modelnel batch_size=1 valoszinuleg nem super gyors, de tobb is bele fer felvaltva hasznalni.

Valoszinuleg 10x gyarsabb, mint zen4 (12 core) cpu-t hasznalni, vagy 5x mint zen 5 (16 core)-ot.
128GB -val mar 7B modeleket lehet full fine tuningolni.

DXG Station ara joval tobb, mint amit megengedhetek hirtelen felindulasbol elokolteni.

Distributed inference egy erdekes opcio, llama.cpp az ami megy ocskasagokkal ill CPU -val is,
komoylabb dolgok nem menek regi AMD kartyaval (6xxx), ill csak GPU -t ismernek (bar hogy milyen kombinacio megy/nem megy havonta valtozik).
Flash Atension valtozatok ill. medusa erdekesnek tunik, de nincs mindenutt.

Desktopba 2x 3 wide card eltakarna a halo kartyat, hacsak nem hasznal az ember vertical mountot, vagy m.2 ->pcie a halo kartyanak.
Dual GPU -ra tervezett alaplap kene..
de m.2 extenderekkel a GPU limit lenyegesen nagyobb.

16GB  kartyak-at eleg olcson merik.
Halozatnak kozszonheton, tenylegesem >=3 slotom van desktopban,
De csak 1 ben van GPU jelenleg, (egyban van valami mert nem bootol VGA nelkul, de az hasztalan).

24x7 ben valoszinuleg nem okos dolog ennyi cosumer GPU-t jaratni ..

AMD unified GPU arch jovore jon,
Valoszinuleg jovore mar GPU-k eleg gyorsak lesznek 4K -hoz is, 5090 -nel is gyorsabb GPU -ra varok, 4k gaming elott.
DDR6 consumer reszre csak 2027 -ben jon.

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

Hmm a kepen van 2x QSFP port, csak a spec nem irta ;-)

Az nvidai valtozat tenylegesen 3999 USD 4TB  az ASUS Ascent GX10 - 1TB $2,999
Elorendelesnel csak United States cim adhato meg. ;(

AMD hasonlo bandwith, de csak 50TOPS, 2x m.2 az egyibe lehet halokartya, ha nincs mas pice.
https://frame.work/cz/en/desktop?tab=machine-learning

Prompt processing compute intesive
Token generation memory bandwith intensive,
Tobbet oszkotve "hagyomanyos" szeletelessel, nem lesz jobb batch_size=1 t/s eredmeny.
273 GB/s meg ha ossze adodna ket egyseg akkor sem sok, egy aszali GPU- hoz kepset.

 

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

Szerkesztve: 2025. 03. 20., cs – 22:09

en deepseek r1-et es v3-at futtatok 6 biten 768GB rammal, bar ez nem eppen desktop gep :)   tech doksikat iratunk vele, de muszaki szoveg javitasara-korrekturazasara is kivalo, nem csak a helyesirast javitja, hanem pl azt is eszrevette hogy egyik alkatresz tipusa egy helyen el volt irva. rajott hogy ugyanarrol van szo ami mashol is szerepelt mar...   masik amire nagyon jo hogy bedasz neki egy hosszabb szoveget (pl cikk, pdf doksi) es foglalja ossze vagy akar kerdeseket lehet feltenni arra vonatkozoan. pl keresd ki mik az xy termek jellemzoi.

meg arra is eleg jol bevalt, hogy eldontse 1-1 emailrol spam-e vagy nem. amirol az egyeb szurok nem tudtak egyertelmuen donteni azokat szoktam atfuttatni rajta.

4.31 t/s kis prompt  https://youtu.be/Tq_cmN4j2yY?t=524

Nem vagyok biztos bene hogy a memoria a szuk kereszmetszet ilyen alacsony token szamnal.
Az en gepemen kis model benchmarknal promt processignel a memory freq valtozasa nem hozott eredmenyt 3600->4400 Mhz. (openbenchmarking )  ddr5.

A kozel jovoben megnezem hogy megy ez 16xddr5 -el (csak 256GB, dual socket, UJ, fency utasitasok), a gep kis modelnel joval gyorsabb mint amit OpenBanchMerkingon lattam.
HT disabled, 1-2 cpu-t ki szoktam hagyni. Egy szamitasi lepes csak akkor van kesz, ha mindenki vissza jelzet, kicsi zaj is azt eredmenyezi, hogy valaki kesik. BIOS bealitasok realtime -ra tuningolva.

Kis modelnel (3B) a syncronizacionak  nagy CPU- szamnal eleg nagynak latszott a koltsege , en arra tipelnek hogy a syncronizacio fogja meg nagy core szam felett, nem a ram.
Nagy modelnel lehet maskep fog jatszani.

Deepseek-v2.5-1210 erdemes megfontolni v3 helyett. 

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

./llama.cpp/llama-cli     --model DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf     --cache-type-k q4_0     --threads 46     --prio 2     --temp 0.6     --ctx-size 8192     --seed 3407     --n-gpu-layers 59     -no-cnv     --prompt "<|User|>Create a Flappy Bird game in Python. You must include these things:

    You must use pygame.
    The background color should be randomly chosen and is a light shade. Start with a light blue color.
    Pressing SPACE multiple times will accelerate the bird.
    The bird's shape should be randomly chosen as a square, circle or triangle. The color should be randomly chosen as a dark color.
    Place on the bottom some land colored as dark brown or yellow chosen randomly.
    Make a score shown on the top right side. Increment if you pass pipes and don't hit them.
    Make randomly spaced pipes with enough space. Color them randomly as dark green or light brown or a dark gray shade.
    When you lose, show the best score. Make the text inside the screen. Pressing q or Esc will quit the game. Restarting is pressing SPACE again.<|Assistant|>"

(Nincs GPU)

llama_perf_sampler_print:    sampling time =     205.90 ms /  2574 runs   (    0.08 ms per token, 12500.97 tokens per second)
llama_perf_context_print:        load time =  215660.80 ms
llama_perf_context_print: prompt eval time =    9455.98 ms /   184 tokens (   51.39 ms per token,    19.46 tokens per second)
llama_perf_context_print:        eval time =  408579.00 ms /  2389 runs   (  171.03 ms per token,     5.85 tokens per second)
llama_perf_context_print:       total time =  418939.54 ms /  2573 tokens

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

16x Configured Memory Speed: 5200 MT/s  ~ 665 GB/sec nevleg
2x INTEL(R) XEON(R) GOLD 6542Y  CPU @ 2.9GHz

Neked mi volt a DDR5 config ?

1.58 bittes model megvalaszolta eddig azt amit az online, mondjuk csak par test ..
Ebbe sokkal nagyobb nem fer be.

16 thread: 

llama_perf_context_print:        eval time =  686830.58 ms /  2389 runs   (  287.50 ms per token,     3.48 tokens per second)

reported memory bandwidth usage 80GB/sec. (intel has pcm)

46 thread 120GB/sec .

32 thread:
llama_perf_context_print:        eval time =  449517.01 ms /  2389 runs   (  188.16 ms per token,     5.31 tokens per second)

 

Valami mas mint csak a momoria bandwith a gond, allitolag rendes threadpool nem segitett.
Viszanezve zen4/zen5 test csak prompt processing volt, nem talalok oszehasonlito token generalo testet,
Ha token generalas kell akkor zen5 valoszinuleg nem akkora ugras ;-(
llama.cpp nem skalazodik CPU-n, mas CPU- kat is nezegettem ,  nagyobb core szamu teljesen mas CPU -k nal is megalt skalazodas, hiaba volt memoria bandwith.

szerk:
llama-3.3-70B-instruct-Q4_K_M  tud 203GB/sec -t hasznalni. 4.54 t/s .  80GB RES , 38.7 SHR
llama-3.3-70B-instruct-Q8                  244GB/sec -t hasznalni. 2.81 t/s . 
llama-3.3-70B-instruct-f16                  232GB/sec                     1.59 t/s         

3x UPI nem hinnem hogy kozel vagyunk a szuk keresztmetszethez.
mbw 46 core memcopy: 361 GB/sec
massive random access 46 core: 392 Gb/sec (jo esely a row missre, ill nincs cache write trough, read+write)
massive random read 46 core, 481GB/sec (jo esely a row missre, nincs write <100MB/s)

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

igen, lehetne meg szorakozni vele, tuningolni, de nekem az 1 bites model annyira buta volt (magyar nyelvu tech doksikat irattam volna vele) hogy hagytam a fenebe. komplexebb magyar szovegnel meg a 4 es 6 bites kozott is jelentos kulonbseg van.  teszteltem pl. hogy it helpdesk ticketekre irattam vele valaszt, a 6 bites mindig ertelmesen megoldotta, a 4 bites gyakran irt baromsagokat, kb az esetek felenel. persze az userek is hulyeseget irtak, volt benne kihivas az ai-nak :)

Azt keresem mit lehetne otthoni "szaunaban" elfutatni >10 t/s -el es mivel.
Tobb modelnel is eszre vettem, hogy q4 nem ugyan az mint q8 , valamikor a q4 is eleg.
Az internet nepe szerint, programozasnal tobbet szamit, mint creative irashoz,
Egyszeru kod kigeszitni nagyon kicsi model is tud.

A madar jattekra ds v2.5 is adott valaszt 2 bitten (tobb is befer), de ugy latom azt sem tudom out-of-box felhuzni gyorsra.
Ha model kis resze van GPU -ban az szinte semmit sem segit.

Magyarul gemma-3 es phi-4 tud , kobold.cpp elviszi a gemma-3-4B is.
phi-4 ugy latom van halicinaciot csokento trenigje.
Kisebb reasoning qwq de nem irjak hogy  sok nyelvu volna.

R1-nek van kinai propagandat csokento valtozata https://huggingface.co/perplexity-ai/r1-1776 .
 

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

Szerkesztve: 2025. 03. 26., sze – 15:36

Breaking news:
Gemini-2.5-Pro-Exp-03-25   a vezto model ! Tegnap jott ki.
Ingyen kiprobalhato.

Amit nem lehet megirni assemblyben, azt nem lehet megirni.