AI/LLM manapság

Látván hogy Zen5 desktop CPU elég júl teljesít AI benchmarkon megnéztem, hogyan állnak az LLM-ek.
Most csak Zen4 -el, illetve mások gépén :-)
 

Deepseek R1

Effective fut a desktopomon (128GB ram 4400Mhz), 16GB AMD GPU,
de még igy is olvasgat sokat az nvme-röl kb 1GB/sec . ~1token/sec.
Persze quantized.
https://unsloth.ai/blog/deepseekr1-dynamic

R1 reasoning model, úgyhogy general egy raklap tokent a válasz előtt.
Jelenleg legjobbnak tartott open weight model.

DeepSeek v2.5 1210:

 - Q2_K mőködő képes, de drafting modellel sem jutok el 5 t/s -ig nagyobb válaszoknál.
High end dual socket Intel vagy threadripper Zen5 talán jó volna.
16B active parameter miatt elég kevés a számítas igénye, talán ez az amit
használhat az akinek szerver szerű gépe van GPU nélkül.
236B parameter quantálva is ~80GB.
BTW, CPU inference nem skálázodik jól >64 core -ra,
ill hyperhreding sem hasznos. Ill. elég zaj érzékeny
úgyhogy az öszes core befogása nem ajánlott.
Ha nincs HT akkor is érdemes egy core-t legalább kihagyni,
ill lehet játszani realtime prioritással,
nohz_full -al vagy cpusetv2-cgroupsv2 exclusive CPU-kkal.

Gemma 3 27B:
8bit alatt nem túl jó, egyebkent most ez a trendi open model.
DeepSeek R1 közeli eredményekkel sok területen, Vision képes.
Még 8bit-en is kisebb, mint egy 70B model quantalva 4 bit -re.

LLama 70B 3.3:
Elég jó, de sokat eszik.
Ha szertnéd látni gyorsan működni (ingyen):
https://inference.cerebras.ai/

DeepSeek-Coder-V2-Lite-Instruct 16B

2 Bit változata használhatatlan, 4 bit bele fér a GPU -mba (>100 t/s).
A telómon is majdnem eléri az 5 t/s -t,
Képsségei vetekednek 7-8B modelekkel, miközben csak 2.4B active parametere van.

xAI Grok 3

Jelenleg Grok 3 vezeti a chat aréna mezőnyt,
az előfizetés 50$/hónap körül mozog, ami elég borsos.

OpenAI/ChatGPT 

Jó modellek .
A pro verzió 20$/Hó.
API nem olcsó.

Anthropic/Claude
A token árak ellenére nagyon jól fogy az openrouter -en amit gyakorta fejlesztők használnak.
BTW, az openrouteren vannak igyen tokenek más modelekhez.
Ha JS kodot -t kérsz a mobil app is lefutatja neked.

Gemini

DeepSeek r1 megjelenése óta igen kedvező aru lett az API.
A mobil verzio is jó, előfizetve 2TB tárhely is jár hozzá.
Flash meglepően gyors.

Vannak igyenes API tokenek.
Átlagon felüli context méret.

A fizetet tokeneket nem tartolják örökké,
a többit meg ha érdekesnek vélik.
 

Perplexity

Deepresearch elég jó, bar néha nem adja megfelelő linkeket,
ha revolut prémium felhasználó vagy egy év ingyenes,
+5$ API credit per hó.

 

Ahogy elnézem Dekstop CPU -val  DeepSeek V2 Code Lite lehet amit érdems futatni max,
persze, ha nem chatelni akkarsz vagy code aidet, jóval kisebb modellek is jók lehetnek.

Ha valaki LLM-et akkar tolni érdemes legaláb 24GB VRAM-ot szerezni.
AMD GPU -már nem pilota vizsgás, de még minidg nincs minden rá,
Ha pletykák igazak és lesz 32GB változat érdemes megfontolni.

Threadripper + Sok GPU helyett érdekes alternativának látszik a Project Digis:
https://www.nvidia.com/en-us/project-digits/

Gépet szerezni LLM-hez egy dolog, de jelenleg a jogi kérdések még problémasak a tekintetben,
hogy ténylegesen hogyan használhatod az eredményket.
AI gép vásárlása várhat a jogi helyzet tisztázódásáig.

Hozzászólások

Szerkesztve: 2025. 03. 18., k – 17:35

Jelenleg Grok 3 vezeti a chat aréna mezőnyt,
az előfizetés 50$/hónap körül mozog, ami elég borsos.

X Premium előfizetéssel is használható, úgy meg azért nem annyira vészes (£8,40).

Nem tudom pontosan, de eddig nem volt problémám vele, pedig használom melóban is.

Mondjuk tegnap elkezdett valami errorokat osztani, de nem tudom hogy ez csak valami szerverhiba volt vagy limit.

Három retry után azért mindig adott rendes választ.

Szerkesztve: 2025. 03. 19., sze – 13:06

Most neztem az nvidia keynote-ot.

https://youtu.be/_waPvOwL9Z8?t=5211

"I need to seat 7 people around a table at my wedding reception, but my parents and in-laws should not seat next to each other. Also, my wife insist we look better in the pictures when she's on my left, but I need to sit next to my best man. How do I seat us on a round table? But then, what happen if we invite our pastor to sit with us ?"

Deepseek R1 - online valasza:

To seat your wedding party under the given constraints:

For 7 People:

It’s impossible to seat all 7 people without violating the "no parents next to in-laws" rule. Here’s why:

  • Fixed positions: You (seat 1), your wife (to your left, seat 7), and your best man (to your right, seat 2).

  • Remaining seats (3, 4, 5, 6) must accommodate 2 parents and 2 in-laws. With only 4 seats, parents and in-laws will inevitably end up adjacent (e.g., alternating them forces parent-in-law adjacents, grouping them creates a boundary clash).

For 8 People (Including the Pastor):

Adding the pastor as the 8th person resolves the conflict. Here’s a valid arrangement:

  1. You at seat 1.

  2. Best Man at seat 2 (your right).

  3. Your Parent 1 at seat 3.

  4. Your Parent 2 at seat 4.

  5. Pastor at seat 5 (separates parents and in-laws).

  6. In-Law 1 at seat 6.

  7. In-Law 2 at seat 7.

  8. Your Wife at seat 8 (your left).

Adjacency Check:

  • Parents (seats 3–4) are grouped and separated from in-laws (seats 6–7) by the pastor (seat 5).

  • No parent-in-law adjacents. Constraints are satisfied!

Key Takeaway:

With 7 guests, the seating isn’t possible under your constraints. Inviting the pastor allows a valid arrangement by using them as a buffer between parents and in-laws.

Nvidia orul a reasning modeleknek mert tobb token kell,
MoE modeleknek nem feltetlen, mert kevesebb szamitas, de VRAM az kell.

Edit:
QwQ 32B Q4_K_M (draft QwQ 0.5B Q4_K_S) megoldja (18980 tokens reasoning-el egyutt)
ChatGPT reasioning megoldja.
70B r1 distil nem oldja meg, legtobb jatekos elrontja.
Grok 3 Thinking mode, nincs valasz . (Infinite loop ?)

BTW project digis hardware nem eleg az igazi deepseek r1 futatasahoz, csak distilekre.
 

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

Gemma3 azért tetszik, mert egész jól ír magyarul, már a 4b:int4 verzió is. Van még mistral, granite3.2 (IBM termék, kis méretű vision modellje is van), Phi4-multimodal (vision és audio egyben).

A kis modellek szerintem hasznosak, a perplexica-t (vagy csak searcxng-t) futtatva simán el lehet beszélgetni a webes keresésekkel. 

Granite 2B eleg jol szerepel az arenaban, valoszinuleg felrakom a telomra megnezni.
Phi-4 egyenlore nem gyozott meg, de meg ot is tesztelgetem. Kivancsi vagyok lesz -e MoE valtozat ebbol is. Jobb mint a korabbi verziok.
Qwen2.5 sem szokot jol valaszolni, de kozel van, ot is tesztelgetem meg.
 

Amit nem lehet megirni assemblyben, azt nem lehet megirni.