Hogyan futtassunk LLM-et helyben?

A korábbi téma folytatása, belebotlottam egy újabb érdekes oldalba:

https://ewintr.nl/posts/2025/building-a-personal-private-ai-computer-on-a-budget/

Itt egy konkrét vasat raknak össze 1695.15 EUR-ból, majd többféle modellt futtatnak rajta és mérési eredményeket is közölnek. Ezek alapján a DeepSeek R1 Q8 messze a leglassabb (~5 token/másodperc), azonban szerintem ez az összehasonlítás sántít picit, mivel csak Q8-as és nem mérlegeli azt sem, mennyire értelmes válaszokat adtak a modellek ezen a konfiguráción (azt ugye arpi_esp kolléga már bebizonyította nekünk, hogy DeepSeek-ből biztosan elég a Q6, sőt, néha jobb eredményt is ad, mint a Q8. Ezúttal is köszönet az előző topikban a többféle beállításra kiterjedő teszteléseiért!)

Mindenesetre érdekes az oldal, mert konkrét konfigurációt mutat be, ami segíthet másoknak lokális LLM szerverek összeszerelésében! Ráadásul csak 128 Gb RAM-ot használt, ha jól olvasom (ennek kapcsán azért vannak fenntartásaim, gondolom egy swapelést inkább mellőző 512 Gb RAM-al durván javított volna a token / másodperc mérési eredményein).

Hozzászólások

Ezek nem túl acélos értékek. Nálam 50-100 T/s produkálnak azok a modellek, melyek beférnek a vram-ba. Nyilván itt amellett, hogy a P40 nem egy acélos kártya, az NVLINK hiánya miatt még szűk keresztmetszet a PCI busz. Az NVLINK 10x gyorsabb mint a PCI, viszont ez csak 2x sebességben realizálódik a modellek futtatásánál, de az is valami.

Az OLLAMA szerintem felejtős, én nem tudtam úgy konfigurálni, hogy a GPU-t és a CPU-t is használja. Az llama.cpp-nél ez megoldható, meg egy csomó minden is, győzd tanulmányozni a lehetőségek. Azok a modellek amik a CPU-t is igénylik 2-3 T/s-al futnak, a konfig: HP Z4 G4 1000W psu, W-2145 CPU (8/16 core), 256GB 2666 DDR4 RAM, 1xRTX3090 (ez nettó 450 eHUF volt). Ha kis pénzből fejlesztenék az még egy RTX3090 lenne NVLINK-el. A további fejlesztési lehetőségek 1.5 milliótól indulnak a csillagos égig.

Lokálisan nekem a DeepSeek R1 671b (DeepSeek-R1-UD-Q2_K_XL) vált be. Az online verziótól is jobb mivel nincsenek ki/bemeneti filterek. Meg azt vettem észre, ha terhelt a DeepSeek infrastruktúrája, akkor kevésbé részletesen válaszol, spórol az erőforrásokkal.

Összeségében nekem a kínai modellek (DeepSeek, QWEN) váltak be, gyakorlatiasabbak, mint a nyugati társaik. A nyugatiak túl kényesek, kivéve a Grok (ez tud egyedül ehető zsíros kenyeret csinálni :-)).

Aztán jöhetnek a nagy kérdések, amit már korábban is felvetettél, hogy determinisztikusnak kell lenni egy ilyen modellnek, vagy ugyanolyan hülyének, mint az ember. A Google a második mellett tett le a voksát, most kezdett el egy olyan modellt fejleszteni, ami már képes pl. felejteni.

„Az összeomlás elkerülhetetlen, a katasztrófa valószínű, a kihalás lehetséges.” (Jem Bendell)

> A Google a második mellett tett le a voksát, most kezdett el egy olyan modellt fejleszteni, ami már képes pl. felejteni.

Ki tudnád ezt fejteni egy kóccal tömött üzemeltető macinak?

Blog | @hron84

valahol egy üzemeltetőmaci most mérgesen toppant a lábával 

via @snq-

Nem. :-) Én is csak egy AI-al foglakozó videóban hallottam, mit hírt, részletek nélkül.

Viszont van gondolatom a dologról, hiszem emiatt is kezdtem el foglalkozni az AI-al, mondván, hogy jó dolog ez az AI, csak a megvalósítás az ész helyett erővel történik. Hogy egy példával szemléltessem: ha reggel döntést hozol, hogy beindítod a kocsit, akkor előtte csak a releváns dolgokat mérlegeled és nem gondolsz arra, hogy 3 éves korodban a tejet vagy a kakaót szeretted jobban. Na a mostani modellek minden döntés előtt feldolgozzák a tej/kakaó dilemmát is és mindent is. Szóval szerintem a Google által is kitalált 'felejtés' nem más mint erőforrás gazdálkodás.

Aztán van még egy csomó dolog ami reformra szorulna, de még csak tanuló fázisban vagyok.

„Az összeomlás elkerülhetetlen, a katasztrófa valószínű, a kihalás lehetséges.” (Jem Bendell)

Köszi. Utána olvasva - úgy látom a cél egyezik, viszont a megvalósítás hatékonyságába nem vagyok biztos. Szerintem a Google is más metóduson töri a fejét.

„Az összeomlás elkerülhetetlen, a katasztrófa valószínű, a kihalás lehetséges.” (Jem Bendell)

Köszönöm a magyarázatot, és a példát is. Sajnos én még nagyon az elején vagyok ennek a tanulási görbének, nulla szabad idővel ehhez.

Igen, kb hasonló leírásra gondoltam, én tudom, hogy mit jelent, ha én felejtek, csak az AI kontextusában ezek a szavak más jellegű értelmet kapnak. De a példa segít eligazodni. Még1x köszi.

Blog | @hron84

valahol egy üzemeltetőmaci most mérgesen toppant a lábával 

via @snq-

Ezek nem túl acélos értékek.

Valóban nem. Egyértelműen az olcsóság dominált az összeállításkor, ugyanakkor nekem is gyanúsan kevésnek tűnik arpi_esp korábbi tesztadatai alapján.

Aztán jöhetnek a nagy kérdések, amit már korábban is felvetettél, hogy determinisztikusnak kell lenni egy ilyen modellnek, vagy ugyanolyan hülyének, mint az ember.

Ezt topikot inkább a konkrét vasra szeretném kihegyezni.

A Google a második mellett tett le a voksát

A Guglinak nem az az érdeke, mint az embereké, ő azt akarja, hogy minnél inkább magáhozláncolja a vevőket és kifacsarja a pénzüket. Őt csak a profitmaximalizáció érdekli, semmi más nem számít neki.

Na, erre én offtopic-olok :-D Shame on me!

Egyébként azon gondolkodtam el, hogy hogyan lehetne olyan objektív tesztet csinálni, ami mérhetően hasonlítja össze a Q2, Q6 és a Q8 képességeit (tehát valahogy azonos adathalmaz kéne, csak a súlyprecizitás lenne más, és ki kéne iktatni teljesen a véletlent, hogy összevethetőek legyenek a válaszok, na meg valami objektív "ez a jobb válasz" módszertan se ártana). Ez nagyon érdekelne, de külön topik. Mondjuk elég nagy kérdés szvsz, szerintem simán lehetne szakdolgozatot is írni csak erről az egy témáról.

> ami mérhetően hasonlítja össze a Q2, Q6 és a Q8 képességeit

perplexity-nek hivjak, altalaban az eredeti (float32/f16) modellekhez szoktak hasonlitani a parbites verziokat, igy jon ki altalaban Q6 picit jobbnak a Q8-hoz kepest (Q6 az 6 bit + korrekcios tenyezo layenkent/matrixonkent, Q8 meg siman csak 8 bitere van vagva). ezek a tesztek ugy mukodnek hogy fognak egy nagy fix inputot (pl wikipedia) es azon lefuttatjak minden modelt, prediktiv modban aztan megnezik melyik mennyit hibazott es ezt hasonlitjak ossze. llama.cpp-ben van ra egy tool.

perplexity-nek hivjak

Tudom, ezzel készült pl. ez is, de én most nem erről beszélek.

ezek a tesztek ugy mukodnek hogy fognak egy nagy fix inputot (pl wikipedia) es azon lefuttatjak minden modelt, prediktiv modban aztan megnezik melyik mennyit hibazott

Én meg egy olyan tesztet szeretnék, amiben ki van iktatva teljesen a véletlen, csak egyetlen modellt hasonlít önmagával és ahol semmi más paraméter nem tér el, csak a bitszám, és ehhez rendel egy "minőségi pontszámot". Ha rossz a válasz, az nyilván 0 (vagy esetleg akár negatív) pont, a helyes válaszokat viszont szeretném asszerint kiértékelni, hogy mennyire "értelmes". Jelenleg erre csupán csak teljesen szubjektív fórumvélemények meg blogposztok léteznek, értékelhető mérés nincs rá. (Még csak algoritmikai módszerhez sem ragaszkodom, az is jó lehetne akár, hogy 1000 ember látja bitre ugyanazt a választ és pontozza asszerint, hogy neki mennyire érthető aztán abból átlag, vagy ilyesmi).

Röviden, ami engem érdekelne, nem az, hogy mennyire helyesek a válaszok (ilyen statisztika van már bőven), hanem az, hogy a helyes válaszok mennyire "jók", mennyire "emberszerűek" a precizitás (bitszám) függvényében. Ezt persze nehéz megfogni, de azért remélem érthető a különbség.

Megoldható ez egyáltalán? Számtalan helyen hallottam, hogy "tudjuk és értjük, hogy hogyan működik, de azt nem, hogy miért azt a döntést hozza". Semmi determinisztikus nincs az egészben, főleg ha desztillálod a modellt. Az általam használt R1 ahányszor megkérdezem, annyiféle választ ad arra, hogy "Ki írta az MPlayert?". Van amikor tűpontos, van amikor csak hadovál. Egyelőre még fogalmam sincs, hogy hogyan kerül a rendszerbe a random faktor.

„Az összeomlás elkerülhetetlen, a katasztrófa valószínű, a kihalás lehetséges.” (Jem Bendell)

> fogalmam sincs, hogy hogyan kerül a rendszerbe a random faktor

pedig egyszeru. az LLM-ek ugy mukodnek, hogy input a prompt + az addig generalt szoveg, az output pedig a kovetkezo token olyan formaban, hogy a szotaraban szereplo osszes elemre (szora/tokenre) kiszamol 1-1 valoszinuseg erteket. nem neztem a deepseeke mennyi, de 64k-256k koruli szokott lenni a szotarmeret.

az, hogy ezzel az eredmennyel mit kezd a modelt futtato kornyezet az parameter/implementacio fuggo. nyilvan trivialis lenne mindig a legnagyobb valoszinusegu tokent felhasznalni es tovabblepni a kovetkezore, de ez valamiert nem jo a gyakorlatban. pedig igy lenne csak determinisztikus, ugyanarra az inputra mindig ugyanaz lenne az outputja!

ehelyett azt szoktak csinalni, hogy fogjak a top 100 legvaloszinubb tokent, es azokbol random valasztanak. ennek egy variansa, amikor mondjuk csak azokat hasznalja ami a teljes valoszinuseg skala 0.8 vagy 0.9 resze folott van, tehat ha pl csak 2-3 token valoszinu a tobbi meg nagyon nem, akkor ne 100-bol hanem csak 3-bol valasszon random. a masik megkozelites pedig amikor sulyozzak a random generatort, tehat a nagyobb valoszinusegu tokenre nagyobb valoszinuseggel esik random valasztas. ennek egy vezerlo parametere a 'temperature', 0.0 eseten nem random, 1.0 eseten a random valoszinusege megegyezik a tokenevel, de a gyakorlatban 0.6-0.8 koruli erteket szoktak hasznalni. minel kisebb az ertek annal 'egyenesebb' a model, minel nagyobb (foleg 1.0 folott) annal 'szabadabb'. altalaban 1.0 folott mar nagyon zagyvasagokat general, 0.5 alatt meg konnyen vegtelen ciklusba kerul, vagy csak kotoszavakat, neveloket, irasjeleket ir egymas utan mert azok a legvaloszinubbek altalaban.

Köszi. Látszik, hogy van még mit tanulnom. Bár ilyesmit sejtettem a dolog mögött, de elvetettem a sejtésem, hogy biztosan mindig a legvalószínűbb dolgot válassza. Tévedtem.

„Az összeomlás elkerülhetetlen, a katasztrófa valószínű, a kihalás lehetséges.” (Jem Bendell)

megneztem R1 Q6 modelt llama.cpp-vel temperature 0.0, 0.00001 es 0.1 ertekekkel is determinisztikusan 3-bol 3x ugyanezt generalta:

Ki alapitotta a hup.hu oldalt es mikor?

Thinking

Okay, the user is asking who founded hup.hu and when. Let me start by recalling what I know about Hungarian websites. Hup.hu is a well-known Hungarian web portal. I remember that it's one of the older internet services in Hungary. The founder's name might be something like Hupák or similar. Wait, I think it was founded by Gábor Hupka. As for the date, I believe it was established in the mid-90s. Maybe 1995? Or was it 1996? I should double-check that. Also, hup.hu is often associated with providing email services and web hosting early on. It's possible that it was one of the first such services in Hungary.

temperature=2.0:

Okay, let's see. The user is asking who founded the hup.hu website and when. Hmm, first I need to recall what hup.hu is. I think it's a Hungarian news or community site. Maybe similar to Index or Origo? Wait, but I'm not entirely sure. Let me think.

I remember that Hup.hu was a popular web portal in Hungary, perhaps in the early 2000s. It might have been a community site or a forum. Now, the founder... Was it an individual or a company? Maybe a group of people? I think there was a company called Axelero involved. Axelero was an internet service provider in Hungary. Maybe they started Hup.hu as part of their services.

nagyon erdekes, hogy ez nem omlik ossze ilyen szelsoseges ertekeknel sem, mint a kisebb modellek.

megneztem R1 Q6 modelt llama.cpp-vel temperature 0.0, 0.00001 es 0.1 ertekekkel is determinisztikusan 3-bol 3x ugyanezt generalta

A 0.0-nál elhiszem, de a többinél nem, mert azokhoz egyszerűen túl kevés tesztet csináltál. Még az 0.1-nél is 1 a 10-hez a tévedés esélye, ennek ellenőrzéséhez kevés a 3 prompt. De egyébként ja, a cél az lenne, hogy 0.0 temperture értékkel legyen mindig tesztelve minden, hogy kizárjuk a véletlent és mindig determinisztikus (emiatt összehasonlításra alkalmas) legyen a válasz.

The founder's name might be something like Hupák or similar.

Hát ez valami eszméleten, ezen konkrétan hangosan felröhögtem!!! ROTFL. Bár aligha viccnek szánta!

Azért ezek a válaszok is jól szemléltetik, az LLM nem alkalmas arra, amire erőltetni próbálják. Jelenlegi modelekkel legalábbis semmiképp sem.

> azokhoz egyszerűen túl kevés tesztet csináltál

hat 1.5t/s-el igy is fel ora volt mire betunkent kinyogte ezt...

masreszt en lattam mar implementalva a temperaturet, tudom hogy mukodik, a 2+3=5 sem kell 3-nal tobbszor kiszamolnod hogy elhidd mindig annyi lesz az eredmenye...

hat 1.5t/s-el igy is fel ora volt mire betunkent kinyogte ezt...

Lol! Ez egyébként roppant hasznos infó, ami eddig még nem volt említve.

masreszt en lattam mar implementalva a temperaturet, tudom hogy mukodik, a 2+3=5 sem kell 3-nal tobbszor kiszamolnod hogy elhidd mindig annyi lesz az eredmenye...

Lényegtelen. Bármi szorozva 0-ával az nulla fluktuáció, míg bármilyen tetszőlegesen kis számmal szorozva nem nulla, tehát fennáll az esélye, bármily kicsi is, de lehetséges, hogy egyszer csak nem a legelső tokent, hanem a második legesélyesebbet köpi ki válaszként. Ezt csakis 0 paraméter esetén zárhatjuk ki.

> ami eddig még nem volt említve.

pedig de.

> Bármi szorozva 0-ával

csak en osztasra emlekeztem, most megneztem es tenyleg. ezert probaltam 0.00001 es hasonlokat is, mivel mint tudjuk 0-val osztani nem mindig lehetseges.  azt felteteleztem, ha 0 az ertek, akkor esetleg azt ugy ertelmezi az implementacio hogy en nem allitom be es default erteken szamolja, ezt teszteltem.

            # forward the model to get the logits for the tokens
            logits, _ = self(tokens)
            # pluck the logits at the final step and scale by desired temperature
            logits = logits[:, -1, :] / temperature
            # optionally crop the logits to only the top k options
            if top_k is not None:
                v, _ = torch.topk(logits, min(top_k, logits.size(-1)))
                logits[logits < v[:, [-1]]] = -float('Inf')
            # apply softmax to convert logits to (normalized) probabilities
            probs = F.softmax(logits, dim=-1)
            # sample from the distribution
            next_token = torch.multinomial(probs, num_samples=1)
            # append next token to the running sequence and continue
            tokens = torch.cat((tokens, next_token), dim=1)

> tehát fennáll az esélye, bármily kicsi is, de lehetséges

ezt nem vitatom, de nem ezert teszteltem 0-nal picit nagyobb szammal, csak hogy elkeruljem a division by zero-t.

pedig de.

Pedig nem. Az általad linkelt korábbi poszt sem említ futási időt, azt csak most említetted először. Mind1, a lényeg, hogy ez is fontos mérési szempont és lényeges tényező, így jó tudni.

azt felteteleztem, ha 0 az ertek, akkor esetleg azt ugy ertelmezi az implementacio hogy en nem allitom be es default erteken szamolja

Ezt nem tudom, de jogos, elképzelhető ez a scenárió. Az implementációtól függetlenül a lényeg, hogy találjunk egy módot, ami kiiktatja a véletlent a válaszokból, azaz hogy mindig a legelső általa legvalószínűbbnek tartott választ adja, determinisztikusan. Ha ehhez nem elég a 0 paraméter, akkor a kódot kell kicsit megpatkolni, ha elég, akkor meg örülünk Vincent.

ezt nem vitatom, de nem ezert teszteltem 0-nal picit nagyobb szammal, csak hogy elkeruljem a division by zero-t.

Ez teljesen jó, nincs is semmi gond a teszteléseddel!

> sem említ futási időt

hat mert az hw fuggo, kinek mit intezett az ormanya...  viszont minden AI-s poszt tele van a token/sec ertekekkel, abbol azert lehet kovetkeztetni ra. magyar szovegnel szinte 1 betu/token lehet szamolni, tehat az 1.5 t/s az kb 1.5-2 betu/s a gyakorlatban, ami nem tul gyors, ha nem 1 szavas valaszt varsz.  angolnal jobb, ott a gyakoribb szavak 1 tokenesek, a ritkabbakat is altalaban 2-bol osszerakja. magyarnal meg a zis ritka ha 3 betut 1 tokennel meg tud oldani, az ekezetek megakasztjak mindig.

magyar szovegnel szinte 1 betu/token lehet szamolni, tehat az 1.5 t/s az kb 1.5-2 betu/s a gyakorlatban

Ez a szintén fontos infó eddig hiányzott, kösz! Önmagában a token/mp-ből ennélkül nehéz megmondani.

Egyébként csak kíváncsiságból, ugyanazt a magyar nyelvű kérdést feltéve a ChatGPT-nek és DeepSeek-nek (itt most konkrétan a netes szolgáltatásra gondolok), mennyi másodperc alatt jön meg a válasz? Lehet ebből következtetést levonni arra vonatkozóan, hogy mennyire bikább az ő hardverük, mint a ~? (Mivel nyilván más az adathalmaz, a netesé jóval nagyobb, ezért nem vagyok biztos benne, hogy ez alkalmas hardver összehasonlításra, mindenesetre kíváncsi lennék a konkrét mérési eredményekre.)

> Ez a szintén fontos infó eddig hiányzott

pedig...

> Lehet ebből következtetést levonni

nem hiszem. gondolom nincs dedikalva hw 1-1 requesthez hanem valami bika nagy cluster szolgalja ki parhuzamosan a requesteket (egy limiten belul) igy nyilvan terheles-fuggo is. a chatgpt model meretet sem ismerjuk, bar vannak rola pletykak.

a deepseek netes verzioja meglepoen gyors volt, de ki tudja min es hogyan futtatjak, megintcsak...

> kíváncsi lennék a konkrét mérési eredményekre

hat akkor hajra!

Nem publikus, mekkora az openai modellje, de valoszinu tobb fajta fut belole. A gpt4-turbo es az o1-mini valoszinuleg elferne egy nagyobb videokartan is (a gemini flash neveben ott van, hogy 8B). A gpt4-es allitolag egy MoE, tobb mint 1 billio parameterrel. A token-sebesseget es az elso tokenhez szukseges idot szoktak idezni toluk, de ezek inkabb az aktiv retegek szamara utal. A facebook a llama4 tanitashoz 100ezer h100-ast hasznal (sajat allitasa szerint), de ennek tobbszorose all a gepparkjukban.

Csak egy ötlet: Különösebb beruházás nélkül tudod tesztelni egy kicsi modellen amiről itt diskurálunk. Én az EuroLLM-9b verzióját szoktam használni ilyen célra. Egy átlag gépen GPU nélkül 10 T/s-al fut. Innen tudsz letölteni különböző verziókat. Itt pedig egy magyarázat a kvantálási típusokról.

Egyébként olyan mintha egy intelligens 12-14 éves nebulóval chatelnél, semmi spéci tudás. Azért a másodfokú egyenlet megoldóképletét tudja és elég jól fordít, elvileg 24 nyelre.

„Az összeomlás elkerülhetetlen, a katasztrófa valószínű, a kihalás lehetséges.” (Jem Bendell)

> Ezt topikot inkább a konkrét vasra szeretném kihegyezni.

ha mar ez a tema, valaki javasolhatna egy olyan megfizetheto PC-t amibe bele lehet pakolni legalabb 768GB memoriat, de inkabb a duplajat.

AMD-hez nem ertek, intelbol meg a 14900-as proci is max 192GB kezel, tehat intelnel csak Xeon procik johetnek szoba, valamilyen workstation vagy szerver alaplappal es reg. ecc memoriaval, ami nem csak draga, de nem is tul gyors.

szervert ugye nem nehez venni, mar 8 eve is lattam 1.5TB memorias gepeket, es pl. a Lenovo R630-ra ami szinten nem egy friss cucc 7.5TB max-ot ir a secifikacio. csak hat ezek nem occsok, es meg csak nem is gyorsak.

Szerkesztve: 2025. 02. 12., sze – 14:04

hat ez nagyon santit. eleve 48GB vramja van az is 2 kartyan, az a gyakorlatban kb 40GB-nak felel meg (vannak olyan reszei a modellnek ami mindket gpu-nak kell, pl embedding, igy van valamennyi overlap/overhead)

es ez a deepseek-r1:70b nevut futtatja, aminek annyi koze van a deepseek r1-hez mint nekem a fideszhez, kb hogy hallott rola :)

a deepseek model 671B parameteru, es 720GB meretu, 768GB ram alatt meg se nyikkan Q8-ban, azzal is eppencsakhogy. de meg

a kisebb "distilled" modellek igazabol llama es qwen modellek finetuningolva deepseek adatokkal, az teljesen mas liga. kb a temu-s deepseek lenne jo jelzo ra :)

hat ez nagyon santit.

Nekem is kicsit gyanús volt, ezért is jó, hogy leírod a tapasztalataidat és a véleményed!

es ez a deepseek-r1:70b nevut futtatja, aminek annyi koze van a deepseek r1-hez mint nekem a fideszhez, kb hogy hallott rola :)

Ha jól értem, ugyanaz, csak épp tizede az adathalmaz? (Emiatt nyilván a képességeiket nem is érdemes hasonlítani)

768GB ram alatt meg se nyikkan Q8-ban

Ha jól értem, berakott alá egy irtó nagy swap-et (háttérnálnál 6T-ről beszél egy ponton). Gondolom emiatt is kapott olyan siralmas mérési eredményeket.

> Ha jól értem, ugyanaz, csak épp tizede az adathalmaz?

nem ugyanaz. van a deepseek amit 0-rol tanitottak es bazi nagy, aztan van a llama amit a Meta csinalt es azt tovabbtanitgattak a nagy deepseek kimeneten. kb mint a mester es ifju tanitvanya :)  csak az ifjunak 10-ed akkora az agya. tesztek alapjan a fasorban sincs a nagy modelhez kepest, de az eredeti llamanal jobb kicsit.

> berakott alá egy irtó nagy swap-et

meg az se kell, mivel a model konstans, azt lehetne szamolas kozben a diskrol olvasni (magatol be sem olvassa a llama.cpp a memoriaba, csak mmap-eli es igy valojaban kb 30-50GB memoriat foglal maganak, a tobbit a diskrol olvassa es az csak cachelodik a ram-ban).  de ha diskrol menne a model nem ram-bol, akkor valami 0.1 t/s koruli ertek jonne ki, meg akkor is ha az valami gyors ssd.

> Ha jól értem, ugyanaz, csak épp tizede az adathalmaz?

nem ugyanaz. van a deepseek amit 0-rol tanitottak es bazi nagy, aztan van a llama amit a Meta csinalt es azt tovabbtanitgattak a nagy deepseek kimeneten. kb mint a mester es ifju tanitvanya :) csak az ifjunak 10-ed akkora az agya. tesztek alapjan a fasorban sincs a nagy modelhez kepest, de az eredeti llamanal jobb kicsit.

De hát ezzel nem cáfoltad, épp, hogy megerősítetted. Az algoritmus és minden más is pont ugyanaz, eltérés mindössze az adathalmazban található. (Az persze nyilván kihat a minőségére, de maga a módszer nem különböző.)

> berakott alá egy irtó nagy swap-et

meg az se kell, mivel a model konstans, azt lehetne szamolas kozben a diskrol olvasni (magatol be sem olvassa a llama.cpp a memoriaba, csak mmap-eli es igy valojaban kb 30-50GB memoriat foglal maganak, a tobbit a diskrol olvassa es az csak cachelodik a ram-ban).

Megintcsak, ugyanaz. Persze a swap és mmap interfésze más, de ez most lényegtelen, ami fontos az az, hogy mindkét esetben a címtér csak egy töredéke található a memóriában, a többi közben a diszken van, így mindkettő megszenvedi a storage overhead-et, emiatt romlik drasztikusan a teljesítményük (magyarán mindkét esetben a kevés memória a bottle-neck).

A háló mértete 20-ad akkora (igaz a nagy modell sok helyen Q8, a kicsi F16). De a kicsi nem ugyanazon az adaton lett tanítva, mint a nagy, hanem a nagy generálta neki a példákat. Sokan csinálják ezt, de alapvetően romlik a minőség. Ha nem kérdezik meg a nagytól, ki alapította a hup-ot, akkor a kicsi lehet nem is fogja tudni. Nyílván nem csak erről van szó, mert a kicsi egy qwen-alapú modell továbbtanítása, de nagyrészt csak a chain-of-thought példák és a think-token van hozzáadva. De a nagy modell egy MoE, ráadásul egy kiegyensúlyozott fajta, ahol az egyes expertek az általuk fejlesztett loss miatt meghatározóan különböző domainekben jártasak (és a tesztekben aktívak is). Ez hiányzik a qwen-ből, bár eleve jó modell a qwen32 is.