Ujabb LLAMA teszt :)

Folytatva a llama-tesztelesi sorozatom, most a nemreg megjelent, Karpathy-fele llama2.c kerult sorra.

Ennek erdekessege az 500 soros, C-ben irt llama2-sampler kod, de egyelore a tanitas resze jobban erdekelt, mert a nanogpt-t irta at/bovitette ki llama2-kompatiblisre.

A sajat 'tinystories' tesztje nem futott le egy bug miatt, de ezt javitva latszolag oke, de engem most is a magyar nyelvismerete erdekelt.

Beleeroszakoltam egy 5GB-os magyar txt-t, a default beallitasokkal fut a tanitas. Igy is megizzasztja a 3090-et... 6000 steps utan igy nez ki, itt mar kezd ertelmesnek tuno szoveget alkotni:

Az orvosok a 87 éves ételek fontos eredményeit magukban foglalják. A baba egy életét vesztő, viszályként szolgáló ismerőseket akarnak megkapaszkodni. Ezenfelül október 27-én adott magyarországi tevékenységet a 4DSB. Jelenleg Magyarországon élők száma. Eddig 631-en gyújtották az olyatechnológiai eszközt, amelyeket a borsos betegségek kiszárításával oldhat meg, de aki további vizsgálatokat követ el, annak szén-dioxid-kibocsátásáért kizárólagos hatóság jelenleg is kötelezően bekövetkezett, akkor a szervezet génje több rosttartalmú lélegeztetőgép tenyészette ki a szén-dioxid kabin magja.
achieved tok/s: 174.418605

mondjuk ez most egy eleg pici model (50MB a bin file):

batch_size = 128
max_seq_len = 256
vocab_source = "llama2" # llama2|custom; use Lllama 2 vocab from Meta, or custom trained
vocab_size = 32000 # the Llama 2 tokenizer has 32K tokens
# model
dim = 288
n_layers = 6
n_heads = 6
multiple_of = 32
dropout = 0.0

mivel ez latszolag mukodik, nemsoka elinditok egy komolyabb meretu modelt nagyobb inputtal a jovo hetre.

Hozzászólások

És ez miez?

"Sose a gép a hülye."

noveltem a model parametereket, 10k utan:

Az előkészületi tenderen az a Siemens Team nyerte el a 250 km-es aknát a kirepülő és biztosítóberendezések problémájával, amelyeket legfőképpen munkaerő leépítéssel hozhat a mai piacra. Az állami vállalatok közpénzek segítségével és megfelelő támogatással tudják hálózati kapcsolatokkal kezelni az EDF DÉMÁSZ kezelésében lévő akadályokat. A tengely körüli bizonytalanság kezelését és irányítását a Siemens Team a Citigroup Egészségpénztárral közösen végzi el. A Swissair a Société Gépkocsivezető Szolgálatért és a helyi szén-dioxid-bevételekért felelős csoport összeroenket vett fel az általa üzemeltetett nyomtatókba, amivel a hatékonyabb mesterséges hajtástechnikát kívánta kifejleszteni.

A műsor emellett láthatóan ellentmondásos. Atilf Liános nemrég kezdett interjút adni a kijelentéseiről, mivel a műsor nevével visszakanyarodott a dél-koreai híradó műsorába. A műsorban Cook menedzsere, Jewliffe is megszólalt, aki elmondta, ő egyszerűen hibás, ilyen műsorral nem nagyon tudnak mit kezdeni. Évekkel később aztán már arról beszélt az interjúban, hogy nem mindig adok el túladinstheedni a céldátájával. Nem enged gyorsan a munkámat annyian nézik, hogy nézőket hoz. Kérem, a jövőben vizsgálják meg a már kialakult kúriai hivatalos ellenkezést is. Ilyen körülmények között. Ha ez rendben lenne, akkor már a lehetséges felosztást kellene tisztázni. Von Faulk a műsorban arra is kitért, hogy jobban meg kell vizsgálnod a helyzetet a beltartalomnál, és a kúriai döntésnél. Már hónapok óta lebegtetettem a csapat tárgyalási pozícióját, de szerencsére úgy gondolom, nyerni fogok a folytatásban. Nagyon boldog vagyok, hogy végre ott lehetek az elődöntőben. Szintén a bosnyák nyelvű adás fog arra megérkezni, hogy egy médiafaluba menjek.

Szerkesztve: 2023. 08. 14., h – 10:24

"latszolag mukodik" - mert szavakat rak egymás után összefüggéstelenül? Vagy mi nálad a latszolag mukodik kritériuma?
A második próbálkozás jobb, van alany, állítmány tárgy, bár értelme továbbra sincs. Mondatok közt összefüggés sincs.

> mi nálad a latszolag mukodik kritériuma

az, hogy ertelmes szavakat (is) ir mar az. ez azt jelenti, hogy a tokenizer mukodik es hogy tanul a model az inputbol.

(foleg hogy az elso kor az eredeti llama2-es tokenizerrel ment ami meg a magyar ekezetes betuket sem ismeri, nemhogy a magyar szavakat, tehat betukbol es utf8 byteokbol legozta ossze azt amit latsz)

termeszetesen kb 1.5 ora tanitas utan nem is varok irodalmi muveket tole :) foleg olyan keves parameterszammal...

az elozo (allamo) kiserletem egy hetig tanult ennel sokkal tobb partameterrel es inputtal, es meg az is messze van a chatgpt-tol.

Igy is megizzasztja a 3090-et

Mennyi ideig tart a trainelés 6k, 10K lépés után?

Ez per sec vagy per step: achieved tok/s: 174.418605

a default beallitasokkal 1 step 600ms korul volt a tanitas 3090-en, 20GB vramot hasznalt, a megnovelt parameterszammal 4000ms/step de ott dupla a layers/heads/batchsize tehat osszesegebe 8x annyit szamolt igy ki is jon a matek (a 10k step egy ejszakanyi futas utan volt)

> achieved tok/s: 174.418605

ez a sampling sebessege a default modellel, tokens/sec, ez megy gyorsan, pedig ez cpu-n futott a 500 soros .c koddal, nem is gpu... nyilvan egy nagyobb modelnel ez is lassu lesz.