( arpi_esp | 2023. 04. 11., k – 11:41 )

hat 1-1 ilyen GPT modelt honapokig tanitanak sok ezer gpu-val, millio $-os koltsegen... nem fogjak par chat-enkent ujrakezdeni :)

letezik a finetuning fogalma amikor egy kesz modelre ratanitanak plusz infokat, de azzal nagyon hamar elmegy vad iranyokba, nehez kontrollalni, ezert nem szokas foleg az LLM-eknel ilyet csinalni. az inkabb arra valo ha egy adott celfeladatra akarod optimalizalni. es ahhoz is rengeteg eroforras kell...

ami meg a transformer modeleknel szoba johet az a LoRa, amikor utolag beraknak plusz retegeket a modelbe es csak azt tanitjak, de ez meg nagyon uj es kiserleti dolog.

raadasul ez az uj info beepite snem annyira trivialis, mivel ezeket tobb TB-nyi szovegen tanitottak, ahhoz kepest plusz par kB vagy akar MB szoveg nem oszt nem szoroz, ha meg elkezdik ismetelgetni (ami a tudas anyja ugye) akkor meg elrontja az egeszet...