( arpi_esp | 2025. 03. 26., sze – 08:47 )

> Képes-e az LLM hogy komplett részleteket visszaadjon? Igen, természetesen képes

csak annyira kepes mint egy ember. valoszinu par hires dalszoveget, ismert verset, himnuszt stb mindenki vissza tudna mondani fejbol, de barmit amit valaha eleteben tanult, olvasott nem sokan.  az llm-ekben nincs tarolva 1:1-ben a tanitasahoz hasznalt anyag, nincs adatbazisa ahogy sokan ezt elkepzelik. neuron suly ertekek vannak, ami alapjan szavak egymas utani valoszinuseget tudja becsulni, ez csak akkor fog pontosan idezni barmit is ha az rengetegszer, NAGYON sokszor elofordult a tanitasahoz hasznalt inputban, es igy "beegett" a haloba.

Raadasul az LLM-ek tanitasahoz hasznalt text input sok 100 TB mennyisegu (csak a CommonCrawl evekkel ezelott 500TB korul volt), mig a legnagyobb LLM modelek is max 2-3TB meretuek.

a kepgeneraloknal meg szembetunobb, az SD 1.x-et 600 millio fotoval tanitottak, a kesz model csak 2 GB volt. ennek ellenere egy Mona Lisat egesz jol meg tudott "festeni", sot sok vizjelet is megtanult es random kepekre rarakta oket, neha meg ala is irta a muveit valaki neveben... sot megtanulta a jpeg tomorites artifactokat is, sikerult direkt szar minosegu kepeket is generalnia. ezekbol csak az latszik, ha valami eleg sokszor szerepel az inputban, az beeg a modelbe.

 

Itt van Sándor Petőfi "Anyám tyúkja" című versének első 4 sora:

Hejj, mi a kó, tyúkanyó kend?
Miért olyan szomorú, miért olyan kend?
Meglőtték a tyúkod, vagy a kertedet?
Vagy talán a szomszédod a szemétet?

Speed: 1.2 t/s