( hory | 2025. 03. 28., p – 10:29 )

A teruleten dolgozom pillanatnyilag.

A gond az, hogy irtozatos verseny van most az LLM-eket train-elo cegek kozott. Aka, aki lemarad, az kimarad.

Ilyen 'forro' piaci helyzetben gyakorlatilag mindenki, mindenhol rugalmasan kezeli a szabalyokat. Ez nem LLM vagy amerika-specifikus; egyszeruen nyomas alatt kisebbnek tunnek a masok ugyes-bajos apro-csepro dolgai, bajai. Emberi tulajdonsag.

Az ma mar kozismert, hogy a robots.txt es hasonlo file-okat totalisan ignoraljak, es barmifele szurke-fekete forrasbol beszerzett anyagot is felszippantanak (ugye emlekszunk, hogy az openai lebukott a library.org -rol toltott anyagokkal?)

De meg ez sem eleg. Ma mar konkretan a training material jelentos resze, 80-90% -a mestersegesen eloallitott szoveg.

Illetve akar egymasrol is tanitjak egymast, emlekszunk, amikor az openai a deepseek-et vadolta azzal, hogy azert lassuak a szervereik, mert a deepseek rajtuk train-eli a modelljet?

De hogy nemi perspektivaba helyezzuk a dolgot.

Minap volt szerencsem par kollegat latni, ahogy egy hosszura nyult munkanapig sikerult megszerezniuk egy H100-as node-ot az AWS-en, tesztelni a deepseek-r1 modelljet.

Potom 700 dollar volt. Par napos varakozasi ido utan, mert annyian akarnak brutal gpu-t.

Igy mennek a dolgok LLM-foldon. Es ezert van az, hogy holmi robots.txt, 1-2 per az o szemszogukbol 'meh' kategoria.

Ahogy mondtam, aki lemarad, az kimarad. Ez pedig a kovetkezo evtizedek "nagy dobasa" lesz, amibol senki se akar kimaradni; se cegek, se orszagok.

Erdekes evek ele nezunk...