A teruleten dolgozom pillanatnyilag.
A gond az, hogy irtozatos verseny van most az LLM-eket train-elo cegek kozott. Aka, aki lemarad, az kimarad.
Ilyen 'forro' piaci helyzetben gyakorlatilag mindenki, mindenhol rugalmasan kezeli a szabalyokat. Ez nem LLM vagy amerika-specifikus; egyszeruen nyomas alatt kisebbnek tunnek a masok ugyes-bajos apro-csepro dolgai, bajai. Emberi tulajdonsag.
Az ma mar kozismert, hogy a robots.txt es hasonlo file-okat totalisan ignoraljak, es barmifele szurke-fekete forrasbol beszerzett anyagot is felszippantanak (ugye emlekszunk, hogy az openai lebukott a library.org -rol toltott anyagokkal?)
De meg ez sem eleg. Ma mar konkretan a training material jelentos resze, 80-90% -a mestersegesen eloallitott szoveg.
Illetve akar egymasrol is tanitjak egymast, emlekszunk, amikor az openai a deepseek-et vadolta azzal, hogy azert lassuak a szervereik, mert a deepseek rajtuk train-eli a modelljet?
De hogy nemi perspektivaba helyezzuk a dolgot.
Minap volt szerencsem par kollegat latni, ahogy egy hosszura nyult munkanapig sikerult megszerezniuk egy H100-as node-ot az AWS-en, tesztelni a deepseek-r1 modelljet.
Potom 700 dollar volt. Par napos varakozasi ido utan, mert annyian akarnak brutal gpu-t.
Igy mennek a dolgok LLM-foldon. Es ezert van az, hogy holmi robots.txt, 1-2 per az o szemszogukbol 'meh' kategoria.
Ahogy mondtam, aki lemarad, az kimarad. Ez pedig a kovetkezo evtizedek "nagy dobasa" lesz, amibol senki se akar kimaradni; se cegek, se orszagok.
Erdekes evek ele nezunk...