( arpi_esp | 2023. 09. 25., h – 18:53 )

> warez forrásból szereztek be tartalmat

ezt se lesz azert egyszeru bizonyitani. eleve sose publikaltak pontosan a dataset osszetetelet, bar vannak rola innen-onnan infok, kerdes ez mennyire perdonto. es ha volt 1 pici eszuk es jogaszuk, akkor a dataset osszerakasat kiszerveztek egy bedontheto cegnek/alvallalkozonak es ok mossak kezeiket, hogy nem tudtak, honnan van az a sok TB szoveg, nem olvastak el :)

de mondhatjak azt is, hogy web crawlert hasznaltak epp ugy mint pl. a google es bing keresomotorok, csak ok igy "indexelik" a talalt tartalmat. arrol meg hogy valaki felrakta egy weboldalra rrm konyvet, ok aztan vegkepp nem tehetnek, es mivel nekik nincs az meg digitalisan (hisz az mar illegalis lenne!:)) igy nem tudtak kiszurni sem az inputbol.

> A szerzők - ha van egy csöpp eszük és szereznek saját AI szakértőt - azzal fognak érvelni, hogy a tanítási célfüggvény pont arra megy ki, hogy minél pontosabban (90+%-os token accuracy-vel) betanulja a modell a mintát.

egy AI szakerto azt is tudna, hogy nem ez a cel, mivel batch-eket (GPT eseten eleg nagyokat, sok 1000 minta/step) hasznalnak, kis LR-el es max nehany epoch-al pont azert, hogy ne 1-1 konkret mintat tanuljon meg hanem az osszefuggeseket ismerje fel. nem egy tomoritoprogramot fejlesztenek (azt kevesebb penzbol jobban is lehetne csinalni), hanem egy mesterseges "intelligenciat" ami tanulni tud a szovegebol. mondjuk ezt elmagyarazni az eskudtszeknek azert nem lesz kis kihivas!