( arpi_esp | 2023. 03. 31., p – 17:18 )

> Egy szint felett irrealis, es gyanitom, hogy ezen a szinten mar reg tul is vagyunk.

hat azon mar nagyon reg.

en kicsiben "jatszom", es nekem egyedul sikerult kb 50GB-nyi magyar nyelvu szoveget osszescrapelnem (viszonyitasul ebbol a teljes magyar wikipedia osszesen 800MB).  epp tegnap olvasgattam a The Pile dataset paperjat, az is 2020-as mar, es nekik sokszorosan leszurve is volt 825 GB angol szoveguk.

de ezek a szuresek csak abbol allnak, hogy adott min. hosszu, ertelmesnek latszo (pl. legalabb x %-ban szotarban szereplo szavak, es az irasjelek szamat, magan/massalhangzok aranyat stb is nezik) szoveget kell kitermelni a raw html-bol ami lejon az egesz netrol (altalaban a commoncrawl a kiindulopont, ami kb a "toltsuk le az egesz internetet" projekt, mar par eve is 500TB-nal !!! tobb volt csak a szoveg benne).  es ehhez meg hozzacsapjak az osszes letoltheto konyvet valogatas nelkul, plusz a wikipediat. jelenleg az osszes LLM datasetje nagy reszt a valahogyan szurt commoncrawl + books + wikipedia szovegebol tanul. neha hozzacsapnak meg kisebb dolgokat, jogtarat, arxiv-ot, github teljes tartalmat etc, de az mar elenyeszo :)

az en pici magyar datasetem is 83.6 millio sor, 5.1 milliard szo, ezt nincs annyi ember aki vegig birna olvasni, foleg hogy meg vegig is gondolja minden egyes szonal, hogy abbol mit tudna az AI kikovetkeztetni, vagy kinek serti az erzekeny lelkivilagat...

az jarhato elmeletben, hogy kulcsszavakra szurni a datasetet, de mi van ha kimaradt valami, akkor a tobb honapnyi tanita smegy a levesbe es kezdhetik elolrol... meg az is megkerulheto ha korulirjak (lasd trump letartoztatasa kepek -> cenzurazzak a letartoztatas szot -> korulirtak es meg jobb kepek szulettek)

talan a vegeredmenyt lehetne szurni, tehat mar az AI altal generalt szoveget valamilyen modon, pl. kulcsszavak, direkt ilyen hulyesegek felismereserte betanitott kis AI stb, de ez se tevedhetetlen, es csak addig mukodik a cenzura amig szolgaltataskent mukodik a model, ahogy letoltheto, azt csinalnak vele amit akarnak.  a txt2img modeleknel ezt mar vegigjatszottak, az nsfw-mentesitett SD 2.x-be (ahol mar a tanitasnal kiszurtek) is hamar vissza lehet tanitani ami hianyzik, az SD 1.x-ben meg 1 sort kell csak kikommentelni hogy ne szurje ki utolag az ilyen tartalmat.