ezen regota megy a vita, hogy a minoseg vagy a mennyiseg a fontosabb. a 2 egyutt nyilvan kizart.
mennyisegre ott az egesz web (500+TB commoncrawl, oscar, stb), csak hat annak a 90%-a szemet. azert probaljak szurogetni (webtext ugye ami a reddit pontszamok alapjan valogat ki url-eket), boilerplate (ismetlodo reszek az oldalakon, pl. menuk, hirdetes, footer) eltavolitas stb de nem tul sok sikerrel.
minosegre ott a sok jogvedett konyv (project guttenberg, ebook torrentek etc), tanulmany (arxiv es tsai), github forraskodok, stb - azert ebbol is ossze lehet vakarni par 100 gigat, csak rengeteg melo.
a wikipedia jopofa de elhanyagolhato meretu, meg az angol is, a magyarrol nem is szolva. azzal meg egy gpt2-t se lehet feltanitani.
nekem sikerult kb 100GB-nyi magyar nyelvu txt-t osszevakarni fel eves meloval (ebbol az egesz magyar wikipedia kb 600MB), de ennek is csak a kb 15-20%-a jo minosegu, a maradek nagyreszt random weboldalak (leszurt CC), forumok (reddit stb) tartalma.
> Egy regény kb. 1 MB (plaintext)
nincs az annyi szerintem... hacsak nem a haboru&bekerol van szo