( arpi_esp | 2025. 03. 26., sze – 22:55 )

ezen regota megy a vita, hogy a minoseg vagy a mennyiseg a fontosabb. a 2 egyutt nyilvan kizart.

mennyisegre ott az egesz web (500+TB commoncrawl, oscar, stb), csak hat annak a 90%-a szemet. azert probaljak szurogetni (webtext ugye ami a reddit pontszamok alapjan valogat ki url-eket), boilerplate (ismetlodo reszek az oldalakon, pl. menuk, hirdetes, footer) eltavolitas stb de nem tul sok sikerrel.

minosegre ott a sok jogvedett konyv (project guttenberg, ebook torrentek etc), tanulmany (arxiv es tsai), github forraskodok, stb - azert ebbol is ossze lehet vakarni par 100 gigat, csak rengeteg melo.

a wikipedia jopofa de elhanyagolhato meretu, meg az angol is, a magyarrol nem is szolva. azzal meg egy gpt2-t se lehet feltanitani.

nekem sikerult kb 100GB-nyi magyar nyelvu txt-t osszevakarni fel eves meloval (ebbol az egesz magyar wikipedia kb 600MB), de ennek is csak a kb 15-20%-a jo minosegu, a maradek nagyreszt random weboldalak (leszurt CC), forumok (reddit stb) tartalma.

> Egy regény kb. 1 MB (plaintext)

nincs az annyi szerintem... hacsak nem a haboru&bekerol van szo