( arpi_esp | 2025. 03. 26., sze – 11:06 )

> benne vannak személyes adatok, név, telefonszám, stb. Ez kapásból GDPR sértés!

de mar azota hogy kikerult a webre. az AI csak megtanulta onnan...  abban van igaza a tanulmanynak hogy az AI-bol nehezebb torolni, mint webrol (nem mintha onnan igazabol lehetne, ugye annyi keresmotor, archive.org, commoncrawl/webtext/stb van)

> rengeteg adatot letölt, tárol, és feldolgoz

mondjuk lattam mar olyan megoldast ahol valamelyik datasetet streamelve toltak be az ai-ba, nem taroltak lokalisan (azert egy 500TB-os commoncrawl-nal az sem trivialis mar hova mented le)