> benne vannak személyes adatok, név, telefonszám, stb. Ez kapásból GDPR sértés!
de mar azota hogy kikerult a webre. az AI csak megtanulta onnan... abban van igaza a tanulmanynak hogy az AI-bol nehezebb torolni, mint webrol (nem mintha onnan igazabol lehetne, ugye annyi keresmotor, archive.org, commoncrawl/webtext/stb van)
> rengeteg adatot letölt, tárol, és feldolgoz
mondjuk lattam mar olyan megoldast ahol valamelyik datasetet streamelve toltak be az ai-ba, nem taroltak lokalisan (azert egy 500TB-os commoncrawl-nal az sem trivialis mar hova mented le)