Ez részben igaz, de:
https://arxiv.org/abs/2012.07805
https://not-just-memorization.github.io/extracting-training-data-from-c…
Itt ugye az is gond hogy a modellben (adatbázisban) benne vannak személyes adatok, név, telefonszám, stb. Ez kapásból GDPR sértés!
Illetve a lényeg nem csak az hogy van egy LLM modelled, hanem van egy komplett cég mögötte, amely rengeteg adatot letölt, tárol, és feldolgoz. Ez az a pont ahol a szerzői jog mindenképpen sérül, nem (csak) a modell esetében.