A Trónok Harca írója és más TOP írók indítottak pert az OpenAI ellen

Amerikai szerzők kereskedelmi csoportja (Authors Guild) beperelte a ChatGPT mögött álló OpenAI-t a manhattani szövetségi bíróságon olyan neves írók nevében, mint John Grisham (Pelikán ügyirat, A cég stb.) és George R. R. Martin (Trónok Harca stb.), azzal vádolva a céget, hogy jogtalanul képezte ki munkájuk felhasználásával népszerű mesterségesintelligencia-alapú chatbotját, a ChatGPT-t.

Részletek itt.

Hozzászólások

Kinek nem veszi el a munkáját ...

trey @ gépház

Én tanártüntetéseket vizionálok Totyik Tamás és Nagy Erzsébet vezetésével olyan táblákkal, hogy:

AI, ha idejössz nem veheted el a magyar tanárok munkáját!

Azért nincs még ilyen mert még nem jutott el hozzájuk ez az izé/nem tudják értelmezni mi ez.

trey @ gépház

Nem az a fő gond, hogy elveszi a munkájukat, hanem, hogy mindezt az ő szellemi termékük eltulajdonításával teszi. És mielőtt a szabadszoftveres hév elkapna mindenkit, még ha az algoritmus nyílt forráskódú is, az innen-onnan összeszedett adathalmaz nagyon nem az. Most még ingyenes a használata (de nem szabad), de már a prémium feature-ökért pénzt kérnek, és akkor zárják be a hozzáférést, amikor akarják.  

Amúgy meg legyen szép új világ, csak akkor gondoljuk végig, hogy kinek mihez van joga: legyen az adat és algoritmus is nyílt, és virágozzék száz virágszövegmodell, éljünk együtt az MI-űrhajókkal Iain Banks Kultúrájában, a megvalósult Teljesen Automatizált Űrkommunizmusban!

Nem az a fő gond, hogy elveszi a munkájukat, hanem, hogy mindezt az ő szellemi termékük eltulajdonításával teszi.

Nem latom mi a konkret problemat, hogyan fogja az AI felhasznalni ezt es mi a kulonbseg akkor ha kiveszi a konyvtarbol a konyvet es beszkenneli az AI vagy ha lehuzza valami kaloz site-rol? Meg is veheti termeszetesen, de gondolom itt nem az a gond, hogy honnan van meg, hanem az, hogy utana mi lesz vele.

És mielőtt a szabadszoftveres hév elkapna mindenkit, még ha az algoritmus nyílt forráskódú is, az innen-onnan összeszedett adathalmaz nagyon nem az.

Valoszinu a villanyszamla sem nyilt forraskodu meg a hardver, az innen-onnan osszeszedett adathalmaznak pedig vajon mekkora az erteke? Gondolom ki kell belole banyaszni ami ertelmes.

Most még ingyenes a használata (de nem szabad), de már a prémium feature-ökért pénzt kérnek, és akkor zárják be a hozzáférést, amikor akarják.

Az a kerdes, hogy le lehet-e nelkule elni az eletunket vagy sem.

"Már nem csak tehetségekből, de a hülyékből is kifogytunk..."

nem magáncélra az például bukó

Ezt nem lehet igazan definialni szerintem. Ha ma kiveszem a Tronok harcat a konyvtarbol es holnap megirom a Harcok tronjat akkor most szerzoi jogot sertettem ha a ketto kozt van hasonlosag? Valoszinuleg a hasonlosag aranyatol fugg, de at otletet akkor is onnan vettem.

Szerintem az AI nyugodtan elolvashatja (most mindegy hogyan, scanneli, stb.), aztan ha valaki meg tudja az AI-val iratni a kovetkezo reszt (ami tetszik is a kozonsegnek) akkor csinalja.

"Már nem csak tehetségekből, de a hülyékből is kifogytunk..."

Itt alapvetően több különböző jogsértés is történt.

- A szerző illetve a kiadó nem adott engedélyt a könyv bármilyen módon történő elektronikus rögzitésére/digitalizálására. Tehát már ez egy jogsértés.
- Ezután az adatok arra lettek használva hogy az AI tanításra kerüljön (illegális adatból) amit az AI vissza tud adni, tehát ez is jogsértés.

Ha egy más valaki által használt művet, annak a világát felhasználod, ugyanúgy jogsértést követsz el, lásd még magyar kalóz Star Wars sorozat, ami itt van a polcomon (licenc nélkül használták a Star Wars világát)

Szóval, igen, ezek mind jogsértések, ezekért mind lehet perelni, és a pereket meg is fogják nyerni. Ami még szebb lesz, hogy kötelezni fogják az adatok törlését és az eredeti állapot visszaállítását, amit fogalmam sincs hogy hogyan fognak tudni megcsinálni, valószínűleg sehogy.

https://www.youtube.com/watch?v=WnTKllDbu5o 
^ akkor most ez is jogserto? hogy ertsd: nem a tartalmat kopizgatjak (a konyv eddig is olvashato volt barki szamara, nemde? ha megtalalom egy padon es elolvasom jogot sertek, stb.?), hanem mint input hasznaljak fel egy algoritmus/szoftver/legvidzsmodell/e'ja'j/whatevernek nevezzelek szamara.

ez alapjan fuss, menekulj, mert ha te is olvastal mar el barmi szerzoi joggal vedettet es neadjisten meg emlekszel is ra, technikailag az is elektro(kemikus)nikus tarolas, ott, a zseleben a fejedben.
az, hogy nem teljesen ertjuk hogyan mukodik a tudomany mai allasa szerint (bar, jobban belegondolva az AI-t sem feltetlen, kulonben nem lenne ekkora szenzacio, hogy "magatol csinalja"), szerintem nem igazan ment fel a dolog alol :)

Azt azért ne felejtsük el, hogy is működik egy nyelvi modell betanítása, mi a célfüggvénye. Általában az a célfüggvény, hogy egy adott meglevő szövegrész alapján a következő szót (tokent) jósolja meg minél pontosabban. Az algoritmus azt a hibát igyekszik minimalizálni, hogy mennyit téved a mintaszöveg tokenenkénti rekonstruálásában. Ergo az egész modell tanulásának az alapja, hogy minél pontosabban betanulja a neki mutatott szövegpéldákat. (Most nyilván az overfitting/túltanulás problémakörébe nem akarok belemenni, hogy miért nem célravezető, ha 100%-os találati arányra mennek, akkor nem fog tudni általánosítani).

Nyilván amikor a chatgpt-t használod, akkor nem "nyersen" a modellt hajtod meg a promptoddal, hanem egy csomó indirekció, rejtett prompt, alignment stb. van benne, ami miatt nem tudod egyszerűen kipróbálni, hogy "Folytasd a következő szöveget! Cím: Trónok Harca...". De ha a nyers modellhez közvetlenül hozzáférnél, valószínűleg meglepően jól rekonstruálná az eredetit.

Erre konkrét példák a képgenerátoroknál voltak, amikor stock fotós ügynökségek megfelelő promptokkal a saját eladásra kínált stock képeiket olyan pontossággal tudták újraalkottatni a modellel, hogy a modell (külön kérés nélkül) a stock fotós cég vízjelét is odarenderelte a képre. Ez volt egyértelmű bizonyítéka, hogy a modellt licenszeletlen preview stock fotókon is tanították.

Szóval szerzői jogi szempontból nem annyira elvont ez a probléma, mint elsőre gondolnánk.

Régóta vágyok én, az androidok mezonkincsére már!

Q: Ed Sheeran milyen szerepet játszott a Trónok Harca műben?

A: Sajnálom, de Ed Sheeran nem játszott szerepet a Trónok harca című televíziós sorozatban. Azonban egy rövid kameója volt a sorozat hetedik évadának első epizódjában, amelyet "Dragonstone" címmel adtak ki 2017-ben. Ebben a jelenetben Ed Sheeran egy közönséges katonát játszott, aki egy kis csoporttal ült a bozótok között, amikor Arya Stark (Maisie Williams) arra haladt.

Ez a kameó egyik legismertebb és legvitatottabb pillanat lett a sorozatban, mivel Ed Sheeran ismert énekes és dalszerző, és sok nézőnek meglepetést okozott, hogy ilyen híresség bukkant fel a sorozatban.

trey @ gépház

Q: Ki volt Arya Stark?

A: Arya Stark a "Trónok harca" című televíziós sorozat egyik főszereplője volt. A sorozat az "A Song of Ice and Fire" című fantasy regénysorozat alapján készült, amit George R.R. Martin írt. Arya Starkot Maisie Williams alakította a sorozatban.

Arya Stark a Stark család tagja, és a sorozat kezdetén egy fiatal lányként mutatkozik be. Az események során azonban kemény és erős karakterré válik. Arya több nehéz időszakon megy keresztül, miután családja háborúk és intrikák közepén veszti el a hatalmat. Elhatározza, hogy bosszút áll azokon, akik ártottak a családjának, és elkezd kiképezni egy titkos szervezetnél, az Aláttvalónál, hogy elérje céljait. Arya karaktere az egyik legnépszerűbb a sorozatban, és sok rajongó kedvelte meg a kitartását és a fejlődését a történet során.

trey @ gépház

Q: Milyen fő családok játszottak szerepet a Trónok Harca " Song of Ice and Fire" sorozatában?

A: A "Trónok harca" sorozatban és az "A Song of Ice and Fire" regénysorozatban számos fontos család szerepel, amelyek közül néhány kiemelkedő. Ezek között találhatóak a következők:

  1. Stark család: A Starkok a sorozat egyik központi családja. A történet kezdetén a Winterfell városában élnek, és a hűség és az őszinteség jellemzi őket. Ned Stark (Sean Bean) a család feje. A Starkok sorsa és harca a hatalomért a sorozat alapvető eleme.

  2. Lannister család: A Lannisterek a Casterly Rock nevű helyen élnek, és gazdagságuk és hatalmuk miatt ismertek. Tywin Lannister (Charles Dance) a család vezetője. A Lannisterek közül Tyrion Lannister (Peter Dinklage) egyik kiemelkedő karakter, és a sorozatban fontos szerepet játszik.

  3. Targaryen család: A Targaryenek egykor uralkodó család voltak, akik sárkányokat tartottak és a Vas Trónon ültek. Daenerys Targaryen (Emilia Clarke) a sorozatban az utolsó túlélő Targaryen és az egyik fő karakter, aki arra törekszik, hogy visszahódítsa a trónt.

  4. Baratheon család: A Baratheonok a sorozatban fontos szerepet játszanak. Robert Baratheon (Mark Addy) az első király, de halála után a család sorsa ingadozik, és a trón megszerzéséért küzdenek.

  5. Greyjoy család: A Greyjoyok egy tengerészeti nép, és a sorozatban a Vas-szigetek lakói. Balon Greyjoy (Patrick Malahide) a család feje.

  6. Martell család: A Martell család Dorne nevű régióban uralkodik. Oberyn Martell (Pedro Pascal) az egyik kiemelkedő Martell karakter a sorozatban.

Ezenkívül számos más kisebb család és ház is megjelenik a történetben, és a politikai intrikák, háborúk és szövetségek közötti viszályok fontos szerepet játszanak a cselekmény alakulásában.

trey @ gépház

Q: Melyik szereplő használta a "Drakaris" utasítást?

A: A "Drakaris" egy parancsszó a "Trónok harca" sorozatban, amelyet Daenerys Targaryen használt ahhoz, hogy parancsra sárkányait tűzzel támadja meg. Daenerys (Emilia Clarke) a sorozatban többször is használta ezt a parancsszót, hogy megfélemlítse vagy leigázza az ellenségeit. Egyik emlékezetes jelenetben például a Meereen városát ostromolta, és amikor a sárkányokat bevetette, a "Drakaris!" szóval parancsolt nekik, hogy elpusztítsák a várat és az ellenséges erőket. Daenerys sárkányai, Drogon, Rhaegal és Viserion, engedelmeskedtek a parancsnak, és tűzzel rombolták a célpontokat. A "Drakaris" parancsszó egyike lett Daenerys ikonikus mondatainak a sorozatban.

trey @ gépház

de vajon azert tudja mert elolvasta rrmartin konyvet, vagy azert mert elolvasott parmillio sor reddit nyavajgast a sorozatrol?

en ugy tesztelnem, hogy fognek a konyvbol egy kevesbe ismert (amivel nincs tele a net) reszletet es megkernem hogy folytassa. ezt akar tobbszor mas-mas reszekkel megismetelve. ha tudja jol folytatni, akkor elhiszem hogy olvasta es megjegyezte a konyvet, ha nem akkor csak a sorozatrol olvasott sok forum kommentet valahol (pl. reddit - amit sok sok eve hasznalnak AI tanitasra, mivel a DB dumpja havi bontasban szabadon elerheto)

Én játszottam olyan hogy egy public domain könyvből idéztettem, és tudta. Utána próbáltam nem lejárt könyvből idéztetni, és arra azt mondta, hogy jogi okok miatt ezt nem teheti meg. Ebből arra következtetek hogy az infó ott van, elő tudná állítani, viszont egy filter-rel ezeket levédték.

hanem, hogy mindezt az ő szellemi termékük eltulajdonításával teszi

Miért, amikor egy gyerek elolvas egy valag könyvet, majd amikor felnő, ezek alapján írónak áll, és valami újat alkot, akkor valójában az összes elolvasott író szellemi termékét eltulajdonítja? Wtf?

valószínűleg ezt már mindenki az első pillanattól fogva tudta hogy copyright problémák lesznek

és a színfalak mögött már rég politikai döntés kellett volna hozni hogy kinek engednek, ami valószínűleg meg is történt
 

De pontosan mi a copyright probléma?

A) Jogi értelemben a szerzői jogi törvények mely pontját sérti, ha egy AI elolvas egy jogvédett művet?

B) Köznapi értelemben mi ezzel a baj? Milyen kára származik a szerzőnek?

C) Mi a különbség ahhoz képest, ha ugyanezt egy másik ember teszi? Az miért nem probléma? Mert ezt nem tartjuk problémának. Azt tartjuk annak, ha az eredeti mű részleteit felhasználja.

Világos, hogy az a problémájuk a "művészeknek", hogy ha eddig valakinek egy bármilyen alkotás kellett, akkor csak hozzájuk fordulhattak, most pedig már van konkurencia. Ez ugye nem az AAA kategóriás alkotóknak lesz probléma, rájuk mindig lesz igény. A zs kategória lesz itt is gondban, mert egy futottak még forgatókönyvet, egy három mondatos reklám szöveget, vagy egy noname író könyvborítóját egy AI is meg tudja csinálni, nem kellenek majd hozzá a "művészek".

Pár dolog jutott eszembe:

  • a művészetek világában is a nagy pénz a tömegterelésben van, az AI ezt veszélyezteti, nem a minőségi munkákat, amiben viszont nincs igazi pénz
  • a művészeti világ eddig amolyan kifizetőhelyként működött, ez az AI miatt veszélyben van
  • ugyanezen okból lehet, hogy az OpenAI-tól copyright-ra hivatkozva le tudnak mejd húzni egy vaskos csekket
  • a konflisok szakszervezetének tüntetése ugrik be a benzines autók elterjedésének idején
  • a vesztésre álló utóvéd harcokat is meg kell harcolni
  • közel az idő, (vagy már itt is van), amikor az ember otthon is fel tud trainelni egy egy ilyen modellt. Ezért lehet, hogy az OpenAI-t be tudják jogilag szántatni, de a technológia már kint van közkézen, a zs kategóriás művészvilágnak már harangoznak

Csaba

Csaba

https://net.jogtar.hu/jogszabaly?docid=99900076.tv

Illetve ennek különböző permutációi. A szerző/kiadó nem adott engedélyt a könyvének ilyetén történő felhasználására. 

Ugyanez az oka hogy ha fogsz egy képet amit letöltesz az internetről, azt nem használhatod fel a saját honlapodon, "de hát kint volt" jeligével.

a Trónok Harca ha jól tudom nem egy nagy történet, valami lapos level1 izé amit innén onnan random összeollóztak, manapság ez jellemző
 

azt elhiszem hogy milliárdokat termel

az AI (LLM) tanitasa ugyanaz mintha bezarnal egy (autista?) gyereket egy baszott nagy konyvtarba es minden letezo valaha megjelent konyvet, irast elolvastatnal vele 1x. aztan mikor kijon akkor lehet vele beszelgetni barmirol.

nem fogja tudni pontosan idezni egyik muvet se, nem fog emlekezni pontosan semmire (ezt ugye latjuk, kamuzik osszevissza) de a nyelvet es ugy altalaban a vilag torteneseit meg fogja tudni ismerni ezaltal.

ha a fenti joemberek ennyire feltik az iromanyaikat, akkor egyaltalan miert publikaltak, miert nem astak el a fiok melyere, ahogy a legtobb iro teszi?

Gondolom egy Savant-szindrómás autista gyerekre gondolsz, aki néha meglepetésszerűen random könyvekből komplett bekezdéseket szóról-szóra vissza tud idézni.

(Ugyan nem tudom, hogy a chatgpt valamelyik modellje konkrétan csinált-e ilyet, de pl a stable diffusion lazán reprodukál a tanítóhalmazból jogvédett képeket, úgy hogy még a vízjelet is rárajzolja: https://www.theverge.com/2023/1/17/23558516/ai-art-copyright-stable-diffusion-getty-images-lawsuit, csak a getty images helyett geety images-t írt :D)

"akkor egyaltalan miert publikaltak, miert nem astak el a fiok melyere, ahogy a legtobb iro teszi?" - pont arról szól a vád most, hogy eleve warez forrásból gyűjtötték be a tanítóhalmazba. Nem arról van szó, hogy a szerzők nyíltan elérhetővé tették volna, csak éppen AI tanításra nem adtak engedélyt.

Régóta vágyok én, az androidok mezonkincsére már!

már megint a tanárok a hibásak b+ :D

Szerkesztve: 2023. 09. 22., p – 12:18

Amúgy tipikus tetű amerikai céges hozzáállás...

"Most az elején egy kicsit tilosban járunk, aztán mikor már piacvezetők leszünk és utólag lebukunk, lazán mellényzsebből kifizetjük a kártérítést."

"Vagy mégjobb, inkább kifizetjük a lobbistát, hogy érje el, hogy ami csináltunk az addigra már legálisnak számítson."

Az a baj, hogy kb egy esetről tudok, amikor a cégvezető ilyenért rács mögé került: Elizabeth Holmes, de ő is csak azért mert az egészségügyi adatok szigorúbb elbírálás alá esnek. Pedig nem ártana még 1-2 cégvezetőnek sittre kerülnie, hogy a többiekben tudatosuljon, hogy a törvények meg szabályok átmeneti leszarása "nem fér bele" az üzletmenetbe.

Régóta vágyok én, az androidok mezonkincsére már!

sajnos ez az innovacio karara menne... gyakorlatilag semmit sem tudsz ma mar megirni ugy hogy ne sertenel minden programsoroddal legalabb 1 patentet. ezt egy startup vagy meg kisebb ceg nem tudja megfizetni, csak ha mar befutott.

anno az mplayernel/ffmpegnel 20+ eve nezegettuk a licensz lehetosegeket, de gyakorlatilag minden le volt mar akkor vedve, kb lehetetlen ugy implementalni barmilyen audio vagy video codecet hogy ne serts meg tucatnyit egybol. es azota meg rosszabb a helyzet.

az AI egyelore eleg ingovanyos talaj, mert nem 1:1-ben reprodukalja az inputot, de megse teljesen okes a tanitasi folyamat, foleg a dataset gyujtese. mar a web crawlerezes is gazos, a legtobb weboldalon ki van irva hogy a tartalom felhasznalasahoz engedelyt kell kerni. ami akkor amikor 10TB nagysagrendben kell ertelmes szoveget gyujteni egyszeruen nem jarhato, meg a nagyoknak se.

Egyrészt azért a sw patentek nem mindenhol érvényesek úgy, mint az USA-ban, az USA inkább az anomália az "everything under the sun" szabadalmaztathatósággal.

Másrészt szerintem pontosan azért létezik még mindig olyan beteg formában az amerikai szabadalmi rendszer, mert valójában senki nem próbálja meg betartatni. Ha ténylegesen be kéne tartani és agyonverné az innovációt az USA-ban, akkor hirtelen lenne rá motiváció, hogy megjavítsák. Úgy, hogy a kis cégeket csak addig szívatja, amíg nagy cégek nem lesznek belőlük, utána meg már nekik is érdekük ez a jogi aknamező, soha nem fog javulni.

Egyébként az én valódi problémám (és sajnos még nem tudják, de mindenki más problémája is lesz) az AI safety, illetve annak elképesztő-félelmetes mértékű leszarása.

Nyilvánvaló, hogy ezzel is ugyanazt a mentalitást követik a cégek, "most egy kicsit leszarjuk, mert lassítja az innovációt", "a lényeg, hogy az AGI-t először mi csináljuk meg... aztán majd... akkor ráérünk safetyvel foglalkozni ha már piacvezetők vagyunk". Na akkor már nagyon-nagyon késő lesz, mindannyiunknak...

Régóta vágyok én, az androidok mezonkincsére már!

> Egyébként az én valódi problémám

nem tudom te mit ertesz safety alatt, sokminden lehet...

szerintem a legnagyobb baj a digitalis "kornyezetszennyezes", az hogy elarasztottak a netet az AI altal generalt tartalommal (kepek, text stb) es mar nem lehet megmondani rola se manualisan se algoritmikusan, hogy mi a valodi es mi az AI. igy gyakorlatilag 2020-22 korul veget er egy korszak, az ezutani contentben mar nem lehet megbizni, se nem lehet tanitani vele AI-t.

"nem tudom te mit ertesz safety alatt"

Csak a szokásos konvergens viselkedések megoldását:

- ne akarja megölni/megakadályozni az embert, ha az ember a leállítógomb felé közelít
- ne akarja megölni/megakadályozni az embert, ha esetleg a jövőben változtatni akarna az AI-nak kiadott célfüggvényen, prompton, feladaton
- ne akarja átverni, megtéveszteni az embert a valódi céljairól és képességeiről
- ja és legyen szub-ágens stabilis, ezeket a tulajdonságait (beleértve rekurzívan a szub-ágens stabilitást is) örökítse is át minden más AI-ba, amiket esetleg deployol

kihagytam még valamelyiket?

Amit ma alignment jogcímén tudunk csinálni, az maximum arra elég, hogy az OpenAI és hasonszőrű cégek mutogathassák, hogy ők mennyire figyelnek az etikára (és általában jól össze is mossák az etikát a safetyvel). Maximum annyi kapcsolata van a kettőnek, hogy a mostani "etikai" alignment egy béta-tesztje a jövőbeli safety-nek. Amit jelenleg egyszerű prompt injectionnel hatástalanítani és visszájára lehet fordítani...

"szerintem a legnagyobb baj a digitalis "kornyezetszennyezes""

Igen, ez is probléma. Én személy szerint attól tartok, hogy sajnos rövidtávú probléma. Nem azért mert megoldódik, hanem mert hamarosan lesz sokkal nagyobb bajunk is.

Régóta vágyok én, az androidok mezonkincsére már!

Ezt kb senki nem fogja tudni pontosan megmondani. Talán már saját maga sem.

Lehet, hogy az elején ő maga hitt a projektben, tudatosan a szokásos amerikai céges "fake it till you make it" elvet követte, úgy gondolta átmenetileg belefér egy "kicsit" csalni a páciensek vérvizsgálati eredményeivel, amíg az "Edison-gép" el nem készül. Csak aztán végül nem adta ki az elképzelés és egyre durvább hazugságspirálba süllyedt.

Vagy - ahogy te mondod - az is lehet, hogy kezdettől fogva tisztában volt vele, hogy kamu az egész koncepció (de akkor mi volt a terv? és miért tolt annyi erőforrást a gépük fejlesztésébe, ha tisztában volt vele, hogy nem fog működni?).

Régóta vágyok én, az androidok mezonkincsére már!

hat nekem a film es a sorozat alapjan az jott le, hogy komolyan hitt benne es azt hitte meg lehet csinalni, csak amikor mar nagyon szorongattak a befektetok, kenytelen volt egy felkesz - es meg nem igazan mukodo - termekkel piacra lepni, ami - hogy ne deruljon ki, hogy szar - miatt elkezdtek trukkozni, csalni...

A Trónok Harca írója

Biztosan megijedt, hogy még valami az eddigi könyveivel tanított alkalmazás tűrhető minőségben és jóval hamarabb befejezi  soha-véget-nem-érő sorozatát mint ő =).

Hát, a Sárkányok háza köv. évad már elkészült, a többit nem írják mert éppen sztrájk van, amiben az úr is szószóló, ha jól emlékszem. Szintén az AI ellen sztrájkolnak.

Valahogy a számítógépeket és az AI-t nem lehet beleírni a Trónok Harcába? 🤔

trey @ gépház

Bele lehet irni. Pratchettnek volt szamitogepe, meg mesterseges intelligenciaja a sajat fantasy vilagaban. Hex-ben egy hangyaboly volt, a hangyak csovekben maszkaltak, igy valositott meg logikai kapukat. Emiatt volt az oldalan "Anthill Inside" logo :) asszem utobbi a hupon nem szorul magyarazatra. Kesobb kiegeszitettek minden egyebbel is, hozzaferese volt meg a tavirohalozathoz is. +++ Divide By Cucumber Error. Please Reinstall Universe And Reboot +++

A strange game. The only winning move is not to play. How about a nice game of chess?

El fogják bukni a pert az írók. A szerzői jog nem tiltja, hogy ilyen jellegű felhasználása legyen valakinek. Ha megvették az említett művüket, használhatják AI tanítására. Nem publikálhatják ezeket a műveket a szerző engedélye nélkül, de az AI szőhet belőle hasonlót, azt a szerzői jog nem védi, csak az 1:1-ben (szavankénti) másolást, publikálást, stb..

The world runs on Excel spreadsheets. (Dylan Beattie)

Nehéz ellenőrizni. Lényegében az AI-nál úgy kell tekinteni, hogy ihletet merít belőle, az emberi íróknál is játszani szokott, hogy egy nagyobb előd, író művéből merítenek ihletet, azt újra feldolgozzák, stb.. Ez soha nem volt tilos, nem volt plágium, most hogy az AI is műveli, az nem változtat semmin. Amíg nem 1:1-ben adja tovább az illető műveket, addig szerzői jogilag nem lehet megfogni.

The world runs on Excel spreadsheets. (Dylan Beattie)

A legtöbb könyvben, mind papír, mind digitális formában, a következő szerepel:

"No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording, or any information storage and retrival system without prior written permission of the author" 

A dokumentum fel lett használva, a rendszer (függetlenül attól hogy valószínűségeket tárol vagy a konkrét szöveget) ezt tárolja, és képes visszaadni, tehát kívülről nézve megtörtént a fenti szabály megsértése. 

Sokszor ráadásul nem csak az adott szöveg, hanem a világ, a szereplők nevei, stb., is védve van (lásd Star Wars).

 

viszont letezik az un. fair use, amikor valamirol beszelsz es beilleszted a sajat tartalmadba a mar letezo tartalom egy reszet/egeszet. lasd osszes reaction video a YT-on, cikkek szemlezese/idezese/hivatkozasa/stb.
az, hogy a csetdzsipitivel diskuralsz, na az pont ilyen.

innentol pedig oda jutunk a te logikaddal, hogy nem szabad beszelgetni az utcan sem a SW-rol meg kimondani a nevet "tudjukki"-nek, mert az serti a ... mit is? :D

A fair use-ra meglehetősen szigorú szabályok vonatkoznak, itt bővebben olvashatsz róla: https://scribemedia.com/book-copyrights/

A fogok egy komplett könyvet, engedély nélkül bedigitalizálom, majd ezzel megetetek egy AI modell-t, ami egy az egyben vissza tudja adni a könyvet, és ezért még pénzt is kérek, olyan messze van a fair use-tól, amennyire csak lehet.

Itt bukik el egyébként az LLM, mert hogy nincs traceability. Honnan jön az információ? Ja, nem tudom, csak úgy idekerült. Nevetséges, hogy amikor egy sima prezentációnál is figyelni kell arra hogy az ember honnan használ egy képet, és be  kell hivatkozni/biztosítani hogy azt jogszerűen használhassa, közben egy LLM-ből élő cég meg számolatlanul dolgoz fel/tárol mindent amit csak tud, mert biztos nem gond.

Ha a redditről tölti be, az ugyanúgy jogsértés (ilyen alapon mondhatná hogy a torrenten találtam...)

Ha redditrol tolti be, lehet, hogy ugyanugy jogsertes, de nekik nagyon nem mindegy, mert akkor mas az "elkoveto". Az OpenAI-t valoszinuleg nem zavarja, ha eloveszik a redditet, vagy Gipsz Jakab reddit-felhasznalot.

A strange game. The only winning move is not to play. How about a nice game of chess?

Egyébként ha belegondolsz, pont nem ez a helyzet. Van ugye az, amikor valaki a netről letölt egy képet, majd ír egy cikket és a képpel illusztrálja. Aztán kiderül, hogy a neten fellelt képnek bizony van egy jogtulajdonosa, aki pedig úgy kezdi, hogy akkor 1000 euró / kép, de ha alkudsz, akkor 500-al megúszhatod. Ha nem, akkor jön a polgári per, amit ha mondjuk a németeknél élsz, csúnyán el fogsz bukni. 

Ha a Cambridge Analytica és a Facebook állva maradt, senkit sem fog érdekelni, hogy honnan és milyen jogokat sértve szereznek be információkat addig amíg az előállított produktum vagy annak felhasználása kellően fontos számukra.

Ugyanaz a terület mint a megfigyelés / lehallgatások vs. magánélet / adatvédelem viszonya.

Azt nem látom, hogy a neveket mi védené. Illetve az AI nem fog 1:1-ben egész vagy részbeni művet úgy visszaadni, hogy ezzel a szabályt sértse. Vagy idézni fog csak belőle, ami fair use, vagy hasonló írást sző, ami megint nem ütközik szerzői jogba.

The world runs on Excel spreadsheets. (Dylan Beattie)

Ezt nem nagyon lehet megmondani előre. A jog útjai kifürkészhetetlenek, különösen az USA-ban. Pláne, ha ún "uncharted" jogi területről van szó - így mondják ottani szakzsargonban, ha valamire még nincs precedens.

A szerzők kezdik azzal, hogy ez egy kutya közönséges jogsértés, warez forrásból szereztek be tartalmat, tök mindegy mit csináltak vele.

OpenAI nyilván arra fog hivatkozni, hogy amit csináltak az valami teljesen új dolog, ami eddig nem létezett, jogilag nincs szabályozva, tehát szabad.

A szerzők - ha van egy csöpp eszük és szereznek saját AI szakértőt - azzal fognak érvelni, hogy a tanítási célfüggvény pont arra megy ki, hogy minél pontosabban (90+%-os token accuracy-vel) betanulja a modell a mintát. Ergo ez olyan mint egy veszteséges tömörítés, az sem jelentett eddig kivételt a szerzői jog alól.

Nyilván az OpenAI erre azzal fog jönni, de ők tettek róla, hogy az átlag felhasználó ne tudja a modellt megkérni, hogy reprodukálja az eredetit (amilyen pontosan csak tudja), még akkor is, ha a betanítás során pont ezt volt a mért érték a célfüggvényben.

A szerzők nyilván jöhetnek azzal, hogy ezek szerint az OpenAI nagyon is tudott róla, hogy szerzői jogot sértő a belső működésük, különben miért építettek volna be akadályokat, hogy a user ezt ne kérhesse meg. Másrészt meg jöhetnek azzal, hogy a "Do Anything Now DAN" típusú módszerekkel elég könnyen ki lehet játszani mindenféle beépített korlátozást.

És így tovább és így tovább... hogy ez hol fog megállni és a bíró ezek alapján mit fog ítélni, kb előreláthatatlan.

Régóta vágyok én, az androidok mezonkincsére már!

Hát tekintve, hogy az OpenAI lelogol minden falhasználói interakciót a botjukkal, ha a felperes megpróbálná, az alperesek esti mese helyett olvasgatnák a logokban, hogy mivel is készülnek ellenük.

Volt nekem olyan peres ügyem, amit kb azzal nyertünk meg, hogy a másik fél véletlenül csatolt 1-2 olyan dokumentumot a beadványához, amit nagyon érdeke lett volna titokban tartani...

Régóta vágyok én, az androidok mezonkincsére már!

> warez forrásból szereztek be tartalmat

ezt se lesz azert egyszeru bizonyitani. eleve sose publikaltak pontosan a dataset osszetetelet, bar vannak rola innen-onnan infok, kerdes ez mennyire perdonto. es ha volt 1 pici eszuk es jogaszuk, akkor a dataset osszerakasat kiszerveztek egy bedontheto cegnek/alvallalkozonak es ok mossak kezeiket, hogy nem tudtak, honnan van az a sok TB szoveg, nem olvastak el :)

de mondhatjak azt is, hogy web crawlert hasznaltak epp ugy mint pl. a google es bing keresomotorok, csak ok  igy "indexelik" a talalt tartalmat. arrol meg hogy valaki felrakta egy weboldalra rrm konyvet, ok aztan vegkepp nem tehetnek, es mivel nekik nincs az meg digitalisan (hisz az mar illegalis lenne!:)) igy nem tudtak kiszurni sem az inputbol.

> A szerzők - ha van egy csöpp eszük és szereznek saját AI szakértőt - azzal fognak érvelni, hogy a tanítási célfüggvény pont arra megy ki, hogy minél pontosabban (90+%-os token accuracy-vel) betanulja a modell a mintát.

egy AI szakerto azt is tudna, hogy nem ez a cel, mivel batch-eket (GPT eseten eleg nagyokat, sok 1000 minta/step) hasznalnak, kis LR-el es max nehany epoch-al pont azert, hogy ne 1-1 konkret mintat tanuljon meg hanem az osszefuggeseket ismerje fel. nem egy tomoritoprogramot fejlesztenek (azt kevesebb penzbol jobban is lehetne csinalni), hanem egy mesterseges "intelligenciat" ami tanulni tud a szovegebol. mondjuk ezt elmagyarazni az eskudtszeknek azert nem lesz kis kihivas!

"de mondhatjak azt is, hogy web crawlert hasznaltak ... nem tudtak kiszurni sem az inputbol."

Igen ez nekem is eszembe jutott, csak éppenséggel ez az érvelés könnyen öngól is lehet az openai-nak. Ezzel beismerik, hogy nincs valódi kontrolljuk a tanítóhalmaz felett, hanem felporszívóztak mindent, mindenre tekintet nélkül az internetről. Erre a felperesek triviálisan lecsaphatnak, hogy akkor kérik a bíróságtól teljes tanítóhalmaz megsemmisítését, majd ha az openai képes demonstrálni egy módszert ami garantálja (nyilván esélytelen) hogy minden csakis jogszerűen kerülhet be a halmazba, akkor folytathatják a tevékenységüket.

"akkor a dataset osszerakasat kiszerveztek egy bedontheto cegnek/alvallalkozonak es ok mossak kezeiket, hogy nem tudtak, honnan van az a sok TB szoveg,"

LOL, ez mekkora lenne, ha tényleg azzal védekeznének, hogy strómannak kiszervezték a tanítóhalmaz összerakását! :)

"egy AI szakerto azt is tudna, hogy nem ez a cel,"

Szerintem a kérdés, hogy mennyire demonstrálható a GPT modelleken (az elépakolt frontend nélkül), hogy az eredetit meglepően jó pontossággal reprodukálja. (Stable diffusion belebukott ilyenbe)

"mondjuk ezt elmagyarazni az eskudtszeknek azert nem lesz kis kihivas"

Igen, szerintem az egész végül abból fog állni, hogy ki milyen hasonlatot próbál hozni az AI betanítására és a működésére. Nyilván mind elvileg helytelen és túlzottan leegyszerűsítő lesz, de azon fog menni a harc, hogy a bíróság melyik hasonlatot higgye el valósnak.

Régóta vágyok én, az androidok mezonkincsére már!

> hanem felporszívóztak mindent, mindenre tekintet nélkül az internetről

de hat mindenki ezt csinalja, legalabb 2 evtizede... az internet mindenkie, mindenki az internete! :)

ennyi erovel az osszes keresomotort is ticcsakbe, raadasul azok szo szerint tudnak keresni ezekben es idezni, nem csak inspiralodtak belole.

> hogy strómannak kiszervezték

hat pedig ez bevett gyakorlat arrafele, hogy a leanyvallalatokba kiszervezik a rizikos dolgokat, ha bedol ne rantsa magaval az egeszet.

> eredetit meglepően jó pontossággal reprodukálja

szerintem semennyire. ahhoz overfitting, ahhoz pedig magas LR es/vagy sok (20+) epoch kene kis batch size-al, de ezek nem teljesulnek.  nyilvan olyan szovegreszleteket ami nagyon sokszor fordult elo az inputban (gyakran idezett mondatok, nevek, vagy a stable diffusion elso verzioinal a stockfotok watermarkja vagy celebek arca) elobb utobb megjegyzi, mivel olyan mintha 100+ epoch-al menne ugyanazon az inputon.

> de azon fog menni a harc

meg eselyes hogy megprobaljak majd kivulrol formalni a velemenyt... allitolag a depp-ugyben is az hozta meg az eredmenyt.

kerdes, hogy kinek van nagyobb rajongotabora, az iroknak vagy a chatgpt-nek :)

George R. R. Martin inkább legyen szíves befejezni A tűz és jég dala sorozatot ahelyett, hogy ilyen, számára szerintem, hülyeséggel foglalkozik. ;)

Még pár év(tized)ig nem lesz olyan AI, aki Martinnal felvenné a versenyt.

Tegnap óta előfizetéssel kiengedhető a ChatGPT a netre állítólag. Következő szerzői jogi botrány bekészít.

[insert line here]
B.C. 3500 - DIY Vehicle / A.D. 30 - DIY Religion / A.D. 1991 - DIY OS