Open Source Initiative: nem, az Llama 2 nem open source

Open Source

We believe an open approach is the right one for the development of today's Al models.

Today, we’re releasing Llama 2, the next generation of Meta’s open source Large Language Model, available for free for research & commercial use.

Details ➡️ https://t.co/vz3yw6cujk pic.twitter.com/j2bDHqiuHL
— Meta AI (@MetaAI) July 18, 2023

A napokban felbolydult az internet: "a Meta nyílt forráskódúvá tette az LLama 2-t, ami az eddigi legnagyobb versenytársa a ChatGPT/GPT-4-nek és használható kereskedelmi és kutatási célra egyaránt".

A nyílt forráskód felett bábáskodó szervezet, az Open Source Initiative (OSI) igyekezett kissé hűteni a kedélyeket és helyretenni a dolgot:

Congratulations but please watch your language: The license authorizes only some commercial uses. The term Open Source has a clear, well understood meaning that excludes putting any restrictions on commercial use.

See `2. Additional Commercial Terms` https://t.co/mjZPlxrknL
— Open Source Initiative @osi@opensource.org (@OpenSourceOrg) July 18, 2023

Thanks @benjedwards @ArsTechnica for clarifying that LLaMa is not Open Source as many are incorrectly claiminghttps://t.co/skTcJGNUAI
— Open Source Initiative @osi@opensource.org (@OpenSourceOrg) July 19, 2023

Some industry observers dispute Meta's characterization of Llama 2 as "open source" software, pointing out that its license does not fully comply with the Open Source Initiative's definition of the term. These critics highlight that Meta's license places usage restrictions on Llama 2, excluding licensees with over 700 million active daily users (mentioned above) and restricting the use of its outputs to improve other LLMs.

In a tweet responding to Yann LeCun's announcement of Llama 2, the OSI clarified, "The [Llama 2] license only authorizes some commercial uses. The term Open Source has a clear, well-understood meaning that does not allow for restrictions on commercial use." They also highlighted Section 2 of the Llama 2 license, titled "Additional Commercial Terms."

Részletek itt.

A hozzászóláshoz be kell jelentkezni
930 megtekintés

Key takeaway:

forráskód elérhető != licencileg nyílt forráskódú

trey @ gépház

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ahogy a free sem mindig ingyenes, open source-hoz is kapcsolódhat fizetős szolgáltatás, és olyan faramuci helyzet is előállhat, hogy fizetős appként találod meg adott open-source project buildjét az app store-ban.

1 szavazat

A hozzászóláshoz be kell jelentkezni

Persze. Attól, hogy kód technikailag elérhető, attól nem biztos, hogy használhatod, vagy ha igen, akkor arra, amire akarod. Sajnos ezt a open source, free, stb. fogalmakat eléggé megkutyulták, laikusnak félreérthetők, sokan azt hiszik hogy a FOSS-ban a free az ingyenességet, a OS meg a kód elérhetőségét jelenti. Ezért mindig a konkrét licencet kell nézni.

“Linux isn't an OS, it's a troubleshooting sim game.” (a YouTube commenter)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Iniviative?

0 szavazat

A hozzászóláshoz be kell jelentkezni

The term Open Source has a clear, well-understood meaning that does not allow for restrictions on commercial use.

Csak én maradtam le, vagy az 'Open Source' valójában tényleg nem jelent semmi mást, csak annyit hogy nyílt a forráskód. ?!

A Licence ettől függetlenül lehet bármi, a gyártó/fejlesztő belátása szerint.

zrubi.hu

2 szavazat

A hozzászóláshoz be kell jelentkezni

Az iparban minden hozzáértő azt érti "open source" alatt, amit az OSI annak elfogad. Nem azt, hogy van hozzá forráskód, amit ilyen vagy olyan korlátozások mellett adtak ki.

trey @ gépház

0 szavazat

A hozzászóláshoz be kell jelentkezni

Source available szokott lenni a kifejezés erre a másik esetre.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Így van, így hívja a linkelt Ars Technica cikk is:

On Tuesday, Meta announced Llama 2, a new source-available family of AI language models notable for its commercial license,

trey @ gépház

0 szavazat

A hozzászóláshoz be kell jelentkezni

nyílt a forráskód

Nem ilyen egyszeru. Van a "source available" kategoria, ami kb az hogy van forraskod, de adott esetbe meg magadnak se modosithatsz bele. Aztan hogy mi az open source, arrol is vannak eltero elkepzelesek, az ilyen OSIs fele kb mindegy amig van jogod beleirni es a modositasokat valamilyen formaban kiadni, a GNUs fele 3 generaciog visszamenoleg barmilyen forraskodot amit barmikor irtal barkinek odaadni kategoriag.

I hate myself, because I'm not open-source.

0 szavazat

A hozzászóláshoz be kell jelentkezni

az 'Open Source' valójában tényleg nem jelent semmi mást, csak annyit hogy nyílt a forráskód

Értelmezd így: Azt jelenti az open source, hogy nyílt a forráskód. Viszont az, hogy "nyílt a forráskód" nem azt jelenti, hogy elérhető. A nyíltságnak több feltétele van.

1 szavazat

A hozzászóláshoz be kell jelentkezni

Csodálkozom, hogy "csak" ez a probléma vele.

Úgy általában az AI modelleknél nagyon elterjedt az a szóhasználat, hogy "open source" ha a neurális háló élsúly modelljét egyáltalán le tudod tölteni. Szerintem így ennek kb köze nincs az open source-hoz. Egy előre lefordított black box-ot kaptál, amiből annyit sem tudsz kideríteni, mint a lefordított gépi kódból.

Ha esetleg a tanítóhalmaz lenne elérhető és az összes tanításhoz használt algoritmusuk implementációja, amiből (megfelelően kurvasok GPU-idő felhasználásával) magát a modellt elő tudod állítani, na akkor beszélhetnénk open-source-ról.

(És akkor még egy további külön problémakör, hogy a training algoritmusok sztochasztikus jellege miatt nem lesz reprodukálható a build, ami már túlmutat ezen a kérdésen.)

Régóta vágyok én, az androidok mezonkincsére már!

3 szavazat

A hozzászóláshoz be kell jelentkezni

Meta’s LLaMa 2 license is not Open Source https://t.co/ZlVASQ2K7G
— Open Source Initiative @osi@opensource.org (@OpenSourceOrg) July 21, 2023

Blogbejegyzés a témában az OSI-tól ^

trey @ gépház

0 szavazat

A hozzászóláshoz be kell jelentkezni

eleve hulyeseg egy AI LLM eseten open source-rol, vagy egyaltalan source-rol beszelni. meg a licenszrol is.

van ugye egyreszt a model architektura (valami transformer nn alapu takolmany), amit ugyis lerajzolnak egy arXiv pdf-ben.

aztan vannak a hiperparameterek, amit vagy elarulnak vagy nem, de ki lehet kiserletezni, csak sokba kerul :)

meg ott a dataset amivel tanitjak, na emiatt hulyeseg a licensz, mert a dataset licensze eleve nem tisztazott (leszednek netrol minden szoveget + konyvek kerdeses szerzoi jogokkal + wikipedia + github stb), es sokszor (talan pont a kerdeses szarmazasa miatt) azt se nagyon aruljak el mibol all ossze, max nagy vonalakban. csinaltam en is, tudom mennyire necces az egesz, mar a crawlerezes is (a legtobb oldalon kiirjak hogy szerzoi jog vegi a tartalmat, engedely nelkul nem hasznalhato fel semmire)...

es vegul van egy kis forraskod is, ami a fentiek implementalasa par sorban, ez ott van a githubon, de magaban nem sokat er. meg ugyis van ra masik 3 fele implementacio (gpt, llama1 eseten biztosan, de tuti par het es llama2-re is lesz egy halom)

na meg az eredmeny, a "weights", ami rengeteg (~70 milliard) lebegopontos szam, a fentiek (plusz 3 kamionnyi penz a sok A100 kartyara/gpu berlesre) vegtermeke. ez az ertek igazabol, mivel veszett draga eloallitani. de erre meg nem ertelmezheto az open source kifejezes semmilyen felfogasban...

4 szavazat