Amikor az MI lufi kipukkan...

A szakértők már évek óta figyelmeztetnek rá, tavaly már a Wall Street Journal is cikkezett róla, aztán most már az olyan komoly befektetők is, mint a Goldman Sachs elkezdett bepánikolni.

A dolgon aligha dobott, hogy az OpenAI beismerte, veszteséges és likviditási gondokkal küzd a többtízmilliárdos tőkeinjekció (!) ellenére. A többiek, pl. a Cohere is hasonló cipőben jár a Bloomberg szerint.

Tény, hogy annak ellenére, hogy öntik belé a pénzt és az Nvidia árfolyama még a Holdról is látszik, valójában ezidáig még nem termelt egyetlen kanyi fitying profitot se az AI, állítja a Wall Street Journal.

Szvsz a bukás már garantált, a kérdés most már csak az, hogy meddig tart még ki a befektetők türelme (és pénztárcája). Remélem, hogy miután ezek beadják a kulcsot, elhárul az akadály az értelmes, használható MI-k elől (értsd: kicsi, de jól ellenőrzött adathalmazon célfeladatra tréningelt nyílt forrású MI). Ilyenek már most is vannak, de egyelőre esélyük sincs labdába rúgni a pénznyelő hiénák miatt.

Hozzászólások

A kicsi - generatív cucc esetében mennyi a kicsi? - de jól ellenőrzött adathalmaz előállítása munkaigényes és ebből fakadóan drága. Hiába van opensource algoritmus, ha a tanító adatok előállítása költséges. Egy feltanítható MI tudományosan értékes, egy feltanított MI pedig üzletileg.

A kicsi - generatív cucc esetében mennyi a kicsi?

A "kicsi" itt úgy értendő, hogy limitált mennyiségű, tematikusan összeválogatott, ellenőrzött adatokon legyen kiképezve, és akkor egy használható eszköz lehet belőle. Ha csak úgy az egész internet van ellenőrizetlenül beleömlesztve, abból sosem fog kisülni semmi jó, egy működésképtelen hallucináció lesz csak az eredmény. Az meg üzletileg sem életképes, hogy egy fizetős végpont van az egész hallucináló miskulanciához, erről szólnak a fenti cikkek.

jól ellenőrzött adathalmaz előállítása munkaigényes és ebből fakadóan drága

Nyilván, pont ez a lényeg! Emiatt nem fog mindenki nekiállni adathalmazt létrehozni, és pont ezért termelhet profitot a kereskedelme. Simán el tudom képzelni, hogy a közeljövőben tematikusan betanított adathalmazokat lehet majd vásárolni a privát MI-nkhez. Például egy kórház megvásárolhatná a röntgenképekkel betanított adathalmazt, vagy egy műkereskedő megvásárolhatná a műkincsek fotóin képzetl adathalmazt, egy forgatókönyvíró megvehetné az összes Ed Wood forgatókönyvön kiképzett adathalmazt stb.

Ja, és azt se felejtsük el, hogy egy ilyen tematikus adathalmaz esetében nincsenek jogi problémák, a felhasználási feltételek egyértelműek lehetnek hisz pontosan tudható, milyen adatokon lett képezve és azoknak mik a licenszfeltételei, míg - akárhogy is próbálják tagadni - egy nagy mindent bele adathalmaz elkerülhetetlenül törvénytelen és licenszsértő.

Egy feltanítható MI tudományosan értékes, egy feltanított MI pedig üzletileg.

Minden MI betanítható, de nagyon nem mindegy, hogy mivel tanították be, a fentebb idézett cikkek meg arról szólnak, hogy üzletileg sem értékes és ez kezd leesni a befektetőknek is.

> és ebből fakadóan drága.

nem csak azert draga, hanem ha a jogdijakat is kifizetik utana, attol lesz igazan draga. anelkul meg nagyon rizikos belole penzt csinalni.

egyebkent kis adathalmazaon tanitott AI-k mar 10 eve leteznek, de messze nem olyan jok mint a "vegtelen" adaton edzett LLM-ek. a jovo (jelen) inkabb az lesz, hogy fognak egy LLM-et base modelnek es finetuningoljak az adott celfaladatra egy kisebb adathalmazon.

pont ugy, ahogy az embereknel is: van egy alap kepzesuk, altalanos ismeretanyaguk a vilagrol es a vegen pedig specialiazalodnak valamilyen szakteruletre.

inkabb az lesz, hogy fognak egy LLM-et base modelnek es finetuningoljak az adott celfaladatra egy kisebb adathalmazon.

Igen, így értettem. A lényeg az, hogy a végeredmény nem egy általános bárki számára hozzáférhető valami, hanem egy célfeladatra szánt eszköz, aminél nincs licenszprobléma és csak a vevőnél fut. (Az most részletkérdés, hogy fizikailag fut-e nála, vagy felhőben bérli, az a fontos, hogy a célfeladatra betanított MI kifejezetten csak a vevő számára hozzáférhető.)

> Az most részletkérdés, hogy fizikailag fut-e nála

nem, nem az. ez nagyon fontos kerdes. olyan cegek mar most is vannak akik nyujtanak felhoben privat AI-t az altalad finomhangolt modellekkel amit csak neked tesznek elerhetovel, hasznalat utan szamlazva az API alapjan. de odaadni neked a modelt nem fogja senki... ahogy egy nagyobb szoftvert is ha megfizeted customizalnak neked, de a forraskodot sose kapod meg.

olyan cegek mar most is vannak akik nyujtanak felhoben privat AI-t

Oké, más szempontból nyilván van különbség, de amire itt utaltam, az az, hogy nem az lesz, ami most van, hogy egyetlen cég ad egy API-t, mint a ChatGPT, ami mögött van egy ellentmondásokkal terhelt zagyva adathalmaz. Tudom, hogy most is vannak ilyen bérelhető megoldások, de ezek jelenleg el vannak nyomna a nagyok miatt.

odaadni neked a modelt nem fogja senki... ahogy egy nagyobb szoftvert is ha megfizeted customizalnak neked, de a forraskodot sose kapod meg.

De odafogják, mert nem lesz jogilag más választásuk. Az nem működik, amit a Crowdstrike-nál láttunk, hogy minden náluk fut, semmit ki nem adnak, de felelősséget mégsem vállalnak. Ezt már a törvényhozók is látják, hogy nem megy (no meg a károsultak most durva lobbiba kezdtek, szóval jön a változás).

Márpedig törvény ide vagy oda, ezek a cégek sosem fognak felelősséget vállalni, ezért marad az egyetlen járható út a nyílt forrás, mert akkor lerázzák a felelősséget magukról (persze továbbra is jó pénzért náluk bérelhetsz majd, kb. mint most, rakhatsz fel magadnak Linux-ot, vagy bérelhetsz Linux-os felhős VM-et is).

egyebkent kis adathalmazaon tanitott AI-k mar 10 eve leteznek, de messze nem olyan jok mint a "vegtelen" adaton edzett LLM-ek. a jovo (jelen) inkabb az lesz, hogy fognak egy LLM-et base modelnek es finetuningoljak az adott celfaladatra egy kisebb adathalmazon.

Pontosín így van. Hiszen az LLM-ek akkor pontosak írás és beszéd formában minden nyelven (+egyéb hasznos algoritmusok ha vannak), ha nagy adathalmazon lettek tanítva. Ezek után jöhet a tematikus tanítás. 

Hiszem, ha jön egy idegen civilizáció a Földre (tételezük fel nem megenni és/vagy terraformálás miatt, stb.) akkor az LLM lesz az ami a leggyorsabban lesz képes a fordítást megoldani (emberi oldalról).

Szerintem nyereséges lesz az, amint az üzleti szereplők megtalálják a helyét, ahol valódi előnyt jelent nekik hosszabb távon (nem a fellángolások számítanak). Bizonyos helyekről el fog tűnni, mert oda nem való, más helyeken meg megjelenik, ahol eddig nem próbálták. Ahogy meglesz az üzleti előny, úgy meglesz a szolgáltatás értéke és a bevétel is. Mert ugye sem a tanítás, sem a működtetés nem filléres, így nem fogja megérni mindenkinek sajátot működtetni akkor sem, ha történetesen profitálni tud belőle, így szüksége lenne rá. Ezért majd bérli.

Szerintem nyereséges lesz az

TIsztázzuk, hogy ezidáig sosem volt még nyereséges, és a nagy és komoly szereplők (mint a Goldman Sachs) nem látják, hogy nyereséges lehet ez valaha is.
Pont erről szólnak a fenti cikkek, hogy más szelek fújnak a Wall Street-en, mint pár éve. Oda a nagy hurráoptimizmus és mára már szleptikusak lettek a befektetők.

jelenleg olyan isznyat draga infra kell az AI tanitashoz,

Ja igen, az meg a másik, hogy csak a betanításhoz van szükség a drága infrára, a használatához nem. Ez méginkább azt vetíti előre, amit írtam, szvsz.

(Egyébként amint nem lesz már mivel betanítani, és ez már nagyon közel van, azután mindenki ki fogja hajítani a feleslegessé vált magas üzemeltetési kültségű hardvereket és az Nvidia részvénye a béka segge alá fog beesni. Az a pár cég, akinél meg tudják majd még fizetni az betanítás költségeit, valószínűleg ők fogják az adathalmazokat előállítani és értékesíteni, a többieknek meg egyáltalán nem fog kelleni drága Nvidia hardver. De csak szvsz.)

A Goldman Sachs elemzés pontos link: https://www.goldmansachs.com/intelligence/pages/gen-ai-too-much-spend-too-little-benefit.html ahonnan le lehet tölteni a PDF-et. 

Goldman Sachs elkezdett bepánikolni.

és a nagy és komoly szereplők (mint a Goldman Sachs) nem látják, hogy nyereséges lehet ez valaha is.

Ez pont nem így van az elemzésbe. A Goldman Sachs elemzői pozitívan állnak a generatív MI-hez.

Pánikolók:

  • Jim Covello - Globális részvénykutatási vezető - Covello szkeptikus az MI technológia gazdasági hatásaival kapcsolatban, különösen annak költségeit és képességeit illetően.
  • Daron Acemoglu - MIT közgazdász professzor - Acemoglu szerint az MI technológia gazdasági hatása korlátozott lesz a következő évtizedben, és jelenleg nem elég fejlett ahhoz, hogy jelentős gazdasági növekedést eredményezzen.

Pozitívak:

  • Joseph Briggs - Goldman Sachs vezető globális közgazdász - Briggs optimista az MI technológia gazdasági potenciálját illetően, és úgy véli, hogy a generatív MI jelentős gazdasági növekedést eredményezhet.
  • Christian Mueller-Glissmann - Goldman Sachs stratégák - Mueller-Glissmann szerint az MI technológia hosszú távon jelentős részvényhozamokat eredményezhet, különösen a legkedvezőbb forgatókönyvek esetén.
  • Brian Janous - Cloverleaf Infrastructure társalapítója, korábbi Microsoft energiaügyi alelnök - Janous hangsúlyozza az AI technológia energiaigényének kihívásait, de elismeri annak jövőbeli potenciálját az energiainfrastruktúra fejlesztésében.

A Wall Street-en egy ideje az a szél fúj, hogy kizárólag a növekedés az érték. Bármennyi stabil bevétele van egy cégnek, az mára smafu, itt a vég. Növekedni kell, évente 2 számjegyű százalékkal, egyébként jön a "szkeptikusak vagyunk".

Ráadásul felgyorsult az ütem, ami alapján a megtérülés indulását várják egy startup-tól. A menő közgazdász valami (nyilván összetett, soktényezős) trend alapján kiszámolja, hogy X idő alatt Y pénzt tettek bele, akkor Z idő után AA pénzt kell termelnie. Mert neki a számok ezt mutatják. Az, hogy az adott technológia milyen dinamikusan fejlődik (pl. ez az AI dolog: sok-sok év fejlesztés után előálltak valamivel, majd menet közben alig 1-2 év alatt durván jobb lett), és valamikor lesz egy pont, amikor "észrevétlenül berobban" (amikor a nép rácsodálkozik, hogy jé, mindenki ezt használja), azzal nem tud kalkulálni, mert ez minden találmánynál, fejlesztésnél, olyannál ami előtte még nem volt, különböző időben, különböző lefutással történik.

De, persze ez olyannnyira a privát véleményem, hogy hírek, itt olvasottak alapján alkottam, AI-t eddig fotón történő generatív törlésen kívül nem használtam, és a közgázhoz semennyire sem értek. De azért így látom a dolgot.

Én se gondolom, hogy a kapitalizmus azon részéhez lehetne hasonlítani a nagy nyelvi modellt, amelyik a gyors profit kategóriába tartozik. Ez inkább technológiai fejlődés kategória, mint a vasút, villamos energia, telefon, számítógép, internet, mobil, vagy a megújuló energiaforrások, ami még fejlődik. Az LLM is olyan ami sok befektetést igényel, és a hosszú távú befektetések közé tartozik. Ezért nem látom értelmét, hogy a pánikoló elemzők miért pánikolnak.

Az LLMs és ehhez hasonló innováció időigényes. Hosszú fejlesztés és évekig tartó finomítás. Ráadásul még felfoghatatlan sok ember számára, hogy milyen irányba megy és mi lesz belőle.

Ott van például a DNA GPT, ami egy olyan általánosított DNS-előkészítő modell, amelyet több mint 200 milliárd bázispárból képeztek ki az összes emlős DNS-éből. Ahogy @hory írta lentebb, ennek az elemzése irdatlan mennyiségű pénzbe kerül, és amíg egy vagy több "sok pénzzel" rendelkező embernek nem lesz hibás sejtburjánzása, addig néha picit fogják csak használni, mert nem kompatibilis a tőkével.

A Wall Street-en egy ideje az a szél fúj, hogy kizárólag a növekedés az érték.

Mindig is ez volt, nemcsak mostanában, ez A kapitalizmus. De most nem erről van szó.

Bármennyi stabil bevétele van egy cégnek, az mára smafu, itt a vég.

Ezzel csak a bökkentő, hogy az OpenAI-nak nincs, és soha nem is volt stabil bevétele, eddig csak a tőkeinjekciókat élték fel.
- Sőt, az OpenAI azt nyilatkozta, egy éven belül nagy valószínűséggel elfogy a pénze (lásd twitter/X bejegyzés).
- A Google AI részlegével ugyanez a helyzet (lásd tavalyi WSJ cikk).
- A Cohere szintén zenész (lásd Bloomberg cikk).

Szóval nem egyedi eset, a jelenség az összes neves iparági szereplőnél megfigyelhető, egyik sem termelt még bevételt (tehát nemcsak növekedés nincs, stabil bevétel sincs).

Az, hogy az adott technológia milyen dinamikusan fejlődik (pl. ez az AI dolog: sok-sok év fejlesztés után előálltak valamivel, majd menet közben alig 1-2 év alatt durván jobb lett), és valamikor lesz egy pont, amikor "észrevétlenül berobban" (amikor a nép rácsodálkozik, hogy jé, mindenki ezt használja), azzal nem tud kalkulálni, mert ez minden találmánynál, fejlesztésnél, olyannál ami előtte még nem volt, különböző időben, különböző lefutással történik.

Ez így van, pont ezért indítottam a topikot, mert kíváncsi vagyok, Ti mit gondoltok erről.

Az én meglátásom az, hogy parasztvakítás az egész, a jelenlegi technológiával sosem fog bekövetkezni amit ígérgetnek (és egyébként az összes komoly szakember is ezt mondja, az LLM hallucinációk nem kijavítható hibák, és akármennyi adatot tolnak alá, nem lesz belőle AGI). De tegyük félre a szakemberek véleményét egy pillanatra, nézzük csak azt, hogy ezek a cégek kizárólag arra építenek, hogy minnél több ellenőrizetlen adatot préseljenek a fizetős API-juk mögé, na de:
- a jelenlegi adatmennyiség nem váltotta meg a világot, ezzel még nem tudnak bevételt termelni,
- a még felhasználható adatok mennyisége rohamosan csökken,
- a meg már betáplált adat is törvénysértő és több helyről is csúnya jogi támadás és csatározás várható miatta. Szóval a legjobb esetben is el kell majd távolítaniuk egy részét, tehát romlani fog az API-juk minősége.

Ettől függetlenül nem gondolom, hogy az LLM haszontalan technológia lenne, csak épp ésszel kéne használni, és nem úgy, ahogy ezek a cégek most próbálják mindenki torkán letolni.

>betáplált adat is törvénysértő

Van egyébként arra mód, hogy magából a modellből kiindulva bizonyítsuk, hogy törvénysértő adatokat is használtak a tanításához? Például ha van egy levédett mondatom, akkor lehet kétséget kizáróan bizonyítani, hogy az ott volt a tanító szövegekben, vagy nem?

> Van egyébként arra mód

nem igazan

> van egy levédett mondatom

hat meg lehet probalni kiegeszitest kerni a mondatra mindig kihagyva 1-2 szot es ha 10-bol 8x sikerul neki az mar gyanus, kerdes mennyire bizonyito ereju

na meg hogy vedesz le egy mondatot? meg az miert torvenyserto ha mondjuk egy ismert, agyon reklamozott szlogent megtanul?

ha esetleg egy regenyt vagy egy dalszoveget es azt is eleg jol tudja az meg talan...

es hogy bizonyitod hogy azt toled lopta, es nem valamelyik forumrol idezve tanulta meg?

törvénysértő adatokat is használtak a tanításához?

Egy ideig megfigyelés és tanulmányozás céljából a VS Code-ban bekapcsolva hagytam a GitHub Copilot értesítését, hogy amit írok kódot, az hányféle licenccel érhető el a GitHubon.

De a pohár akkor telt be amikor egy for-ra kiírta hogy X millió kódban található meg és Y mennyiségű licenc kapcsolódik hozzá.

Akkor a ciklusomban található tartalom az törvénysértő? Mert X-szer valakik leírták?

Akkor a ciklusomban található tartalom az törvénysértő?

Igen.

Mert X-szer valakik leírták?

Nem, nem azért törvénysértő, mert mások leírták, hanem azért, mert a Copilot nem "magától tudja", hanem olyanok kódját használja fel, akik kifejezetten licenszfeltételekhez kötötték a felhasználást, és ezen feltételeket sérti.

De javaslom, ne egy "for"-al próbálkozz, hanem egy függvénnyel, amiben algoritmus is van, vagy adott adatformátumot kezel. Ott máris nyilvánvaló lesz a másolás ténye, és a licenszfeltételek megsértése (nem jelöli meg, hogy származékos mű, tehát törvénytelen).

https://www.hwsw.hu/hirek/67887/microsoft-openai-github-copilot-szerzoi…

a beviteli kódok variációit generálja le, de sosem teljes egészében adja vissza az eredeti változatot, a bíró szerint a kimenetek, tehát a generált kódok nem tekinthetők az eredeti szoftverek pontos másolatának. A bíró szerint a felperesek ténylegesen nem tudják bizonyítani, hogy az asszisztens egy az egyben lemásolja a kódjaikat, ami a kereset elutasítását eredményezte

A vegtelen ciklus is vegeter egyszer, csak kelloen eros hardver kell hozza!

Míly meglepő, hogy a Microsoft lefizette a bírót.

a generált kódok nem tekinthetők az eredeti szoftverek pontos másolatának

Csakhogy ez lényegtelen. Például a GPL esetében szó sincs semmiféle "pontos másolatról" a származékos műveknél (sőt, kifejezetten jogod van átírni, már amennyiben betartod a licensz feltételeit), szóval jól látszik, hogy lefizették a bírót.

GPL (kiemelés tőlem):

Our General Public Licenses are designed to make sure that you have the freedom to distribute copies of free software (and charge for them if you wish), that you receive source code or can get it if you want it, that you can change the software or use pieces of it in new free programs, and that you know you can do these things.

To protect your rights, we need to prevent others from denying you these rights or asking you to surrender the rights. Therefore, you have certain responsibilities if you distribute copies of the software, or if you modify it: responsibilities to respect the freedom of others.

Egyértelmű, hogy nem kell "pontos másolatnak" lennie, az átírt (vagy generált) programra is éppúgy vonatkoznak a GPL licensz felhasználási feltételei, tehát amit a Microsoft művel a Copilot-tal, az bizony törvénysértő.

Van egyébként arra mód, hogy magából a modellből kiindulva bizonyítsuk, hogy törvénysértő adatokat is használtak a tanításához?

Bizonyos esetekben van, például emiatt perlik az írók az OpenAI-t. A jogi beadványok rengeteg bizonyítékot tartalmaznak, érdemes átolvasni, miként álltak elő.

majd megkeresem, de van local db-vel onprem dolgozo bongeszos plugin, ami spec datasource-on tanithato, se internet se semmi nem kell neki, confluence, sherepoint, sajat forras repo, akarmicsodan confidental dolgon tanitod - ami validalt - es mar kesz is az adatvagyonon alapulo spec tudas. 

ha ezeket tipizalod es generizalod es levonsz belole jo kovetkezteteseket es azzal javitod majd a tanulast-ujratanulast, nos szerintem ez a jovo. 

csinalok is egy GUI framework / tobbszalu datasource-ot gyorsan.

Mert az nvidia gpu-k iszonyat dragak. cloudban durvan $5 / ora / GPU.

hogy az ML (azert irok ML-t, mert ezek nem AI-k, csak ML-k) -t betanitsak, ahhoz erzekelteteskeppen: a stable diffusion 1.4 -nek 150000 ora kellett, es ez egy eleg kezdetleges 256x256 image generator mindossze:

https://huggingface.co/CompVis/stable-diffusion-v1-4#environmental-impa…

 

150K ora az cca. $750K AWS-n. Egy tanitas, egy pici modellnek. Nagyobb modellek ugye exponencialisan skalazodnak.

Es akkor ez a tanitas; ha user-ek generalasat is te futtatod, ingyen, haaat az se olcso. ezert (is) penzes a chatgpt, hogy ne annyira brutalisan termelje a veszteseget.

Egyrészt öröm hogy ez a téma Magyarországon ilyen kevés embert érdekel, másrészt lesújtó hogy a téma Magyarországon csak ennyi embert érdekel a többihez képest.

:-) GPT:

 

Ez az idézet azt tükrözi, hogy az AI és a hozzá kapcsolódó pénzügyi kérdések iránti érdeklődés Magyarországon korlátozott, ami vegyes érzelmeket kelt az adott személlyel kapcsolatban. Az öröm forrása lehet az, hogy a téma iránti alacsony érdeklődés azt jelenti, hogy kevesebb az aggodalom és a feszültség ezzel kapcsolatban. Ugyanakkor ez lesújtó is lehet, mert azt jelzi, hogy a társadalom nem elég tájékozott vagy nem érdeklődik kellőképpen egy olyan jelentős technológiai és gazdasági kérdés iránt, amely jelentős hatással lehet a jövőre.

Íme néhány szempont, amit érdemes figyelembe venni:

1. Tudatosság és Oktatás: Az AI technológia és annak gazdasági hatásai összetett témák, amelyek megértése jelentős tudást igényel. Magyarországon szükség lehet arra, hogy jobban tájékoztassák a lakosságot ezekről a kérdésekről, hogy növeljék az érdeklődést és az érintettséget.

2. Gazdasági Hatások: Az AI ipar fejlődése és annak pénzügyi aspektusai közvetlen hatással lehetnek a gazdaságra, a munkaerőpiacra és a társadalom egészére. Fontos lenne, hogy ezek a témák nagyobb figyelmet kapjanak, hogy a döntéshozók és a közvélemény jobban felkészülhessenek a lehetséges változásokra.

3. Nemzetközi Versenyképesség: Magyarország számára is fontos lehet, hogy lépést tartson a nemzetközi AI fejlesztésekkel és trendekkel. Az érdeklődés hiánya hátrányos lehet az ország versenyképessége szempontjából, különösen egy olyan területen, amely várhatóan meghatározó lesz a jövő gazdasági és technológiai fejlődésében.

4. Nyílt Forráskódú Lehetőségek: Az idézetben említett nyílt forráskódú, célfeladatra tréningelt AI-k lehetőségei érdekes alternatívát jelenthetnek a nagy, pénznyelő projektek helyett. Az ilyen megoldások fejlesztése és alkalmazása Magyarországon is potenciális előnyökkel járhat.

Összességében az idézet arra világít rá, hogy az AI és annak gazdasági hatásai Magyarországon jelenleg nem kapnak elegendő figyelmet, ami egy vegyes érzelmeket kiváltó helyzetet eredményez. A téma fontossága miatt azonban célszerű lenne növelni az érdeklődést és a tudatosságot ezen a területen.

Ha sör mellet beszélgetnénk biztos nem úgy zajlana hogy keressük a kiskapukat a leírtakban.

Az idézetben említett nyílt forráskódú, célfeladatra tréningelt AI-k lehetőségei érdekes alternatívát jelenthetnek a nagy, pénznyelő projektek helyett. Az ilyen megoldások fejlesztése és alkalmazása Magyarországon is potenciális előnyökkel járhat.

Itt nem jelenti azt hogy nem kell nagy mennyiségű adattal betanítani, azért hogy célfeladatos GPT legyen belőle. Nem említett ilyet hogy csak úgy GPT lesz belőle mert kis adatmennyiséggel működőképes lenne. Nem is gondolom hogy működhetne.

Hiába lenne nyílt forráskódú, ha nincs óriási adatmennyiség amivel be lehetne tanítani, és nincs mögötte irdatlan méretű szerverpark, tesztelni se lehetne. Nem hogy élesben odaadni bárkinek is. Ezt pedig a kis cégek nem tudják finanszírozni. 

Az OpenAI is azon az úton jár, ha kivált egy régebbi modellt egy fejlettebbel, egyre több tokent ad ugyan azért az árért. Azt is értem hogy a befektetők gyors pénzt akarnak, de ez nem az a terület. Keressenek mást, ha tudnak, csak szurkolok nekik ha találnak.

Szerintem a minőségi de ebből kifolyólag kevés adathalmazból "szintetizált" új adathalamaz lesz a lényeg nagyon rövid időn belül (ahogy elnézem már most az a fő probléma hogy kifutnak a hasznos adatokból). Ha ezt meg tudják oldani akkor mehet tovább a dolog, de ehhez a kispályások kevesek lesznek. A googlit és hasonlókat meg nem fogja földhöz vágni ha a befektetők nem látnak exponeciális nővekedést és bevételt rövid időn bellül.

Értjük, drágább lesz. Miért, valaki arra számított, hogy egy olyan eszköz ami sok ember számára hasznos, annak lefele fog menni az ára? Véget és a beetetési időszak, meg fogják kérni érte azt a legmagasabb árat, amit még hajlandó kifizetni a nagy többség. A plebs meg megy a lecsóba. Ennyi.

meg fogják kérni érte azt a legmagasabb árat, amit még hajlandó kifizetni a nagy többség

Na de pont arról van szó, hogy az emberek nem hajlandók fizetni valamiért, ami össze-vissza hallucinál. Ha tovább emelnék az árat, azzal csak még több felhasználót fognak veszíteni. Az az egy-két balek, aki megfizeti az emelt árat, nem fog hozni eleget a konyhára. Pont erről szól a WSJ cikk, emiatt lettek szkeptikusak a befektetők.

a generációnk lesz AZ internet generációja. Láttuk megszületni, szabadon szárnyalni, veszéllyé majd szemétté válni, majd most látjuk a lassú halálát, mert elindult a stipistopi, és az emberiség javát szolgáló össznépi információhalmazból eljutottunk oda, hogy

  • cégek, akik úgy használják ki a többiek értékes tartalmát, hogy maguk nem adnak hozzá, vagy csak szemetet
  • cégek, akik a tartalmaikat bezárják, hogy csak a fizető szűk réteg férhessen hozzá, letojva az össznépi tudást
  • cégek, akik manipulálják a tömegeket, hogy minél több adatot (=hatalom) és pénzt termeljenek neki
  • kormányok, akik manipulálják a tömegeket a céljaik elérése érdekében, ráadásul nem is csak otthon

Sírunk azért, mert AI-t tanítani milyen környezetszennyező, de nem fogunk össze azért, hogy EGYSZER kelljen betanítani egy opensource modellt az emberiség össz elérhető adathalmazán, ami az emberiség javát szolgálja, és közkincs MINDENKINEK, hogy ne kelljen minden cégnek ezt külön-külön megtenni ráadásul igencsak billegve az illegalitás határán. 

A tudás és annak felhasználási képessége hatalom, arra meg még nem érett meg a világ, hogy ezt valaki önszántából ekkora méretben megossza, mert az eddigi tapasztalatok alapján legnagyobb valszínűséggel ő jön ki belőle vesztesen.

Nagyon remélem, hogy előbb pukkan ki, mint később. Nekem már most az elején elegem van belőle, mert alapvetően hülyeség. Van egyébként 1-2 olyan gyakorlati haszna, amire érdemes használni, OCR, arcfelismerés, képfelismerés, természetes nyelvekre fordítás, feliratozás, esetleg művészi ihletkeresésre lehet jó, stb.. De a mindenre is, amire beharangozzák, arra nem jó, hogy majd programozik, meg valós problémákat old meg, kivált hasznos szakmákat.

Windows 95/98: 32 bit extension and a graphical shell for a 16 bit patch to an 8 bit operating system originally coded for a 4 bit microprocessor, written by a 2 bit company that can't stand 1 bit of competition.”