John Carmack szerint "lenyűgöző kutatómunka" a Microsoft AI-generált Quake demója

Valaki kiakadt a Twitter-en a Microsoft Muse AI-ával generált Quake 2 demóján: "Ez egyszerűen kibaszott undorító, és arcul köp minden fejlesztőt, bárhol is dolgozzon." Mire John Carmack, a Quake-t fejlesztő id Software egykori első embere csak annyit reagált: "Mi van? Ez lenyűgöző kutatómunka!" ...

Hozzászólások

kérdés hogy nulláról generálta-e

az opengl-t is generálta vagy azt használja?

pontosan mik voltak a bemeneti inputjai? videók és leírás?

Controller input as screen volt az input, sok evnyi jatek.
Nem promtbol lesz a jatek, kovetkezteti a next framet.

Elobb kell az igazi jatek es sok evnyi jatek felvetele,
inkabb technikai erdekesseg, mint praktikus valamire ASIS.
Ez is transformers.

BTW, mintha az ellenfelek eltunnekek amikor nem kene.

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

Egy technikai ember képes becsülni más technikai emberek által elért eredményt. 

Egyébként még az elején volt egy olyan gondolatom, hogy ezek az LLM dolgok kicsit úgy működnek mint az álom. Van egy adat mennyiség és abból generál egy sztorit egy kis bemenetből. És most így ez lényegében még inkább az és vizuális.

ne keverjuk a dolgokat! az LLM nyelvi model, semmi koze ehhez, sem az almodozashoz, es kepet sem general (maximum promtolja/utasitja a diffuzios modelt, ahogy az ujabb chatgpt is).

viszont a diffusion modelek, amikkel a kepeket/videokat generaljak (szerintem ez is az lehet) valamikor ebbol fejlodtek ki:

https://en.wikipedia.org/wiki/DeepDream

Amennyire értem az LMM nem úgy kezeli a nyelvet, mint korábbi szabály alapú megoldások, hanem lényegében egy mintagenerálásról van szó. Próbálja folytatni a promtban adott mintát. A modell segítségével valószínűségi alapon, betűnkként generálva. Szóval nem konkrétan a képre értettem, hanem úgy egyáltalán, elvontabban. Hogy az álomnak is mintha valami ilyen szerkezete lenne, hogy ahogy lefekszel aludni viszel valami bemenetet az aznapi tapasztalataidból, gondolataidból és a korábbi idegrendszeri minták segítségével valami sztorit dob neked.

És nyilván nem szó szerint értettem, hogy a kettő azonos, hanem csak éreztem egy párhuzamot.

Szorszal hasogatas:
"betűnkként generálva"

Nagysagrendileg 32000..128000 az ABC (vocabulary) amit hasznal, az ABC -ben bene vannak a hagyomanyos betuk, de gyakran teljes szavak is.
Az "ABC" betuit token -nek hivjak, "example" egyetlen token.
https://huggingface.co/tomaszki/llama-3-a/raw/main/vocab.json

Amit nem lehet megirni assemblyben, azt nem lehet megirni.

8000-256000 inkabb a range, legalabbis ilyen vegleteket lattam mar...

az is erdekes, hogy a non-ascii karaktereket neha utf8 byteokbol rakja ossze (1 byte 1 token), pl. a kinai stb de talan meg a magyar hosszu ekezetes betuket is, meg az emojikat is, ilyenkor 1 token nem hogy 1 betu de meg annyi se! amugy a gyakorlatban magyar szovegnel altalaban 2-3 betu (kb egy szotag) 1-1 token, angolban a gyakoribb szavak 1-1 tokenbol allnak.  deepseek-nel latszik amikor angolul gondolkozik akkor szavankent ontja a szoveget, amikor a magyar valaszt irja akkor szinte betunkent potyogi le.

ami fura hogy ennek ellenere eleg jol megertik az ekezet nelkuli magyart vagy az elutasaket, elirasokat is.

Lenyűgöző, de az értelmét nem látom. Q2-vel játszani lehet már 28 éve, és hardver sem kell alá olyan erős, mint egy AI alá. Persze nem teljesen haszontalan technológia, a játékfejlesztést pl. felgyorsíthatja, ahogy a modelleket, textúrákat, pályákat készítik, segít az alap generálásában, amit csak pofozni kell utána.

The world runs on Excel spreadsheets. (Dylan Beattie)

Annyira nem rotfl, szerintem az AI abban segíthet, hogy századjára se legyen unalmas a játék. Minden végigjátszáskor egyedi pályákat generálhatna, sőt a játékos képességei alapján a nehézségi szintet is tudná módosítani akár játék közben.

Mondjuk így a speed runok értelmüket vesztik, az igaz.

Debian - The "What?!" starts not!
http://nyizsa.blogspot.com