Stable Diffusion Public Release

Biztos látott már mindenki az utóbbi hónapokban DALL-E vagy MidJourney AI szoftverek által generált képeket. Ha nem, akkor röviden a lényege: ezek text2image AI modellek, azaz szöveges utasítás ("prompt") alapján rajzolnak/generálnak képeket, amik sokszor nagyon ijesztőek máskor nagyon élethűek, vagy épp nagyon művésziek. Tegnap megjelent a legújabb ilyen AI szoftver, a Stable Diffusion, ami ráadásul opensource, a model pedig szabadon letölthető és használható, bár 10GB memóriás GPU erősen ajánlott hozzá:

https://stability.ai/blog/stable-diffusion-public-release

A modellt kb 600 millió felcímkézett, internetről szedett képpel tanították több hónapig, elég durva körülmények között:

  • Hardware Type: A100 PCIe 40GB  (ha jól értem 256 db-ot használtak egyidőben)
  • Hours used: 150000
  • Cloud Provider: AWS
  • Carbon Emitted: 11250 kg CO2 eq.

A futtatásához egyelőre nvidia gpu (cuda/cudnn) és linux+python 3.8 (pytorch) ajánlott, a model amit letölt kb 5GB:

https://huggingface.co/CompVis/stable-diffusion-v1-4

A "gyári demo" képet egész jól hozza ("a photo of an astronaut riding a horse on mars" prompt), minden futtatáskor más-más képet generál de amúgy mind egyben van, nem nagyon látni artifactot/anomáliát.

próbálkoztam én is vele, de a "a photo of a smiling girl holding a cat" viszont elég horrorisztikus eredményeket adott, 3 kezű fogatlan lány fej nélküli macskával stb :)

(ha rájövök hogy lehet ide képet felrakni, akkor mutatok majd pár példát is)

Hozzászólások

Szerkesztve: 2022. 08. 23., k – 14:04

Azta.. Elnézve néhány képet, elég szürreális hangulatuk van. Egész más dimenzió. :D

240TB-os felcimkezett training set... az se semmi.

Elkezdtem vegignezegetni ezt https://stablediffusion.tumblr.com/

Nem is tudom. Valahogy ilyenkor elgondolkodom rajta, hogy mennyire felrement prioritasaink vannak. Meg tudunk csinalni egy ilyet. De ekozben nem tudjuk megoldani, hogy legyen mindenkinek mit ennie, es ne nyirjuk ki a bolygonkat magunk alatt. Mi a feneert vagyunk ilyen specialisan hulyek?!

Régóta vágyok én, az androidok mezonkincsére már!

Nekem egyébként inkább a Hófehérke jutott eszembe. Ez a cucc lényegében maga a varázstükör.

img2img mondd meg nékem...

De nem azt mutatja meg, hogy mi a megoldás valamire, hanem azt mutatja vissza nekünk, hogy mi emberek mit gondolnánk, szerintünk hogy nézhet ki, ami kérdezünk tőle. Tulajdonképpen az emberi fantáziát gépesítettük. Ez engem mélységesen elkeserít.

Régóta vágyok én, az androidok mezonkincsére már!

Nekem az a véleményem, hogy ez egy eszköz, ami segít "kilépni a dobozból". Erre jó. A bíráló személy itt ugyanúgy maga az ember. Vagyis te döntöd el, hogy a kép amit kiköpött az algoritmus tetszik e vagy sem.

Viszont tény, hogy olyan nézőpontot tud adni, ami segíthet egy művésznek az eszköztára bővítésében. Nekem is amikor megnéztem a fenti képeket, volt olyan amiről eszembe sem jutott volna hogy egyáltalán gondoljak ilyenre, viszont fel lehetne használni mondjuk valamely alkotáshoz. (ha épp művész lennék...)

 

Régi példa, de amikor a Blizzard bemutatta a SC2-höz tervezett MI algoritmusát, amit rengeteg profi játékos "játékmenetével" tanítottak be, és így le tudta győzni a legjobb SC2 bajnokot, ott is kb erre jutottak. Vagyis, hogy egy ilyen algoritmus kiváló tréner lehet abban, hogy még jobb játékosok legyenek.

 

Lehet picit túlzok, de sokan félnek az MI-től, (skynet, jobbak mint mi, stb...) de továbbra is azt gondolom, hogy ez egy eszköz semmi több. Nem kell bele többet látni.

Az eszközeink visszahatnak ránk. Amikor egy új eszközt találunk fel és vezetünk be, mindig valami el is veszik belőlünk. A képesség, hogy az adott eszköz nélkül is megoldjunk valamit. Amikor a gyufa megjelent, az emberek egészen túlnyomó többsége elfelejtette, hogyan kell tüzet gyújtani.

Ha ez az eszköz képes egy pálcikaember-szintű ákombákomból egy Rembrandt-stílusú festményt létrehozni, akkor miért törné magát valaki, hogy megtanuljon rendesen rajzolni? Azok az emberek, akik amúgy tehetséges művészek lehetnének, miért fejlesztenék a tehetségüket, ha a világ összes művészeti stílusa 1 percnyire van tőlük? Az út, amit végig kell járnod ahhoz, hogy tudjál festeni, rajzolni, vezet el oda, hogy egyrészt megértsd, ténylegesen mit is akarsz mutatni és hogyan, és a végén tudjál valami újat is hozzátenni a meglevőhöz. Ki akarná ezt a "nehéz" utat végigjárni, ha ott van a gyors és könnyű eredménnyel kecsegtető eszköz a keze ügyében?

Továbbmegyek, szerintem az, hogy egy ötlet, francokat, pár random szóból valami érdekes képi világú dolog születik, szerintem fokozatosan megszünteti azt, hogy az emberek egyáltalán elképzeljenek dolgokat. Oda lesz téve eléjük készen. Nem kell elképzelni. Teljes valóságban, részletes kidolgozottságban.

Szerintem ez nem egy olyan eszköz, mint egy repülőgép, vagy űrhajó, ami olyasmit tesz lehetővé, amire önerőből teljesen képtelenek lennénk. Ez olyan eszköz ami a leginkább humán értékeink egyikét helyettesíti egy (emberi erőforrás-befeketetés szempontból) olcsó imitációval. Kicsit olyannak képzelem, mintha minden csecsemőnek adnánk egy elektromos hajtású tolókocsit, hogy azelőtt is tudjon mozogni, mielőtt megtanulna járni. Így sosem fognak megtanulni járni.

Gondolkodom rajta, hogy miért érzem úgy, hogy sántít a SC-os példád. Talán abban, hogy ha egy elkészült kép idővel tényleg megkülönböztethetlenné válik egy eredetileg is ember által rajzolttól, az olyan mintha nem látnád, hogy a SC-os játékos maga játszik-e vagy valójában egy bot játszik helyette, ő pedig csak ott ül. Ha ez lehetséges lenne (és nem üldöznék, mint csalási formát), akkor hamar érdektelenné válna az egész bajnokság.

Régóta vágyok én, az androidok mezonkincsére már!

Érdekes amit írsz az eszközös példáról, mármint hogy visszahatnak ránk és valamit elvesznek belőlünk. Így van, de azt gondolom minden eszköz ilyen.

Mivel kezdődhetett? A kőbaltával... Ez volt a kar meghosszabbítása... Forradalmi találmány, amely harcra vadászatra és gondolom építkezésre is jó.

Vagy maradjunk a tüzes példádnál. A tűzgyújtás... Ha belegondolsz menyi idő lehetett kitalálni plusz kikísérletezni hogyan kell 2 darab fa néhány faforgács és sok csiszolás segítségével tüzet gyújtani.

 

Ilyenek vagyunk mi emberek, eszközöket gyártunk... És eddig még nem haltunk bele...

 

A másik felével az írásodnak nem teljesen értek egyet. Az igaz, amit írsz, abban, hogy ha nem figyelünk oda elvesznek az értékek az életünkben. Szerintem ez a mostani generáció problémája, amiért nagyban az informatika a felelős. A mai korban fontossá vált a felelősség önmagunk iránt, tényleg hisz így van, minden olcsón kéznél van. Viszont azt be kell látni, aki egy ilyen toolal próbál művészkedni, az nem lesz képzőművész, csak egy geek, aki tud pár jó parancsot írni egy programnak. Pont úgy, mintha valaki hiába néz rengeteg pucér lánykát a neten, attól még nem lesz belevaló a csajoknál, csak egy geek, aki ismer pár meztelen csajszis oldalt. Fontos érteni a különbséget, és akkor már nem is lesz ennyire félelmetes.

Szóval a művészes példánál maradva, ha érdekel a művészet, nem kell sajnálni az időt és beletenni az energiát! Mert azzal a tudással plusz egy ilyen tool segítségével, tényleg egész komoly dolgokat lehet alkotni.

Nem biztos, hogy meg foglak tudni győzni az igazamról és nem is biztos, hogy feltétlenül szándékom. Inkábbcsak leírom, hogy én hogy gondolkodom.

Gondolkodtam én is ezen a fajta érvelésen. Többször is hallottam már az AI témákban, hogy "ez is csak egy eszköz", "eddig is volt ilyen változás, ezután is lesz, túléltük". Nehéz egzaktul megfogni, hogy miért nem tetszik nekem. Talán az lehet, hogy burkoltan egy ál- teljes indukció van mögötte. Attól, hogy eddig túléltük az új eszközeink feltalálását, még nem következik, hogy a következő eszköz feltalálását is túl fogjuk.

De nyilván ez a túléljük-e dolog messzebbre vezet, kb az emberi intelligenciát minden szinten meghaladó általános ágensek kérdésköre.

Én úgy gondolom, hogy van egyfajta spektrum, a mennyit bővültek az emberek lehetőségei vs. mennyi veszett el a képességeinkből arányában.

A tűz és kőbalta dolog egyértelműen a "sokat bővült, kevés veszett el" szélsőséghez van közel. A szuperintelligens általános ágens meg - ha nem sikerül jóelőre megoldani az elvi problémáit - a másik véglet lesz. Ez a mostani cucc valahol a kettő között van. Az én személyes érzésem az, hogy ez már inkább a veszteség-dominált oldal. De ha még nem is az, gyorsan haladuk afelé.

"Viszont azt be kell látni, aki egy ilyen toolal próbál művészkedni, az nem lesz képzőművész, csak egy geek, aki tud pár jó parancsot írni egy programnak." - Én teljesen egyetértek ezzel. Amitől tartok, hogy a társadalom egésze képes lesz-e belátni. És méginkább, képes lesz-e megkülönböztetni a toolal készült ál-művészkedést az igazitól. Ha ennél még azt gondoljuk, hogy igen, vajon a következő, majd az utáni release-eknél is így lesz? Vagy a nagy mennyiségben mindent elöntő AI-al kreált ál-művészeti dömping miatt valami totális érdektelenségbe fullad az egész, ami magával rántja az igazi művészetet is? Ne így legyen, de tartok tőle, hogy errefele megyünk.

Régóta vágyok én, az androidok mezonkincsére már!

Valahogy ilyenkor elgondolkodom rajta, hogy mennyire felrement prioritasaink vannak. Meg tudunk csinalni egy ilyet. De ekozben...

Egy-egy ilyen megoldásban nem az az érdekes, hogy tud vicces .jpg-ket generálni; a mögöttes technológiáról később simán kiderülhet, hogy valami egész másra lesz jó.

CPU-val sem olyan veszes, most probaltam egy uj gepen (i5-12600 + ddr5), az 512x512 3.6sec/iter, az 1024x768 pedig 20sec/iter, tehat kb 3 / 20 perc alatt keszul el 1 kep. 1080-as gpu-val 512x512 (nagyobbat nem is bir) ugy fel perc kepenkent.

oh b+ ez nagyon durva. Frankon nem lehet megmondani melyiket generalta kep es melyiket csinalta ember.

Saying a programming language is good because it works on all platforms is like saying anal sex is good because it works on all genders....

Hát én próbálkoztam vele de nekem elég felejthető képeket generált. MidJourney 100x jobbnak tűnik, de azt még nem próbáltam.