( arpi_esp | 2024. 04. 09., k – 14:07 )

> A kép-szintézishez használt neurális háló modellek többtíz GB-osak.

nem. a stable difussion pl. 2GB-os, es meg az se kene a tomoriteshez, annal lenyegesen egyszerubb NN is eleg lenne a predikciohoz. mivel itt nem szovegbol kell generalni, csak leiro vektorokbol ujraepiteni a kepet. lenyegeben csak az embedding/VAE kell hozza, meg egy jo upscaler. ez belefer max 1GB-ba. ami a mai szoftver meretekhez kepest elenyeszo... az szamitasigenye ami inkabb a gond, foleg mobil eszkozokben.

van aki mar implementalta is: https://github.com/duanzhiihao/lossy-vae

> elképesztően nagyszámú (10e-100e) képnél lesz annyi nyereséged

amugy a keptarolo felhok (facebook, insta, flicker stb) tudnanak ebbol is profitalni, nekik draga a tarhely... nyilvan a friss kepeket tartjak cacheben egy ideig aztan arhivalaskor mehet az encode, es ha valaki nezegeti a regi kepeit akkor vissza generaljak.