Jó felvetés, hogy mi az output elfogadás kritériuma. Mindkét program leradírozta a fuzzy módon körberajzolt kezet a képről. Csak a samsung tudta karakterben konzisztens arcra kiegészíteni az eltávolított kéz mögötti részeket. Egyik sem ismerte fel SJ-ot.
Szerintem ez jó példa arra, hogy egy generatív modell outputja nem abszolút értéken jó vagy rossz. Az értelmezés dönti ezt el, amihez a kontextussal/környezettel is tisztában kell lenni. Az a kontextus ami viccessé teszi, az valójában a telefonokkal végzett feladaton kivül esik, mert azt csak mi látjuk a képen hogy ezek apple és samsung telefonok, és hogy az arc a retusálásban kevéssé ügyes készüléket gyártó apple alapítóját mutatja. Ez a néző eredmény értelmezési kontextusának része, ami nem volt része a promptnak, a telefonban futó generatív modell pedig nincsen tisztában a környezetével - többek közt ezért is nem általános intelligencia. Egy multimodális promptot értő RAG modellnek viszont itt megmutatkozhat a haszna, mert ha ugyanezen feladathoz megkapja a kép és a kézkijelölés mellett a szöveges instrukciót hogy a letörölt kéz mögötti területeket úgy pótolja hogy a generált arc SJ arca legyen, a tudásbázisából pedig összeszedi SJ vonásai jellemzőit és annak megfelelően generálja az outputot, akkor jó eséllyel pontos eredményt kapunk. Mindenestre, óvatosan kell bánni a genai-al.