Na de te nem egy token prediktáló automata vagy, szerintem nem is a megértés a lényeg generatív modell szempontból, hanem a kontextus ablak mérete. Ha az egész film minden elhangzó párbeszéde, vizuális jelenete, + szereplők kapcsolatrendszere és annak történetisége, a hely, idő háttérinfók, a történetfolyam időbelisége folyószöveggel megadva stb együtt ad ki egy több modalitású context window-t akkor számodra, a fordítás humán fogyasztója számára alighanem nagyon jó minőségérzetet adó munkát fog végezni egy erre finomhangolt generatív modell. Nem is kétlem, hogy 5-10 éven belül ez így fog működni. Vagy kitalálnak egy új architektúrát ami "érti" a filmet, jelentsen ez az értés bármit.