A 46. sorban a
CLC utasítást kihagyhatod; elméletileg kellene, de gyakorlatilag mivel egy 8-bites értéket forgatsz kétszer felfele, a közvetlenül előtte lévő ROL ki fogja törölni mindenképpen. Úgy már csak 399 ticks. Kicserélheted mindhárom TXA / AND #$XX párost is (37, 66, 86) XAA #$XX utasításokra, viszont az XAA-ra azt írják, hogy egyes gépeken kiszámíthatatlan; VICE-ban működik és ez így már csak 389 ticks. Ha az XAA használatát eldobjuk mindkettőnk kódjából, akkor mindkettő 399 ticks.
8-bites CPU-n mindig is ASM-ben kellett megírni a sebességkritikus részeket, ez ma sincs máshogy. A mai CPU-kon, ha nem is kell konkrétan ASM-ben, de érdemes megnézni milyen ASM kimenetet ad a C fordító és újragondolni időnként a snippeteket; geza42 tud erről sok tippet adni.
Ebből is látszik, hogy 8-bites CPU-n, ha C-ben is programozol, érdemes ASM-ben gondolkodni; egy modern CPU-n nincs kardinális különbség egy shift és az indexelés között (sőt a shift lesz gyorsabb), de 6502-őn, ahol nem az összes shift történik meg egy ciklus alatt, ott számít.