Ugy emlekszem, ha a jobb matrixot elso lepesben transzponalod, sokkal gyorsabb lesz, mert a cache-bol sorfolytonosan olvasod a szamokat. Szoktak ilyesmivel trukkozni matrixos libek. Volt errol youtube-on egy video, valaki pont egy matrixszorzast optimalizalt - amennyire tudott. Az utolso valtozatban mondjuk pont a transzponalos lepest kihagyta, mert mar nem a cache-en akadt meg az algoritmusa.