( arpi_esp | 2024. 01. 29., h – 13:30 )

> Az AVX2 is kicsit gyorsitott rajta, de az mar nem sokat

a legtobb cpu az AVX-et alacsonyabb orajelen tudja, emiatt amit nyersz az utasitaskeszleten elbukod az orajelen :(

> Erdekes viszont hogy az aligned_alloc() az nem segit(ett) tovabb rajta

vszinu a malloc() alapbol is aligned (valamennyire), meg a cache is besegit, ha nincs vegtelen sok adatod

> minden sora aligned_alloc()-olt

talan jobb lenne az egesz matrixot egyben allocolni, nem soronkent, meg neha megdobbentoen sokat segit ha elforgatod 90 fokkal (tehat matrix[y][x] helyett matrix[x][y] ), foleg ha az a cel hogy a matrix sorait parhuzamositsd, mert akkor 1 read be tudja olvasni 8-16 sor tartalmat a simd regiszterbe

meg ha nincs valoban szukseged a double precisionre, akkro erdemes megnezni float-al, a simd inkabb arra van optimalizalva