> Az AVX2 is kicsit gyorsitott rajta, de az mar nem sokat
a legtobb cpu az AVX-et alacsonyabb orajelen tudja, emiatt amit nyersz az utasitaskeszleten elbukod az orajelen :(
> Erdekes viszont hogy az aligned_alloc() az nem segit(ett) tovabb rajta
vszinu a malloc() alapbol is aligned (valamennyire), meg a cache is besegit, ha nincs vegtelen sok adatod
> minden sora aligned_alloc()-olt
talan jobb lenne az egesz matrixot egyben allocolni, nem soronkent, meg neha megdobbentoen sokat segit ha elforgatod 90 fokkal (tehat matrix[y][x] helyett matrix[x][y] ), foleg ha az a cel hogy a matrix sorait parhuzamositsd, mert akkor 1 read be tudja olvasni 8-16 sor tartalmat a simd regiszterbe
meg ha nincs valoban szukseged a double precisionre, akkro erdemes megnezni float-al, a simd inkabb arra van optimalizalva