Transpose: igen, úgy is van. Meg opencl esetében van vectordot utasás, ha lehetőség van, használva. Meg igazítás mindenféle byte-méretre. Sikerült felülmúlnom a 40 éve reszelgetet blas::dot() sebességét, akkor hagytam abba az optimalizációt. Az volt a progival az elsődleges célom, hogy CPU-GPU ár/teljesítmény összehasonlításhoz kapjak méréseket.
Azt is mondjuk ki, hogy a numpy.matmul nagyságrendekkel gyorsabb. (Gondolom gyorsabb alguritmust használ eleve.) Ha valóban mátrixot kellene szoroznom, akkor np/jax; de nem mátrixot szorzok, hanem CPU-t mérek.