( Zahy | 2025. 05. 20., k – 09:35 )

OK, nyilván fenti próbád a másfél bites adatkupacot teszteli, a spéci futtatórendszert nem. És menyi igaz a rizsából, hogy nem elég, hogy sokkal kevesebb memória kell neki, használható tempóban fut (akár CPU-n is), és ráadásul az eredményei is összemérhetőek a "komoly" LLM-eket használó rendszerekével? Nyilván ez utóbbi az érdekes, hogy az összemérhető azt jelenti, hogy csak szolídan rosszabb vagy épp használhatatlan szar. (Értelemszerűen ha llama.cpp-vel futtattad, akkor az nem nagyon tud mit mondani a tempóról - bár a +1 és -1 azért sok hardveren valóban gyorsabb műveletek, mint mindenféle lebegőpontos szorzás.)