( arpi_esp | 2025. 02. 02., v – 09:40 )

quantization, a bitek szama. Q3 nal 3 biten tarol 1-1 szamot, Q4-nel (amit az OP altal linkelt cikkben futtattak a 2k$-os gepen) pedig 4 bites pontossagu. eredetileg 16 biten (float16 / bfloat / halffloat) szoktak tanitani (regebben 32-n) ezeket, es a llama.cpp kezdte el ezt a lebutitosdit hogy eros cpu-s de keves ramos vasakon (pl. apple M1) is fusson. nyilvan a minoseg rovasara, azt mondjak ugy Q5-ig nem veszes az alatt romlik drasztikusan le. a deepseek Q8-as eredetileg azt hiszem, tehat mar eleve butitott amit letolthetsz.

mondjuk en mar legalabb 10 evvel ezelott olvastam tanulmanyt rola, hogy valoszinuleg 1 bit is eleg lenne, mivel az emberi agyban sincs sokbites pontossag, a neuronok vagy kapcsolodnak vagy nem. es a manapsag hasznalt transformer model mar nagyon hasonlit az agy felepitesere.