llama.cpp kérdések
Kb. négy hónap után fordítottam egy új llama.cpp, meglepődve tapasztaltam, hogy teljesen megváltozott az indulási log. A '--verbosity 3'-al majdnem olyan lett mint régen, de számomra most a legfontosabb dolog, a 'system_info:' nem jelent meg így sem. Valahogyan így nézett ki a régiben:
system_info: n_threads = 16 (n_threads_batch = 16) / 16 | CUDA : ARCHS = 860 | USE_GRAPHS = 1 | PEER_MAX_BATCH_SIZE = 128 | CPU : SSE3 = 1 | SSSE3 = 1 | AVX = 1 | AVX2 = 1 | F16C = 1 | FMA = 1 | BMI2 = 1 | AVX512 = 1 | LLAMAFILE = 1 | OPENMP = 1 | REPACK = 1 |Van valakinek valamilyen ötlete, hogyan lehet előcsalogatni a 'system_info:'-t?
Le kellene fordítanom tesztelésképpen a llama.cpp-t AVX512 támogatás nélkül. Ezeket a lehetőségeket találtam, de fentiek miatt nem tudom leellenőrzni, hogy tényleg használja e az AVX512-őt:
-DGGML_AVX512=OFF -DCMAKE_CXX_FLAGS=-mno-avx512fÍgy lefordítva a gpt-oss-120b vegyes üzemmódban (RTX3090 + CPU) 18.2 t/s-t produkált, AVX512-vel 20.5 t/s-al megy. Lehet valós ez a 10% csökkenés? Én nagyobb lassulásra gondoltam.
- Tovább (llama.cpp kérdések)
- 595 megtekintés