kifejezetten lokális használatra van pozicionálva
Kiváncsi leszek a lokális használatra, mert szerintem a 20B ami egy "átlag" beszerezhető RTX-en (16-24GB VRAM) egyáltalán szóba jöhet kvantálva 4 bitre és/vagy vLLM-el ... de ha FP16 akkor ez inkább 64-128 GB RAM és valami brutális M-es CPU ha mac, vagy ha nem mac, akkor meg GPU legalább 40 GB VRAM-al ami localhoston nem túl reális, ez inkább távoli bérelt kapacitások / cloud világ.