Gyors logaritmus fixpontos aritmetikával

Sziasztok!

Egész számoknak keresem a logaritmusát és mivel kernelben működne a program ezért nem használhatok lebegőpontos számokat. Van pl. egy 1 és 100e9 közötti tartomány, ezt szeretném logaritmussal leképezni egy kettő hatvány méretű területre. Teszem azt 10 bitem van, legnagyobb értékem az 1024, ez lenne a 100e9 és a hozzá közel eső számok. Az ehhez tartozó logaritmus a 1.025 alapú, mert ha x^1024 = 100e9 akkor x ~ 1.025. Mivel x bármilyen értéket felvehet 1 és 100e9 között én az ehhez legközelebbi logaritmus értéket keresem.

A jelenlegi megoldásom úgy néz ki, hogy előre kigenerálom az értékeket egy táblázatba, az első ezer számra ez így néz ki:
x : log_1.025(x)
1 : 0
2 : 28
3 : 44
4 : 56
....
912-934: 276
935-957: 277
958-981: 278
982-1000: 279

És ebben a táblázatban max 10 lépésben csinálok bináris keresést x-re és a kapott index lesz a logaritmus.

A kérdésem: lehetne-e ezt elegánsabban? Tudnátok-e mondani valami olyan módszert, amivel esetleg megspórolom a táblázatot meg a bináris keresést és képes lennék "egy lépésben" mondani x-hez egy log_1.025(x)-et? Szerencsére minden ismert fordítási időben x-et leszámítva, tehát megvan mi a legkisebb és legnagyobb x, megvan hogy hány bitre kell leképezni és milyen alapú logaritmussal.

Előre is köszönöm az ötleteket.

732 megtekintés

Első megközelítésben a log2, az a bitek száma, amennyin ábrázolod a számodat binárisan, azaz a legbaloldalibb 1-es pozíciója. (A legbaloldalibb 1-es pozíciójára egyes processzorokon van 1 lépéses művelet is, de nem bonyolult ciklussal sem megcsinálni. Sok bites ábrázolás esetén ezt a keresést is meg lehet csinálni felezgetősre, hogy ne kelljen pl 64-szer iterálni 64 bites számokra.)

Ezután normalizálod a számod ábrázolását (az eredeti szám osztása elméletileg, de megvalósításban csak shiftelés, az osztás, az logaritmusban nézve kivonás ugye) mondjuk fix pontos ábrázolásban az 1-2 tartományra, és ezen belül szerintem már táblázatot kell használni, jobb ötletem nincsen. Az első bited mindig 1, az ez után jövőkből szintén bitműveletekkel lehet csinálni egy kereső-indexként használható számot (shift+maszkolás és művelettel) a táblázathoz.

A táblázatban a logaritmus értékeket fix pontos ábrázolásban tárolod, és a logaritmus értéknek a kettedes pont utáni része lesz az, ami a táblázatból jön.

(Mivel a log2(x) függvény értékeit keressük, ennek a függvénynek pedig az 1-2 szakaszon nem túlságosan változik a meredeksége, ezért a táblázatos lekérdezése az értéknek kellően pontos tud lenni. Lehet becsülni, hogy mennyit fogsz tévedni, és a kívánt pontosság szerinti bit számot lehet alkalmazni a táblázat címzésére. Emiatt, hogy ezen a szakaszon nem változik nagyon a meredekség, emiatt lehet kispórolni a bináris keresést szerintem.)

(fix pontos ábrázolás: sima int-ben van a számod, amibe oda képzelsz egy kettedes pontot valahova, mindjuk a 8. bitre. Ekkor minden számot úgy kell érteni, x/256 van a változóban, nem x. De ezt csak te tudod, a program sima int-ekkel számol.)

Ami kijött a táblázatból ahhoz hozzáadod az eredeti becslést (megint csak shift művelettel a helyére tolva a fix pontos ábrázolásban), ami a logartimus kettedes pont előtti része ugye (a logaritmusban hozzáadás, az ugye az eredetiben szorzás) és kész vagy.

Egy nagyságrendileg 1024 elemű táblázat elfér RAM-ban ha nem mikrovezérlőről beszélünk, én így csinálnám.

2 szavazat

A hozzászóláshoz be kell jelentkezni

Valahogy igy, igen:

- megnezed hol van a legelso 1-es bit

- betolod az egeszet ugy hogy az 1-es bit legyen legfelul

- veszed a folso N darab bitet, es azt indexnek hasznalod egy tablazathoz

- opcionalisan az alsobb biteket meg extrapolaciohoz sulyfaktornak hasznalod

1 szavazat

A hozzászóláshoz be kell jelentkezni

Köszönöm, hogy összefoglaltad elsőre nem esett le de most már értem. Ez tök jól néz ki, igazából memória van, ez egyszer lesz csak benne globálisan a memóriában akkor sincs baj ha monduk pár megabájtra meghízik (sebesség kevésbé fontos nekem most, mint a pontosság). És asch-nak is köszönöm a részletes leírást, alapvetően jónak tűnik ez az algoritmus, talán optimalizáltabb is mint amire szükségem van :-)

0 szavazat

A hozzászóláshoz be kell jelentkezni

A 100e9 az 1e9-et jelent, vagy 1e11-et? Az előbbi 30 biten, az utóbbi 37 biten fér el, tehát 20 illetve 27 bites jobbraléptetés jutna eszembe először.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Sajnos ez elég drasztikus :-( Jobbraléptetve esetleg valami tábla indexeléséhez rendben lenne, de amire nekem kell már pontatlan.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ha van 1024 lehetőséged a logaritmusra, akkor ennyiszer 5 byteban elfér a hozzá tartozó 0...100e9 döntés határ érték.
Ebben 10 lépéses bináris keresésből megvagy, hogy melyik értéknek van éppen alatta, azaz mely logaritmusérték kell neked.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ja rendben akkor félreértettem amit írt.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Így visszaolvasva ez a hozzászólásom hülyeségnek tűnik: ez nem logaritmus, csak osztás. Bocs'

0 szavazat

A hozzászóláshoz be kell jelentkezni

A log(1+x) sorfejtese egyszeru, es ha megvan a tablazat egy y ertekre, akkor a log(y+x)=log(y)+log(1+x/y) -t erdemes szamolni. Ha ketto hatvany az y, akkor az osztas is egyszeru.

log(1+x) = x -x*x/2+ x*x*x/3 ... -(-x)^n /n

3 szavazat

A hozzászóláshoz be kell jelentkezni

Ennek utána fogok nézni, szerintem valamilyen formában felhasználható ez a sorbafejtés is.

0 szavazat

A hozzászóláshoz be kell jelentkezni

A log(y) rész miatt ha van pár log(y) értéked, akkor log(2^n * y)=n*log(2)+log(y) is egyszerű. Persze kérdés, hogy a táblázatos keresés vagy a számolás az optimálisabb.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Van pl. libfixmath, de biztos van direkt mikrokontrollerre is valami. Nem biztos, hogy érdemes megírni, numerikus algoritmusokat elég régóta fejlesztenek. De van https://github.com/Pharap/FixedPointsArduino is.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Szerencsére ez nem mikrokontroller, rendes PC csak nem lehet lebegőpontos számokat használni. De igen, alapvetően ezért is írtam ide, mert reméltem hogy vannak erre civilizált megoldások viszont a libfixmath-ben én nem látok csak egy log2 függvényt ami alapból is van a kernelben.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ez jo, mert pl. egy 8 bites Arduinonak nem okoz gondot a 32 bites float. Lehet, hogy nem lesz olyan gyors, mint a hardware-es, de a fordito osszerakja minden problema nelkul. Persze azt te tudod, mennyire szamit neked a sebesseg. (logaritmus mondjuk pont nincs benne alapbol, hatvany, szogfuggvenyek es hasonlok vannak)

Amugy ugy emlekszem, az AGC is Taylor-sorral szamolta ezeket, szoval az eleg lehet neked is.

A strange game. The only winning move is not to play. How about a nice game of chess?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Az analóg világnak főleg nem okozott problémát a logaritmus: https://www.circuitlab.com/circuit/69z2mj/screenshot/540x405/
(Fele tranzisztor elég, ha csak például a pozitív irányban kell.)

1 szavazat

A hozzászóláshoz be kell jelentkezni

Nem Taylor sor, van gyorsabb is:

float _fast_log2(const float val) {
    float mp = 0.346607f; 
    float result = (float)*((int*)&val); 
    result *= 1.0/(1<<23); 
    result = result - 127;   
    float tmp = result - floorf(result); 
    tmp = (tmp - tmp*tmp) * mp; 
    return tmp + result;
}

Másik logaritmus alapra áttérés: az eredményt egyszerűen szorozd meg float-os konstanssal.

1 szavazat

A hozzászóláshoz be kell jelentkezni

Ez mintha a float definiciojat hasznalna ki, mint a quake gyors 1/sqrt-je. A kitevot kinyeri az utolso nehany bitbol, es az egesz resz logaritmusanak hasznalja. A maradek reszre pedig kvadratikusan kozelit. A tmp-tmp*tmp masodfoiug epp az ln(1+tmp) Taylor sora. Ez van leosztva ln(2)/2-vel, hogy a log_2(1+tmp)-t kozelitse.

0 szavazat

A hozzászóláshoz be kell jelentkezni

És azt is vegyük észre, hogy itt a Taylor sor költséges osztásai elmaradnak.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Régen minden jobb volt :-)
https://www.youtube.com/watch?v=cGKWbt5F_2I

0 szavazat

A hozzászóláshoz be kell jelentkezni

Lehet hogy én nem értek valamit, de ha van a kernelben log2, akkor miért nem használod azt?

log_n(x) = log2(x) / log2(n)

Debian - The "What?!" starts not!
http://nyizsa.blogspot.com

0 szavazat

A hozzászóláshoz be kell jelentkezni

egesz számokkal nem biztos hogy elég pontos. Mármint ha a log2 egész számot ad vissza.

“Any book worth banning is a book worth reading.”

1 szavazat

A hozzászóláshoz be kell jelentkezni

A kernelben miért ne lehetne lebegőpontos számokat használni?

1 szavazat

A hozzászóláshoz be kell jelentkezni

Pontosítok: eBPF nem támogatja, nem a kernel. Amihez kell ez az egész az eBPF-ben lesz megcsinálva és az sokkal kötöttebb mint a userspace és valamennyivel kötöttebb mint a kernel, pl. lebegőpontos számokat még trükközéssel sem támogat.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Mennyire titkos a project, hogy mit csinalsz? Lehet, hogy mar korabban letertel a helyes utrol.

A strange game. The only winning move is not to play. How about a nice game of chess?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nem titkos, egy korábban publikált algoritmusunkat próbálom könnyen használható formára hozni hogy bárki akit érdekel ki tudja próbálni egy laptopon vagy több fizikai/virtuális géppel is. Egyik komponense egy linux Qdisc, ez elég egyszerű, a másik komponens egy csomag jelölő, ami a kérdésemben részletezett módon fogja és a sebességet leképezi értékekre amit berak a csomagok fejlécébe. Ennek van egy DPDK-ban működő verziója, ott lehet lebegőpontos számokat is használni, de sajnos sok más felesleges dolog is van benne és belsős céges kód.

Először AF_XDP-vel kezdtem el a mostanit, hasonló a DPDK-hoz. Viszont ez macerás volt, a kód 95%a boilerplate, ráadásul vagy támogatja a kernel/hálókártya a zero-copy-t vagy nem így szűkül a kompatibilis környezetek tere. A linux tc eBPF része pedig jó ideje stabil, meg szerintem elegáns is itt csomagokat markolni anélkül hogy járatnád a csomagot kernel és userspace között. Ami miatt ez jó még, hogy vannak mapek, amiket pl. bpftool-al akár bash command lineból fel tudsz tölteni. Egy ilyen map-et lát a userspace és a kernel spaceben futó eBPF progi is így ha én hirtelen váltanék a csomag-markolási stratégia között, akkor kényelmesen beállítom másra az 1024 értéket, lockolás, kommunikáció stb. kódolásával nem kell foglalkozni meg aki esetleg letölti a kódom annak lesz esélye a boilerplate között látni valamit a működésből.

Elvileg van még nfqueue, meg AF_PACKET de ezeknek szintén vannak performancia a problémák, ami ha valaki laptopon namespacek között futtatja a kódot akkor nem feltétlen gond, de ha fizikai gépek között ott már lehetnek bajok vele. Ráadásul mindkettő elég régi API, és felesleges oda-vissza másolást csinálnak.

Bármi egyéb ötletre nyitott vagyok, de beüzemelési komplexitásnak egy sudo apt install, make, meg 3-4 parancs amit el tudok képzelni. Efölött olyanokat riaszthat el akik nem értenek a linuxhoz de magát a kódot kipróbálnák. Sajnos más alternatív userpsace stackek beüzemelése nem egyszerű, már egy DPDK-é sem feltétlen az.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Hmm. Értem. Köszi.

0 szavazat

A hozzászóláshoz be kell jelentkezni

L. lent. De mielőtt elolvasod, érdekes átgondolni, hogy szerinted mi lehetne az akadálya, jó tanulás.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Csak mert előjött: Linux kernel alatt nem igazán megengedett a lebegőpontos aritmerika használata, a leggyakoribb ok, amit felhoznak, az az, hogy az FPU kontextusának mentése költséges feladat, nem akarjuk minden rendszerhívásnál megtenni, bőven elég task váltásakor. Meg lehet csinálni (emlékeim szerint valamelyik digital rendering driver csinál ilyet), de okkal ritka.

A sokadik driverem megírását magam mögött tudva (disclaimer: kb. 2009 óta csinálom, ma ebből élek, volt minden, ha van érdeklődés rá, talán blogolhatnék róla) az a tapasztalatom, hogy a kernelen belül kábé minden utility függvényre van jó (értsd: használható, általában használt, "elég gyors") implementáció, nem érdemes sajátot behozni. Ha kétségeid vannak a log2 függvénnyel, mérd ki. Integer aritmetikára abszolút igaz.

Egyébként bármi kétség esetén érdemes még egy jó cross referencet megnézni, pl elixir.bootlin.com . Látni fogod, hogyan csinálják mások. Enélkül szerintem ma már nem nagyon lehet könnyen tanulni.

Szerk: https://elixir.bootlin.com/linux/latest/A/ident/double , tényleg GPUnál, de valami BPF sample is van.

1 szavazat

A hozzászóláshoz be kell jelentkezni

Értem, köszönöm az infót, nem tudtam hogy ezért nem preferálják a lebegőpontos számokat.

kábé minden utility függvényre van jó [..] implementáció, nem érdemes sajátot behozni

Nem szeretnék semmiképp sajátot behozni, a log2-vel sincs bajom csak nem elég pontos ahhoz amire nekem kell, ezért indítottam ezt a threadet, hogy mások milyen trükkökkel csinálnak logaritmust egész számokkal (nem feltétlen a kernelben, hanem általában). És jött is szerencsére sok tanács sőt az is kiderült nekem, hogy lehet a log2-t felhasználni mégis a saját problémámhoz. Sajnos ami BPF/XDP sample-k vannak azok minden esetben a user-space kódok, BPF restriktívebb és nem engedi a lebegőpontos aritmetikát. Ettől függetlenül levlistákon volt szó róla, hogy lehetne de a mai napig nem csinálta meg senki.

ha van érdeklődés rá, talán blogolhatnék róla

Azért nagyon hálás lennék! Akkor is ha épp nem tolonganak az emberek, meg fogja találni a közönségét itt (engem mindenképpen).

0 szavazat

A hozzászóláshoz be kell jelentkezni

Az 5 kbyte-os (1024 log érték * 5 byte) táblázat miért nem jó? Ahogy fent írtam, 10 lépésből megtalálod az értékhez tartozó logaritmust, tehát gyors is.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Teljesen jó, nem mondtam hogy nem, egy másik ötletre céloztam azzal, hogy log2-t is lehet hasznosítani a problémához.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Mondjuk igazad van abban, a shift a logaritmusra jól használható. A [0..1024] értékekkészletért a végén osztunk: (longlong >> 17)/745
Az osztást kerülni akartam, de a konstanssal való osztás valójában trükkösen kiváltható. Lásd 64 bites ARM esetén a GCC által fordított kódot:

mylog_prec:
        mov     x1, 31405
        lsr     x0, x0, 17
        movk    x1, 0xdae3, lsl 16
        movk    x1, 0x818b, lsl 32
        movk    x1, 0xafef, lsl 48
        umulh   x0, x0, x1
        ubfx    x0, x0, 9, 32
        ret

Tehát végülis ez lesz a jó megoldás.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Elég durva, hogy ennyire ügyes a GCC

0 szavazat

A hozzászóláshoz be kell jelentkezni

További optimalizáció, amely főként 32 bites rendszeren sokat segít. A fenti kódrészt 32 bitre lefordítva látszik a rondaság:

mylog_prec:
        lsrs    r0, r0, #17
        movw    r2, #745
        push    {r3, lr}
        orr     r0, r0, r1, lsl #15
        movs    r3, #0
        lsrs    r1, r1, #17
        bl      __aeabi_uldivmod(PLT)    ; hoppá
        pop     {r3, pc}

Ezen segíthetünk. Kasztoljuk át osztás előtt integerre az eredményt, hiszen a maximuma bőven belefér ebbe is.
(unsigned int)(longlong >> 17)/745

mylog_prec:
        lsrs    r0, r0, #17
        movw    r3, #57443
        orr     r0, r0, r1, lsl #15
        movt    r3, 11259
        umull   r3, r0, r3, r0
        lsrs    r0, r0, #7
        bx      lr

Egyébként a 64 bites architektúránál is nyerünk ezzel. Vesd össze az előző ARM64 assembly kóddal:

mylog_prec:
        lsr     x0, x0, 17
        mov     w1, 57443
        movk    w1, 0x2bfb, lsl 16
        umull   x0, w0, w1
        lsr     x0, x0, 39
        ret

1 szavazat

A hozzászóláshoz be kell jelentkezni

Friss hozzászólások

https://hup.hu/comment… 2025-09-17T17:03:19+0200
Igen, bar a vita nem onnan… 2025-09-17T17:02:50+0200
Magad hoztál egy tesztet,… 2025-09-17T17:02:41+0200
Az elmaradt cáfolat tényéből… 2025-09-17T17:00:48+0200
Ez a vergodes csak egyre… 2025-09-17T17:00:10+0200
Nem maradt ki egy videó?… 2025-09-17T16:59:30+0200
Ez a vergodes csak egyre… 2025-09-17T16:58:34+0200
Hír: Fletó félrekúrt erősen… 2025-09-17T16:58:08+0200
Ha a mostaniak is csak… 2025-09-17T17:01:32+0200
Undooorító 2025-09-17T16:57:02+0200

Gyors logaritmus fixpontos aritmetikával

Hozzászólások