( arpi_esp | 2022. 07. 15., p – 15:14 )

kösz, majd megnézem.

addigis implementáltam az ékezet kódolást bitekben :)  aeiou karakterek esetén 1 vagy 2 bitben tárolja, hogy milyen ékezet kell rá, max 14 bit terjedelemben. ha ebbe nem fér bele, vagy más fajta ékezet/karakter is van benne akkor marad a sima utf8 string. de a szótár 99%-a belefér ebbe, és így 41 megáról 16-ra csökkent a fileméret! :)

(és vszínű még tovább csökkenthető, mert a gyakori blokkméreteket újra kell számolni, vszínű változott, meg lehet a subtree méret korlátból sem a 12 már az optimális...)

ha nem fix 14 biten (a 2 flaggal együtt 2 byteban), hanem 5 vagy 13 biten (1 bit jelzi melyik) tárolom, akkor még 1 megával csökkenthető, de az eléggé elbonyolítja a keresést is, annyit nem ér...