kösz, majd megnézem.
addigis implementáltam az ékezet kódolást bitekben :) aeiou karakterek esetén 1 vagy 2 bitben tárolja, hogy milyen ékezet kell rá, max 14 bit terjedelemben. ha ebbe nem fér bele, vagy más fajta ékezet/karakter is van benne akkor marad a sima utf8 string. de a szótár 99%-a belefér ebbe, és így 41 megáról 16-ra csökkent a fileméret! :)
(és vszínű még tovább csökkenthető, mert a gyakori blokkméreteket újra kell számolni, vszínű változott, meg lehet a subtree méret korlátból sem a 12 már az optimális...)
ha nem fix 14 biten (a 2 flaggal együtt 2 byteban), hanem 5 vagy 13 biten (1 bit jelzi melyik) tárolom, akkor még 1 megával csökkenthető, de az eléggé elbonyolítja a keresést is, annyit nem ér...