Hát, réginek régi vagyok, a basic után az asm volt a második nyelvem, és már azt sem értettem, hogy mire fel képes egy rojtos shell két megabyte-ot felzabálni, amikor ugye 64k-ban csodákat lehetett művelni :).
Viszont amikor azt látom, hogy bármi épeszű funkcionalitáshoz vagy fél giga ram kell a gépbe, vagy kávéfőző a várakozások áthidalásához, akkor hajlok arra, hogy vigye ürdöng, kelljen bele 768M, de akkor végre felejtsük el a változó hosszúságú kódokat.
Határozottan frusztráló érzés egy utf8-as szövegben pl. az n. karakterre lépést leprogramozni: csak lineárisan végiglépkedve lehetséges. Aztán a 'vissza 42-vel'-nél ugyanez egy hatos vissza-tekintő automatával... Szóval Romhányi szavaival élve: "önmagánál rútabb, olyannyira ronda".
Anno egyszer kellett írni egy (részleges) regex illesztőt, ami nem ragadt le a 8bites asciinél - hát utf8-ban elkezdtem, aztán az oda-vissza lépkedés kapcsán azt mondtam, hogy fenét, tessék beolvasáskor ucs4-re alakítani, és onnantól fog működni :).
Más.
Mivel vannak itt hozzáértők is, megkérdezném, hogy a karakterábrázolás mellett a rendezéssel most hogy áll a tudomány? Tehát pl. van-e mód arra, hogy a "csokoládé" a "cukor" utánra kerüljön ("c" < "cs")? Bár mondjuk az "sz" és "zs" tokenizálása még mindig megoldatlan marad ("egészséges liszteszsák": "sz+s", "s+zs"), úgyhogy erre megoldást talán csak az összetett betűink egy-egy kóddal való jelölése adhatna. Hmm.
Szerk.: Az utf8 helyett mit szólnátok egy ucs4+gzip kombinációhoz :)? Tömör is, meg könnyen elemezhető is :).