hu_HU.UTF-8 és a sed esete

Szkriptek: Python, Perl, Bash, ...

Egy stringből szeretném likvidálni a "nem valamilyen" betűket sed-del (4.1.5), ez jó is: $ echo valami | sed 's/[^ai]/X/g' --> XaXaXi
Azonban a magyar kettős betűket érdekesen (egyben) kezeli (sz, gy, ...)$ echo sz | LC_ALL=hu_HU.UTF-8 sed 's/[^s]/X/g' --> X $ echo sz | LC_ALL=en_US.UTF-8 sed 's/[^s]/X/g' --> sX
Azon kívül, hogy az LC_ALL-t átállítom, van-e mód arra hogy külön kezelje a betűket?
... azért is zavar, mert nem egységes, így akár a grep is mondhatná, hogy$ echo esze | grep e.e --> esze

szaszi

1396 megtekintés

OT
Hát ha engem kérdezel, a módszer a következő - előveszed a rendszered (mondjuk nem volna baj, ha jeleznél valami oprendszer és sed verziót) nyelvi leírófájlját, és egy baltával felhasogatod, ugyanis ez az én értelmezésemben egyszerű, közönséges hiba, ugyanis valamiért azt kódolták le a magyar nyelvről, hogy az "s" meg az "sz" ugyanaz a bötű (és persze ha hasonlóan vélekedik pl. a "t" és "ty" esetén, akkor legalább konzekvensen csináltak hülyeséget).
Olyasmit már hallottam (és még értelme is lehet), hogy "egynek" tekintjük az "a" meg az "á" (meg esetleg umlaut-a, francia-ékezetes-a, stb) betűket (pl. rendezésnél: LC_COLLATE, vagy éppen tipusok meghatározásánál: LC_CTYPE), de ez itt azért durva.

Szóval ha időd/kedved van, akkor azért végigjárhatnád és leírhatnád a kevésbé triviális kettős/hármas magánhangzóknál is (ly, cs, dz vagy dzs) - én a fenti példánál maradva, égek a vágytól, hogy lássam miként reagál a z/zs, c/cs, t/ty esetben.

(szerk: persze nem magán-, hanem mássalhangzóra gondoltam.)

0 szavazat

A hozzászóláshoz be kell jelentkezni

hu_HU.UTF-8 és a sed esete

Hozzászólások