shift-jis -> utf-8 konvertió

feljegyzés magamnak:

Az Aozora Bunkoról letöltött (esetleg más forrásból beszerzett) japán nyelvű szöveges fájlok jellemzően Shift-JIS kódolásúak, ami kényelmetlen. Az alábbi paranccsal lehet őket a sokkal kulturáltabb UTF-8-cá alakítani:

perl -MEncode=from_to -pe'from_to($_,"shift-jis","utf-8")' eredeti.txt > javitott.txt

Ízlés szerint a -i kapcsoló is használható, ha nincs szükség az eredeti fájlra.

Lenne még ugye az iconv ugyanerre a célra, de az nagyon finnyás: az első, szerinte nem legális karakterre abbahagyja a konverziót.

Ha a fájlnevekkel is probléma van (ami elő szokott fordulni, ha egy zipből kerül elő a szöveges fájl), arra pedig a legkényelmesebb a convmv.

Hozzászólások

recode
jó még

--
Live free, or I f'ing kill you.

Jó az iconv, a probléma hogy shift-jis nem egyenlő sjis-win (cp932), próbáld meg azzal, viszi a maradék karaktert is. :)

Ziphez pedig ez a script eddig minden esetben bevált:
#!/bin/bash
env LANG=C LC_ALL=C 7z x -o"${@/.zip/}" "$@"
convmv -r -f cp932 -t utf8 --notest "${@/.zip/}"