Probléma az alábbi. Vannak zenék, mindenféle ID3 tag-ekkel. Jó volna ezeket kijavítani, s mindet UTF-8-ra hozni. Hogyan?
Nem az iconv-ot érzem hatalmas kihívásnak, inkább az a gond, hogy a forrás kódolása ismeretlen. Tehát valamiből kellene megsejteni, hogy az éppen milyen kódolású, s abból mindenképpen UTF-8-at csinálni.
Arra gondoltam, hogy a lehetséges konverziókat megpróbálom, s a hibásakat eldobom. Jó, de mi van azzal az esettel, amikor a konverzió lehetséges, csak zagyvaság lesz belőle?
Nagyjából bash, sed, awk vonalon várok ötleteket. Persze kész megoldás is jó.
- 2433 megtekintés
Hozzászólások
Ha bash, akkor esetleg az enca/enconv nem lehet megoldás? Persze gőzöm sincs, hogy a tag-eket hogyan eteted meg a programmal...
Én lehet inkább valami zenelejátszót használnék a célra (banshee, rhytmbox stb), esetleg okos plugin-nal.
- A hozzászóláshoz be kell jelentkezni
Igazából nem az eszköz az érdekes, hanem az algoritmus. Eszköznek ott van az id3v2 nevezetű is, összehozva például az iconv-val.
Egyszerű lenne, ha pl. iso8859-2 --> utf8 lenne a feladat. A gond az, hogy vegyes az input, tehát szinte bármilyen disznóság előfordulhat a bemeneten, s egységesen utf8 kimenet volna jó.
Megelégeltem, hogy kérdőjeleket, egy ékezetes karakter helyett két szörnyűséget látok, stb. A legszebb, amikor multibyte karakter szerepel valahol, utf8 lenne az, de útközben iso8859-1 lett belőle, s így szétesett az egész.
Ha nem lennék olyan lusta, mint amilyen vagyok, sok kísérletezés, küzdelem árán szerintem ki tudnék rá találni valamit - pl. az eredmény értékkészletét ellenőrizni, s a nem reális karakter esetén azt mondani, nem ez volt a megfelelő átkódolás -, ugyanakkor reméltem, hátha van valakinek erre frappáns ötlete.
tr [:lower:] [:upper:] <<<locsemege
LOCSEMEGE
- A hozzászóláshoz be kell jelentkezni
Most olvasom az enca manuálját. Köszönöm, jó ötlet, nem ismertem ezt a parancsot. Tanulmányozom még. :)
tr [:lower:] [:upper:] <<<locsemege
LOCSEMEGE
- A hozzászóláshoz be kell jelentkezni
Összedobtam egy shell scriptet, szemre egész jó eredményt adott. Nagyjából ott nem tudott konvertálni csak, ahol egy-két ékezetes betűből kellett volna kitalálnia, mi az aktuális karakterkódolás.
Jó lesz ez az enca, úgy látom.
tr [:lower:] [:upper:] <<<locsemege
LOCSEMEGE
- A hozzászóláshoz be kell jelentkezni
Nekem is vannak ilyen nyugos cuccaim, nem akarod megnyitni a forrast? :-)
--
Ki oda vagyik, hol szall a galamb, elszalasztja a kincset itt alant. | Gentoo Portal
- A hozzászóláshoz be kell jelentkezni
Egyelőre feladtam, mert lusta vagyok, valamint úgy tűnik, az mpd mintha ignorálná a karakterkódolás beállítását. Lényegében eljutottam addig, hogy a program azt csinálja, amit szerettem volna, viszont rájöttem, azzal nem vagyok előrébb, amit akartam. :)
tr [:lower:] [:upper:] <<<locsemege
LOCSEMEGE
- A hozzászóláshoz be kell jelentkezni