Mit tudok tenni egy történetesen UTF-8 kódolású szövegfájllal, amiben a kétbájtos karakterek két karakterként lettek tárolva. Ez történetesen egy sql dump.
Az iconv-al próbálkoztam, sikertelenül. Ma egész nap szinte erre kerestem a megoldást, de csak olyan konverziót találtam, ami mondjuk latin-1-ből alakít UTF-8-at.
- 1716 megtekintés
Hozzászólások
Valami példát mutathatnál, persze nem csak karaktereket, hanem bájtkódokat is.
- A hozzászóláshoz be kell jelentkezni
Az összes ékezetes betű két karakterként jelenik meg. Az iconv nyilván azért nem kezd vele semmit, mert a fájl már UTF-8 kódolású.
Akkor a példa:
Így néz ki: beruházások
Ez hexában:
62 65 72 75 68 C3 83 C2 A1 7A C3 83 C2 A1 73 6F 6B
Ennek kéne lennie:
beruházások
Ugyanez hexában:
62 65 72 75 68 C3 A1 7A C3 A1 73 6F 6B
Na ezt hogy lehet visszaalakítani?
- A hozzászóláshoz be kell jelentkezni
> Na ezt hogy lehet visszaalakítani?
Nekem így sikerült visszaalakítani UTF8-ra:
recode UTF8..Latin1 proba.txt
- A hozzászóláshoz be kell jelentkezni
beruházások
ez lenne a jó
No rainbow, no sugar
- A hozzászóláshoz be kell jelentkezni
hnnn
nem az a probléma amikor egy duplán van utf8 átalakítás a dumpba?
pl
gyűrű
gyűrű
gyűrű
No rainbow, no sugar
- A hozzászóláshoz be kell jelentkezni
Nekem úgy tűnik, mintha egy sima ASCII dump lenne, de UTF-8 kódolásba lett a fájlba letéve.
- A hozzászóláshoz be kell jelentkezni
én akkor láttam ilyet amikor latin1-es táblába volt utf8 beleszuszogva és onnan készítettek utf8-as dumpot
elvbe ha vissza konvertálod utf8->latin1 akkor jónak/használhatónak kell lenni
No rainbow, no sugar
- A hozzászóláshoz be kell jelentkezni
Latin-1-ben kérdőjeles lesz az összes ékezetes karakter.
- A hozzászóláshoz be kell jelentkezni
Klasszikus eset. Én is jártam már így korábban. Írtam egy php scriptet, ami forrás szótárból cserélgeti a karaktereket. Ha írsz privit, megkapod. :o)
- A hozzászóláshoz be kell jelentkezni
A gentoo wikin találtam rá egészen véletlenül a megoldásra:
http://en.gentoo-wiki.com/wiki/TIP_Convert_latin1_to_UTF-8_in_MySQL
Amellett, hogy a fájl kódolását a megfelelőre kell alakítani, a dumpban jegyzett kódolást is át kell állítani latin1-ről UTF-8-ra.
Üdv' Gyula.
- A hozzászóláshoz be kell jelentkezni