[SOLVED] UTF-8 hibás karakterek javítása

Linux-haladó

Mit tudok tenni egy történetesen UTF-8 kódolású szövegfájllal, amiben a kétbájtos karakterek két karakterként lettek tárolva. Ez történetesen egy sql dump.

Az iconv-al próbálkoztam, sikertelenül. Ma egész nap szinte erre kerestem a megoldást, de csak olyan konverziót találtam, ami mondjuk latin-1-ből alakít UTF-8-at.

1716 megtekintés

Valami példát mutathatnál, persze nem csak karaktereket, hanem bájtkódokat is.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Az összes ékezetes betű két karakterként jelenik meg. Az iconv nyilván azért nem kezd vele semmit, mert a fájl már UTF-8 kódolású.

Akkor a példa:

Így néz ki: beruhÃ¡zÃ¡sok
Ez hexában:
62 65 72 75 68 C3 83 C2 A1 7A C3 83 C2 A1 73 6F 6B

Ennek kéne lennie:
beruházások
Ugyanez hexában:
62 65 72 75 68 C3 A1 7A C3 A1 73 6F 6B

Na ezt hogy lehet visszaalakítani?

0 szavazat

A hozzászóláshoz be kell jelentkezni

> Na ezt hogy lehet visszaalakítani?

Nekem így sikerült visszaalakítani UTF8-ra:


recode UTF8..Latin1 proba.txt

0 szavazat

A hozzászóláshoz be kell jelentkezni

beruhĂˇzĂˇsok

ez lenne a jó

No rainbow, no sugar

0 szavazat

A hozzászóláshoz be kell jelentkezni

hnnn

nem az a probléma amikor egy duplán van utf8 átalakítás a dumpba?

gyűrű
gyĹ±rĹ±
gyÄąÂ±rÄąÂ±

No rainbow, no sugar

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nekem úgy tűnik, mintha egy sima ASCII dump lenne, de UTF-8 kódolásba lett a fájlba letéve.

0 szavazat

A hozzászóláshoz be kell jelentkezni

én akkor láttam ilyet amikor latin1-es táblába volt utf8 beleszuszogva és onnan készítettek utf8-as dumpot

elvbe ha vissza konvertálod utf8->latin1 akkor jónak/használhatónak kell lenni

No rainbow, no sugar

0 szavazat

A hozzászóláshoz be kell jelentkezni

Latin-1-ben kérdőjeles lesz az összes ékezetes karakter.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Klasszikus eset. Én is jártam már így korábban. Írtam egy php scriptet, ami forrás szótárból cserélgeti a karaktereket. Ha írsz privit, megkapod. :o)

0 szavazat

A hozzászóláshoz be kell jelentkezni

A gentoo wikin találtam rá egészen véletlenül a megoldásra:

http://en.gentoo-wiki.com/wiki/TIP_Convert_latin1_to_UTF-8_in_MySQL

Amellett, hogy a fájl kódolását a megfelelőre kell alakítani, a dumpban jegyzett kódolást is át kell állítani latin1-ről UTF-8-ra.

Üdv' Gyula.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Friss hozzászólások

onpremet adjal te vagy a… 2025-08-09T15:54:13+0200
Már nem.
De szerintem nem… 2025-08-09T15:45:28+0200
1. Én ártatlan vagyok,… 2025-08-09T15:44:43+0200
Itt az eredeti, ott a link… 2025-08-09T15:37:08+0200
Itt a fő probléma az, hogy a… 2025-08-09T15:33:18+0200
Minek onsite support?
… 2025-08-09T15:29:06+0200
Ha a kiírás onsite support… 2025-08-09T15:28:22+0200
Storage-nál tartunk, a… 2025-08-09T15:26:27+0200
viszont a csokkeno… 2025-08-09T15:25:16+0200
Dehogy, amit te csinálsz a… 2025-08-09T15:17:55+0200

[SOLVED] UTF-8 hibás karakterek javítása

Hozzászólások