PHP charset not supported

Internet: PHP, CGI, stb.

7-es PHP-t fordítok, ami szépen működik, de pl a htmlentities() parancs esetén, ha a paraméter egy ISO-8859-2 kódolású string, a következő hibaüzenetet adja:


PHP Warning:  htmlentities(): charset `ISO-8859-2' not supported, assuming utf-8

Ilyenkor egy üres stringet ad eredményül, ami elég kellemetlen, ha például e-mail fejléceket akarok dekódolni, ahol sokféle karakterkészlettel is érkezhetnek levelek.
Nem segít a "default_charset" ini állítása sem.
Több általam fordított PHP verzióval is teszteltem, a jelenség ugyanaz, de a Debian gyári 7.0-ás PHP-ja is ugyanezt az eredményt adja.
Hogyan tudom úgy lefordítani a PHP-t, hogy kezelje az ISO-8859-2, windows-1250 és egyéb gyakori karakterkészleteket is? Vagy milyen csomag telepítésére lehet szükség, hogy jól működjenek ezek a karakterek PHP alól?

791 megtekintés

./configure --with-iconv=/usr/local|grep iconv

???

-------------------------
Hivatásos pitiáner
neut @

0 szavazat

A hozzászóláshoz be kell jelentkezni

A phpinfo() szerint: "iconv support enabled".

0 szavazat

A hozzászóláshoz be kell jelentkezni

https://www.php.net/htmlentities, Supported charsets szekcio

0 szavazat

A hozzászóláshoz be kell jelentkezni

Elsokent iconvval atalakitod utf-8-ba, utana mar fut rajta a htmlentities.

--
When you tear out a man's tongue, you are not proving him a liar, you're only telling the world that you fear what he might say. -George R.R. Martin

0 szavazat

A hozzászóláshoz be kell jelentkezni

Az a baj, hogy a squirrelmail és egyéb kész webalkalmazások dobják a hibákat. A squirrelmail emiatt nem mutatja a header információkat néhány esetben. Jelenleg ugyan belenyúltam a squirrelmail forrásába, de csak csúnyán, és nem gondolom, hogy ez lenne a jó út.

0 szavazat

A hozzászóláshoz be kell jelentkezni

azert a squirrelmaillel mar tul sok terved ne legyen a jovoben szerintem.....

1 szavazat

A hozzászóláshoz be kell jelentkezni

Nincs, de még használják sajnos sokan. Azonban ennek apropóján mégiscsak jó lenne, ha a PHP teljesértékűen tudna működni.

0 szavazat

A hozzászóláshoz be kell jelentkezni

A PHP teljes értékűen működik szinte tuti biztos.. Az hogy a ~2000 éves alkalmazások nem mennek mondjuk egy 7-es PHP-val problémamentesen.. az nem a PHP problémája .. hanem az alkalmazásé

0 szavazat

A hozzászóláshoz be kell jelentkezni

sose értettem meg miért küzd még mindig valaki squirrelel.. Roundcube azt csókolom.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Főleg annak tekintetében, hogy semmivel se bonyolultabb egy RC-t belőni mint egy SM-t.

1904.04.08.
RIP Jákub.
neut @

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ez nagyon szép, de mi a fészkes fenét csináljak, ha az adatbázisban iso8859-2 karakterek tömkelege van? Az azért elég ezoterikus megoldás lenne, hogy befelé convert, kifelé convert... Bár, ha nincs más...

(merthogy a htmlentities nem ismeri a ...-2-t, csak az ...-1-et)

Registered Linux user #46079

0 szavazat

A hozzászóláshoz be kell jelentkezni

Az adatbázist teljesen te kontrollálod? Ha igen, akkor két lépés kell neked:

Az adatbázis tartalmát ISO 8859-2-ről átalakítod Unicode-dá, UTF-8 kódolással.
Az adatbáziskapcsolatot átparaméterezed, hogy UTF-8 kódolást használjon.

Ha ezt nem teheted meg, és az adatbázisnak kötelezően ISO 8859-2-ben kell lennie, akkor nincs más, mint az ide-oda konverzió, bizony.

Ja, és ezért nem használunk PHP-t. :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Mitől ezoterikus egy iconv? Ráadásul a htmlentities helyett, ha jól értem, mivel arra már nem lesz szükség.

A "befelé convert, kifelé convert" részt sem egészen értem; mármint, az iconv tudja mindkét irányt, de a htmlentities csak az egyiket, szóval ha befelé is kell tolni az adatbázisba, ismételten az iconv-ot keresed, és nem a htmlentities-t.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ezzel azert vigyazva!

En mondjuk nem szeretnem, ha a < megmaradna, es a htmlentities nelkul bennmaradna.. <, aztan ennyi..

Es a tobbi foglalt html/xml karakterrel ugyanigy.

A strange game. The only winning move is not to play. How about a nice game of chess?

0 szavazat

A hozzászóláshoz be kell jelentkezni

Jogos a megjegyzés. Ésszel kell, attól függően, hogy hova megy az adat.

0 szavazat

A hozzászóláshoz be kell jelentkezni

A probléma nem PHP függő. Magát az adatbázist egy olyan őskori alkalmazás használja, ami nem ismeri az UTF8-at. Hiába jelent meg újabb változat, ezzel nem foglalkoztak. Így aztán marad az oda-vissza. Még az lehet egy megoldás, ha java applet-twel kísérletezünk...

Registered Linux user #46079

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ha ez az adatbázisos posztra ment, akkor ok, de nálam semmi adatbázis nincs. E-mail header-ek konverziója során jön elő a hiba. Úgy tűnik, ez mégis PHP függő.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Milyen kódolásúak a fejlécek?

0 szavazat

A hozzászóláshoz be kell jelentkezni

ISO-8859-2 volt konkrétan, ahol belefutottam a hibába, de úgy látom, a windows-1250-et sem tudja. Ellenben ISO-8859-1 az megy neki.

0 szavazat

A hozzászóláshoz be kell jelentkezni

A htmlentititiesnek igen.

A legjobban azt teszed, ha szöveggel akarsz dolgozni, hogy minden bejövő információt Unicode-ra kódolsz, mondjuk UTF-8-cal (Unicode-ban mindegyik ISO 8859-* karaktert reprezentálni lehet, az UTF-8 meg át tudja alakítani neked bytesorozattá), azon dolgozol, majd ha szükséges, az outputra küldöd azzal a kódolással, amivel kell.
Például ha ez egy szűrő, akkor az eredeti bejövő kódolással.

Az más kérdés, hogy fel tudod-e mindig jól ismerni, hogy mi a karakterkészlete és kódolása a bejövő adatnak. Főleg úgy, ha nincs metaadatod róla.

Az e-mail fejlécek világa kicsit érdekes, ugyanis:

Alapesetben az e-mail 7-bites ASCII karakterkészletet és kódolást használ.
A MIME (pontosabban annak az RFC 2047-ben definiált része) megengedi, hogy olyan olyan karakterkészletet használj, ami identikus leképezéssel 8 bitre kódol minden karaktert. Ilyenből persze sok van, az ISO 8859-es szabványsorozat ilyen, a Windows 1250-1258-as sorozat stb. Szóval itt létezik egy metaadat, hogy milyen karakterkészlet és milyen kódolás van (mivel identikus a leképezés, sokan keverik ezt a két fogalmat).
Az RFC 6532 óta használható az Unicode karakterkészlet UTF-8 kódolása e-mail fejlécben. Ekkor viszont RFC 6531 szerinti SMTPUTF8 kiterjesztést kell támogatnia a mail szervernek. A fejlécek nevei továbbra is csak az ASCII karakterkészletből kerülhetnek ki, de a fejlécek tartalma lehet UTF-8 kódolt Unicode karaktersorozat. Viszont ezt akkor tudod csak felismerni, ha tudod valahogy az üzenet MIME típusát, ennek message/globalnak kell lennie. Magában az üzenetben sehol nincs metaadat arról, hogy UTF-8-at tartalmazna, azt a kliens a MAIL parancs elküldésekor jelzi a szervernek, hogy SMPTUTF8 extensiont használ.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Persze. A befelé-kifelé azt takarja, hogy az adatbázisban latin-2 karakteres szavak vannak, a képernyőn viszont már utf-8-nak kell megjelennie.

Ettől ezoterikus :-)

Registered Linux user #46079

0 szavazat

A hozzászóláshoz be kell jelentkezni

A PHP semmilyen verziója sem támogatja az ISO-8859-2 -et [ebben a kontextusban]; `htmlentities` helyett a `htmlspecialchars` ajánlatos, ISO-8859-1 paraméterrel. (Ami valójában csak annyit jelent, hogy 'a senki által sem kért, bosszantásképpen belerakott utf8-validság-ellenőrzést ne csináld'.)

Szerk.: ezt pedig érdemes lenne nemcsak elovasni, hanem szóról szóra meg is tanulni: http://lzsiga.users.sourceforge.net/ekezet.html

1 szavazat