A fenti oldal valóban UTF-8 kódolással jön le (Content-Type:text/html;charset=UTF-8), azaz a böngészőnek UTF-8-ként kellene értelmeznie, azonban a bytesorozat, amit tartalmaz, az nem UTF-8.
Maga az URL az percent-encoded, a link content azonban nem, és nem UTF-8.
Ezeket a byte-okat tartalmazza a file neve (a href-ben percent encode-olva): 0xE9 0xE1 0xF5 0xFA stb.
Nos, ezek így nem valid UTF-8 karakterek, így az egész URL valójában invalid.
Egy UTF-8 decoderen átfuttatva a 0xE9 0xE1 0xF5 0xFA karaktersorozatot:
Byte number 1 is decimal 233, hex 0xE9, octal \351, binary 11101001
This is the first byte of a 3 byte sequence.
Byte number 2 is decimal 225, hex 0xE1, octal \341, binary 11100001
Previous UTF-8 multibyte sequence incomplete, earlier bytes dropped.
This is the first byte of a 3 byte sequence.
Byte number 3 is decimal 245, hex 0xF5, octal \365, binary 11110101
Previous UTF-8 multibyte sequence incomplete, earlier bytes dropped.
This is the first byte of a 4 byte sequence.
Byte number 4 is decimal 250, hex 0xFA, octal \372, binary 11111010
Previous UTF-8 multibyte sequence incomplete, earlier bytes dropped.
This is the first byte of a 5 byte sequence.
End of file during multibyte sequence, some bytes dropped
Szépen látszik, hogy ez egy totálisan invalid bytesorozat, amit nem lehet UTF-8-ként értelmezni.
Nem véletlen, hogy a Chrome 6 darab "Unicode replacement mark" karaktert (Unicode U+FFFD karakter) jelenít meg. Nem tudja értelmezni (helyesen), hogy mit akar az a bytesorozat ott jelenteni. Invalid UTF-8.
Update: ha elmentem a file-t wget-tel, akkor letöltődik, de a Gnome alatt invalid encodingot jelez a file nevének, 6 db replacement mark karakterrel. És igen, a GLib UTF-8-ként értelmezi a fileneveket.
Itt bizony el van rontva a filenév encoding-od.
Ugyanis nem minden karaktersorozat Latin2-es bytesorozata értelmezhető UTF-8 bytesorozatként. A hiba igazából nem a Chrome-ban van, csak a többi browser a fejlesztő trehányságát megpróbálja orvosolni.