libxml2 + hibás XHTML

Sziasztok!

Elkezdtem kísérletezni a libxml2 libbel, de megakadtam egy egyszerű problémánál: van egy weboldal (Port.hu TV műsor) :), ami azt mondja magáról, hogy XHTML 1.0 Strict, pedig nem sok köze van hozzá: több hiba is van benne, de odáig el sem jutok az XML parserrel.Nincs prolog a fájl elején, így automatikusan UTF-8 kódolást feltételez, viszont valójában ISO-8859-2 kódolású. Van ugyan egy meta tag, ami ezt megadja, és használja az xml:lang="hu", lang="hu" attribútumokat (vagy hogy hívják) a html tagben, de ez nem elég az XML speckó szerint.

az xmlParseFile() mellett van egy másik lehetőség, a htmlParseFile(), aminek megadható a fájl kódolása, viszont ez egy HTML4 parser, ami gondolom HTML tag soupként értelmezi a fájlt.

Van valakinek tapasztalata a libxml2-vel kapcsolatban, és hogy ilyenkor mit is kellene tenni? Az online dokumentációval nehezen boldogulok, mert az API oldalak számomra felfoghatatlan módon vannak csoportosítva, a keresésben a szűkítés pedig nem akar működni, így mindenféle levelezőlistás találatokat kapok az API dokumentáció helyett.

882 megtekintés