Mint ígértem tolok fel pár eredményt.
Feladat valami olyasmi volt, h netről letölteni lapokat, amikre egy adatbázisból kerestünk rá, mindenféle szempontból. A dolog érdekessége, hogy ugye nagyon nem mindegy, a karakterkódolás. Ezért a letöltés valahogy így nézett ki:
1, megnézem, milyen kódolást küld a szerver a headerben
2, amennyiven 1 null volt, akkor kiparzolom a meta tagből
3, encoding lib (ez valami olyasmi amit a firefox is használ)
4, ha még mindig null, akkor 8859_2 -re a kódolás.
nyílván egyszerübb lett volna, ha egyből az encoding libet használom, de először az 1-2 lépéssel próbálkoztam, ám annyi volt a helytelen kódolás, h később muszáj volt még valamit tenni.
Ennek megfelelően pár adat:
3135 keresés történt
1805 esetben volt legalább 1 találat
352 kellett az encoding.jar használni
199 esetben lett az alap 8859_2 kódolás
Vagyis nagyjából az esetek 30%-ban volt rosszul konfigolva a webszerver, vagy volt hanyag az oldal készítője. Kicsit soknak találom.
Későbbiekben lesz még yahoo google összehasonlítás is. :-)
Most jutott eszembe, h jó lett volna, a megtalált kódolásokról is valami statisztikát vezetni...