( padisah | 2015. 04. 14., k – 22:59 )

nem csak azzal lesz probléma ha megváltoztatják a html-t

rengeteg oldal, és egyre több működik úgy, hogy ajaxon küldi el az oldalba épített javascript a tényleges adatokat lehozó query-t

ez tipikusan egy post request, amit csupa olyan paraméterrel pakol fel, amit a javascript számol ki, azt pedig nem tudod kívülről leutánozni, vagy az egész nagyon törékeny lesz, mert egy kis bugfix a túloldalon, és már nem azt a query-t generálja a programod amit az várna

én is csináltam ilyen egyedi letöltőket, ami nagyobb karrierportálokról lenyalja az állások linkjeit (pl tesco), aztán a linkeket már külön dolgozza fel egy másik, egységes folyamat, ajaxos oldalakkal bíbelődni óriási szívás volt

Az utóbbi időben olyan technológia is megjelent, mint amit az adsense is használ, hogy bekerül egy script tag a html kódba, ez behív a google js könyvtárába, ami document.write-al beleír egy iframe-et a html-be, de úgy hogy az iframe címe már a google oldalára mutat, és oda azt tölt be a google amit akar. Ezekhez egy szimpla http robot nem fog hozzáférni, mert ő nem tudja megfuttatni a letöltött oldalba ágyazott script-et.
Persze ezt is meg lehet oldani, seleniummal...