Folytonosan kiegészülő (nem tudom a szakszót) weboldal letöltése wget-tel?

 ( horvatha | 2018. október 27., szombat - 13:09 )

Kedves HUP-osok!

Automatizáltan szeretnék adatokat kinyerni weboldalakból, és bash vezérelt wget-grep-sed-awk kombinációval eddig több esetben sikerült is megtennem.

Most abba futottam bele, hogy az egyik weboldal olyan, hogy ha megnyitom böngészőben, csak egy része jön le egyből, de ha nyitva hagyom, akkor pár másodpercenként kiegészítgeti a weboldalt úgy fél oldalanként, így az összes adat csak 10-20 s alatt jön be. Ennek oka világos, ha emberi böngészésről van szó, de a wget csak az első blokkot kapja meg és nagy nyugalommal kilép.

Milyen kapcsolóval tudom elérni, hogy a wget várja meg a teljes oldal letöltését és csak azt írja ki?

Előre is kösz!

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

Szinte biztos, hogy a wget nem lesz jo, mert vslami js toltoget hozza plusz tartalmat

Seleniummal próbáld meg.

vagy selenium vagy utanajarsz (web develeperrel) hogy oldja meg (pl. ajaxhivasok) es leutanzod egy scripttel

Ha nehany soros javascript osszeutese nem gond (van sok pelda script hozza), akkor szerintem PhantomJS jo lehet a feladatra.