Oldalak letöltése és rekurzívan védett helyről

Fórumok

Helló!

Egy oldalt kellene letöltenem és azt összefűznöm. Eddig megoldanám wgettel amit rekurzív paraméterekkel indítanék és összelinkeltetném az oldalakat. Node az a honlap amiről én beszélek jelszót kér. Ellenben úgy kér jelszót mint pl a hup.hu azaz nem a szabványos http-acces hanem egy formmal léphetek be felhasználónév és jelszó ellenében. Így böngészni tudom az oldalt de wgentek nem tudom megadni, hogy belépjen. Szerintem egy cookieban tárolja a belépéshez szükséges adatokat de ennyire már teljes a html/php tudományom. A kérdésem, hogy hogyan lehetne mégis letöltetni az oldalt?

Ui.: Firefoxhoz találtam egy downthemall extensiont ami letölti a kívánt lapokat de összefűzni nem tudja őket pedig nekem az is kell...

Köszi!

Hozzászólások

>> Szerintem egy cookieban tárolja a belépéshez szükséges adatokat

loggolj be a sitera bugrókával, aztán load-cookies (mint wget --load-cookies="C:\Documents and Settings\soniq\Application Data\Mozilla\Firefox\Profiles\faszom\cookies.txt" http://hup.hu/node/42416)

man wget

--load-cookies=FILE load cookies from FILE before session.

hupnal is igy mukodik

udv Zoli

Tekintve hogy a wget-tel ez nem feltetlen mukodik jol (kb fel eve probaltam, gentoo-n ment, ubuntun meg nem) hasznalj curlt, ahol
szinten fel lehet kuldeni a cookiekat.

A masik meg az, hogy veszed a kezdolapon a formot, abbol az input mezoket, ami mondjuk "uname", meg "pass", es azt kuldod be, hogy
wget -r oldal.hu/xxx?uname=#uname#&pass=#pass#. Ez altalaban atmegy
ha az oldal php-s vagy hasonlo koszonhetoen az require/include es a $_GLOBALS-nak, azaz pontosan nem tudom mi ezeknek a neve.

Udv: axt

Hi.

En is csinaltam ilyet anno, szamomra trivialisnak tunt.

A lenyeg, megnezem a html forrasat, kikeresed a mezoket amiket submitolni kell, es utana nyomsz ra 1 wgetet.

Pl:

wget --post-data 'user=geza&password=bela' --save-cookies /home/user/.wget/cookie.txt xxx.com/auth.php

utana pedig a mirrornal --load-cookies, vagy a .wgetrc-be berakod:

cookies=on
load_cookies=/home/user/.wget/cookie

Tudna valaki segíteni elindulni ennek az oldalnak a letöltésében:

https://ilias.gdf.hu/login.php?target=&soap_pw=&ext_uid=&cookies=nocook…

Gyanítom hogy wget nem jó, hanem curl fog kelleni.

Ha jóval egyszerűbb lenne belépve látni hogy ami kell nekem (egyébként rekurzívan a pdf-ek) azt hogyan lehetne leszivattyúzni küldjetek privátot.

----------------------------
színes ingyen domain domain

A következő parancsot használva

wget -r https://ilias.gdf.hu/login.php?username=#*****#&password=#******#

ilyen fájlok jönnek létre (a szemetet kivéve)

fájlnév: repository.php?ref_id=28881&cmd=sendfile
fájlméret: 5,8 MB
fájltípus: OLE2 compound document storage (application/x-ole-storage)

----------------------------
színes ingyen domain domain

A mappát nem kell szó szerint érteni.
"Download and Store With a Different File name Using wget -O

By default wget will pick the filename from the last word after last forward slash, which may not be appropriate always.

Wrong: Following example will download and store the file with name: download_script.php?src_id=7701

$ wget http://www.vim.org/scripts/download_script.php?src_id=7701

Even though the downloaded file is in zip format, it will get stored in the file as shown below.

$ ls
download_script.php?src_id=7701

Correct: To correct this issue, we can specify the output file name using the -O option as:

$ wget -O taglist.zip http://www.vim.org/scripts/download_script.php?src_id=7701"

Az --accept -es megoldas nem jo.

A mappak csak vizualisan latszanak mappanak.

Pl:

Taneszköz tároló > Kategória BSc/BA alapképzés > Kategória Mérnök informatikus alapszak (BSc MI) > Kategória Digitális technika (BSc MI) > Kurzus 2010/11-I.félév > 4.hét

Cimsor tartalma a 4. het -be belepve:

http://ilias.gdf.hu/repository.php?ref_id=30321&cmd=view

----------------------------
színes ingyen domain domain

A firefox Export cookies extensionjet hasznalva bejelentkezes utan kimentettem a cookiekat es az ezen topikban fentebb targyalt modon megadtam a wgetnek de ez mitsem valtoztat a helyzeten, ami ugyan nem tul meglepo, de probalkozom, na.

----------------------------
színes ingyen domain domain

wget -r --content-disposition --load-cookies=/media/DATA/bmin.txt https://ilias.gdf.hu/login.php

Ugy tunik ez a megoldas, de ma mar csak ejjel tudom teljesen letesztelni.
Valoszinuleg a fajlmeret nem kerul elkuldesre es igy a wget azt mondja ra hogy az egy html...
----------------------------
színes ingyen domain domain

Nem bírok összehozni (sem wgettel, sem httrack-kel) egy parancsot (Ubuntun), amivel lejönne a https://ketcicakonyhaja.blog.hu rekurzívan, mindenestől. Tudtok segíteni? Mindig elakad néhány fájlnál a dolog.

(Egyelőre megoldottam bash-ből, wget + grep lépések egymásutánjával, de elég hajmeresztő, hogy erre nincs előre kész eszköz.)

Selenium + Python script?
---
Airconditioned terminal, do not open Windows.