wget, tükrözés

Fórumok

Tudom, valahol láttam ezt a témát, de nem találom meg a keresőben. Szeretnék lekoppintani egy oldalt, ami a "www.vbsdb.com" nyílt forrású adatbázisával szedi össze a hasznos infókat. Ez az oldal a db.zti.hu. Amint látom, rajta MS webszerver működik. Idáig nincs is probléma. Ha valaki meglátogatja az oldalt, láthatja, hogy 20asával vannak kitéve a rekordok. Átnyálaztam a wget manját, használtam a WebHTTrack-et is, de mindhiába.
Egyetlen, viszonylag működőképes letöltés csak úgy ment, hogy 1-től 20asával 1046-ig (idáig terjed) hozzáadtam a letöltési linkekhez az indexeket, s így lejött az egész, de átláthatatlan.
Amúgy szeretnék belőle egy CD-t készíteni, hogy offline menjen, s ajándék lesz. Kicsit problémásabb volt ez, mikor a mellette lévő "dalok" adatbázist ~6500/20 linkkel szedtem le.

Ha nem is sikerülne (mert a szerver mindig visszadob, bármilyen opciót adok meg), legalább azt tudjam megcsinálni, hogy a már letöltött 1046 db html-ben kicseréljem a sorokat.

No EZT a témát nem találtam sehol. Valaki valamikor összedobott egy olyan scriptet, ahol többszáz fájlban kicserélte az adott sorokat.

Szereték ebben segítséget kérni azoktól az emberektől, akik értenek ilyen script megírásában. Én kikeresném, átnevezném a a html-eket, mert mindegyik egy dalra mutat. 20asával kellene mindig egyel nagyobb értékű linket átcseréltetni.
stb...

Ha valaki tud benne segíteni, nagyon megköszönném, s könnyen tanuló vagyok, később valószínüleg megértem a lépéseket, s tudnék magamon segíteni.

Előre is köszönettel: zolej

Hozzászólások

szerintem egy wget -r -nH --cut 1 http://db.zti.hu/24ora/dalok.asp-val minden lejon problemamentesen... (legalabbis ugy latszik, persze a veget nem fogom megvarni).

Ha igy csinalod, akkor abba a konyvtarba pakolja, ahol elinditottad a wget-et. Ezutan en a for f in dalok*; do sed -i -e 's|/24ora/||g; s|asp?|asp%3F|g' $f; done parancsal tennem rendbe a dolgot...

Zsiraf

A problema abban volt, hogy a linkek (fel)abszolut hivatkozassal vannak, valamint a '?'-et kell URI-ssa alakitani...

Hamarosan ki tudom próbálni. Az a helyzet, hogy -r kapcsolóval próbáltam, az leszedte az 1-20 és a következő oldalról a 21-40-ig, plussz a 1041-1046-ig és ennyi. Az adatbázis elérés + és -1-es "ide-oda" indexelésénél zavarodik meg szerintem.
Nagyjából értem miért csinálja, de ez nekem nem jó :-)

Köszönöm a választ, mindjárt visszajelzek (itt megy a net ezerrel, "2 perc alatt leszedi a csillagokat is")