weboldal letoltese sajat merevlemezre

Fórumok

Sziasztok!

Adott egy weboldal, amit ha ugy tetszik sajat celra szeretnek arhivalni magamnak.

Körülnéztem, hogy milyen megoldasok vannak erre.

 

HTTRACK - majdnem jo, de nem teljesen. A letoltes utan a  forumot nem igazan lehet bongeszni, illetve a letoltott oldalon a kereses nem mukodik

WGET - google-ban ezt talaltam rola --> wget --recursive --page-requisites --adjust-extension --span-hosts --convert-links --restrict-file-names=windows --domains yoursite.com --no-parent yoursite.com

Ebben az esetben vannak olyan linkek(feltetelezem tobb is) amik mar nem elnek es most az elsonel elakad, es folyton ujra akar csatlakozni a nemlezeto webhelyre.

 

Amit szeretnek: Egy az egyben szeretnem a sajat merevlemezemre lementeni az adott weboldalt. A kereses mukodjon ami az oldalon van. Azok a linkek amik errol a domainrol kifele mutatnak azokra nincs szuksegem.

Ubuntu alatt szeretnem hasznalni a wget-et, de wines kornyezet alol is jo lenne, ha mukodnenek, kesobb szeretnem win-es geprol is elerni.

 

Nem ragaszkodom egyik fenti szoftverhez sem, illetve minden egyeb otletet szivesen fogadok.

 

 

A valaszokat elore is koszonom!

Hozzászólások

Szerkesztve: 2022. 01. 12., sze – 22:27

Esetleg ezt próbáld meg, 
wget -mpEk https://yoursite.com 
Próbáld kitalálni mi lehet a jó megoldás, nekem ezzel egy joomla-s weblapot leszedett. Még a menük, gombok, és egyéb scriptek is működnek.

Szerkesztve: 2022. 01. 12., sze – 23:08

Valamikor fiatalkoromban a Teleport Pro-van csináltam ilyesmit, jól tette a dolgát, ha még létezik, less rá (windows, és 10+ éve, de akkor nem találtam kényelmesebb offline browsert (valamilyen furcsa okból így hívják ezeket a programokat))

update: a keresést átugortam elsőre, na az nem fog működni (de a html-kben persze kereshetsz manuálisan)

“Any book worth banning is a book worth reading.”

"A kereses mukodjon ami az oldalon van." - Ez az igényed antigravitációs, azaz felejtős.

Próbáld ki a webrecorder fejlesztéseit, könyvtárak használják weboldalak megőrzésére (https://webarchivum.oszk.hu/):
https://webrecorder.net/
Lehet benne manuálisan is menteni (archiveweb.page), vagy automatán, mint a httrack (browsertrix-crawler).

A kereshetőség szerintem is nehézkes, ahhoz fel kellene építened egy adatbázist.

Vagy brute-force rögzíted az összes lehetséges kereső címszóval indított keresést, amit a fenti eszközökkel archiválsz.
Youtube-on próbáltam, felvettem magát a keresést (egy címszóval), és az archívum visszajátszásánál ugyanúgy megtalálta, és lejátszotta a keresett videót...

Most néztem meg itt a hup.hu-n, hogy ha nem ragaszkodsz az eredeti kereső funkcióhoz, akkor az archívumodban, amikor megnyitod visszajátszásnál, szövegesen tudsz keresni, és találatként azokat az url-eket dobja fel, amikben a keresett szöveg előfordul (sőt, még a találat szövegeket be is sárgítja).

Koszonom mindenkinek a segitseget. Haladgatok... - ami azt jelenti, hogy probalgatom a wget-et :D meg nincs meg az a kombinacio ahol az index.html megnyitasa utan megtalalodik az a html amire tovabb kellene ugrani.

Az a html amit ebben az esetben nem talal, az le van toltve es azon a helyen van, amire a bongeszo cimsora mutat, de azt irja hogy nincs ott (ez egy 2005-ben indult weboldal egyebkent). Viszont, ha ugyan ezt a html-t amit nem talal, ha direktbe megnyitom akkor rendben vagyunk. Az index.html-ben minden link rendben van (sajat lemezen levo helyre mutat). 

 

A javasolt szoftvereket meg nem probaltam. Erre a hetvegen tud sor kerulni. Viszont, arra gondoltam hogy letezik-e megoldas arra, hogy ezekben az offline letoltott tartalmakban egy kulon alkalmazassal keressek.

Amire gondolok, egy olyan megoldas mint pl itt a hup-on a kereso hogy a google "ra van engedve". Le lenne toltve a weboldal, illetve egy ilyen kereso szoftver. A szoftvert raengedem a letoltott tartalomra, es amikor keresni szeretnek pl erre: "hengerfej" - akkor minden olyan tartalom ki van listazva, amiben ez a szo szerepel.

Ilyen megoldas letezhet?

Ez igen jo amit kuldtel... - a hetvegen megnezegettem mit is csinal, es elegedett vagyok vele nagyon. Koszonom!

Egy kerdesem van mar csak. Wget-el tudok olyat hogy *.warc-kent toltom le a tartalmat. Linux alatta warc file-ban, hogyan tudok keresni? Win alatt van ez az alkalmazas: archiveweb.page oldalan, siman le lehet tolteni, de szereretnem valamibe betolteni a warc-ot, vagy valahogy keresni benne.

warc -> iso szabvány web archiválásra (metaadatok, tömörítés, deduplikáció, stb.)
wacz -> több warc + index + full text + hash + stb. egy fájlba/konténerbe téve.

A warc-ból is lehet elméletileg wacz formátumot kreálni pl. a py-wacz python modullal (wacz create ...).

A wget-tel egyszerűen tudsz csinálni egy szabványos weboldal mentést warc-ba, viszont alapértelmezetten nem tartalmazza a pages.json fájlt, amiben keresnének a visszajátszó programok.

Szerintem előnyösebb, ha mindjárt wacz formátumba mentesz, az még mindig tartalmazza a warc fájlokat is.

Az archiveweb.page, replayweb.page platform független, futnak böngésző kiegészítőként, vagy electron alkalmazásként.
linuxos electron -> https://github.com/webrecorder/archiveweb.page/releases/download/v0.7.4/ArchiveWeb.page-0.7.4.AppImage

Vagy a pywb (pythonwayback) segítségével tudsz felvenni, és visszajátszani. Erre épül a browsertrix-cawler, ami "arató robotként" működik (ennek van docker konténere is).

Szerkesztve: 2022. 01. 14., p – 20:55

Én ki szoktam "nyomtatni" pdf-be. Nekem eddig bevált.

szerk: most nézem, hogy nem a lapon belüli keresésre gondolsz. Hát sok sikert. A doxygen tud csinálni pl. olyan kimenetet, amiben az offline html-ben működik a keresés. Egy teljesen random oldalról ez reménytelennek tűnik.

Egyik megoldás se lesz 100%-os. Ahogy írod, fórumokon meg egyéb dinamikus oldalakon ezek a web/http crawlerök nem működnek, mert ezek az oldalfajták az oldalakat menet közben generálják mögöttes SQL adatbázisból, ezt nem fogod tudni http alapon letölteni, az archive.org-on sem szoktak ezek működni. Ezt el kell fogadnod, így működik a web.

The world runs on Excel spreadsheets. (Dylan Beattie)

Meg lehet SSD-re, ramdrive-ra, hálózati meghajtóra/megosztásra, felhőbe stb. is menteni. Ebbe bele sem akartam kötni. Én mindig röhögök ezen a merevlemez megnevezésen is, hiszen az elnevezés alapját még régen az adta, hogy nem floppy-ról volt szó, amit hajlítgatni meg hullámoztatni tudott az ember, de ennek ma már nincs értelme, főleg, mióta a 3.5-ös floppy, zip lemez, CD, DVD, BD, stb. is „hard”, merev, nem csak a HDD, SSD, pendrive. Sokkal több értelme lett volna, ha a winchester, magyarosítva vincseszter név ragad meg a hard disk helyett. Én ezeket már csak meghajtónak hívom, lassan már úgyis kopik ki mind, csak a solid state memóriatárolók maradnak, pendrive, SSD. Az ODD/BD visszaszorul otthoni lejátszókba, de már ott is kopik ki a stream hatására.

Kicsit olyasmi, mint mikor a mai napig sok GUI-s program eszköztáras ikonsorában a mentés gombnak floppy a piktogramja. Ha megkérdezel erről fiatalabbakat, akik nem használtak floppy-t, ők nem is értik, hogy mit ábrázol ez a kép. Ha megmutatod nekik netes videókon mi az igazából, akkor azon meg röhögnek, hogy milyen morbid lehetett olyanon adatot tárolni, meg a meghajtóban cserélgetni. Legalább olyan agyrémnek fog nekik tűnni, mint a kazettás, szalagos adattárolás. Szerintem mikor néznek ilyen régebbi filmeket, ahol még mainframe-ek vannak ábrázolva ilyen nagy tárcsás szalagos tárolókkal, ott pörögnek a háttérben, szerintem az is nagyon morbid lehet ma már egy mai fiatalnak, aki HDD, SSD, laptop, okostelefon, táblagépes, internetes világba nőtt bele.

The world runs on Excel spreadsheets. (Dylan Beattie)

Értem én, hogy a saját-on volt a lényeg, de én továbbvittem a gondolatot, hogy nem csak hogy nem kell sajátnak vagy idegennek lennie, hanem merevlemeznek se. Ezt is csak azért hoztam fel, mert eredetileg mint írtam, nem akartam a szövegezésbe belekötni, de ha már felhoztad az egyik részét, akkor nem tartottam a többit magamban. Nyilván nem érdemes rajta rugózni, mert azonnal értette elsőre mindenki, hogy a kolléga lokális/offline mentést akar, és ahhoz keres webcrawlert. Amit meg is talált httrack, wget, curl formájában, csak ugye a limitációk mindig is ott lesznek, hogy ezek mind csak statikusan tudnak menteni, mert a dinamikus része szerveroldali marad.

The world runs on Excel spreadsheets. (Dylan Beattie)

Na! Mivel nem tudom, hogy kell osszehozni, hogy "megoldva" legyen a tema, így ide irom le hogy mire jutottam.

 

Mostantol, ahol szamomra erdekes, es fontos webes tartalom van, ott kaci megoldasat hasznalom a webrecorder-t. Chrome-ba szepen van is bovitmeny hozza. Mukodik. 

Tovabba ahol olyan tartalom van amit nem szeretnek vegig nyalazni, de szinten erdekes lehet oda szinten kaci megoldasa fekszik. Wgettel warcz-ben lementem. Itt meg vannak dolgok amikre ra kell jonnom, de menni fog szerintem.

Alternativ megoldas lehet, wgettel mirror-al vagy resposive-al lementeni a tartalmat, majd egy pinot vagy docfetcher-el keresgelni benne. Ez is mukodik amugy. 

A docfetcher-nel az alabbi problemaba futottam bele. A forum amit letoltottem 2005-tol el. Eleg sok tema letrejott azota. A teljes tartalom a letoltes utan (wget mirror) ~12GB lett, olyan ~700.000 file-al. Ezt a docfetcher win10 alatt a default beallitasaival nem tudta beindexelni, mert elfogy a RAM. Alapbol 256MB RAM-al tud dolgozni. Ez konnyen modosithato: C:\Program Files (x86)\DocFetcher\misc - itt kulonbozo *.exe allomanyok talalhatoak. Mindegyikben jelolve van, hogy hany MB RAM-ot enged a programnak. Egyszeruen a "misc" mappabol a szamodra megfelelo exe-t at kell masolni a C:\Program Files (x86)\DocFetcher mappaba, es azt kell elinditani.

 

Koszonom mindenkinek a segitseget!