weboldal letoltese sajat merevlemezre

Fórumok

Sziasztok!

Adott egy weboldal, amit ha ugy tetszik sajat celra szeretnek arhivalni magamnak.

Körülnéztem, hogy milyen megoldasok vannak erre.

 

HTTRACK - majdnem jo, de nem teljesen. A letoltes utan a  forumot nem igazan lehet bongeszni, illetve a letoltott oldalon a kereses nem mukodik

WGET - google-ban ezt talaltam rola --> wget --recursive --page-requisites --adjust-extension --span-hosts --convert-links --restrict-file-names=windows --domains yoursite.com --no-parent yoursite.com

Ebben az esetben vannak olyan linkek(feltetelezem tobb is) amik mar nem elnek es most az elsonel elakad, es folyton ujra akar csatlakozni a nemlezeto webhelyre.

 

Amit szeretnek: Egy az egyben szeretnem a sajat merevlemezemre lementeni az adott weboldalt. A kereses mukodjon ami az oldalon van. Azok a linkek amik errol a domainrol kifele mutatnak azokra nincs szuksegem.

Ubuntu alatt szeretnem hasznalni a wget-et, de wines kornyezet alol is jo lenne, ha mukodnenek, kesobb szeretnem win-es geprol is elerni.

 

Nem ragaszkodom egyik fenti szoftverhez sem, illetve minden egyeb otletet szivesen fogadok.

 

 

A valaszokat elore is koszonom!

Hozzászólások

Szerkesztve: 2022. 01. 12., sze – 22:27

Esetleg ezt próbáld meg, 
wget -mpEk https://yoursite.com 
Próbáld kitalálni mi lehet a jó megoldás, nekem ezzel egy joomla-s weblapot leszedett. Még a menük, gombok, és egyéb scriptek is működnek.

Szerkesztve: 2022. 01. 12., sze – 23:08

Valamikor fiatalkoromban a Teleport Pro-van csináltam ilyesmit, jól tette a dolgát, ha még létezik, less rá (windows, és 10+ éve, de akkor nem találtam kényelmesebb offline browsert (valamilyen furcsa okból így hívják ezeket a programokat))

update: a keresést átugortam elsőre, na az nem fog működni (de a html-kben persze kereshetsz manuálisan)

“Any book worth banning is a book worth reading.”

"A kereses mukodjon ami az oldalon van." - Ez az igényed antigravitációs, azaz felejtős.

Próbáld ki a webrecorder fejlesztéseit, könyvtárak használják weboldalak megőrzésére (https://webarchivum.oszk.hu/):
https://webrecorder.net/
Lehet benne manuálisan is menteni (archiveweb.page), vagy automatán, mint a httrack (browsertrix-crawler).

A kereshetőség szerintem is nehézkes, ahhoz fel kellene építened egy adatbázist.

Vagy brute-force rögzíted az összes lehetséges kereső címszóval indított keresést, amit a fenti eszközökkel archiválsz.
Youtube-on próbáltam, felvettem magát a keresést (egy címszóval), és az archívum visszajátszásánál ugyanúgy megtalálta, és lejátszotta a keresett videót...

Most néztem meg itt a hup.hu-n, hogy ha nem ragaszkodsz az eredeti kereső funkcióhoz, akkor az archívumodban, amikor megnyitod visszajátszásnál, szövegesen tudsz keresni, és találatként azokat az url-eket dobja fel, amikben a keresett szöveg előfordul (sőt, még a találat szövegeket be is sárgítja).

Koszonom mindenkinek a segitseget. Haladgatok... - ami azt jelenti, hogy probalgatom a wget-et :D meg nincs meg az a kombinacio ahol az index.html megnyitasa utan megtalalodik az a html amire tovabb kellene ugrani.

Az a html amit ebben az esetben nem talal, az le van toltve es azon a helyen van, amire a bongeszo cimsora mutat, de azt irja hogy nincs ott (ez egy 2005-ben indult weboldal egyebkent). Viszont, ha ugyan ezt a html-t amit nem talal, ha direktbe megnyitom akkor rendben vagyunk. Az index.html-ben minden link rendben van (sajat lemezen levo helyre mutat). 

 

A javasolt szoftvereket meg nem probaltam. Erre a hetvegen tud sor kerulni. Viszont, arra gondoltam hogy letezik-e megoldas arra, hogy ezekben az offline letoltott tartalmakban egy kulon alkalmazassal keressek.

Amire gondolok, egy olyan megoldas mint pl itt a hup-on a kereso hogy a google "ra van engedve". Le lenne toltve a weboldal, illetve egy ilyen kereso szoftver. A szoftvert raengedem a letoltott tartalomra, es amikor keresni szeretnek pl erre: "hengerfej" - akkor minden olyan tartalom ki van listazva, amiben ez a szo szerepel.

Ilyen megoldas letezhet?

Ez igen jo amit kuldtel... - a hetvegen megnezegettem mit is csinal, es elegedett vagyok vele nagyon. Koszonom!

Egy kerdesem van mar csak. Wget-el tudok olyat hogy *.warc-kent toltom le a tartalmat. Linux alatta warc file-ban, hogyan tudok keresni? Win alatt van ez az alkalmazas: archiveweb.page oldalan, siman le lehet tolteni, de szereretnem valamibe betolteni a warc-ot, vagy valahogy keresni benne.

warc -> iso szabvány web archiválásra (metaadatok, tömörítés, deduplikáció, stb.)
wacz -> több warc + index + full text + hash + stb. egy fájlba/konténerbe téve.

A warc-ból is lehet elméletileg wacz formátumot kreálni pl. a py-wacz python modullal (wacz create ...).

A wget-tel egyszerűen tudsz csinálni egy szabványos weboldal mentést warc-ba, viszont alapértelmezetten nem tartalmazza a pages.json fájlt, amiben keresnének a visszajátszó programok.

Szerintem előnyösebb, ha mindjárt wacz formátumba mentesz, az még mindig tartalmazza a warc fájlokat is.

Az archiveweb.page, replayweb.page platform független, futnak böngésző kiegészítőként, vagy electron alkalmazásként.
linuxos electron -> https://github.com/webrecorder/archiveweb.page/releases/download/v0.7.4/ArchiveWeb.page-0.7.4.AppImage

Vagy a pywb (pythonwayback) segítségével tudsz felvenni, és visszajátszani. Erre épül a browsertrix-cawler, ami "arató robotként" működik (ennek van docker konténere is).

Szerkesztve: 2022. 01. 14., p – 20:55

Én ki szoktam "nyomtatni" pdf-be. Nekem eddig bevált.

szerk: most nézem, hogy nem a lapon belüli keresésre gondolsz. Hát sok sikert. A doxygen tud csinálni pl. olyan kimenetet, amiben az offline html-ben működik a keresés. Egy teljesen random oldalról ez reménytelennek tűnik.

Egyik megoldás se lesz 100%-os. Ahogy írod, fórumokon meg egyéb dinamikus oldalakon ezek a web/http crawlerök nem működnek, mert ezek az oldalfajták az oldalakat menet közben generálják mögöttes SQL adatbázisból, ezt nem fogod tudni http alapon letölteni, az archive.org-on sem szoktak ezek működni. Ezt el kell fogadnod, így működik a web.

A computer is like air conditioning – it becomes useless when you open Windows.” (Linus Torvalds)

Meg lehet SSD-re, ramdrive-ra, hálózati meghajtóra/megosztásra, felhőbe stb. is menteni. Ebbe bele sem akartam kötni. Én mindig röhögök ezen a merevlemez megnevezésen is, hiszen az elnevezés alapját még régen az adta, hogy nem floppy-ról volt szó, amit hajlítgatni meg hullámoztatni tudott az ember, de ennek ma már nincs értelme, főleg, mióta a 3.5-ös floppy, zip lemez, CD, DVD, BD, stb. is „hard”, merev, nem csak a HDD, SSD, pendrive. Sokkal több értelme lett volna, ha a winchester, magyarosítva vincseszter név ragad meg a hard disk helyett. Én ezeket már csak meghajtónak hívom, lassan már úgyis kopik ki mind, csak a solid state memóriatárolók maradnak, pendrive, SSD. Az ODD/BD visszaszorul otthoni lejátszókba, de már ott is kopik ki a stream hatására.

Kicsit olyasmi, mint mikor a mai napig sok GUI-s program eszköztáras ikonsorában a mentés gombnak floppy a piktogramja. Ha megkérdezel erről fiatalabbakat, akik nem használtak floppy-t, ők nem is értik, hogy mit ábrázol ez a kép. Ha megmutatod nekik netes videókon mi az igazából, akkor azon meg röhögnek, hogy milyen morbid lehetett olyanon adatot tárolni, meg a meghajtóban cserélgetni. Legalább olyan agyrémnek fog nekik tűnni, mint a kazettás, szalagos adattárolás. Szerintem mikor néznek ilyen régebbi filmeket, ahol még mainframe-ek vannak ábrázolva ilyen nagy tárcsás szalagos tárolókkal, ott pörögnek a háttérben, szerintem az is nagyon morbid lehet ma már egy mai fiatalnak, aki HDD, SSD, laptop, okostelefon, táblagépes, internetes világba nőtt bele.

A computer is like air conditioning – it becomes useless when you open Windows.” (Linus Torvalds)

Értem én, hogy a saját-on volt a lényeg, de én továbbvittem a gondolatot, hogy nem csak hogy nem kell sajátnak vagy idegennek lennie, hanem merevlemeznek se. Ezt is csak azért hoztam fel, mert eredetileg mint írtam, nem akartam a szövegezésbe belekötni, de ha már felhoztad az egyik részét, akkor nem tartottam a többit magamban. Nyilván nem érdemes rajta rugózni, mert azonnal értette elsőre mindenki, hogy a kolléga lokális/offline mentést akar, és ahhoz keres webcrawlert. Amit meg is talált httrack, wget, curl formájában, csak ugye a limitációk mindig is ott lesznek, hogy ezek mind csak statikusan tudnak menteni, mert a dinamikus része szerveroldali marad.

A computer is like air conditioning – it becomes useless when you open Windows.” (Linus Torvalds)

Na! Mivel nem tudom, hogy kell osszehozni, hogy "megoldva" legyen a tema, így ide irom le hogy mire jutottam.

 

Mostantol, ahol szamomra erdekes, es fontos webes tartalom van, ott kaci megoldasat hasznalom a webrecorder-t. Chrome-ba szepen van is bovitmeny hozza. Mukodik. 

Tovabba ahol olyan tartalom van amit nem szeretnek vegig nyalazni, de szinten erdekes lehet oda szinten kaci megoldasa fekszik. Wgettel warcz-ben lementem. Itt meg vannak dolgok amikre ra kell jonnom, de menni fog szerintem.

Alternativ megoldas lehet, wgettel mirror-al vagy resposive-al lementeni a tartalmat, majd egy pinot vagy docfetcher-el keresgelni benne. Ez is mukodik amugy. 

A docfetcher-nel az alabbi problemaba futottam bele. A forum amit letoltottem 2005-tol el. Eleg sok tema letrejott azota. A teljes tartalom a letoltes utan (wget mirror) ~12GB lett, olyan ~700.000 file-al. Ezt a docfetcher win10 alatt a default beallitasaival nem tudta beindexelni, mert elfogy a RAM. Alapbol 256MB RAM-al tud dolgozni. Ez konnyen modosithato: C:\Program Files (x86)\DocFetcher\misc - itt kulonbozo *.exe allomanyok talalhatoak. Mindegyikben jelolve van, hogy hany MB RAM-ot enged a programnak. Egyszeruen a "misc" mappabol a szamodra megfelelo exe-t at kell masolni a C:\Program Files (x86)\DocFetcher mappaba, es azt kell elinditani.

 

Koszonom mindenkinek a segitseget!