Sziasztok!
Adott egy weboldal, amit ha ugy tetszik sajat celra szeretnek arhivalni magamnak.
Körülnéztem, hogy milyen megoldasok vannak erre.
HTTRACK - majdnem jo, de nem teljesen. A letoltes utan a forumot nem igazan lehet bongeszni, illetve a letoltott oldalon a kereses nem mukodik
WGET - google-ban ezt talaltam rola --> wget --recursive --page-requisites --adjust-extension --span-hosts --convert-links --restrict-file-names=windows --domains yoursite.com --no-parent yoursite.com
Ebben az esetben vannak olyan linkek(feltetelezem tobb is) amik mar nem elnek es most az elsonel elakad, es folyton ujra akar csatlakozni a nemlezeto webhelyre.
Amit szeretnek: Egy az egyben szeretnem a sajat merevlemezemre lementeni az adott weboldalt. A kereses mukodjon ami az oldalon van. Azok a linkek amik errol a domainrol kifele mutatnak azokra nincs szuksegem.
Ubuntu alatt szeretnem hasznalni a wget-et, de wines kornyezet alol is jo lenne, ha mukodnenek, kesobb szeretnem win-es geprol is elerni.
Nem ragaszkodom egyik fenti szoftverhez sem, illetve minden egyeb otletet szivesen fogadok.
A valaszokat elore is koszonom!
- 1462 megtekintés
Hozzászólások
Esetleg ezt próbáld meg,
wget -mpEk https://yoursite.com
Próbáld kitalálni mi lehet a jó megoldás, nekem ezzel egy joomla-s weblapot leszedett. Még a menük, gombok, és egyéb scriptek is működnek.
- A hozzászóláshoz be kell jelentkezni
Valamikor fiatalkoromban a Teleport Pro-van csináltam ilyesmit, jól tette a dolgát, ha még létezik, less rá (windows, és 10+ éve, de akkor nem találtam kényelmesebb offline browsert (valamilyen furcsa okból így hívják ezeket a programokat))
update: a keresést átugortam elsőre, na az nem fog működni (de a html-kben persze kereshetsz manuálisan)
“Any book worth banning is a book worth reading.”
- A hozzászóláshoz be kell jelentkezni
"A kereses mukodjon ami az oldalon van." - Ez az igényed antigravitációs, azaz felejtős.
- A hozzászóláshoz be kell jelentkezni
Azért láttam már csodát, hogy letölt mindent az oldal és keresés és szűrész helyben megy végbe JS megoldásokkal és CSS-el.
De valószínübb, hogy nem fog működni.
- A hozzászóláshoz be kell jelentkezni
Próbáld ki a webrecorder fejlesztéseit, könyvtárak használják weboldalak megőrzésére (https://webarchivum.oszk.hu/):
https://webrecorder.net/
Lehet benne manuálisan is menteni (archiveweb.page), vagy automatán, mint a httrack (browsertrix-crawler).
A kereshetőség szerintem is nehézkes, ahhoz fel kellene építened egy adatbázist.
Vagy brute-force rögzíted az összes lehetséges kereső címszóval indított keresést, amit a fenti eszközökkel archiválsz.
Youtube-on próbáltam, felvettem magát a keresést (egy címszóval), és az archívum visszajátszásánál ugyanúgy megtalálta, és lejátszotta a keresett videót...
- A hozzászóláshoz be kell jelentkezni
Most néztem meg itt a hup.hu-n, hogy ha nem ragaszkodsz az eredeti kereső funkcióhoz, akkor az archívumodban, amikor megnyitod visszajátszásnál, szövegesen tudsz keresni, és találatként azokat az url-eket dobja fel, amikben a keresett szöveg előfordul (sőt, még a találat szövegeket be is sárgítja).
- A hozzászóláshoz be kell jelentkezni
Koszonom mindenkinek a segitseget. Haladgatok... - ami azt jelenti, hogy probalgatom a wget-et :D meg nincs meg az a kombinacio ahol az index.html megnyitasa utan megtalalodik az a html amire tovabb kellene ugrani.
Az a html amit ebben az esetben nem talal, az le van toltve es azon a helyen van, amire a bongeszo cimsora mutat, de azt irja hogy nincs ott (ez egy 2005-ben indult weboldal egyebkent). Viszont, ha ugyan ezt a html-t amit nem talal, ha direktbe megnyitom akkor rendben vagyunk. Az index.html-ben minden link rendben van (sajat lemezen levo helyre mutat).
A javasolt szoftvereket meg nem probaltam. Erre a hetvegen tud sor kerulni. Viszont, arra gondoltam hogy letezik-e megoldas arra, hogy ezekben az offline letoltott tartalmakban egy kulon alkalmazassal keressek.
Amire gondolok, egy olyan megoldas mint pl itt a hup-on a kereso hogy a google "ra van engedve". Le lenne toltve a weboldal, illetve egy ilyen kereso szoftver. A szoftvert raengedem a letoltott tartalomra, es amikor keresni szeretnek pl erre: "hengerfej" - akkor minden olyan tartalom ki van listazva, amiben ez a szo szerepel.
Ilyen megoldas letezhet?
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
Ilyen megoldas letezhet?
Pont ezt írtam az előző hsz-ben, hogyha nem ragaszkodsz a menteni kívánt oldalon működő kereséshez, akkor az eredményül kapott warc/wacz fájlban visszajátszásnál tudsz szövegesen keresni.
- A hozzászóláshoz be kell jelentkezni
Videó a kereshetőségről:
- A hozzászóláshoz be kell jelentkezni
Ez igen jo amit kuldtel... - a hetvegen megnezegettem mit is csinal, es elegedett vagyok vele nagyon. Koszonom!
Egy kerdesem van mar csak. Wget-el tudok olyat hogy *.warc-kent toltom le a tartalmat. Linux alatta warc file-ban, hogyan tudok keresni? Win alatt van ez az alkalmazas: archiveweb.page oldalan, siman le lehet tolteni, de szereretnem valamibe betolteni a warc-ot, vagy valahogy keresni benne.
- A hozzászóláshoz be kell jelentkezni
warc -> iso szabvány web archiválásra (metaadatok, tömörítés, deduplikáció, stb.)
wacz -> több warc + index + full text + hash + stb. egy fájlba/konténerbe téve.
A warc-ból is lehet elméletileg wacz formátumot kreálni pl. a py-wacz python modullal (wacz create ...).
A wget-tel egyszerűen tudsz csinálni egy szabványos weboldal mentést warc-ba, viszont alapértelmezetten nem tartalmazza a pages.json fájlt, amiben keresnének a visszajátszó programok.
Szerintem előnyösebb, ha mindjárt wacz formátumba mentesz, az még mindig tartalmazza a warc fájlokat is.
Az archiveweb.page, replayweb.page platform független, futnak böngésző kiegészítőként, vagy electron alkalmazásként.
linuxos electron -> https://github.com/webrecorder/archiveweb.page/releases/download/v0.7.4/ArchiveWeb.page-0.7.4.AppImage
Vagy a pywb (pythonwayback) segítségével tudsz felvenni, és visszajátszani. Erre épül a browsertrix-cawler, ami "arató robotként" működik (ennek van docker konténere is).
- A hozzászóláshoz be kell jelentkezni
Én ki szoktam "nyomtatni" pdf-be. Nekem eddig bevált.
szerk: most nézem, hogy nem a lapon belüli keresésre gondolsz. Hát sok sikert. A doxygen tud csinálni pl. olyan kimenetet, amiben az offline html-ben működik a keresés. Egy teljesen random oldalról ez reménytelennek tűnik.
- A hozzászóláshoz be kell jelentkezni
Egyik megoldás se lesz 100%-os. Ahogy írod, fórumokon meg egyéb dinamikus oldalakon ezek a web/http crawlerök nem működnek, mert ezek az oldalfajták az oldalakat menet közben generálják mögöttes SQL adatbázisból, ezt nem fogod tudni http alapon letölteni, az archive.org-on sem szoktak ezek működni. Ezt el kell fogadnod, így működik a web.
“The world runs on Excel spreadsheets.” (Dylan Beattie)
- A hozzászóláshoz be kell jelentkezni
Nálam a curl jobb eredményeket szokott elérni, de a wget se rossz.
https://daniel.haxx.se/docs/curl-vs-wget.html
Egyébként nem kizárólag csak saját merevlemezre tudnak ezek menteni, lehet a merevlemez másé is :)
- A hozzászóláshoz be kell jelentkezni
Meg lehet SSD-re, ramdrive-ra, hálózati meghajtóra/megosztásra, felhőbe stb. is menteni. Ebbe bele sem akartam kötni. Én mindig röhögök ezen a merevlemez megnevezésen is, hiszen az elnevezés alapját még régen az adta, hogy nem floppy-ról volt szó, amit hajlítgatni meg hullámoztatni tudott az ember, de ennek ma már nincs értelme, főleg, mióta a 3.5-ös floppy, zip lemez, CD, DVD, BD, stb. is „hard”, merev, nem csak a HDD, SSD, pendrive. Sokkal több értelme lett volna, ha a winchester, magyarosítva vincseszter név ragad meg a hard disk helyett. Én ezeket már csak meghajtónak hívom, lassan már úgyis kopik ki mind, csak a solid state memóriatárolók maradnak, pendrive, SSD. Az ODD/BD visszaszorul otthoni lejátszókba, de már ott is kopik ki a stream hatására.
Kicsit olyasmi, mint mikor a mai napig sok GUI-s program eszköztáras ikonsorában a mentés gombnak floppy a piktogramja. Ha megkérdezel erről fiatalabbakat, akik nem használtak floppy-t, ők nem is értik, hogy mit ábrázol ez a kép. Ha megmutatod nekik netes videókon mi az igazából, akkor azon meg röhögnek, hogy milyen morbid lehetett olyanon adatot tárolni, meg a meghajtóban cserélgetni. Legalább olyan agyrémnek fog nekik tűnni, mint a kazettás, szalagos adattárolás. Szerintem mikor néznek ilyen régebbi filmeket, ahol még mainframe-ek vannak ábrázolva ilyen nagy tárcsás szalagos tárolókkal, ott pörögnek a háttérben, szerintem az is nagyon morbid lehet ma már egy mai fiatalnak, aki HDD, SSD, laptop, okostelefon, táblagépes, internetes világba nőtt bele.
“The world runs on Excel spreadsheets.” (Dylan Beattie)
- A hozzászóláshoz be kell jelentkezni
Majdnem megértetted, hogy a megjegyzés a sajátnak szólt, nem a merevlemeznek :)
- A hozzászóláshoz be kell jelentkezni
Értem én, hogy a saját-on volt a lényeg, de én továbbvittem a gondolatot, hogy nem csak hogy nem kell sajátnak vagy idegennek lennie, hanem merevlemeznek se. Ezt is csak azért hoztam fel, mert eredetileg mint írtam, nem akartam a szövegezésbe belekötni, de ha már felhoztad az egyik részét, akkor nem tartottam a többit magamban. Nyilván nem érdemes rajta rugózni, mert azonnal értette elsőre mindenki, hogy a kolléga lokális/offline mentést akar, és ahhoz keres webcrawlert. Amit meg is talált httrack, wget, curl formájában, csak ugye a limitációk mindig is ott lesznek, hogy ezek mind csak statikusan tudnak menteni, mert a dinamikus része szerveroldali marad.
“The world runs on Excel spreadsheets.” (Dylan Beattie)
- A hozzászóláshoz be kell jelentkezni
Na! Mivel nem tudom, hogy kell osszehozni, hogy "megoldva" legyen a tema, így ide irom le hogy mire jutottam.
Mostantol, ahol szamomra erdekes, es fontos webes tartalom van, ott kaci megoldasat hasznalom a webrecorder-t. Chrome-ba szepen van is bovitmeny hozza. Mukodik.
Tovabba ahol olyan tartalom van amit nem szeretnek vegig nyalazni, de szinten erdekes lehet oda szinten kaci megoldasa fekszik. Wgettel warcz-ben lementem. Itt meg vannak dolgok amikre ra kell jonnom, de menni fog szerintem.
Alternativ megoldas lehet, wgettel mirror-al vagy resposive-al lementeni a tartalmat, majd egy pinot vagy docfetcher-el keresgelni benne. Ez is mukodik amugy.
A docfetcher-nel az alabbi problemaba futottam bele. A forum amit letoltottem 2005-tol el. Eleg sok tema letrejott azota. A teljes tartalom a letoltes utan (wget mirror) ~12GB lett, olyan ~700.000 file-al. Ezt a docfetcher win10 alatt a default beallitasaival nem tudta beindexelni, mert elfogy a RAM. Alapbol 256MB RAM-al tud dolgozni. Ez konnyen modosithato: C:\Program Files (x86)\DocFetcher\misc - itt kulonbozo *.exe allomanyok talalhatoak. Mindegyikben jelolve van, hogy hany MB RAM-ot enged a programnak. Egyszeruen a "misc" mappabol a szamodra megfelelo exe-t at kell masolni a C:\Program Files (x86)\DocFetcher mappaba, es azt kell elinditani.
Koszonom mindenkinek a segitseget!
- A hozzászóláshoz be kell jelentkezni
Érdekes konfig megoldás ez a RAM-mal :)
“Any book worth banning is a book worth reading.”
- A hozzászóláshoz be kell jelentkezni
"Egyszeruen a "misc" mappabol a szamodra megfelelo exe-t at kell masolni a C:\Program Files (x86)\DocFetcher mappaba, es azt kell elinditani." - facepalm...
- A hozzászóláshoz be kell jelentkezni
Nem annyira technikai részletekbe menő, de lehet, érdekes: Crawlerek és scraperek – Webes tartalmak mentésére szolgáló programok
- A hozzászóláshoz be kell jelentkezni
Köszi!
- A hozzászóláshoz be kell jelentkezni