Van ugyan a Wayback Machine (ami az Internet Archive nevű szervezet, mentett weboldalakat megtekintésre alkalmassá tevő szolgáltatása), de ebben sajnos elég kínkeserves brózolgatni. Főleg, ha nem tudod a KONKRÉT explicit precíz URL-jét annak az Anandtech-es cikknek, ami éppen érdekelt volna.
Ekkor jött egy egy reménysugár, h. állítólag valakik lementették anno a teljes weboldalt. Na szuper, mert akkor saját magad felügyelte gépén tudod tárolni ezt az archivumot. Így nem vagy ráutalva vadidegenek kitudja milyen instabil gazdasági alapon működő cégére, akik egyik percről a másikra tűnnek el az internetről a süllyesztőbe, minden náluk tárolt adattal egyetemben. Helyben tárolt tartalomban pedig keresni is gyorsabb és egyszerűbb! Haha, hát persze, jó vicc volt!
Na és itt kezdődik a küldetésed - persze csak ha vállalod - megfejteni és Földi Laikus Halandók által is használhatóvá varázsolni az internet-archiválók szent-tehén fájlformátumát: a Web Archive (röviden WARC) nevezetű text-alapú borzalmat.
1. lépés: szerezzünk valami használható okosítót a WARC-ról!
Találtam egy ilyet: bit.ly/warc-intro
Ide visz: https://support.archive-it.org/hc/en-us/community/posts/360062940512
Itt van egy 58 perces bevezető a WARC lelkivilágába:
https://archive.org/details/introduction-to-the-warc
nagyon lassú és fájdalmasan nyögvenyelős előadás, gyorsítva érdemes nézni, de némi alapot adhat.
Sajnos nem lett számomra teljesen világos, h. az Archive-IT az Archive.org egy hivatalos nyúlványa? Vagy valami tökfüggetlen cég/szervezet, és csak építettek egy egyedi (fizetős) szolgáltatást a WARC köré? Ergo csak a saját cuccait promózza ezekkel a tréningekkel, így kívülálló semmi használhatót nem fog tudni kiszedni ezekből, hacsak nem fizet elő náluk.
A többi Archive-IT tréning videó nem tűnik úgy h. általánosságban, vendor-függetlenül a WARC témájához még hozzá tudna tenni bármi hasznosat. De akinek van kedve nézzen bele és írja meg kommentben ha talált köztük bármi értelmeset:
https://archive.org/details/archiveitvideos?sort=-downloads
--Ide még TODO keresni valami használhatóbb training anyagot--
2. lépés, ha már kb. sejted h. eszik-e vagy isszák, be kell szerezni az archivumot:
https://archive.fart.website/archivebot/viewer/job/20240901213047bvqa8
kb. 5 GB-os .GZ-be csomagolt darabokban van, az egész: kb. 71 GB
Belenézve a GZ fájlokba, windows alatt csak irreálisan pici fájlméret látszik, párszáz KB-1 MB nagyságrend. Nyilvánvalóan teljesen hülyeség. De szerencsére pl. a 7Zip hiba nélkül ki tudta bontani ennek ellenére is.
Kicsomagolás után kb. 300 GB lesz az egész pakk:
09/01/2024 11:30 PM 8,324,488,084 www.anandtech.com-inf-20240901-213047-bvqa8-00000.warc
09/02/2024 03:28 AM 14,644,136,302 www.anandtech.com-inf-20240901-213047-bvqa8-00001.warc
09/02/2024 04:15 PM 15,640,231,482 www.anandtech.com-inf-20240901-213047-bvqa8-00002.warc
09/03/2024 04:57 AM 15,956,982,277 www.anandtech.com-inf-20240901-213047-bvqa8-00003.warc
09/03/2024 06:34 PM 20,017,653,162 www.anandtech.com-inf-20240901-213047-bvqa8-00004.warc
09/04/2024 04:37 AM 32,124,479,611 www.anandtech.com-inf-20240901-213047-bvqa8-00005.warc
09/04/2024 01:22 PM 29,144,235,224 www.anandtech.com-inf-20240901-213047-bvqa8-00006.warc
09/05/2024 01:23 AM 16,722,820,858 www.anandtech.com-inf-20240901-213047-bvqa8-00007.warc
09/05/2024 03:18 PM 22,737,719,966 www.anandtech.com-inf-20240901-213047-bvqa8-00008.warc
09/06/2024 05:57 AM 41,312,947,912 www.anandtech.com-inf-20240901-213047-bvqa8-00009.warc
09/06/2024 07:45 PM 20,558,756,544 www.anandtech.com-inf-20240901-213047-bvqa8-00010.warc
09/07/2024 11:55 AM 30,734,195,870 www.anandtech.com-inf-20240901-213047-bvqa8-00011.warc
09/08/2024 03:48 AM 20,282,875,128 www.anandtech.com-inf-20240901-213047-bvqa8-00012.warc
09/09/2024 12:14 AM 16,921,405,179 www.anandtech.com-inf-20240901-213047-bvqa8-00013.warc
09/09/2024 04:04 PM 2,803,145,826 www.anandtech.com-inf-20240901-213047-bvqa8-meta.warc
15 File(s) 307,926,073,425 bytes
Innentől kezdve mivel nyissa meg az ember, mit kezdjen ezzel a 300 GB-os borzalommal?
3. lépés: Van egy webes (böngészőben futó) tool: https://replayweb.page/
Ez kicsit trükkösnek tűnik, de ezen keresztül a böngészőnk elvileg fel tudja olvasni a lokális gépen tárolt WARC fájlokat, anélkül h. elküldené erre a szerverre (azaz nem kell a hálózaton megutaztatni oda-vissza 300 GB-ot). Viszont nem lesz gyors a dolog, hanem leginkább lassú. Fájlmérettől függően 10-15-20 percig is eltart 1 darab WARC beolvasása. Nekünk meg elvileg mindre szükségünk lenne, ha a teljes archivumban akarunk keresni.
Van letölthető lokálisan futtatható natív program változata is, az némileg gyorsabban dolgozik.
Eddig nekem úgy tűnik, hogy nem kell 300-400 GB RAM a teljes archivumot RAM-ban tartani, a betöltés után sem lett a memóriahasználata a gépnek több, mint előtte. Egymás után, egyesével be lehet neki adni az összes WARC fájlt. Ha mindet beolvasta (sok idő lesz!), utána azt lenne jó kideríteni, hogyan lehet értelmesen keresni az egész kollekcióban. Vagy lehet teljesen tévúton járok ezzel a módszerrel?
Folyt köv.
- ricsip blogja
- A hozzászóláshoz be kell jelentkezni
- 300 megtekintés
Hozzászólások
“Az ellenség keze betette a lábát”
- A hozzászóláshoz be kell jelentkezni
Kössz, ha jó akkor ezt megnézem.
Ez azt csinálja h. fellő egy webszervert, aminek a tartalmát a WARC fájlokból fogja kiszolgálni?
- A hozzászóláshoz be kell jelentkezni