Web Archive (WARC) formátum megfejtése

Kapcsolódóan az augusztusi témához: a www.anandtech.com szerverét végleg lelőtték (rajta 25 évnyi tartalommal). Most már minden Anandtech.com-os tartalom automatikusan átirányít az Anandtech forum-ba (ergo nem azt a tartalmat fogja megnyitni a böngésződ, amit szerettél volna). Vagy néhány esetben némi kézi munkával a Tomshardware hasonló című cikkeire próbálnak átirányítani, több-kevesebb sikerrel. Így ha kerestél volna bármi régi IT / Tech / retro cikket tőlük az elmúlt negyed századból, akkor good luck, lekéstél róla!

Van ugyan a Wayback Machine (ami az Internet Archive nevű szervezet, mentett weboldalakat megtekintésre alkalmassá tevő szolgáltatása), de ebben sajnos elég kínkeserves brózolgatni. Főleg, ha nem tudod a KONKRÉT explicit precíz URL-jét annak az Anandtech-es cikknek, ami éppen érdekelt volna.

Ekkor jött egy egy reménysugár, h. állítólag valakik lementették anno a teljes weboldalt. Na szuper, mert akkor saját magad felügyelte gépén tudod tárolni ezt az archivumot. Így nem vagy ráutalva vadidegenek kitudja milyen instabil gazdasági alapon működő cégére, akik egyik percről a másikra tűnnek el az internetről a süllyesztőbe, minden náluk tárolt adattal egyetemben. Helyben tárolt tartalomban pedig keresni is gyorsabb és egyszerűbb! Haha, hát persze, jó vicc volt!

Na és itt kezdődik a küldetésed - persze csak ha vállalod - megfejteni és Földi Laikus Halandók által is használhatóvá varázsolni az internet-archiválók szent-tehén fájlformátumát: a Web Archive (röviden WARC) nevezetű text-alapú borzalmat.

1. lépés: szerezzünk valami használható okosítót a WARC-ról! 

Találtam egy ilyet: bit.ly/warc-intro 

Ide visz: https://support.archive-it.org/hc/en-us/community/posts/360062940512

Itt van egy 58 perces bevezető a WARC lelkivilágába:

https://archive.org/details/introduction-to-the-warc

nagyon lassú és fájdalmasan nyögvenyelős előadás, gyorsítva érdemes nézni, de némi alapot adhat. 

Sajnos nem lett számomra teljesen világos, h. az Archive-IT az Archive.org egy hivatalos nyúlványa? Vagy valami tökfüggetlen cég/szervezet, és csak építettek egy egyedi (fizetős) szolgáltatást a WARC köré? Ergo csak a saját cuccait promózza ezekkel a tréningekkel, így kívülálló semmi használhatót nem fog tudni kiszedni ezekből, hacsak nem fizet elő náluk.

A többi Archive-IT tréning videó nem tűnik úgy h. általánosságban, vendor-függetlenül a WARC témájához még hozzá tudna tenni bármi hasznosat. De akinek van kedve nézzen bele és írja meg kommentben ha talált köztük bármi értelmeset:

https://archive.org/details/archiveitvideos?sort=-downloads

--Ide még TODO keresni valami használhatóbb training anyagot--

 

2. lépés, ha már kb. sejted h. eszik-e vagy isszák, be kell szerezni az archivumot:

https://archive.fart.website/archivebot/viewer/job/20240901213047bvqa8

kb. 5 GB-os .GZ-be csomagolt darabokban van, az egész: kb. 71 GB

Belenézve a GZ fájlokba, windows alatt csak irreálisan pici fájlméret látszik, párszáz KB-1 MB nagyságrend. Nyilvánvalóan teljesen hülyeség. De szerencsére pl. a 7Zip hiba nélkül ki tudta bontani ennek ellenére is. 

Kicsomagolás után kb. 300 GB lesz az egész pakk:

09/01/2024  11:30 PM     8,324,488,084 www.anandtech.com-inf-20240901-213047-bvqa8-00000.warc
09/02/2024  03:28 AM    14,644,136,302 www.anandtech.com-inf-20240901-213047-bvqa8-00001.warc
09/02/2024  04:15 PM    15,640,231,482 www.anandtech.com-inf-20240901-213047-bvqa8-00002.warc
09/03/2024  04:57 AM    15,956,982,277 www.anandtech.com-inf-20240901-213047-bvqa8-00003.warc
09/03/2024  06:34 PM    20,017,653,162 www.anandtech.com-inf-20240901-213047-bvqa8-00004.warc
09/04/2024  04:37 AM    32,124,479,611 www.anandtech.com-inf-20240901-213047-bvqa8-00005.warc
09/04/2024  01:22 PM    29,144,235,224 www.anandtech.com-inf-20240901-213047-bvqa8-00006.warc
09/05/2024  01:23 AM    16,722,820,858 www.anandtech.com-inf-20240901-213047-bvqa8-00007.warc
09/05/2024  03:18 PM    22,737,719,966 www.anandtech.com-inf-20240901-213047-bvqa8-00008.warc
09/06/2024  05:57 AM    41,312,947,912 www.anandtech.com-inf-20240901-213047-bvqa8-00009.warc
09/06/2024  07:45 PM    20,558,756,544 www.anandtech.com-inf-20240901-213047-bvqa8-00010.warc
09/07/2024  11:55 AM    30,734,195,870 www.anandtech.com-inf-20240901-213047-bvqa8-00011.warc
09/08/2024  03:48 AM    20,282,875,128 www.anandtech.com-inf-20240901-213047-bvqa8-00012.warc
09/09/2024  12:14 AM    16,921,405,179 www.anandtech.com-inf-20240901-213047-bvqa8-00013.warc
09/09/2024  04:04 PM     2,803,145,826 www.anandtech.com-inf-20240901-213047-bvqa8-meta.warc
              15 File(s) 307,926,073,425 bytes

Innentől kezdve mivel nyissa meg az ember, mit kezdjen ezzel a 300 GB-os borzalommal?

3. lépés: Van egy webes (böngészőben futó) tool: https://replayweb.page/

Ez kicsit trükkösnek tűnik, de ezen keresztül a böngészőnk elvileg fel tudja olvasni a lokális gépen tárolt WARC fájlokat, anélkül h. elküldené erre a szerverre (azaz nem kell a hálózaton megutaztatni oda-vissza 300 GB-ot). Viszont nem lesz gyors a dolog, hanem leginkább lassú. Fájlmérettől függően 10-15-20 percig is eltart 1 darab WARC beolvasása. Nekünk meg elvileg mindre szükségünk lenne, ha a teljes archivumban akarunk keresni.

Van letölthető lokálisan futtatható natív program változata is, az némileg gyorsabban dolgozik.

Eddig nekem úgy tűnik, hogy nem kell 300-400 GB RAM a teljes archivumot RAM-ban tartani, a betöltés után sem lett a memóriahasználata a gépnek több, mint előtte. Egymás után, egyesével be lehet neki adni az összes WARC fájlt. Ha mindet beolvasta (sok idő lesz!), utána azt lenne jó kideríteni, hogyan lehet értelmesen keresni az egész kollekcióban. Vagy lehet teljesen tévúton járok ezzel a módszerrel?

Folyt köv.

Hozzászólások