Scraper és archívum

Fórumok

Sziasztok, 

 

arra gondoltam, csinálok egy saját index.hu archívot, amíg még elérhetőek a régi tartalmak. Ti hogyan fognátok neki? Egyrész melyik scraper-rel, másrészt tudtok olyan tartalom-motort, ami praktikus lenne az archivált cikkek megjelenítésére?

Tudom, hogy a wayback machine is sok ckket archivált. Minden tippért hálás leszek. Köszi.

Hozzászólások

Szkripttel lehúzod a havi sitemapokat.

Szépen sorban a cikkeket pl. wgettel (a rate limitek miatt több ip címről).

Metaadatok az opengraph fejlécekben.

Kis awk szűrés, amivel kivágod a lényegtelen részeket.

Képeket pl. a statically.io segítségével rögtön meg is lehet vágni.

Az egészből lehet pl. jekyll forrást gyártani vagy ha nagyon modern akarsz lenni, akkor Netlify...

Szerkesztve: 2020. 07. 28., k - 21:52

Ti hogyan fognátok neki?

Bedobnám az Archive Team wikibe / felvenném velük a kapcsolatot, hogy hogy lehet rá Warrior projektet csinálni és submitolni (ilyen szinten passzolom az eljárásrendjüket, ha átverekeded magad rajta, kapsz egy elosztott letöltőt :) https://archiveteam.org/index.php?title=Dev ).

Egyébként wget, warc formátum. (szerk.: az Archive Team wikiben van szoftvergyűjtemény: https://archiveteam.org/index.php?title=Software)

BlackY

"Gyakran hasznos ugyanis, ha számlálni tudjuk, hányszor futott le már egy végtelenciklus." (haroldking)

Ha nem zavar a Python-> https://scrapy.org/

“The trouble with having an open mind, of course, is that people will insist on coming along and trying to put things in it."
"Senkit nem hagyunk az ereszcsatornán!"

Csak távolabbról kapcsolódik ide: tud valaki más internet archívumról, mint a wayback machine vagy az archive-it.org? (Esetleg van magyar érdekeltségű?)
Ezt szeretném valahogy viszontlátni a 2008-as időkből: http://www.bences.hu/z/munster