Scraper és archívum

Fórumok

Sziasztok, 

 

arra gondoltam, csinálok egy saját index.hu archívot, amíg még elérhetőek a régi tartalmak. Ti hogyan fognátok neki? Egyrész melyik scraper-rel, másrészt tudtok olyan tartalom-motort, ami praktikus lenne az archivált cikkek megjelenítésére?

Tudom, hogy a wayback machine is sok ckket archivált. Minden tippért hálás leszek. Köszi.

Hozzászólások

Szkripttel lehúzod a havi sitemapokat.

Szépen sorban a cikkeket pl. wgettel (a rate limitek miatt több ip címről).

Metaadatok az opengraph fejlécekben.

Kis awk szűrés, amivel kivágod a lényegtelen részeket.

Képeket pl. a statically.io segítségével rögtön meg is lehet vágni.

Az egészből lehet pl. jekyll forrást gyártani vagy ha nagyon modern akarsz lenni, akkor Netlify...

Szerkesztve: 2020. 07. 28., k - 21:52

Ti hogyan fognátok neki?

Bedobnám az Archive Team wikibe / felvenném velük a kapcsolatot, hogy hogy lehet rá Warrior projektet csinálni és submitolni (ilyen szinten passzolom az eljárásrendjüket, ha átverekeded magad rajta, kapsz egy elosztott letöltőt :) https://archiveteam.org/index.php?title=Dev ).

Egyébként wget, warc formátum. (szerk.: az Archive Team wikiben van szoftvergyűjtemény: https://archiveteam.org/index.php?title=Software)

BlackY

"Gyakran hasznos ugyanis, ha számlálni tudjuk, hányszor futott le már egy végtelenciklus." (haroldking)

Ha nem zavar a Python-> https://scrapy.org/

“May have been the losing side. Still not convinced it was the wrong one.”
"The clitoris has 8,000 nerve endings and still isn't as sensitive as a conservative man on the Internet"

Csak távolabbról kapcsolódik ide: tud valaki más internet archívumról, mint a wayback machine vagy az archive-it.org? (Esetleg van magyar érdekeltségű?)
Ezt szeretném valahogy viszontlátni a 2008-as időkből: http://www.bences.hu/z/munster