Fórumok
Sziasztok,
arra gondoltam, csinálok egy saját index.hu archívot, amíg még elérhetőek a régi tartalmak. Ti hogyan fognátok neki? Egyrész melyik scraper-rel, másrészt tudtok olyan tartalom-motort, ami praktikus lenne az archivált cikkek megjelenítésére?
Tudom, hogy a wayback machine is sok ckket archivált. Minden tippért hálás leszek. Köszi.
Hozzászólások
Szkripttel lehúzod a havi sitemapokat.
Szépen sorban a cikkeket pl. wgettel (a rate limitek miatt több ip címről).
Metaadatok az opengraph fejlécekben.
Kis awk szűrés, amivel kivágod a lényegtelen részeket.
Képeket pl. a statically.io segítségével rögtön meg is lehet vágni.
Az egészből lehet pl. jekyll forrást gyártani vagy ha nagyon modern akarsz lenni, akkor Netlify...
Szerintem érdemesebb úgy tárolni, ahogy letöltötted. Később könnyebb lesz akár újra feldolgozni akár már más szempontok szerint.
Bedobnám az Archive Team wikibe / felvenném velük a kapcsolatot, hogy hogy lehet rá Warrior projektet csinálni és submitolni (ilyen szinten passzolom az eljárásrendjüket, ha átverekeded magad rajta, kapsz egy elosztott letöltőt :) https://archiveteam.org/index.php?title=Dev ).
Egyébként wget, warc formátum. (szerk.: az Archive Team wikiben van szoftvergyűjtemény: https://archiveteam.org/index.php?title=Software)
BlackY
"Gyakran hasznos ugyanis, ha számlálni tudjuk, hányszor futott le már egy végtelenciklus." (haroldking)
Ha nem zavar a Python-> https://scrapy.org/
“Any book worth banning is a book worth reading.”
Csak távolabbról kapcsolódik ide: tud valaki más internet archívumról, mint a wayback machine vagy az archive-it.org? (Esetleg van magyar érdekeltségű?)
Ezt szeretném valahogy viszontlátni a 2008-as időkből: http://www.bences.hu/z/munster
Nem nagyon ismeri senki, de van egy ilyen oldal: https://webarchivum.oszk.hu/