Sziasztok,
arra gondoltam, csinálok egy saját index.hu archívot, amíg még elérhetőek a régi tartalmak. Ti hogyan fognátok neki? Egyrész melyik scraper-rel, másrészt tudtok olyan tartalom-motort, ami praktikus lenne az archivált cikkek megjelenítésére?
Tudom, hogy a wayback machine is sok ckket archivált. Minden tippért hálás leszek. Köszi.
- 204 megtekintés
Hozzászólások
Szkripttel lehúzod a havi sitemapokat.
Szépen sorban a cikkeket pl. wgettel (a rate limitek miatt több ip címről).
Metaadatok az opengraph fejlécekben.
Kis awk szűrés, amivel kivágod a lényegtelen részeket.
Képeket pl. a statically.io segítségével rögtön meg is lehet vágni.
Az egészből lehet pl. jekyll forrást gyártani vagy ha nagyon modern akarsz lenni, akkor Netlify...
- A hozzászóláshoz be kell jelentkezni
Szerintem érdemesebb úgy tárolni, ahogy letöltötted. Később könnyebb lesz akár újra feldolgozni akár már más szempontok szerint.
- A hozzászóláshoz be kell jelentkezni
Ti hogyan fognátok neki?
Bedobnám az Archive Team wikibe / felvenném velük a kapcsolatot, hogy hogy lehet rá Warrior projektet csinálni és submitolni (ilyen szinten passzolom az eljárásrendjüket, ha átverekeded magad rajta, kapsz egy elosztott letöltőt :) https://archiveteam.org/index.php?title=Dev ).
Egyébként wget, warc formátum. (szerk.: az Archive Team wikiben van szoftvergyűjtemény: https://archiveteam.org/index.php?title=Software)
BlackY
"Gyakran hasznos ugyanis, ha számlálni tudjuk, hányszor futott le már egy végtelenciklus." (haroldking)
- A hozzászóláshoz be kell jelentkezni
Ha nem zavar a Python-> https://scrapy.org/
“Any book worth banning is a book worth reading.”
- A hozzászóláshoz be kell jelentkezni
Csak távolabbról kapcsolódik ide: tud valaki más internet archívumról, mint a wayback machine vagy az archive-it.org? (Esetleg van magyar érdekeltségű?)
Ezt szeretném valahogy viszontlátni a 2008-as időkből: http://www.bences.hu/z/munster
- A hozzászóláshoz be kell jelentkezni
Nem nagyon ismeri senki, de van egy ilyen oldal: https://webarchivum.oszk.hu/
- A hozzászóláshoz be kell jelentkezni