Scraper és archívum

Sziasztok,

arra gondoltam, csinálok egy saját index.hu archívot, amíg még elérhetőek a régi tartalmak. Ti hogyan fognátok neki? Egyrész melyik scraper-rel, másrészt tudtok olyan tartalom-motort, ami praktikus lenne az archivált cikkek megjelenítésére?

Tudom, hogy a wayback machine is sok ckket archivált. Minden tippért hálás leszek. Köszi.

204 megtekintés

Szkripttel lehúzod a havi sitemapokat.

Szépen sorban a cikkeket pl. wgettel (a rate limitek miatt több ip címről).

Metaadatok az opengraph fejlécekben.

Kis awk szűrés, amivel kivágod a lényegtelen részeket.

Képeket pl. a statically.io segítségével rögtön meg is lehet vágni.

Az egészből lehet pl. jekyll forrást gyártani vagy ha nagyon modern akarsz lenni, akkor Netlify...

1 szavazat

A hozzászóláshoz be kell jelentkezni

Szerintem érdemesebb úgy tárolni, ahogy letöltötted. Később könnyebb lesz akár újra feldolgozni akár már más szempontok szerint.

1 szavazat

A hozzászóláshoz be kell jelentkezni

Ti hogyan fognátok neki?

Bedobnám az Archive Team wikibe / felvenném velük a kapcsolatot, hogy hogy lehet rá Warrior projektet csinálni és submitolni (ilyen szinten passzolom az eljárásrendjüket, ha átverekeded magad rajta, kapsz egy elosztott letöltőt :) https://archiveteam.org/index.php?title=Dev ).

Egyébként wget, warc formátum. (szerk.: az Archive Team wikiben van szoftvergyűjtemény: https://archiveteam.org/index.php?title=Software)

BlackY

"Gyakran hasznos ugyanis, ha számlálni tudjuk, hányszor futott le már egy végtelenciklus." (haroldking)

1 szavazat

A hozzászóláshoz be kell jelentkezni

Ha nem zavar a Python-> https://scrapy.org/

“Any book worth banning is a book worth reading.”

1 szavazat

A hozzászóláshoz be kell jelentkezni

Csak távolabbról kapcsolódik ide: tud valaki más internet archívumról, mint a wayback machine vagy az archive-it.org? (Esetleg van magyar érdekeltségű?)
Ezt szeretném valahogy viszontlátni a 2008-as időkből: http://www.bences.hu/z/munster

0 szavazat

A hozzászóláshoz be kell jelentkezni

Nem nagyon ismeri senki, de van egy ilyen oldal: https://webarchivum.oszk.hu/

0 szavazat

A hozzászóláshoz be kell jelentkezni

Scraper és archívum

Hozzászólások