Régi CMS-ek archiválása

Van egy csomó mára már inaktívvá vált, "ezeréves" cms rendszert használó oldal, amibe már senki nem akar új tartalmat felvinni, főleg nem akarja rendszeresen frissíteni alatta a cms-szoftvert, de az oldal tartalma még lényeges, elérhetőnek kellene maradnia de lehetőleg a régi cms-ből adódó kockázatok nélkül (drupal, joomla, mediawiki és saját fejlesztésű megoldások.)

A rájuk mutató linkek, google találatok stb. miatt az URL-eknek semmit nem szabad változni. A http://xyz.hu/alma nem lehet ezután http://xyz.hu/alma.html, bármennyire is html tartalom generálódott erre a címre, vagy nem lehet alma.pdf, ha pdf-et adott vissza, szóval valami olyan megoldás kellene, ami azonos url-re azonos tartalmat, azonos conent-type-pal ad vissza.

Egy egyszerű wget-mirror ezt így nyilván nem tudja megoldani, sőt, még abban sem vagyok biztos, hogy egyáltalán statikus tartalommal megoldható a dolog. De akkor mégis hogyan?

Hozzászólások

Én httrack-al csináltam pár ilyet. Ha van az oldalon pl. naptár modul, akkor azt érdemes lehet kikapcsolni, mert akár "végtelenbe" is kergetheti a letöltést. Ezen kívül az első szinkron után néhány menetben még rá szoktam frissíteni, és ha nincs változás, akkor lezártnak tekintem.

Kipróbálhatod, hogy rájuk eresztesz egy HTTrack-et, ami igazából offline tükröt csinál, de ha jól emlékszem, a feltételeket teljesíti (mármint megtartja az url-eket, de teljes tükröt csinál).

Egyébként még szétnézhetsz az archive team oldalain, hogy ők miket használnak (http://www.archiveteam.org/index.php?title=Software), eléggé rajta vannak azon, hogy pontos és publikus képet kapjanak (benne van a projektben Jason Scott az internet archive-től, AFAIK előbb-utóbb náluk kötnek ki a dolgok, és nekik van egy "csak eredeti" policyjük)

BlackY
--
"en is amikor bejovok dolgozni, nem egy pc-t [..] kapcsolok be, hanem a mainframe-et..." (sj)

Hozzászoltam, de mégsem, van oka?

Httrack vagy wget, a html kiterjesztés eltüntethető az url-bol egy rewrite rule-al.