Web crawler

Sziasztok!

Adott egy domain sok al-tartománnyal. Szeretném a honlapokon található hivatkozásokat (más oldalakra, dokumentumokra) gráfként ábrázolni (graphviz).

Olyan programot keresek, ami az adott tartományon végigböngészi a hivatkozásokat, a hivatkozásokat valamilyen feldolgozható formában elmenti. Az oldalakat és média tartalmakat nem akarom menteni.

Milyen programot ajánlanátok erre a feladatra?

Köszönöm, Cözi

Hozzászólások

Ha értesz Python-ul, akkor a scrapy-t ajánlom: http://scrapy.org/
Van fennt az oldalon valahol egy példakód, ami gyakorlatilag a megadott feladatot oldja meg. Könnyen tudsz neki mysql backendet adni, így a linkek mentése sem lesz gond.