Web crawler

 ( Cozi | 2013. július 7., vasárnap - 2:53 )

Sziasztok!

Adott egy domain sok al-tartománnyal. Szeretném a honlapokon található hivatkozásokat (más oldalakra, dokumentumokra) gráfként ábrázolni (graphviz).

Olyan programot keresek, ami az adott tartományon végigböngészi a hivatkozásokat, a hivatkozásokat valamilyen feldolgozható formában elmenti. Az oldalakat és média tartalmakat nem akarom menteni.

Milyen programot ajánlanátok erre a feladatra?

Köszönöm, Cözi

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

Ha értesz Python-ul, akkor a scrapy-t ajánlom: http://scrapy.org/
Van fennt az oldalon valahol egy példakód, ami gyakorlatilag a megadott feladatot oldja meg. Könnyen tudsz neki mysql backendet adni, így a linkek mentése sem lesz gond.