WEB tartalom összehasonlítása

Sziasztok,

nem tudom, hogy létezik-e ilyen webes összehasonlító alkalmazás, ami a következő feladatot tudja:

Cél: Adott oldalak változásainak nyomon követése és, változásokról, információ küldése.

Elképzelésem:
- Megadok neki egy „fő” domain nevet, és a domain oldalon szereplő linket feltérképezi és lementi.
- A mentésből időszakonként készít egy összehasonlítást, hogy pontosan mi változik, változott az adott oldalakon. Erről küld egy átlátható "elemzést"

Persze használhat RSS-t, ha van az adott weboldalnak...

Nem tudom mennyire speciális az elvárási listám, mert külön-külön vannak alkalmazások, csak együtt nem találtam még ilyet....:)

Kérdésem, hogy létezik ilyen webes alkalmazás, ha igen, akkor melyik lenne az igazi, esetleg valaki használ-e ilyet?

KALMI

Hozzászólások

Wget follow-links (na nem végig, mert akkor letöltöd az internetet, szóval csak bizonyos mélységig, mondjuk maradsz a domainben) => bele egy könyvtárba => bele egy verziókövetőbe (subversion/git)

Innen aztán már lehet statisztikád.

És mondjuk írsz rá egy 4 soros shell scriptet.
1. wget
2. commit
3. svn diff (git-nél nem tudom) > websitediff.log
4.
mail -s 'a subject' a.te@email.cimed < websitediff.log

Kb. Ennyi

(a mail-es sort nem tudom miért írja három sorba...a code block sem használ)

-Q quota
--quota=quota
Specify download quota for automatic retrievals. The value can be specified in bytes (default), kilobytes (with k suffix), or megabytes (with m
suffix).

Note that quota will never affect downloading a single file. So if you specify wget -Q10k ftp://wuarchive.wustl.edu/ls-lR.gz, all of the ls-lR.gz
will be downloaded. The same goes even when several URLs are specified on the command-line. However, quota is respected when retrieving either
recursively, or from an input file. Thus you may safely type wget -Q2m -i sites---download will be aborted when the quota is exceeded.

Setting quota to 0 or to inf unlimits the download quota.

Ezt sem ismertem (mondjuk így vagyok a wget nagy részével), de arra gondoltam, hogy konkrétan nem adok meg semmit (vagy unlimitedre állítom) a rekurzió szintjénél és a kvótánál. Akkor ténylegesen megkapnám az internet szabadon elérhető részét, ha elegendő storage van alatta?

Egyszer régen, amikor még nem volt napi rutin gigágat letöltögetni, éjszakára beállítottam a wgetet az egyik kínai egyetem eldugott zugában hosztolt, megkapó vertikumban összelopott O'Reilly gyűjtemény egy darabjának leszedésére.
Amit nem szúrtam ki: 1-2 fejezet aljára beleszögeltek egy URL-t az egyetem főoldalára.

Reggel megtaláltam az egyetem hivatalos és warez anyagából annyit, amennyi a fájlrendszerre fért, a wgeten nem múlt volna a folytatás.

aham....szóval a fenti diffweb.sh scriptet...

Mondjuk diffweb módon meghívva. De rakjunk ki nekik egy diffweb.desktop-ot, hogy csak rá kelljen klikkelniük és zenity-vel bekérjük az URL-t.

Ennél egyszerűbb szerintem nincs. Persze tuti vannak óriási keretrendszerekre épülő robosztus alkalmazások, de azok nem épp az egyszerűségükről híresek. Szenvedhet velük az ember két hétig telepítéssel, beállítással. Aztán meg majd a frissítésükkel. Mondjuk a fenti esetben is kell egy subversion, de kb ennyi is amit telepíteni kell.

Egész addig nem, amíg nincsenek olyanok, hogy formok meg javascript gombocskák, esetleg dinamikus oldalak, amik jó esetben nem ötletszerűen változnak. A jelen esetben alighanem nem érdekes, de külön mókás lehet a nem html, hanem flash vagy pláne a java alapú tartalommegjelenítés.

A wget helyére én a scrapy-t ajánlanám (scrapy.org). Python-os, egyetlen csomagot kell telepíteni pip-pel. A doksiban az első példa lefedi az összes funkcionalitást, amire szükséged van: http://doc.scrapy.org/en/latest/intro/overview.html
Ennek segítségével rögtön json/xml/csv fájlba tudsz exportálni, és tényleg csak a linkeket töltöd le.

Verziókezelésre szerintem is svn, vagy git...

Azért egy session cookie lekérdezés, majd egy auth annak a cookie-nak a segítségével nem nagy ördöngősség. Egy login oldalon a legtöbb javascript az, hogy leellenőrzi minden mezőt kitöltöttél. Ha már van Capcha, akkor azon egy komplet framework sem segít, mert ott bezony az emberkének be kell gépelnie amit lát, lásd a távolkeleti capcha rabszolgákat.

Írtunk már CURL és Awk használatával teszt framework-öt weboldalakhoz. Nem azért, mert ne lenne, de amik vannak azoknak az ára elég borsos. Én örültem volna ha megveszi a cég, de költséghatékonyak voltunk inkább, ráadásul egyetlen egy speciális site-ról volt szó. Azért nem akart fizetni a vezetés. Így maradt a curl és az awk. I'm lovin' it. :D

Oldalakat amiket szeretnék figyelni azon nem lesz flash vagy belépés. Sima html oldalakat szeretnék csak figyelni. Ami érdekes lehet, hogy ha az oldalra van csatolva pl: pdf, akkor annak a méret változását kellene max figyelni.

Küldenél valamit a fejlesztésedről, lehet érdekes lehet :)

Én nem erre gondoltam, persze, egy logint meg lehet ugrani, hanem arra, mikor a figyelt oldalon van valami dynamikusan generált feleslegesség. Pl itt a hupon esélyes, hogy nem akarnél egy google +1, vagy valami tag felhő változás miatt pittyegést kapni. Nyilván van olyan oldal, ahol ez nem para, de általánosra megscsinálni azért nem trivi.