WEB tartalom összehasonlítása

Sziasztok,

nem tudom, hogy létezik-e ilyen webes összehasonlító alkalmazás, ami a következő feladatot tudja:

Cél: Adott oldalak változásainak nyomon követése és, változásokról, információ küldése.

Elképzelésem:
- Megadok neki egy „fő” domain nevet, és a domain oldalon szereplő linket feltérképezi és lementi.
- A mentésből időszakonként készít egy összehasonlítást, hogy pontosan mi változik, változott az adott oldalakon. Erről küld egy átlátható "elemzést"

Persze használhat RSS-t, ha van az adott weboldalnak...

Nem tudom mennyire speciális az elvárási listám, mert külön-külön vannak alkalmazások, csak együtt nem találtam még ilyet....:)

Kérdésem, hogy létezik ilyen webes alkalmazás, ha igen, akkor melyik lenne az igazi, esetleg valaki használ-e ilyet?

KALMI

4963 megtekintés

Nem teljesen ez, de ilyesmi: www.changedetection.com
Nekem tökéletes, ritkán változó márkahonlapokat figyelek vele, több százat.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Wget follow-links (na nem végig, mert akkor letöltöd az internetet, szóval csak bizonyos mélységig, mondjuk maradsz a domainben) => bele egy könyvtárba => bele egy verziókövetőbe (subversion/git)

Innen aztán már lehet statisztikád.

És mondjuk írsz rá egy 4 soros shell scriptet.
1. wget
2. commit
3. svn diff (git-nél nem tudom) > websitediff.log
4.
mail -s 'a subject' a.te@email.cimed < websitediff.log

Kb. Ennyi

(a mail-es sort nem tudom miért írja három sorba...a code block sem használ)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Lazán kapcsolódik: ha a wgetet elindítom a végtelenbe és tovább, leáll valamikor, vagy csak ha betelik a storage alatta? Sosem jutott eszembe ilyet csinálni. :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

-Q quota
--quota=quota
Specify download quota for automatic retrievals. The value can be specified in bytes (default), kilobytes (with k suffix), or megabytes (with m
suffix).

Note that quota will never affect downloading a single file. So if you specify wget -Q10k ftp://wuarchive.wustl.edu/ls-lR.gz, all of the ls-lR.gz
will be downloaded. The same goes even when several URLs are specified on the command-line. However, quota is respected when retrieving either
recursively, or from an input file. Thus you may safely type wget -Q2m -i sites---download will be aborted when the quota is exceeded.

Setting quota to 0 or to inf unlimits the download quota.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ezt sem ismertem (mondjuk így vagyok a wget nagy részével), de arra gondoltam, hogy konkrétan nem adok meg semmit (vagy unlimitedre állítom) a rekurzió szintjénél és a kvótánál. Akkor ténylegesen megkapnám az internet szabadon elérhető részét, ha elegendő storage van alatta?

0 szavazat

A hozzászóláshoz be kell jelentkezni

há' ja...gondolom...próbáld ki ;)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Egyszer régen, amikor még nem volt napi rutin gigágat letöltögetni, éjszakára beállítottam a wgetet az egyik kínai egyetem eldugott zugában hosztolt, megkapó vertikumban összelopott O'Reilly gyűjtemény egy darabjának leszedésére.
Amit nem szúrtam ki: 1-2 fejezet aljára beleszögeltek egy URL-t az egyetem főoldalára.

Reggel megtaláltam az egyetem hivatalos és warez anyagából annyit, amennyi a fájlrendszerre fért, a wgeten nem múlt volna a folytatás.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ja ráadásul egy weboldalról nincs is szükséged a képekre, meg egyéb médiákra, szóval nyugodtal lehet csak a html, css és js részeket tölteni. Az meg ha szerencséd van nem olyan nagy.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Összefoglalva nem egy bonyolult dolgot keresek, hanem egy egyszerű megoldást, amit akár userek is egyszerűen tudnak kezelni...

0 szavazat

A hozzászóláshoz be kell jelentkezni

aham....szóval a fenti diffweb.sh scriptet...

Mondjuk diffweb módon meghívva. De rakjunk ki nekik egy diffweb.desktop-ot, hogy csak rá kelljen klikkelniük és zenity-vel bekérjük az URL-t.

Ennél egyszerűbb szerintem nincs. Persze tuti vannak óriási keretrendszerekre épülő robosztus alkalmazások, de azok nem épp az egyszerűségükről híresek. Szenvedhet velük az ember két hétig telepítéssel, beállítással. Aztán meg majd a frissítésükkel. Mondjuk a fenti esetben is kell egy subversion, de kb ennyi is amit telepíteni kell.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Kérdezek egy merészet egy ilyen összehasonlítót megírni nagy mutatvány?

0 szavazat

A hozzászóláshoz be kell jelentkezni

A funkciót? Nem.

A funkció köre szoftvert építeni ami kielégíti az egyedi igényeidet? Igen.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Egész addig nem, amíg nincsenek olyanok, hogy formok meg javascript gombocskák, esetleg dinamikus oldalak, amik jó esetben nem ötletszerűen változnak. A jelen esetben alighanem nem érdekes, de külön mókás lehet a nem html, hanem flash vagy pláne a java alapú tartalommegjelenítés.

0 szavazat

A hozzászóláshoz be kell jelentkezni

A wget helyére én a scrapy-t ajánlanám (scrapy.org). Python-os, egyetlen csomagot kell telepíteni pip-pel. A doksiban az első példa lefedi az összes funkcionalitást, amire szükséged van: http://doc.scrapy.org/en/latest/intro/overview.html
Ennek segítségével rögtön json/xml/csv fájlba tudsz exportálni, és tényleg csak a linkeket töltöd le.

Verziókezelésre szerintem is svn, vagy git...

0 szavazat

A hozzászóláshoz be kell jelentkezni

Azért majd ha valaki bizget egyet a javascripten valami ad miatt, vagy van egy hülye óra / bejelentkezett userek lista / bármi egyéb dinamikusan generált érdektelen basz, akkor lehet csodálkozni. :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Azért egy session cookie lekérdezés, majd egy auth annak a cookie-nak a segítségével nem nagy ördöngősség. Egy login oldalon a legtöbb javascript az, hogy leellenőrzi minden mezőt kitöltöttél. Ha már van Capcha, akkor azon egy komplet framework sem segít, mert ott bezony az emberkének be kell gépelnie amit lát, lásd a távolkeleti capcha rabszolgákat.

Írtunk már CURL és Awk használatával teszt framework-öt weboldalakhoz. Nem azért, mert ne lenne, de amik vannak azoknak az ára elég borsos. Én örültem volna ha megveszi a cég, de költséghatékonyak voltunk inkább, ráadásul egyetlen egy speciális site-ról volt szó. Azért nem akart fizetni a vezetés. Így maradt a curl és az awk. I'm lovin' it. :D

0 szavazat

A hozzászóláshoz be kell jelentkezni

Oldalakat amiket szeretnék figyelni azon nem lesz flash vagy belépés. Sima html oldalakat szeretnék csak figyelni. Ami érdekes lehet, hogy ha az oldalra van csatolva pl: pdf, akkor annak a méret változását kellene max figyelni.

Küldenél valamit a fejlesztésedről, lehet érdekes lehet :)

0 szavazat

A hozzászóláshoz be kell jelentkezni

Ebben az esetben is jó a subversion. Csak le kell szedni a pdf-et is a wget-tel. Persze a különbség bináris lesz, de ha neked csak az a fontos, hogy mi az ami változott, akkor a pdf is bent lesz a listában.

0 szavazat

A hozzászóláshoz be kell jelentkezni

Én nem erre gondoltam, persze, egy logint meg lehet ugrani, hanem arra, mikor a figyelt oldalon van valami dynamikusan generált feleslegesség. Pl itt a hupon esélyes, hogy nem akarnél egy google +1, vagy valami tag felhő változás miatt pittyegést kapni. Nyilván van olyan oldal, ahol ez nem para, de általánosra megscsinálni azért nem trivi.

0 szavazat