Sziasztok,
nem tudom, hogy létezik-e ilyen webes összehasonlító alkalmazás, ami a következő feladatot tudja:
Cél: Adott oldalak változásainak nyomon követése és, változásokról, információ küldése.
Elképzelésem:
- Megadok neki egy „fő” domain nevet, és a domain oldalon szereplő linket feltérképezi és lementi.
- A mentésből időszakonként készít egy összehasonlítást, hogy pontosan mi változik, változott az adott oldalakon. Erről küld egy átlátható "elemzést"
Persze használhat RSS-t, ha van az adott weboldalnak...
Nem tudom mennyire speciális az elvárási listám, mert külön-külön vannak alkalmazások, csak együtt nem találtam még ilyet....:)
Kérdésem, hogy létezik ilyen webes alkalmazás, ha igen, akkor melyik lenne az igazi, esetleg valaki használ-e ilyet?
KALMI
- 4961 megtekintés
Hozzászólások
Nem teljesen ez, de ilyesmi: www.changedetection.com
Nekem tökéletes, ritkán változó márkahonlapokat figyelek vele, több százat.
- A hozzászóláshoz be kell jelentkezni
Wget follow-links (na nem végig, mert akkor letöltöd az internetet, szóval csak bizonyos mélységig, mondjuk maradsz a domainben) => bele egy könyvtárba => bele egy verziókövetőbe (subversion/git)
Innen aztán már lehet statisztikád.
És mondjuk írsz rá egy 4 soros shell scriptet.
1. wget
2. commit
3. svn diff (git-nél nem tudom) > websitediff.log
4.
mail -s 'a subject' a.te@email.cimed < websitediff.log
Kb. Ennyi
(a mail-es sort nem tudom miért írja három sorba...a code block sem használ)
- A hozzászóláshoz be kell jelentkezni
Lazán kapcsolódik: ha a wgetet elindítom a végtelenbe és tovább, leáll valamikor, vagy csak ha betelik a storage alatta? Sosem jutott eszembe ilyet csinálni. :)
- A hozzászóláshoz be kell jelentkezni
-Q quota
--quota=quota
Specify download quota for automatic retrievals. The value can be specified in bytes (default), kilobytes (with k suffix), or megabytes (with m
suffix).
Note that quota will never affect downloading a single file. So if you specify wget -Q10k ftp://wuarchive.wustl.edu/ls-lR.gz, all of the ls-lR.gz
will be downloaded. The same goes even when several URLs are specified on the command-line. However, quota is respected when retrieving either
recursively, or from an input file. Thus you may safely type wget -Q2m -i sites---download will be aborted when the quota is exceeded.
Setting quota to 0 or to inf unlimits the download quota.
- A hozzászóláshoz be kell jelentkezni
Ezt sem ismertem (mondjuk így vagyok a wget nagy részével), de arra gondoltam, hogy konkrétan nem adok meg semmit (vagy unlimitedre állítom) a rekurzió szintjénél és a kvótánál. Akkor ténylegesen megkapnám az internet szabadon elérhető részét, ha elegendő storage van alatta?
- A hozzászóláshoz be kell jelentkezni
há' ja...gondolom...próbáld ki ;)
- A hozzászóláshoz be kell jelentkezni
Egyszer régen, amikor még nem volt napi rutin gigágat letöltögetni, éjszakára beállítottam a wgetet az egyik kínai egyetem eldugott zugában hosztolt, megkapó vertikumban összelopott O'Reilly gyűjtemény egy darabjának leszedésére.
Amit nem szúrtam ki: 1-2 fejezet aljára beleszögeltek egy URL-t az egyetem főoldalára.
Reggel megtaláltam az egyetem hivatalos és warez anyagából annyit, amennyi a fájlrendszerre fért, a wgeten nem múlt volna a folytatás.
- A hozzászóláshoz be kell jelentkezni
Ja ráadásul egy weboldalról nincs is szükséged a képekre, meg egyéb médiákra, szóval nyugodtal lehet csak a html, css és js részeket tölteni. Az meg ha szerencséd van nem olyan nagy.
- A hozzászóláshoz be kell jelentkezni
Összefoglalva nem egy bonyolult dolgot keresek, hanem egy egyszerű megoldást, amit akár userek is egyszerűen tudnak kezelni...
- A hozzászóláshoz be kell jelentkezni
aham....szóval a fenti diffweb.sh scriptet...
Mondjuk diffweb módon meghívva. De rakjunk ki nekik egy diffweb.desktop-ot, hogy csak rá kelljen klikkelniük és zenity-vel bekérjük az URL-t.
Ennél egyszerűbb szerintem nincs. Persze tuti vannak óriási keretrendszerekre épülő robosztus alkalmazások, de azok nem épp az egyszerűségükről híresek. Szenvedhet velük az ember két hétig telepítéssel, beállítással. Aztán meg majd a frissítésükkel. Mondjuk a fenti esetben is kell egy subversion, de kb ennyi is amit telepíteni kell.
- A hozzászóláshoz be kell jelentkezni
Kérdezek egy merészet egy ilyen összehasonlítót megírni nagy mutatvány?
- A hozzászóláshoz be kell jelentkezni
A funkciót? Nem.
A funkció köre szoftvert építeni ami kielégíti az egyedi igényeidet? Igen.
- A hozzászóláshoz be kell jelentkezni
Egész addig nem, amíg nincsenek olyanok, hogy formok meg javascript gombocskák, esetleg dinamikus oldalak, amik jó esetben nem ötletszerűen változnak. A jelen esetben alighanem nem érdekes, de külön mókás lehet a nem html, hanem flash vagy pláne a java alapú tartalommegjelenítés.
- A hozzászóláshoz be kell jelentkezni
A wget helyére én a scrapy-t ajánlanám (scrapy.org). Python-os, egyetlen csomagot kell telepíteni pip-pel. A doksiban az első példa lefedi az összes funkcionalitást, amire szükséged van: http://doc.scrapy.org/en/latest/intro/overview.html
Ennek segítségével rögtön json/xml/csv fájlba tudsz exportálni, és tényleg csak a linkeket töltöd le.
Verziókezelésre szerintem is svn, vagy git...
- A hozzászóláshoz be kell jelentkezni
Azért majd ha valaki bizget egyet a javascripten valami ad miatt, vagy van egy hülye óra / bejelentkezett userek lista / bármi egyéb dinamikusan generált érdektelen basz, akkor lehet csodálkozni. :)
- A hozzászóláshoz be kell jelentkezni
Azért egy session cookie lekérdezés, majd egy auth annak a cookie-nak a segítségével nem nagy ördöngősség. Egy login oldalon a legtöbb javascript az, hogy leellenőrzi minden mezőt kitöltöttél. Ha már van Capcha, akkor azon egy komplet framework sem segít, mert ott bezony az emberkének be kell gépelnie amit lát, lásd a távolkeleti capcha rabszolgákat.
Írtunk már CURL és Awk használatával teszt framework-öt weboldalakhoz. Nem azért, mert ne lenne, de amik vannak azoknak az ára elég borsos. Én örültem volna ha megveszi a cég, de költséghatékonyak voltunk inkább, ráadásul egyetlen egy speciális site-ról volt szó. Azért nem akart fizetni a vezetés. Így maradt a curl és az awk. I'm lovin' it. :D
- A hozzászóláshoz be kell jelentkezni
Oldalakat amiket szeretnék figyelni azon nem lesz flash vagy belépés. Sima html oldalakat szeretnék csak figyelni. Ami érdekes lehet, hogy ha az oldalra van csatolva pl: pdf, akkor annak a méret változását kellene max figyelni.
Küldenél valamit a fejlesztésedről, lehet érdekes lehet :)
- A hozzászóláshoz be kell jelentkezni
Ebben az esetben is jó a subversion. Csak le kell szedni a pdf-et is a wget-tel. Persze a különbség bináris lesz, de ha neked csak az a fontos, hogy mi az ami változott, akkor a pdf is bent lesz a listában.
- A hozzászóláshoz be kell jelentkezni
Én nem erre gondoltam, persze, egy logint meg lehet ugrani, hanem arra, mikor a figyelt oldalon van valami dynamikusan generált feleslegesség. Pl itt a hupon esélyes, hogy nem akarnél egy google +1, vagy valami tag felhő változás miatt pittyegést kapni. Nyilván van olyan oldal, ahol ez nem para, de általánosra megscsinálni azért nem trivi.
- A hozzászóláshoz be kell jelentkezni
na hát nem véletlenül nem is általánosra csináltuk meg :D
nem véletlenül kérnek több ezer dollárt az ilyen kis játékszerekért :D
- A hozzászóláshoz be kell jelentkezni
Jut eszembe, ehe: http://bash.hu/6951
- A hozzászóláshoz be kell jelentkezni