Weboldalak automatizált feldolgozása?

Korábbi blogposztomnál merült fel az a kérdés, hogy vajon mit szólhat egy oldal üzemeltetője ahhoz, hogy az egyébként kézzel végzet tevékenységem megpróbálom számomra (időben) hatékonyabbá tenni és automatizálni az adatok letöltését, összegyűjtését, ugyanis kézzel meglehetősen sok macera 200 különféle tétel között végigböngészni, hogy melyik árusnál van olcsóbban és ezt összelogisztikázni, hogy a lehető legkevesebb rendelésből (mert ha nem BP-i személyes átvétel, hanem teszem azt, Németország, akkor a postaköltség is jelentős tétel lesz). Ezt egy adatbázisban egészen jól meg lehet csinálni. Meg elvégre is, erre van a számítógép.

Szóval a kérdés az: ha ugyanazt teszem, amit egyébként is teszem, akkor igazából kit és miért is kellene zavarnia, hogy az egyébként publikusan elérhető információkat automatikusan gyűjtöm össze?

(És akkor most abba bele sem akartam menni, hogy néha megdöbbentő egy-egy - egyébként helyi viszonylatban forgalmasabb - oldalnál a mindenféle botok és a valós userek aránya, igen durván a botok arányára.)

Hozzászólások

> akkor igazából kit és miért is kellene zavarnia

Két rövid gondolat a miértre: Egy bot másfajta terhelés (inkább egyenletesen jönnek a kérések) mint a mezei user (időnként egy-egy kérés, közte hosszú szünet). Innentől kezdve egészen másképp kellene kapacitást méretezni (troll on: pl. nehogy elsüljön az OOM killer :-P), stb.

Valamint az oldalstatisztikákat elronthatja.

Akarmikor scrape-eltem, mindig tartottam egy jopar seces sleepet a kozepen. Ugy a normalis, nem? Nem ledosolni akarom az oldalt, meg nem at akarom, hogy minden adatforgalmamat a parhuzamos curl process-ek vigyek el, hanem csak az adat kell nekem, sok esetben nem is azonnal.

Aztan nyilvan volt, amikor minket scrape-eltek: tuzfalszabaly reszekent vegeztek, mert nem volt annyi eszuk, hogy sleepeltessek ket curl kozott a scriptet... szivas

Detto, minden ilyen esetben sleepelek kicsit, nem volt meg belole soha problema.(persze nekem nem volt realtime adatra szuksegem szinte soha, igy az idopontot is kis terhelesu idoszakokra valasztottam meg) Esszel kell csinalni a dolgot.
Ha esetleg jofej az oldal uzemeltetoje, lehet is tole kerdezni, hogy milyen idozitesek fernek bele neki.

Tok oke, publikus adatokat gyujtesz ossze. De ha login-only adatokat gyujtesz oda, es odaadod parameterben a curl-nek a sessionod, akkor is szabalyos, foleg amig nem latja mas nemjogosult a lescrape-elt adatokat, addig ugyanugy tok szabalyos amit csinalsz.

Raadasul potencialis vasarlojuk vagy, lehet scrape-eles nelkul meg se talalnad neked megfelelo aron az arujukat, igy meg vevo leszel. Es amivel (gyanitom esszel) terheled az odlalukat, azzal lehet, hogy kisebb kart okozol, mintha naponta hivnad az ugyfelszolgalatukat lefoglalva az ugyintezojuk hosszu orait uvoltve kovetelve az uj, neked megfelelo bovitett kereses funkciot. Meg nekik teszel szivesseget, hogy nem kell megcsinalniuk jobbra a keresest ahhoz, hogy vasarolj toluk.

Tehat amit csinalsz, meg lehet, hogy gazdasagi szempontbol is optimalis, jogilag midennkeppen szabalyos, es (ha odafigyelsz,) senkinek nem is artasz vele. Nekem ez utobbibol kovetkezik, hogy meg etikus is.

Persze a statisztikusok alapanyagat lehet eltorzitod, de ok meg is erdemlik.