Szóval a kérdés az: ha ugyanazt teszem, amit egyébként is teszem, akkor igazából kit és miért is kellene zavarnia, hogy az egyébként publikusan elérhető információkat automatikusan gyűjtöm össze?
(És akkor most abba bele sem akartam menni, hogy néha megdöbbentő egy-egy - egyébként helyi viszonylatban forgalmasabb - oldalnál a mindenféle botok és a valós userek aránya, igen durván a botok arányára.)
- saxus blogja
- A hozzászóláshoz be kell jelentkezni
- 961 megtekintés
Hozzászólások
> akkor igazából kit és miért is kellene zavarnia
Két rövid gondolat a miértre: Egy bot másfajta terhelés (inkább egyenletesen jönnek a kérések) mint a mezei user (időnként egy-egy kérés, közte hosszú szünet). Innentől kezdve egészen másképp kellene kapacitást méretezni (troll on: pl. nehogy elsüljön az OOM killer :-P), stb.
Valamint az oldalstatisztikákat elronthatja.
- A hozzászóláshoz be kell jelentkezni
"(időnként egy-egy kérés, közte hosszú szünet)"
Tekintve, hogy jelen esetben egy nemzetközi oldalról van szó, szerintem kit érdekel.
"Valamint az oldalstatisztikákat elronthatja."
Ott az Apache/IIS log. ;)
----------------
Lvl86 Troll, "hobbifejlesztő" - Think Wishfully™
- A hozzászóláshoz be kell jelentkezni
Akarmikor scrape-eltem, mindig tartottam egy jopar seces sleepet a kozepen. Ugy a normalis, nem? Nem ledosolni akarom az oldalt, meg nem at akarom, hogy minden adatforgalmamat a parhuzamos curl process-ek vigyek el, hanem csak az adat kell nekem, sok esetben nem is azonnal.
Aztan nyilvan volt, amikor minket scrape-eltek: tuzfalszabaly reszekent vegeztek, mert nem volt annyi eszuk, hogy sleepeltessek ket curl kozott a scriptet... szivas
- A hozzászóláshoz be kell jelentkezni
Detto, minden ilyen esetben sleepelek kicsit, nem volt meg belole soha problema.(persze nekem nem volt realtime adatra szuksegem szinte soha, igy az idopontot is kis terhelesu idoszakokra valasztottam meg) Esszel kell csinalni a dolgot.
Ha esetleg jofej az oldal uzemeltetoje, lehet is tole kerdezni, hogy milyen idozitesek fernek bele neki.
- A hozzászóláshoz be kell jelentkezni
Tok oke, publikus adatokat gyujtesz ossze. De ha login-only adatokat gyujtesz oda, es odaadod parameterben a curl-nek a sessionod, akkor is szabalyos, foleg amig nem latja mas nemjogosult a lescrape-elt adatokat, addig ugyanugy tok szabalyos amit csinalsz.
Raadasul potencialis vasarlojuk vagy, lehet scrape-eles nelkul meg se talalnad neked megfelelo aron az arujukat, igy meg vevo leszel. Es amivel (gyanitom esszel) terheled az odlalukat, azzal lehet, hogy kisebb kart okozol, mintha naponta hivnad az ugyfelszolgalatukat lefoglalva az ugyintezojuk hosszu orait uvoltve kovetelve az uj, neked megfelelo bovitett kereses funkciot. Meg nekik teszel szivesseget, hogy nem kell megcsinalniuk jobbra a keresest ahhoz, hogy vasarolj toluk.
Tehat amit csinalsz, meg lehet, hogy gazdasagi szempontbol is optimalis, jogilag midennkeppen szabalyos, es (ha odafigyelsz,) senkinek nem is artasz vele. Nekem ez utobbibol kovetkezik, hogy meg etikus is.
Persze a statisztikusok alapanyagat lehet eltorzitod, de ok meg is erdemlik.
- A hozzászóláshoz be kell jelentkezni