Sziasztok,
Adott egy webszerver, amin van kb 200 domain amik nagyrészt más-más ügyfél kezelésében vannak.
Nem is lenne ezzel gond, a terhelést szépen bírja, gyorsan kiszolgálja az oldalakat.
Viszont időnként előfordul, hogy "rájön az 5 perc" a keresőkre, és elkezdik veszettül szkennelni az oldalakat, google, bing és egyéb, számomra nem ismert keresők, mint pl most a yandex
Namost elvileg robots.txt -vel lehetne "kérni" őket, hogy ne tegyék, vagy ha igen akkor miként, de mint fentebb említettem, külön domainekről van szó, a weboldal karbantartása az ügyfelek dolga, nem nyúlok bele.
A kérdésem az, hogy ti hogyan véditek / védenétek ki az ilyen robotokat, hogy adott idő alatt ne engedjen be többet?
Debian szerverről van szó.
Sajnos amikor elkezdik szkennelni az oldalakat, akkor ráadásul több IP-ről is jönnek adott oldalra, ami csak fokozza a terhelést.
Minden ötletet szívesen vennék!
Köszi!
- 2036 megtekintés
Hozzászólások
Csupán néhány gondolat:
Egyrészt, megfontolnám, hogy jó ötlet-e tiltani a keresőrobotokat. Az ügyfeleid számára bizonyára fontos, hogy az oldaluk elérhető legyen keresőkben, nem igazán volna fair ezt csak úgy elvenni tőlük. Az egy fokkal jobb ötlet, ha részlegesen tiltasz, gondolom kevesen fognak panaszkodni, ha valamelyik kínai keresőbe nem kerülsz be, a nagy neveket mindenképp engedd kutakodni.
Gondolom nem megoldhatatlan belőni a webszervered úgy, hogy egy általad megadott robots.txt-t szolgáljon ki domaintől függetlenül. Ha olyan ügyfelekről van szó, akár elvárhatod, hogy bizonyos kötelező paramétereket alkalmazzanak. A robots.txt-ben a Crawl-delay opcióval be lehet lőni hogy hány másodpercenként kapj kéréseket. Ezzel eloszthatod a terhelést. A Google ezt nem támogatja, de ha a többi figyelembe veszi, annyival előbbre vagy. Van még egy meta tag, <meta name="revisit-after" content="10 days" />, ha a kereső figyelembe veszi, akkor ennyi időnként fog ránézni az oldalra, ezzel ritkíthatod a terhelések gyakoriságát.
Érdemesnek gondolnám átgondolni, hogy nem-e adsz több feladatot a szervernek, mint amire képes. Az, hogy az átlagterheléssel megbirkózik csak egy dolog. A keresők által okozott hirtelen megugrott forgalom várható és tervezni kell vele, és úgy tervezni, hogy ezekkel is elbírjon a szerver.
- A hozzászóláshoz be kell jelentkezni
A keresőrobotokkal nem lenne probléma, ha nem ész nélkül scan-nelnének. Ráadásul nagyon sokan vannak, már minden pistike tud írni ilyet, és rá is szabadítja a világra. Így a kivédésük szükségszerű. Választani kell pár keresőt, és azt engedni. A többit levesbe.
---
"A megoldásra kell koncentrálni nem a problémára."
- A hozzászóláshoz be kell jelentkezni
Azt ugyan nem mondtad, hogy Apache, Nginx, vagy valami más, de ha Apache akkor én a mod-security -vel próbálnám kliens alapon bannolni őket.
Így nem kell harcolni a robots.txt-vel, amit vagy elolvas, vagy nem, de ha igen akkor is le kell töltenie... stb.
A mod-security már a kapuban elhajta a nem kívánatos elemeket.
Ez parsze nem véd az olyan robot ellen, aki Firefoxnak hazudja magát, de jelentősen csökkenti a bajodat.
Nekem gyakorlatban (csak) ez működött 900 domain mellett.
---
"A megoldásra kell koncentrálni nem a problémára."
- A hozzászóláshoz be kell jelentkezni
ha a user-agent alapjan szurnel, akkor (csak ezert) nem kell mod_security...
- A hozzászóláshoz be kell jelentkezni
+1. Én inkább elétennék egy varnish-t, persze kevéssé agresszívre állítva. A felhasználóknak is érdemes jelezni, hogy ha tudja a CMS-ük (pl. WP vagy Drupal tudja) akkor érdemes egy kicsit cache-elniük és optimálniuk. Remek segítséget ad még a https://tools.pingdom.com/ oldal is. A weboldal tulajdonosoknak is jól jön az optimalizáció, mert a látogatóiknál is jóval pörgősebb lesz az oldal.
- A hozzászóláshoz be kell jelentkezni
Szerintem bátran nézz egy whois-t ezekre IP-kre...
Tudsz nekünk mutatni egy access logot? A szerverről 1-2 adat? (proc, ram? hdd, ssd?)
Abból amit írtál, nekem erős a gyanúm, hogy nem a keresők, hanem egy botnet kóstolgat. :)
"If I had six hours to chop down a tree, I'd spend the first four hours sharpening the axe."
- A hozzászóláshoz be kell jelentkezni
Mi par helyrol a Baidut vagtuk ki tuzfal szinten, mert nemnormalis modjara utottek a gepeket.
--
Pásztor János
Sole Proprietor @ Opsbears | Refactor Zone
- A hozzászóláshoz be kell jelentkezni
Azt már én is default tiltom mindenhol, output irányba is.
--
openSUSE 42.1 x86_64
- A hozzászóláshoz be kell jelentkezni
A Yandexre többen panaszkodtak, hogy tempósabb a kelleténél.
- A hozzászóláshoz be kell jelentkezni
Köszi mindenkinek az építő hozzászólásokat!
Igen ez elmaradt, apache-ról van szó és az oldalak 90%-a WordPress.
Nem akarnám kitiltani a keresőket, hiszen megvan a haszna, csak pl google, bing esetén még nem volt gondom, de noname keresőkkel már igen, sajnos egy korábbi esetnél lévő kereső neve nem jut eszembe már.
A https://tools.pingdom.com/ címet köszi, nem ismertem.
Holnap ha kicsit több időm lesz, akkor adok pár log adatot ezzel kapcsolatban.
- A hozzászóláshoz be kell jelentkezni