Bot-ok kezelése

Bizonytalan vagyok, hogy jó fórumra írok-e?

Az oldalamon kb. 2-400 ezer user letöltés / nap van, mellette kb. 1 millió bot / nap.

Próbáltam letiltani a robots.txt-ben, de vannak botok amiket nem érdekli, hogy letiltottam őket. Az is zavaró, hogy vannak a bot-ok számára letiltott oldalak és sok bot azokat is töltögeti.

Az alábbi kérdések merültek fel bennem:

1. Google( esetleg Bing, Yandex)-en kívül egyáltalán melyik amelyiknek van értelme, hogy meghagyjam?

2. Hogyan tiltsam le a renitens bot-okat?

Hozzászólások

- miert akarod egyaltalan letiltani? Nem kell indexelni az oldalakat?

"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség

Most megnézve. A forgalom ~89%-a jön a Google-ből. 10% kb. direkt. 1% körül a Bingből. Yahoo 0,2%, duckduckgo 0,1%. A többi elhanyagolható.

Fogalmam sincs ki mit indexelget még az oldalamon, de felesleges terhelés.

Mint írtam a renitens botokat szeretném elsősorban letiltani.

Hogy az oldalra irányított releváns forgalmat a Google küldi, tehát az ő botjának van értelme, az összes többi crawl-ozása gyak. csak felesleges erőforráspazarlás (illetve némi adatszivárgás)

"Probléma esetén nyomják meg a piros gombot és nyugodjanak békében!"

A lényeg:

Botok indexelik az oldalamat. Feleslegesen generálva oldal letöltéseket.

A GoogleBot-al nincs semmi bajom, sem a BingBot-al. Viszont vannak furcsa botok. CriterioBot, PetalBot, stb. Ezek tök feleslegesnek tűnnek. Nem hoznak új látogatókat. Több 100 ezer oldalletöltést generálnak naponta. Próbáltam letiltani / beállítani ezeket a robots.txt-ben, de nem hallgatnak rá. Szeretném ha csak a GoogleBot, BingBot, Yahoo botja maradna. A többi felesleges. Nem szeretném ha tovább terhelnék az oldalamat.

A referer alapján tiltsd ki őket a fenébe.

A googlenél lehet érdemes az indexelés gyakoriságát valamilyen módon jelezni, mert 300k normál lapletöltés mellett 1 millió per napi indexelést irreálisnak érzek. Esetleg ha fórumszerű van, akkor a fórumos URL-eket exclude-olni robots.txt -vel.

Tehát van egy jól beállított robots.txt-d, és azt figyelmen kívül hagyják?

Illetve... igen, zavaros, úgy értem hogy a forgalmad kb. 90%-a a Google indexeléséből áll, de az oké, viszont a maradék 10% az nem. Ezen túllendülve, esetleg ha maga a webszerver tud user agent alapján komiszkodni, de ezt további részletek nélkül nem vállalkozom megfejteni.

Szerkesztve: 2022. 12. 20., k – 08:16

pl keresőnek "álcázott" robotok keresnek fogást az oldalakon, amik valójában botnetek (HELIOS, ORION, ZEUS, AURA). 

  • Proxy & VPN Blocker 
  • CloudFlare
  • ha ez is  kevés akkor a szolgáltató felé is szoktam jelezni, pl a log fájl elküldésével

"ha valakire rá kiabálunk, hogy rendszergazda akkor az is - szerződés, fizetés csak az átkos időkben kellett" 

és 100 éve még boszorkányt is égettek 

Ha ezek a nem kívánatos botok nem álcázzák magukat valami böngészőnek, és normálisan kitöltik a HTTP_USER_AGENT mezőt, akkor az alapján a weboldal kódjában le lehet őket tiltani. Így ugyan generálnak némi terhelést, de jelentősen kisebbet mintha az egész oldalt le kellene generálni nekik.

Célszerű olyan védelmet választani ami megakadályozza bármilyen bot interakcióját a szolgáltatással még jóval azelőtt hogy akár a webservert elérnék, ugyanakkor lehetőséget ad a keresőbotok beengedésére és a célközönség életét sem nehezíti meg.
Gyakori User-Agent -et választani elég egyszerű feladat, ennek frissítését statisztikai alapon nem kihívás.
Arra nem lehet hagyatkozni hogy a botgyártók ilyen problémát nem oldanak meg.

Lehet a fail2ban -t is használni:

Igen jó hatásfokkal tiltja ki a kutakodó IP-ket :)

badbots = Atomic_Email_Hunter/4\.0|atSpider/1\.0|autoemailspider|bwh3_user_agent|China Local Browse 2\.6|ContactBot/0\.2|ContentSmartz|DataCha0s/2\.0|DBrowse 1\.4b|DBrowse
1\.4d|Demo Bot DOT 16b|Demo Bot Z 16b|DSurf15a 01|DSurf15a 71|DSurf15a 81|DSurf15a VA|EBrowse 1\.4b|Educate Search VxB|EmailSiphon|EmailSpider|EmailWolf 1\.00|ESurf15a 15|E
xtractorPro|Franklin Locator 1\.8|FSurf15a 01|Full Web Bot 0416B|Full Web Bot 0516B|Full Web Bot 2816B|Guestbook Auto Submitter|Industry Program 1\.0\.x|ISC Systems iRc Sea
rch 2\.1|IUPUI Research Bot v 1\.9a|LARBIN-EXPERIMENTAL \(efp@gmx\.net\)|LetsCrawl\.com/1\.0 \+http\://letscrawl\.com/|Lincoln State Web Browser|LMQueueBot/0\.2|LWP\:\:Simp
le/5\.803|Mac Finder 1\.0\.xx|MFC Foundation Class Library 4\.0|Microsoft URL Control - 6\.00\.8xxx|Missauga Locate 1\.0\.0|Missigua Locator 1\.9|Missouri College Browse|Mi
zzu Labs 2\.2|Mo College 1\.9|MVAClient|Mozilla/2\.0 \(compatible; NEWT ActiveX; Win32\)|Mozilla/3\.0 \(compatible; Indy Library\)|Mozilla/3\.0 \(compatible; scan4mail \(ad
vanced version\) http\://www\.peterspages\.net/?scan4mail\)|Mozilla/4\.0 \(compatible; Advanced Email Extractor v2\.xx\)|Mozilla/4\.0 \(compatible; Iplexx Spider/1\.0 http\
://www\.iplexx\.at\)|Mozilla/4\.0 \(compatible; MSIE 5\.0; Windows NT; DigExt; DTS Agent|Mozilla/4\.0 efp@gmx\.net|Mozilla/5\.0 \(Version\: xxxx Type\:xx\)|NameOfAgent \(CM
S Spider\)|NASA Search 1\.0|Nsauditor/1\.x|PBrowse 1\.4b|PEval 1\.4b|Poirot|Port Huron Labs|Production Bot 0116B|Production Bot 2016B|Production Bot DOT 3016B|Program Share
ware 1\.0\.2|PSurf15a 11|PSurf15a 51|PSurf15a VA|psycheclone|RSurf15a 41|RSurf15a 51|RSurf15a 81|searchbot admin@google\.com|ShablastBot 1\.0|snap\.com beta crawler v0|Snap
bot/1\.0|Snapbot/1\.0 \(Snap Shots, \+http\://www\.snap\.com\)|sogou develop spider|Sogou Orion spider/3\.0\(\+http\://www\.sogou\.com/docs/help/webmasters\.htm#07\)|so
gou spider|Sogou web spider/3\.0\(\+http\://www\.sogou\.com/docs/help/webmasters\.htm#07\)|sohu agent|SSurf15a 11 |TSurf15a 11|Under the Rainbow 2\.2|User-Agent\: Mozilla/4
\.0 \(compatible; MSIE 6\.0; Windows NT 5\.1\)|VadixBot|WebVulnCrawl\.unknown/1\.0 libwww-perl/5\.803|Wells Search II|WEP Search 00|opensiteexplorer|PetalBot|MJ12bot|Semrus
hBot