Bizonytalan vagyok, hogy jó fórumra írok-e?
Az oldalamon kb. 2-400 ezer user letöltés / nap van, mellette kb. 1 millió bot / nap.
Próbáltam letiltani a robots.txt-ben, de vannak botok amiket nem érdekli, hogy letiltottam őket. Az is zavaró, hogy vannak a bot-ok számára letiltott oldalak és sok bot azokat is töltögeti.
Az alábbi kérdések merültek fel bennem:
1. Google( esetleg Bing, Yandex)-en kívül egyáltalán melyik amelyiknek van értelme, hogy meghagyjam?
2. Hogyan tiltsam le a renitens bot-okat?
- 592 megtekintés
Hozzászólások
- miert akarod egyaltalan letiltani? Nem kell indexelni az oldalakat?
"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség
- A hozzászóláshoz be kell jelentkezni
Most megnézve. A forgalom ~89%-a jön a Google-ből. 10% kb. direkt. 1% körül a Bingből. Yahoo 0,2%, duckduckgo 0,1%. A többi elhanyagolható.
Fogalmam sincs ki mit indexelget még az oldalamon, de felesleges terhelés.
Mint írtam a renitens botokat szeretném elsősorban letiltani.
- A hozzászóláshoz be kell jelentkezni
"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség
- A hozzászóláshoz be kell jelentkezni
Köszönöm. Mint írtam nem a Google-t szeretném megrendszabályozni. Onnan jön a forgalom java része és nem renitenskedik.
A renitens botokat szeretném letiltani, nem a Google-t.
- A hozzászóláshoz be kell jelentkezni
Akkor vagy en nem ertek valamit, vagy te.
"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség
- A hozzászóláshoz be kell jelentkezni
Amit betettél neki leírást, az csak a Google botjait rendszabályozza. Ő meg pont azokat NEM akarja, hanem más oldalak botjait akarja tiltani.
“The world runs on Excel spreadsheets.” (Dylan Beattie)
- A hozzászóláshoz be kell jelentkezni
Ezt irta: - "A forgalom ~89%-a jön a Google-ből." . Ebbol te mire kovetkeztetnel?
"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség
- A hozzászóláshoz be kell jelentkezni
Hogy az oldalra irányított releváns forgalmat a Google küldi, tehát az ő botjának van értelme, az összes többi crawl-ozása gyak. csak felesleges erőforráspazarlás (illetve némi adatszivárgás)
"Probléma esetén nyomják meg a piros gombot és nyugodjanak békében!"
- A hozzászóláshoz be kell jelentkezni
Igen, ez az egyik ertelmezes, a masik pedig az, hogy a tobbihez kepest a google botja generalja a legnagyobb forgalmat.
"Nem akkor van baj amikor nincs baj, hanem amikor van!"
Népi bölcsesség
- A hozzászóláshoz be kell jelentkezni
A lényeg:
Botok indexelik az oldalamat. Feleslegesen generálva oldal letöltéseket.
A GoogleBot-al nincs semmi bajom, sem a BingBot-al. Viszont vannak furcsa botok. CriterioBot, PetalBot, stb. Ezek tök feleslegesnek tűnnek. Nem hoznak új látogatókat. Több 100 ezer oldalletöltést generálnak naponta. Próbáltam letiltani / beállítani ezeket a robots.txt-ben, de nem hallgatnak rá. Szeretném ha csak a GoogleBot, BingBot, Yahoo botja maradna. A többi felesleges. Nem szeretném ha tovább terhelnék az oldalamat.
- A hozzászóláshoz be kell jelentkezni
A referer alapján tiltsd ki őket a fenébe.
A googlenél lehet érdemes az indexelés gyakoriságát valamilyen módon jelezni, mert 300k normál lapletöltés mellett 1 millió per napi indexelést irreálisnak érzek. Esetleg ha fórumszerű van, akkor a fórumos URL-eket exclude-olni robots.txt -vel.
- A hozzászóláshoz be kell jelentkezni
Tehát akkor ezek nem Google botja hanem sima bot ami felkeresi az oldaladat?
Rakhatsz az oldal elé valamiféle WAF szűrőt, mondjuk CloudFlare ami engedi a search engine botokat de mindenki másnak majd dob egy capcha challenge-t.
- A hozzászóláshoz be kell jelentkezni
Köszönöm. Ez lesz a megoldás. Bekapcsoltam. Eddig jónak tűnik. :)
- A hozzászóláshoz be kell jelentkezni
Tehát van egy jól beállított robots.txt-d, és azt figyelmen kívül hagyják?
Illetve... igen, zavaros, úgy értem hogy a forgalmad kb. 90%-a a Google indexeléséből áll, de az oké, viszont a maradék 10% az nem. Ezen túllendülve, esetleg ha maga a webszerver tud user agent alapján komiszkodni, de ezt további részletek nélkül nem vállalkozom megfejteni.
- A hozzászóláshoz be kell jelentkezni
Igen. Ez már így zavaros lett. :)
A 90% az, hogy a Google keresőből jön.
De úgy tűnik megvan a megoldás egy fenti hozzászólás alapján: Cloudflare WAF.
- A hozzászóláshoz be kell jelentkezni
pl keresőnek "álcázott" robotok keresnek fogást az oldalakon, amik valójában botnetek (HELIOS, ORION, ZEUS, AURA).
- Proxy & VPN Blocker
- CloudFlare
- ha ez is kevés akkor a szolgáltató felé is szoktam jelezni, pl a log fájl elküldésével
"ha valakire rá kiabálunk, hogy rendszergazda akkor az is - szerződés, fizetés csak az átkos időkben kellett"
és 100 éve még boszorkányt is égettek
- A hozzászóláshoz be kell jelentkezni
Ha ezek a nem kívánatos botok nem álcázzák magukat valami böngészőnek, és normálisan kitöltik a HTTP_USER_AGENT mezőt, akkor az alapján a weboldal kódjában le lehet őket tiltani. Így ugyan generálnak némi terhelést, de jelentősen kisebbet mintha az egész oldalt le kellene generálni nekik.
- A hozzászóláshoz be kell jelentkezni
Akkor már inkább a webszerverben :)
De gondolom az igazán gonoszak figyelnek erre is.
- A hozzászóláshoz be kell jelentkezni
Saját webszerveren lehet persze ott is szűrni, de shared hosztingon általában erre nincs megoldás szerintem.
- A hozzászóláshoz be kell jelentkezni
- A hozzászóláshoz be kell jelentkezni
Célszerű olyan védelmet választani ami megakadályozza bármilyen bot interakcióját a szolgáltatással még jóval azelőtt hogy akár a webservert elérnék, ugyanakkor lehetőséget ad a keresőbotok beengedésére és a célközönség életét sem nehezíti meg.
Gyakori User-Agent -et választani elég egyszerű feladat, ennek frissítését statisztikai alapon nem kihívás.
Arra nem lehet hagyatkozni hogy a botgyártók ilyen problémát nem oldanak meg.
- A hozzászóláshoz be kell jelentkezni
Lehet a fail2ban -t is használni:
Igen jó hatásfokkal tiltja ki a kutakodó IP-ket :)
badbots = Atomic_Email_Hunter/4\.0|atSpider/1\.0|autoemailspider|bwh3_user_agent|China Local Browse 2\.6|ContactBot/0\.2|ContentSmartz|DataCha0s/2\.0|DBrowse 1\.4b|DBrowse
1\.4d|Demo Bot DOT 16b|Demo Bot Z 16b|DSurf15a 01|DSurf15a 71|DSurf15a 81|DSurf15a VA|EBrowse 1\.4b|Educate Search VxB|EmailSiphon|EmailSpider|EmailWolf 1\.00|ESurf15a 15|E
xtractorPro|Franklin Locator 1\.8|FSurf15a 01|Full Web Bot 0416B|Full Web Bot 0516B|Full Web Bot 2816B|Guestbook Auto Submitter|Industry Program 1\.0\.x|ISC Systems iRc Sea
rch 2\.1|IUPUI Research Bot v 1\.9a|LARBIN-EXPERIMENTAL \(efp@gmx\.net\)|LetsCrawl\.com/1\.0 \+http\://letscrawl\.com/|Lincoln State Web Browser|LMQueueBot/0\.2|LWP\:\:Simp
le/5\.803|Mac Finder 1\.0\.xx|MFC Foundation Class Library 4\.0|Microsoft URL Control - 6\.00\.8xxx|Missauga Locate 1\.0\.0|Missigua Locator 1\.9|Missouri College Browse|Mi
zzu Labs 2\.2|Mo College 1\.9|MVAClient|Mozilla/2\.0 \(compatible; NEWT ActiveX; Win32\)|Mozilla/3\.0 \(compatible; Indy Library\)|Mozilla/3\.0 \(compatible; scan4mail \(ad
vanced version\) http\://www\.peterspages\.net/?scan4mail\)|Mozilla/4\.0 \(compatible; Advanced Email Extractor v2\.xx\)|Mozilla/4\.0 \(compatible; Iplexx Spider/1\.0 http\
://www\.iplexx\.at\)|Mozilla/4\.0 \(compatible; MSIE 5\.0; Windows NT; DigExt; DTS Agent|Mozilla/4\.0 efp@gmx\.net|Mozilla/5\.0 \(Version\: xxxx Type\:xx\)|NameOfAgent \(CM
S Spider\)|NASA Search 1\.0|Nsauditor/1\.x|PBrowse 1\.4b|PEval 1\.4b|Poirot|Port Huron Labs|Production Bot 0116B|Production Bot 2016B|Production Bot DOT 3016B|Program Share
ware 1\.0\.2|PSurf15a 11|PSurf15a 51|PSurf15a VA|psycheclone|RSurf15a 41|RSurf15a 51|RSurf15a 81|searchbot admin@google\.com|ShablastBot 1\.0|snap\.com beta crawler v0|Snap
bot/1\.0|Snapbot/1\.0 \(Snap Shots, \+http\://www\.snap\.com\)|sogou develop spider|Sogou Orion spider/3\.0\(\+http\://www\.sogou\.com/docs/help/webmasters\.htm#07\)|so
gou spider|Sogou web spider/3\.0\(\+http\://www\.sogou\.com/docs/help/webmasters\.htm#07\)|sohu agent|SSurf15a 11 |TSurf15a 11|Under the Rainbow 2\.2|User-Agent\: Mozilla/4
\.0 \(compatible; MSIE 6\.0; Windows NT 5\.1\)|VadixBot|WebVulnCrawl\.unknown/1\.0 libwww-perl/5\.803|Wells Search II|WEP Search 00|opensiteexplorer|PetalBot|MJ12bot|Semrus
hBot
- A hozzászóláshoz be kell jelentkezni