botok tiltása

Fórumok

Hi!

Adott egy kis webszerver, amit csak a googlebot- nak szeretnék engedélyezni. Most így néz ki a /robots.txt- m:


User-agent: Googlebot
Allow: /dir1/
Allow: /valami.html
Allow: /valami.pl
Allow: /~user/
Allow: /~user/ppx/
Allow: /~user/valami.jpg
Allow: http://masikdomain.ath.cx

Pár nap még a

User-agent: Googlebot

helyett

*

volt, de mióta lecseréltem, ugyanúgy nézeget mindent az msnbot, meg még egy pár másik bot néha- néha, nekem meg bőven elég, ha google nézelődik. A kérdés az, hogy lehetne megoldani, hogy csak a google keressen a robots.txt alapján? Legrosszabb esetben iptablessel kitiltom az msnbot- ot, de nincs erre valami jobb megoldás? Mióta átírtam

Googlebot

- ra az első sort, az msnbot 17X olvasta el a robots.txt- t, és ugyanúgy folytatta az olvasást :- ). Biztos én rontottam el valamit, de ez így kicsit már erőszakos :- ).

2) A documentrootom a /var/www, és van egy /var/www/masikdomain könyvtáram, ami elérhető http://masikdomain.ath.cx néven (virtualhost). A fentiek alapján megtalálja a googlebot (csak mert 6 nap alatt eddig nem tette, pedig a robots.txt- t olvasta már párszor).

Köszi a válaszokat.

Hozzászólások

a robots.txt-t illik figyelembe venni, csakhogy ez nem várható el egy programtól. A válasz tehát: sehogy.

Főnökömnek fáj, de majd megkérdezem szerdán, hogy miért :- ) - bár lehet, hogy fura a gondolatmenet, de ezzel elvileg a google- t támogatja valamilyen szinten, és akkor már inkább google, mint win (ugye nem tévedek nagyot, hogy ez az msnbot a windows live akárminek a keresője?).

Biztos van oka, csak én nem tudok róla :- ), de nekem már a neve sem szimpatikus, meg túl erőszakos, sokkal gyakrabban látogat, mint a googlebot, de előbb kipróbáltam a live.com- ot, de igazából nem nagyon találta meg azokat az oldalakat, amiket látott, pedig egyedi részletre kerestem. Amúgy meg a legtöbb fájlra igaz, hogy amit leszed reggel, azt leszedi más napszakokban is, google meg jó ha 3 naponta frissíti az infót. Mintha valamikor hallottam volna valami olyasmit, hogy google először megnézi a fájlok változási időpontját. Ez mennyire igaz? Mert ha a könyvtárat látja, akkor minden ok, de amúgy?

User-agent: Googlebot
Allow: /dir1/
Allow: /valami.html
Allow: /valami.pl
Allow: /~user/
Allow: /~user/ppx/
Allow: /~user/valami.jpg
Allow: http://masikdomain.ath.cx

User-agent: *
Disallow: /

Erre mit mond, ha úgy vesszük, hogy ez alapján viselkednek a botok?