Hi!
Adott egy kis webszerver, amit csak a googlebot- nak szeretnék engedélyezni. Most így néz ki a /robots.txt- m:
User-agent: Googlebot
Allow: /dir1/
Allow: /valami.html
Allow: /valami.pl
Allow: /~user/
Allow: /~user/ppx/
Allow: /~user/valami.jpg
Allow: http://masikdomain.ath.cx
Pár nap még a
User-agent: Googlebot
helyett
*
volt, de mióta lecseréltem, ugyanúgy nézeget mindent az msnbot, meg még egy pár másik bot néha- néha, nekem meg bőven elég, ha google nézelődik. A kérdés az, hogy lehetne megoldani, hogy csak a google keressen a robots.txt alapján? Legrosszabb esetben iptablessel kitiltom az msnbot- ot, de nincs erre valami jobb megoldás? Mióta átírtam
Googlebot
- ra az első sort, az msnbot 17X olvasta el a robots.txt- t, és ugyanúgy folytatta az olvasást :- ). Biztos én rontottam el valamit, de ez így kicsit már erőszakos :- ).
2) A documentrootom a /var/www, és van egy /var/www/masikdomain könyvtáram, ami elérhető http://masikdomain.ath.cx néven (virtualhost). A fentiek alapján megtalálja a googlebot (csak mert 6 nap alatt eddig nem tette, pedig a robots.txt- t olvasta már párszor).
Köszi a válaszokat.
- 1141 megtekintés
Hozzászólások
a robots.txt-t illik figyelembe venni, csakhogy ez nem várható el egy programtól. A válasz tehát: sehogy.
- A hozzászóláshoz be kell jelentkezni
Azóta megoldottam iptablessel, legalábbis az elmúlt másfél órában nem jött msnbot (előtte meg 5- 6 percenként). Azért köszi.
- A hozzászóláshoz be kell jelentkezni
Csak kiváncsiságból: miért fáj ha msnbot is megtalál? :-)
--
A nyúl egy igazi jellem. Ott ül a fűben, de akkor sem szívja!
- A hozzászóláshoz be kell jelentkezni
Főnökömnek fáj, de majd megkérdezem szerdán, hogy miért :- ) - bár lehet, hogy fura a gondolatmenet, de ezzel elvileg a google- t támogatja valamilyen szinten, és akkor már inkább google, mint win (ugye nem tévedek nagyot, hogy ez az msnbot a windows live akárminek a keresője?).
- A hozzászóláshoz be kell jelentkezni
Már látom előre, ahogy az egész próbálkozás azon bukik el, hogy msnbot nem támogatja a szabványokat. :)
- A hozzászóláshoz be kell jelentkezni
jo hogy nem veszi figylelembe az msnbot, ha ok nelkul mindig ki akarjak tiltani ;)
--
The Internet has evolved from smart people in front of dumb terminals to dumb people in front of smart terminals.
- A hozzászóláshoz be kell jelentkezni
Biztos van oka, csak én nem tudok róla :- ), de nekem már a neve sem szimpatikus, meg túl erőszakos, sokkal gyakrabban látogat, mint a googlebot, de előbb kipróbáltam a live.com- ot, de igazából nem nagyon találta meg azokat az oldalakat, amiket látott, pedig egyedi részletre kerestem. Amúgy meg a legtöbb fájlra igaz, hogy amit leszed reggel, azt leszedi más napszakokban is, google meg jó ha 3 naponta frissíti az infót. Mintha valamikor hallottam volna valami olyasmit, hogy google először megnézi a fájlok változási időpontját. Ez mennyire igaz? Mert ha a könyvtárat látja, akkor minden ok, de amúgy?
- A hozzászóláshoz be kell jelentkezni
szerintem vagy mindet tiltsd, vagy egyiket sem, de ez csak az en velemenyem
ha gondot csinal, mert tul sokat latogat, vagy mit tudom en, akkor persze jogos :)
--
The Internet has evolved from smart people in front of dumb terminals to dumb people in front of smart terminals.
- A hozzászóláshoz be kell jelentkezni
A gond mondjuk tényleg az, hogy túl sokat látogat (letöltések ~1.5%- a!). google- ban az a jó, hogy beállíthatom, hogy milyen gyakran látogasson. msnbot- nak is van ilyen szolgáltatása?
- A hozzászóláshoz be kell jelentkezni
User-agent: Googlebot
Allow: /dir1/
Allow: /valami.html
Allow: /valami.pl
Allow: /~user/
Allow: /~user/ppx/
Allow: /~user/valami.jpg
Allow: http://masikdomain.ath.cx
User-agent: *
Disallow: /
Erre mit mond, ha úgy vesszük, hogy ez alapján viselkednek a botok?
- A hozzászóláshoz be kell jelentkezni
Kipróbálom, 2- 3 nap múlva közlöm az eredményt :- ).
- A hozzászóláshoz be kell jelentkezni