Google bot nem létező fájlokat indexel 4 napja

 ( neutrino | 2019. április 16., kedd - 9:39 )

Sziasztok,

Múlt héten az egyik WP megborult és bejutott egy féreg, amit sikerült leirtanom. Csütörtök óta szopok a lenti problémával.
A féreg létrehozott egy rakás fájlt (gondolom valami SEO bot volt), amit a google szépen be is indexelt. Namármost, a fájlokat/férget csütörtökön leirtottam. Azóta a logom a lentihez hasonló sorral van tele. Annyira, hogy 2 nap alatt 300 mega a log.

Hogy tudom rávenni a drága googlebotot, hogy ezt sürgősen fejezze be? Abban reménykedtem az elején hogy 1 nap alatt végigpörög, de sajnos nem....

Ha fogom magam és kitiltom iptables-el, akkor a többi weblappal baszok ki ami a gépen van....

[Tue Apr 16 09:34:52 2019] [error] [client 66.249.64.114] File does not exist: /www/wwwroot/default/Tag-3357658843-unrealize-telegraphic-unrealize.name
[Tue Apr 16 09:34:52 2019] [debug] mod_deflate.c(700): [client 66.249.64.114] Zlib: Compressed 325 to 245 : URL /Tag-3357658843-unrealize-telegraphic-unrealize.name
[Tue Apr 16 09:34:52 2019] [error] [client 66.249.64.116] File does not exist: /www/wwwroot/default/sportswomantelegraphic-3385684676-sportswoman.zone
[Tue Apr 16 09:34:52 2019] [debug] mod_deflate.c(700): [client 66.249.64.116] Zlib: Compressed 324 to 244 : URL /sportswomantelegraphic-3385684676-sportswoman.zone
[Tue Apr 16 09:34:52 2019] [error] [client 66.249.64.116] File does not exist: /www/wwwroot/default/Tag-storehouse-32eabew-3428521752-forebrain.black
[Tue Apr 16 09:34:52 2019] [debug] mod_deflate.c(700): [client 66.249.64.116] Zlib: Compressed 323 to 247 : URL /Tag-storehouse-32eabew-3428521752-forebrain.black
[Tue Apr 16 09:34:52 2019] [error] [client 66.249.64.118] File does not exist: /www/wwwroot/default/Tag-gluepotsapphiric-3315008929-sapphiric
[Tue Apr 16 09:34:52 2019] [debug] mod_deflate.c(700): [client 66.249.64.118] Zlib: Compressed 316 to 239 : URL /Tag-gluepotsapphiric-3315008929-sapphiric/
[Tue Apr 16 09:34:53 2019] [error] [client 66.249.64.114] File does not exist: /www/wwwroot/default/3423081254-nineteenth-nineteenthcastalia.org
[Tue Apr 16 09:34:53 2019] [debug] mod_deflate.c(700): [client 66.249.64.114] Zlib: Compressed 318 to 238 : URL /3423081254-nineteenth-nineteenthcastalia.org
[Tue Apr 16 09:34:53 2019] [error] [client 66.249.64.118] File does not exist: /www/wwwroot/default/immunorepressive4eeb04w
[Tue Apr 16 09:34:53 2019] [debug] mod_deflate.c(700): [client 66.249.64.118] Zlib: Compressed 319 to 245 : URL /immunorepressive4eeb04w/vagile-3358613998.org
[Tue Apr 16 09:34:53 2019] [error] [client 66.249.64.118] File does not exist: /www/wwwroot/default/lotionlotionumwelt
[Tue Apr 16 09:34:53 2019] [debug] mod_deflate.c(700): [client 66.249.64.118] Zlib: Compressed 317 to 243 : URL /lotionlotionumwelt/3429696247-093581w.cards
[Tue Apr 16 09:34:53 2019] [error] [client 66.249.64.116] File does not exist: /www/wwwroot/default/3342235667-patentee
[Tue Apr 16 09:34:53 2019] [debug] mod_deflate.c(700): [client 66.249.64.116] Zlib: Compressed 322 to 244 : URL /3342235667-patentee/pyrrhotinepatentee9c676ew.jp
[Tue Apr 16 09:34:53 2019] [error] [client 66.249.64.118] File does not exist: /www/wwwroot/default/3350313928
[Tue Apr 16 09:34:53 2019] [debug] mod_deflate.c(700): [client 66.249.64.118] Zlib: Compressed 317 to 245 : URL /3350313928/proposed9eb8c5w_sportswoman.show
[Tue Apr 16 09:34:53 2019] [error] [client 66.249.64.118] File does not exist: /www/wwwroot/default/sulphonicsulphonic-3424008560-exsertile.mobi

Próbálkoztam ezzel a robots.txt-vel, de le se sz*rja
cat robots.txt
User-agent: *
Disallow: /

Mennyi idő mig rájön hogy nincs ott semmi, ahol korábban volt?

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

Nem az enyém a domain, nem tudok új recordot felvenni a validáláshoz, hogy ez menjen.
-------------------------
Dropbox refer - mert kell a hely: https://db.tt/V3RtXWLl
neut @ présház

Akkor ez viszont nem a te problémád - olyan értelemben legalábbis, hogy a Google indexelte a tartalmat.

A logokat illetően - logrotate + külön logfile minden vhost-nak? Így akkor csak erre a vhostra "veszíted" el a logok tartalmát időben visszamenőleg, a többire meglesz a history - már ha tényleg szempont az, hogy sok logot őrizzetek meg.

Közös lónak túróscsusza... De a vhost-onkénti külön logolás az gondolom "alap" minden esetben, hiszen az egyik vhost tulajdonosának semi köze a másik logjaihoz - a sajátjához viszont igen...

Hát igen. De mondjuk szerintem az is alap, hogy a szolgáltató nem tiltogatja ki önhatalmúlag a Googlebotot az _én_ oldalamról azért, mert nem tud megoldani egy logolási problémát.

A kitiltás ideiglenes lehetőség, a szétqrt oldal romeltakarításának a része.

Már miért lenne része a "romeltakarításnak"? Ha kitiltod, azzal csak azt jelzed, hogy ott nemkívánatos szereplő a robot. Ellenben ha kap egy rendes 404-et, akkor tudja, hogy az a tartalom már nem elérhető, így azt majd kiveheti az indexből.

ha nem tévedek, új xml sitemaphez is validálnod kéne a domaint, és lehet, hogy még az sem oldaná meg a fenti problémát (bár valószínű).

szvsz vetesd fel ezt az új rekordot, vagy ha nem tudod, akkor ideiglenesen vagy a logolást kapcsold ki ezen a site-on, vagy a robots.txt-vel tiltsd ki a googlebotot.

https://developers.google.com/search/reference/robots_txt - "A robots.txt request is generally cached for up to one day, but may be cached longer in situations where refreshing the cached version is not possible (for example, due to timeouts or 5xx errors). The cached response may be shared by different crawlers. Google may increase or decrease the cache lifetime based on max-age Cache-Control HTTP headers."

https://www.youtube.com/watch?v=I2giR-WKUfY - ez elég régi video, tapasztalatom szerint már nem érvényes, de ebben arról is volt szó, hogy 100 page hit után kéri mindig le. szvsz ma már a fentebbi idézet az igaz, és a google tiszteletben tartja a robots.txt-re beállított max-age cc headert.

Ha nem az övé a domain, akkor nagyon nem fog örülni neki a tulajdonos, ha csak úgy kitiltja a Googlebotot. Én legalábbis biztosan mozgatnám a site-ot, ha a szolgáltató ilyet csinálna.

Az, hogy a logolást nem tudja "rendesen" megoldani, nem ok arra, hogy a Googlebotot kitiltsa.

Hello!
Nem biztos, hogy megoldja de egyszer találkoztam ilyennel robots.txt-ben.

    # Google adsbot ignores robots.txt unless specifically named!
    User-agent: adsbot-google

Érdemes lehet ebbe az irányba tovább olvasni.

Üdv,
Laci

https://support.google.com/webmasters/answer/6062596?hl=en

-------------------------
Dropbox refer - mert kell a hely: https://db.tt/V3RtXWLl
neut @ présház

Ha csak az a lenyeg, hogy ne szemetelje tele a logot, akkor esetleg opcio lehet az access log ideiglenes kikapcsolasa. Esetleg a csak a 404-ek logolasanak mellozese. Legalabbis ideiglenesen. Ez tuti mukodik es nem kell hozza gugli egyuttmukodese.

--
|8]