Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Ударим сайтостроением по бездорожью! Поисковик и robots.txt


robots
robots

Как известно, движок Wordpres в процессе работы и наполнения блога генерирует уйму страниц дубликатов. И еще известно, что поисковики очень не любят эти страницы. Если сравнивать поисковик Google с Yandex – ом, в этом вопросе можно сказать, что Google к продублированным страницам относится немного лояльнее Yandex – а, да и то в разумных пределах.

Поэтому в движке Wordpress создается файл robots.txt,  который должен контролировать индексацию страниц ссылок и прочих файлов и папок. С его помощью можно разрешать или запрещать роботам  поисковикам индексировать те или иные страницы, ссылки, комментарии и
так далее.

Но с одним условием: файл должен быть написан правильно, без ошибок. Казалось бы в чем может оказаться проблема, команд всего-то две allow и disallow, то есть, разрешать и не разрешать.

Но как я убедился ,ошибки этого файла имеют особенность не проявлять себя, пока сайт , что называется  «легкий»,то есть, в нем не так много информации, а когда сайт поднакапливает страниц, папок и ссылочной массы и  становится больше,  файл robots.txt вполне может сорваться.

Вкратце опишу, как это проявилось  в моем случае, и в чем могла быть ошибка.
В один прекрасный день  файл robots.txt  дал возможность поисковикампроиндексировать  все дубли страниц,  существующих и несуществующих, различных файлов с непонятными расширениями.

И в таком количестве,  что поисковой бот аж захлебывался от их численности. Многие из этих файлов заканчивались полузакрытыми тегами <noindex, из чего я и понял, предварительно поюзав по интернету с вопросом от чего это может быть, что виноват в этом огромном количестве «страниц», с  ошибкой 404 выявленных роботом поисковикомименно файл robots.txt.

Ниже в галерее скриншот по старому robots.txt файлу .Обратите внимание на строчки <Sitemap: http://www.aloxov.net/sitemap.xml> и <Host: www.aloxov.net>. Как я понял, они  должны замыкать прописанные правила поисковиков, в данном случае Google и  Yandex – а, без каких-либо пробелов. А здесь, как видно, например, строчка < Sitemap: http://www.aloxov.net/sitemap.xml > не только не примыкает к правилам поисковика,  но и находится не на своем месте.

Как бы-то ни было, я не стал исправлять этот файл, а просто заменил его на другой, по отзывам более грамотно написанный. Во всяком случае нашествие ошибок 404 ощутимо  поуменьшилось, а картина индексации страниц выглядит реально. Правда, несколько недавно проиндексированных страниц выпало из индексации  Yandex .

Жаль, конечно ,потому, что это произошло явно из за дублирования страниц. Yandex, как известно, не проявляет гибкости в отношении дублирования. Говоря гибкости, не имею ввиду не правильно прописанный файл robots.txt, это как раз понятно.

Я говорю о воровстве контента.  Google в этом смысле мало ошибается, а вот Yandex вполне может проиндексировать вначале страницу вора, а уж потом страницу того сайта, с которого был сворован контент. Эту небольшую оплошность в настройках робота поисковика Yandex никак не исправит. То ли не может, то ли не хочет- не знаю.

И в завершении выкладываю новый  файл robots.txt , которым я заменил старый.
P.S   User-Agent: MJ12bot. Я не программист, но вычитал, что этот бот грузит сервер. Запрет  его индексирование облегчает работу сервера.

User-agent: Yandex
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Host: name.ru  вместо  name.ru ваш домен

User-Agent: MJ12bot
Disallow: /cgi-binм
Disallow: /wp-admin
Disallow: /wp-login.php

User-agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Sitemap: http://www.name.ru  /sitemap.xml   вместо  name.ru ваш домен

Источник статьи    http://aloxov.net/2012/04/02/poiskovik-i-robots-txt/


В избранное