Ударим сайтостроением по бездорожью! Поисковик и robots.txt
robots
Как известно, движок Wordpres в процессе работы и наполнения блога генерирует уйму страниц дубликатов. И еще известно, что поисковики очень не любят эти страницы. Если сравнивать поисковик Google с Yandex – ом, в этом вопросе можно сказать, что Google к продублированным
страницам относится немного лояльнее Yandex – а, да и то в разумных пределах.
Поэтому в движке Wordpress создается файл robots.txt, который должен контролировать индексацию страниц ссылок и прочих файлов и папок. С его
помощью можно разрешать или запрещать роботам поисковикам индексировать те или иные страницы, ссылки, комментарии и так далее.
Но с одним условием: файл должен быть написан правильно, без ошибок. Казалось бы в чем может оказаться проблема, команд всего-то две allow
и disallow, то есть, разрешать и не разрешать.
Но как я убедился ,ошибки этого файла имеют особенность не проявлять себя, пока сайт , что называется «легкий»,то есть, в нем не так много информации, а когда сайт поднакапливает страниц, папок и ссылочной массы и становится больше, файл robots.txt вполне может сорваться.
Вкратце опишу, как это проявилось в моем случае, и в чем могла быть ошибка. В один прекрасный день файл robots.txt дал возможность поисковикампроиндексировать все дубли страниц, существующих и несуществующих, различных файлов с непонятными расширениями.
И в таком количестве, что поисковой бот аж захлебывался от их численности. Многие из этих файлов заканчивались полузакрытыми тегами <noindex, из чего я и понял, предварительно поюзав по интернету с вопросом от чего это может быть, что виноват в этом огромном количестве «страниц», с ошибкой 404 выявленных роботом поисковикомименно файл robots.txt.
Ниже в галерее скриншот по старому robots.txt файлу .Обратите внимание на строчки <Sitemap: http://www.aloxov.net/sitemap.xml> и <Host: www.aloxov.net>. Как я понял, они должны замыкать прописанные правила поисковиков, в данном случае Google и Yandex – а, без каких-либо пробелов. А здесь, как видно, например, строчка < Sitemap: http://www.aloxov.net/sitemap.xml > не только не примыкает к правилам поисковика, но и находится не на своем месте.
Как бы-то ни было, я не стал исправлять этот файл, а просто заменил его на другой, по отзывам более грамотно написанный. Во всяком случае нашествие ошибок 404 ощутимо поуменьшилось, а картина индексации страниц выглядит реально. Правда, несколько недавно проиндексированных страниц выпало из индексации Yandex .
Жаль, конечно ,потому, что это произошло явно из за дублирования страниц. Yandex, как известно, не проявляет гибкости в отношении дублирования. Говоря гибкости, не имею ввиду не правильно прописанный файл robots.txt, это как раз понятно.
Я говорю о воровстве
контента. Google в этом смысле мало ошибается, а вот Yandex вполне может проиндексировать вначале страницу вора, а уж потом страницу того сайта, с которого был сворован контент. Эту небольшую оплошность в настройках робота поисковика Yandex никак не исправит. То ли не может, то ли не хочет- не знаю.
И в
завершении выкладываю новый файл robots.txt , которым я заменил старый. P.S User-Agent: MJ12bot. Я не программист, но вычитал, что этот бот грузит сервер. Запрет его индексирование облегчает работу сервера.