Все подробности генерации содержимого роботс тхт для сайта под управлением WP, различные примеры этого файла с учетом последних изменений в алгоритмах Яндекса и Гугла, а также порядок его закачки на сервер и редактирования.
Роль роботс.тхт и особенности его создания для Вордпресс
Поскольку сам файл robots txt является лишь одним из нескольких средств настройки индексации(наряду с XML картой сайта, атрибутом content мета тега роботс и rel canonical), есть возможность применять их в комплексе, чем и пользуются многие грамотные вебмастера. Давайте разберемся, с какой целью лучше брать на вооружение комплексный метод и какими плюсами он обладает.
Вообще, на заре сайтостроения создание веб-ресурсов требовало серьезной подготовки. Тогда в интернете существовали исключительно сайты, состоящие из простых HTML-страниц, которые веб-мастер добавлял вручную. Практически все они были достойны индексации, а потому файл роботс.тхт в те времена был практически не нужен.
Все изменилось с появлением так называемых систем управления контентом, часто в просторечии называемых движками сайта, самым востребованным из которых был и остается Вордпресс (здесь читайте подробности о WP). Собственно, именно по причине огромной популярности мы и будем рассматривать образцы robots txt на примере этой CMS.
Всем хорош Вордпресс, он отлично формирует страницы сайтов и блогов на автомате и по многим параметрам опережает конкурентов. Но есть, конечно, и минусы. Одним из основных недостатков является то, что этот движок (как и многие его собратья) генерируют многочисленные дубли и вспомогательные страницы, также имеет в своем составе системные файлы, многие из которых не несут полезной информации. Поэтому нам нужно отделить мух от котлет и дать разрешение ботам поисковиков индексировать только нужные пользователям страницы.
Логично, что индексироваться должен полезный контент, который в случае с блогом WordPress сосредоточен на главной, в рубриках, на статических страницах и в статьях (записях). Все остальные странички должны быть исключены из индекса (пагинация, поиск, дополнительные вебстраницы, генерируемые разного рода плагинами и т.д.).
Конечно, можно использовать роботс тхт по полной и закрыть от индексирования абсолютно все предполагаемые для этого объекты (дубли, страницы с малополезным контентом, системные файлы CMS WordPress) с помощью соответствующих директив. И такой образец пока работает на многих успешных веб-ресурсах.
Но в будущем это положение вполне может измениться к худшему. Почему? Это вы поймете из последующих рассуждений. Первым моментом, который заставляет серьезно задуматься, является заявление Гугла о том, что директивы роботс.тхт носят чисто рекомендательный характер:
Правила, обозначенные в robots.txt, сообщают поисковым роботам, какие страницы на вашем сайте надо обрабатывать, а какие нет. Это позволяет уменьшить число запросов, получаемых сервером, но не гарантирует отсутствие этих вебстраниц в поиске. Они там могут появиться, если Googlebot найдет ссылки на запрещенные странички с других ресурсов в интернете. Если вы не желаете, чтобы те или иные материалы вебсайта были представлены в Google, используйте атрибут noindex мета-тега robots.
Таким образом, постепенно идет тенденция к сокращению объема файла роботс и исключения из него директив disallow для вебстраниц с малополезным контентом и указания noindex в их HTML-коде (это же касается и исключения дублей с помощью проставления rel canonical). Причем, что важно, это работает как в отношении Yandex, так и Google.
Важное дополнение: в отличие от запрещающих правил, прописанных в robots txt, атрибут noindex одноименного метатега всегда строго исполняется роботами Гугла. Однако, надо иметь ввиду, что noindex, указанный в HTML-коде страницы, запрещенной одновременно и в файле роботс, будет недоступен для ботов, а следовательно, данная вебстраница будет все-равно загружена, и может отобразиться в результатах поиска.
На данный момент после отказа Яндекса от директив Host и Crawl-delay вполне реально его сближение с главным конкурентом в этом аспекте, тем более, что все выше названные средства настройки индексации принимаются обоими поисковиками рунета.
Какой же можно сделать вывод на основании всего сказанного выше? Современный период в области управления индексацией можно назвать переходным, поскольку поисковики на данный момент еще терпимо относятся к сайтам, владельцы которых используют прежний подход к формированию robots txt. Так что вебмастера пока могут спать спокойно.
Поскольку, как я уже сказал, кроме robots txt существует несколько инструментов для настройки индексации (главным образом это касается одноименного мета-тега и атрибута rel="canonical", упомянутых выше), на данный момент единственно правильного и идеального файла даже для похожих по структуре проектов не существует. Вы сами можете в этом убедиться, осуществив поиск в сети. Различных вариаций много и большинство из них работает.
Вы без труда можете подсмотреть и образец для этого блога. Он давно не редактировался, да и зачем менять то, что не вызывает проблем. Но в будущем, наверное, все-таки придется вернуться к этому вопросу, тем более, что на некоторых своих ресурсах я уже применяю новый подход.
А потому имейте ввиду, что на каком-то этапе и вам, вполне возможно, потребуется произвести какие-то мероприятия ввиду изменяющихся требований поисковых систем, а также определенных сложностей, которые могут быть вызваны использованием той или иной CMS.
Я писал о вполне реальной истории, когда пришлось бороться с replytocom и другими дублями, которые генерировал Вордпресс. Эта битва закончилась успешно, но пришлось потрудиться. Это еще раз доказывает, что в жизни все постоянно меняется, и к этому надо быть готовым.
С тех пор много воды утекло. Но нужно соблюдать паритет и вспоминать не только негативные стороны, но и отмечать позитив. В этом смысле надо отдать должное разработчикам WordPress, которые постоянно устраняют недостатки, и на данный момент многие из тех проблем, о которых я писал в том мануале, уже не актуальны. До идеала еще далеко, но прогресс налицо.
Кстати, если говорить непосредственно о системном подходе к управлению индексированием, то важную техническую роль здесь играет, пожалуй, главный плагин Вордпресс All in One SEO Pack (получите подробную информацию об этом расширении), который позволяет использовать все возможные настройки индексации, включая проставление нужных параметров мета тега robots, rel canonical, а также создание XML sitemap (в том числе динамического варианта) и виртуального robots.txt посредством специальных модулей, без прямого редактирования шаблонов темы.
Раз уж зашла речь о плагинах (в отношении их числа, кстати, Вордпресс является непререкаемым лидером, это одна из причин его сумасшедшей популярности в мире), так или иначе причастных к индексации, то упомяну и о Google XML Sitemaps, который не только генерирует карту сайта, но и проставляет при необходимости ссылку на нее в виртуальном роботс тхт.
Это интересно
0
|
|||
Последние откомментированные темы:
megr***@m*****.ru , 18.12.2011