Вопрос № 75368: Здравствуйте!
Я хочу сделать так, чтобы некоторые страницы моего сайта поисковая система не индексировала. Как сообщить, какие страницы надо индексировать, а какие нет? Я слышала что-то о файлах noindex. Раскажите, пожалуйста, подробнее, как ими ...
Вопрос № 75.368
Здравствуйте!
Я хочу сделать так, чтобы некоторые страницы моего сайта поисковая система не индексировала. Как сообщить, какие страницы надо индексировать, а какие нет? Я слышала что-то о файлах noindex. Раскажите, пожалуйста, подробнее, как ими пользоваться.
Отправлен: 12.02.2007, 14:01
Вопрос задал: Marama (статус: Посетитель)
Всего ответов: 4 Мини-форум вопроса >>> (сообщений: 0)
Отвечает: Александр Александрович
Здравствуйте, Marama!
Удобнее для этого пользоваться файлом robots.txt - его понимают все культурные поисковые боты.
Чтоб не пересказывать: http://hosttest.info/robots-txt.php
--------- Жизнь прекрасна!!!
Ответ отправил: Александр Александрович (статус: 10-ый класс)
Ответ отправлен: 12.02.2007, 14:19
--------- Краткость приятна, когда она сочетается с ясностью ^_-
Ответ отправила: Angel7 (статус: Студент)
Ответ отправлен: 12.02.2007, 14:19
Отвечает: Web-Extrime
Здравствуйте, Marama!
Немного дополню уважаемых экспертов.
Файл robots.txt - это текстовый файл, который создаётся в любом текстовом редакторе.
Этот файл может сообщить роботу поисковой системы, который индексирует страницы, что ему нельзя индексировать определенные страницы. Таким образом, Вы можете формировать страницы для поисковика А и сообщать роботу поисковика Б, чтобы он их игнорировал. Файл должен находиться обязательно в корневом каталоге.
Синтаксис довольно-таки прост:
User-agent: {Имя_Паука}
Disallow: {Путь_К_ПапкеФайлу}
Например, чтобы сообщить пауку Рамблера (он называется StackRambler) не индексировать папку cgi-bin полностью и 2 файла в корне: error404.php, error500.php, нужно записать это в файле таким образом:
User-agent: StackRambler
Disallow: /cgi-bin/
Disallow: /error404.php
Disallow: /error500.php
Первая строка говорит о том, что нижеприведённые адреса не следует индексировать только роботам Рамблера.
Вторая строка сообщает нам, что папка cgi-bin полностью закрыта для поисковиков.
Третья и четвёртая строки дают понять поисковому боту Рамблера, что файлы error404.php, error500.php, которые лежат в корневом каталоге также индексировать не надо.
Переходим дальше. Запрещаем всем поисковым ботам индексировать эти файлы.
User-agent: *
Disallow: /cgi-bin/
Disallow: /error404.php
Disallow: /error500.php
Запретим всем поисковикам индексировать все страницы сайта, т.е. весь сайт :
User-agent: *
Disallow: /
Вам наверное, так и хотелось в этом случае во второй строке также поставить звёздочку. Но это будет грубейшей ошибкой, которая не принесёт эффекта.
Хотя, всё-таки нет, эффект будет, но противоположный, т.к. файлов начинающихся со знака * в природе просто не существует. Аналогично можно запретить поисковому боту Яндекса (он так и зовётся Yandex) не индексировать этот сайт.
User-agent: Yandex
Disallow: /
Если одни и те же файлы вы хотите исключить для нескольких поисковиков, то это делается так: сперва записываются имена ботов, затем файлы вот в таком формате:
User-agent: Yandex
User-agent: StackRambler
Disallow: /cgi-bin/
Disallow: /error404.php
Disallow: /error500.php
С помощью файла robots.txt указать роботам поисковых систем на то, какое зеркало нужно считать основным:
User-agent: Yandex
Disallow: /admin/
Host: www.mainsite.ru
Директива Host уникальна для каждого поискового бота.
Теперь давайте поговорим о тонкостях работы с файлом и типичных ошибках, о поисковых роботах и альтернативных способах НЕиндексирования страниц.
Тонкости есть везде и у нас тоже. Вот лишь небольшой список их:
Как правильно: User-Agent или User-agent. Я рекомендую Вам придерживаться второго варианта, согласно спецификации файла robots.txt.
Если записать просто:
User-agent: Yandex
Disallow: /admin
То это будет означать, что к запрету для бота Яндекса причисляются все файлы и папки, которые начинаются с данного слова.
Файл должен находиться, только в корневом каталоге, и нигде больше.
Имя файла может быть только таким: robots.txt Такие имена как: Robots.txt, ROBOTS.TXT являются ошибочными:
Файл может быть только текстовым *.txt
Нельзя в тексте допускать лишних пустых строк. Пустая строка означает, что следующая за ней строка будет иметь параметры для другого поискового робота. Ошибочный пример:
User-agent: *
Disallow: /1/
Disallow: /free.html
Disallow: /cgi/
В строках с полем Disallow записываются не абсолютные, а относительные префиксы. Неправильным будет:
Disallow: www.sitec.ru/free.html
Что касается директивы Host. Вот несколько наглядных примеров как делать нельзя:
Host: www.myhost-.ru
Host: www.-myhost.ru
Host: www.myhost.ru:0
Host: www.my_host.ru
Host: .my-host.ru:8000
Host: my-host.ru.
Host: my..host.ru
Host: www.myhost.ru/
Host: www.myhost.ru:8080/
Host: http://www.myhost.ru
Host: www.mysi.te
Host: 213.180.194.129
Host: www.firsthost.ru,www.secondhost.ru
Host: www.firsthost.ru www.secondhost.ru
Пауки
Имена поисковых ботов не всегда соответствуют названия поисковых машин.
Вот самые распространённые в Рунете поисковые боты:
Рамблер - StackRambler
Яндекс - Yandex
Google - Googlebot
MSN - msnbot
Если Вы имеете доступ к логам сервера (например: последние посетители), то сможете узнать какие боты обходят Ваш сайт. Но чаще всего названия их бывают такими:
Googlebot/2.1 (+http://www.google.com/bot.html);
Yandex/1.01.001; msnbot/1.0 (+http://search.msn.com/msnbot.htm) и т.д.
Но не стоит это имя сразу загонять в robots.txt
Всё что пишется в имени бота после слэша - нам не нужно. В файл robots.txt вносится только первая часть.
Альтернативные методы
Файл robots.txt позволяет скрыть от глаз разных поисковых роботов разные файлы, а то и вообще все. Но есть и другие альтернативные способы, правда не всегда такие удобные, т.к. robots.txt позволяет делать это лишь изменением своего содержимого.
Мета тег robots.
- индексируется данная страница, робот идёт по ссылкам с этой страницы.
- страница не индексируется, но робот идет дальше по ссылкам.
- страница индексируется, но робот не идёт по ссылкам на другие страницы, т.е. он их не индексирует.
- страница не индексируется, робот по ссылкам не идёт. Если поместить такой код на все страницы сайта - он не проиндексируется.
- идентичное последнему. Сайт не индексируется.
Тег , который позволяет не индексировать лишь определённый кусок кода страницы. Например:
HTML-код
.. . .
привет любимая :))
.. . .
HTML-код
(http://packpymku.net/)
Успехов!
--------- Делай добро сам, и всегда помни что сделали для тебя!
Ответ отправил: Web-Extrime (статус: Студент)
Ответ отправлен: 12.02.2007, 15:41
Отвечает: Script
Здравствуйте, Marama!
Ну во первых ни какой ноиндекс здесь не нужен, во вторых создаете ТХТ файл и называете его robots.txt, после этого вписываете:
Приложение:
Ответ отправил: Script (статус: 2-ой класс)
Ответ отправлен: 13.02.2007, 00:39