Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

RusFAQ.ru: Раскрутка сайта в Интернете


РАССЫЛКИ ПОРТАЛА RUSFAQ.RU

/ КОМПЬЮТЕРЫ И ПО / Интернет / Раскрутка сайта в Интернете (SEO)

Выпуск № 94
от 18.02.2007, 10:05

Администратор:romodos
В рассылке:Подписчиков: 279, Экспертов: 33
В номере:Вопросов: 1, Ответов: 4


Вопрос № 75368: Здравствуйте! Я хочу сделать так, чтобы некоторые страницы моего сайта поисковая система не индексировала. Как сообщить, какие страницы надо индексировать, а какие нет? Я слышала что-то о файлах noindex. Раскажите, пожалуйста, подробнее, как ими ...

Вопрос № 75.368
Здравствуйте!
Я хочу сделать так, чтобы некоторые страницы моего сайта поисковая система не индексировала. Как сообщить, какие страницы надо индексировать, а какие нет? Я слышала что-то о файлах noindex. Раскажите, пожалуйста, подробнее, как ими пользоваться.
Отправлен: 12.02.2007, 14:01
Вопрос задал: Marama (статус: Посетитель)
Всего ответов: 4
Мини-форум вопроса >>> (сообщений: 0)

Отвечает: Александр Александрович
Здравствуйте, Marama!

Удобнее для этого пользоваться файлом robots.txt - его понимают все культурные поисковые боты.

Чтоб не пересказывать: http://hosttest.info/robots-txt.php
---------
Жизнь прекрасна!!!
Ответ отправил: Александр Александрович (статус: 10-ый класс)
Ответ отправлен: 12.02.2007, 14:19

Отвечает: Angel7
Здравствуйте, Marama!

Вы немножко напутали, прочитайте здесь.

Статья взята из рассылки сервера Subscribe.ru

Удачи!


---------
Краткость приятна, когда она сочетается с ясностью ^_-
Ответ отправила: Angel7 (статус: Студент)
Ответ отправлен: 12.02.2007, 14:19

Отвечает: Web-Extrime
Здравствуйте, Marama!

Немного дополню уважаемых экспертов.

Файл robots.txt - это текстовый файл, который создаётся в любом текстовом редакторе.
Этот файл может сообщить роботу поисковой системы, который индексирует страницы, что ему нельзя индексировать определенные страницы. Таким образом, Вы можете формировать страницы для поисковика А и сообщать роботу поисковика Б, чтобы он их игнорировал. Файл должен находиться обязательно в корневом каталоге.
Синтаксис довольно-таки прост:
User-agent: {Имя_Паука}
Disallow: {Путь_К_ПапкеФайлу}
Например, чтобы сообщить пауку Рамблера (он называется StackRambler) не индексировать папку cgi-bin полностью и 2 файла в корне: error404.php, error500.php, нужно записать это в файле таким образом:
User-agent: StackRambler
Disallow: /cgi-bin/
Disallow: /error404.php
Disallow: /error500.php
Первая строка говорит о том, что нижеприведённые адреса не следует индексировать только роботам Рамблера.
Вторая строка сообщает нам, что папка cgi-bin полностью закрыта для поисковиков.
Третья и четвёртая строки дают понять поисковому боту Рамблера, что файлы error404.php, error500.php, которые лежат в корневом каталоге также индексировать не надо.
Переходим дальше. Запрещаем всем поисковым ботам индексировать эти файлы.
User-agent: *
Disallow: /cgi-bin/
Disallow: /error404.php
Disallow: /error500.php
Запретим всем поисковикам индексировать все страницы сайта, т.е. весь сайт :
User-agent: *
Disallow: /
Вам наверное, так и хотелось в этом случае во второй строке также поставить звёздочку. Но это будет грубейшей ошибкой, которая не принесёт эффекта.
Хотя, всё-таки нет, эффект будет, но противоположный, т.к. файлов начинающихся со знака * в природе просто не существует. Аналогично можно запретить поисковому боту Яндекса (он так и зовётся Yandex) не индексировать этот сайт.
User-agent: Yandex
Disallow: /
Если одни и те же файлы вы хотите исключить для нескольких поисковиков, то это делается так: сперва записываются имена ботов, затем файлы вот в таком формате:
User-agent: Yandex
User-agent: StackRambler
Disallow: /cgi-bin/
Disallow: /error404.php
Disallow: /error500.php
С помощью файла robots.txt указать роботам поисковых систем на то, какое зеркало нужно считать основным:
User-agent: Yandex
Disallow: /admin/
Host: www.mainsite.ru
Директива Host уникальна для каждого поискового бота.
Теперь давайте поговорим о тонкостях работы с файлом и типичных ошибках, о поисковых роботах и альтернативных способах НЕиндексирования страниц.
Тонкости есть везде и у нас тоже. Вот лишь небольшой список их:
Как правильно: User-Agent или User-agent. Я рекомендую Вам придерживаться второго варианта, согласно спецификации файла robots.txt.
Если записать просто:
User-agent: Yandex
Disallow: /admin
То это будет означать, что к запрету для бота Яндекса причисляются все файлы и папки, которые начинаются с данного слова.
Файл должен находиться, только в корневом каталоге, и нигде больше.
Имя файла может быть только таким: robots.txt Такие имена как: Robots.txt, ROBOTS.TXT являются ошибочными:
Файл может быть только текстовым *.txt
Нельзя в тексте допускать лишних пустых строк. Пустая строка означает, что следующая за ней строка будет иметь параметры для другого поискового робота. Ошибочный пример:
User-agent: *
Disallow: /1/
Disallow: /free.html
Disallow: /cgi/
В строках с полем Disallow записываются не абсолютные, а относительные префиксы. Неправильным будет:
Disallow: www.sitec.ru/free.html
Что касается директивы Host. Вот несколько наглядных примеров как делать нельзя:
Host: www.myhost-.ru
Host: www.-myhost.ru
Host: www.myhost.ru:0
Host: www.my_host.ru
Host: .my-host.ru:8000
Host: my-host.ru.
Host: my..host.ru
Host: www.myhost.ru/
Host: www.myhost.ru:8080/
Host: http://www.myhost.ru
Host: www.mysi.te
Host: 213.180.194.129
Host: www.firsthost.ru,www.secondhost.ru
Host: www.firsthost.ru www.secondhost.ru
Пауки
Имена поисковых ботов не всегда соответствуют названия поисковых машин.
Вот самые распространённые в Рунете поисковые боты:
Рамблер - StackRambler
Яндекс - Yandex
Google - Googlebot
MSN - msnbot
Если Вы имеете доступ к логам сервера (например: последние посетители), то сможете узнать какие боты обходят Ваш сайт. Но чаще всего названия их бывают такими:
Googlebot/2.1 (+http://www.google.com/bot.html);
Yandex/1.01.001; msnbot/1.0 (+http://search.msn.com/msnbot.htm) и т.д.
Но не стоит это имя сразу загонять в robots.txt
Всё что пишется в имени бота после слэша - нам не нужно. В файл robots.txt вносится только первая часть.
Альтернативные методы
Файл robots.txt позволяет скрыть от глаз разных поисковых роботов разные файлы, а то и вообще все. Но есть и другие альтернативные способы, правда не всегда такие удобные, т.к. robots.txt позволяет делать это лишь изменением своего содержимого.
Мета тег robots.
- индексируется данная страница, робот идёт по ссылкам с этой страницы.
- страница не индексируется, но робот идет дальше по ссылкам.
- страница индексируется, но робот не идёт по ссылкам на другие страницы, т.е. он их не индексирует.
- страница не индексируется, робот по ссылкам не идёт. Если поместить такой код на все страницы сайта - он не проиндексируется.
- идентичное последнему. Сайт не индексируется.
Тег , который позволяет не индексировать лишь определённый кусок кода страницы. Например:
HTML-код
.. . .

привет любимая :))

.. . .
HTML-код

(http://packpymku.net/)

Успехов!
---------
Делай добро сам, и всегда помни что сделали для тебя!
Ответ отправил: Web-Extrime (статус: Студент)
Ответ отправлен: 12.02.2007, 15:41

Отвечает: Script
Здравствуйте, Marama!
Ну во первых ни какой ноиндекс здесь не нужен, во вторых создаете ТХТ файл и называете его robots.txt, после этого вписываете:

Приложение:

Ответ отправил: Script (статус: 2-ой класс)
Ответ отправлен: 13.02.2007, 00:39


Отправить вопрос экспертам этой рассылки

Приложение (если необходимо):

* Код программы, выдержки из закона и т.п. дополнение к вопросу.
Эта информация будет отображена в аналогичном окне как есть.

Обратите внимание!
Вопрос будет отправлен всем экспертам данной рассылки!

Для того, чтобы отправить вопрос выбранным экспертам этой рассылки или
экспертам другой рассылки портала RusFAQ.ru, зайдите непосредственно на RusFAQ.ru.


Форма НЕ работает в почтовых программах The BAT! и MS Outlook (кроме версии 2003+)!
Чтобы отправить вопрос, откройте это письмо в браузере или зайдите на сайт RusFAQ.ru.


© 2001-2007, Портал RusFAQ.ru, Россия, Москва.
Идея, дизайн, программирование: Калашников О.А.
Email: adm@rusfaq.ru, Тел.: +7 (926) 535-23-31
ООО "Мастер-Эксперт Про", Москва, 2007
Авторские права | Реклама на портале
Версия системы: 4.44 beta от 26.01.2007
Яндекс Rambler's Top100

В избранное