Отправляет email-рассылки с помощью сервиса Sendsay

Твой первый сайт

  Все выпуски  

Твой первый сайт: от А до Я



Рассылки сайта "Время России" на subscribe.ru


Твой первый сайт: от А до Я


Колонка редактора

Новые статьи на сайте "Время России"

new Переход с Windows XP на Windows Vista

new Флэш-память - не так долговечна, как хотелось бы...

new Электронные деньги - ликбез!

new С чего лучше всего начинать онлайн бизнес?

new Азбука инвестирования

new Как заставить себя работать?

new Семь мифов о курении

new Твоя игра. Боулинг

На нашем сайте "Время России" добавилось описание аудио - и видеотреннингов

17. Держи стресс в кулаке. Как извлечь выгоду из стрессовых ситуаций (Сергей Ключников)

18. Курс осознанного сновидения

19. Как стать генеральным директором (Джеффри Дж. Фокс)

20. Почему мы покупаем. Наука торговать или как заставить покупать (Пако Андерхилл)

21. Требуется харизматичный руководитель: в поисках эффективной системы управления

22. Ваш денежный поток (Как и где искать людей для привлечения в бизнес? Как и где найти тех, кто готов учиться и работать и кто со временем сделает ваш бизнес процветающим? В своем аудиокурсе Роберт поможет вам разобраться с этими старыми, как мир, вопросами.)


DVD "Энциклопедия веб-мастера: Создание сайта от А до Я"

     Новая версия (сборка - январь 2007 г.) популярного сборника программ и материалов для создания современного веб-сайта.

  • 3 Gb веб-дизайнерского софта : популярные html (php, perl, xml) - редакторы и пакеты для создания сайтов, лучшие графические программы и утилиты, программы для эффективной раскрутки (seo) и т.д.
  • Библиотека веб-мастера : учебники и пособия по веб-дизайну, самоучители по работе с html-редакторами и графическими программами, официальные спецификации, справочники и учебники по языкам веб-программирования и т.д. (уровень - от чайника до профи, всего более 100 книг)
  • 500 профессиональных шаблонов сайтов : используя шаблоны можно за короткие сроки сделать профессиональный сайт, не прибегая к помощи дизайнера. Адаптировав должным образом выбранный шаблон, можно в итоге получить высоклассный продукт.
  • Script Collection (asp, java, perl, php) : в коллекцию включены скрипты для решения практически любой программной задачи: от создания гостевой книги или чата до построения порталов и систем электронной коммерции. Всего более 1000 скриптов.
  • CMS Collection : коллекция из 25 популярных систем управления сайтом (PHP-Nuke, Mambo, Joomla, Drupal, RunCms, Textpattern, e107 и др.)
  • WebClipArt : большая коллекция графики для веб-мастеринга: тысячи анимированных гифов, сотни заготовок для баннеров и кнопок, текстуры, бэкграунды и т.д.

Стоимость сборника 300 рублей


  Хиты продаж

Несколько слов о том, как работают роботы (spiders) поисковых машин


Лучшие рассылки на
Subscribe.ru


Компьютерная литература -
105  электронных учебников умещающихся на 3 CD

CashFlow - это игра, которая помогает по-новому взглянуть на роль денег в нашей жизни, освободиться от привычных стереотипов бесполезного накопительства и  затрат.

Энциклопедия вебмастера - Супер сборник на двух CD, который будет просто необходим, как начинающим сайтостроите-лям так и продвинутым вебмастерам.

Энциклопедия манипулирова-ния или как самостоятельно изучить НЛП и гипноз (2 CD)

Энциклопедия начинающего крэкера

 Учебный сборник на CD  "Уроки Вебмастерства"

Введение

Эта статья вовсе не является попыткой объяснить, как работают поисковые машины вообще (это know-how их производителей). Однако, по моему мнению, она поможет понять как можно управлять поведением поисковых роботов (wanderers, spiders, robots - программы, с помощью которых та или иная поисковая система обшаривает сеть и индексирует встречающиеся документы) и как правильно построить структуру сервера и содержащихся на нем документов, чтобы Ваш сервер легко и хорошо индексировался.

Первой причиной того, что я решился написать эту статью, явился случай, когда я исследовал файл логов доступа к моему серверу и обнаружил там следующие две строки:

lycosidae.lycos.com - - [01/Mar/1997:21:27:32 -0500] "GET /robots.txt HTTP/1.0" 404 -
lycosidae.lycos.com - - [01/Mar/1997:21:27:39 -0500] "GET / HTTP/1.0" 200 3270

то есть Lycos обратился к моему серверу, на первый запрос получил, что файла /robots.txt нет, обнюхал первую страницу, и отвалил. Естественно, мне это не понравилось, и я начал выяснять что к чему.

Оказывается, все "умные" поисковые машины сначала обращаются к этому файлу, который должен присутствовать на каждом сервере. Этот файл описывает права доступа для поисковых роботов, причем существует возможность указать для различных роботов разные права. Для него существует стандарт под названием Standart for Robot Exclusion.

По мнению Луиса Монье (Louis Monier, Altavista), только 5% всех сайтов в настоящее время имеет не пустые файлы /robots.txt если вообще они (эти файлы) там существуют. Это подтверждается информацией, собранной при недавнем исследовании логов работы робота Lycos. Шарль Коллар (Charles P.Kollar, Lycos) пишет, что только 6% от всех запросов на предмет /robots.txt имеют код результата 200. Вот несколько причин, по которым это происходит:

  • люди, которые устанавливают Веб-сервера, просто не знают ни об этом стандарте, ни о необходимости существования файла /robots.txt.
  • не обязательно человек, инсталлировавший Веб-сервер, занимается его наполнением, а тот, кто является вебмастером, не имеет должного контакта с администратором самой "железяки".
  • это число отражает число сайтов, которые действительно нуждаются в исключении лишних запросов роботов, поскольку не на всех серверах имеется такой существенный трафик, при котором посещение сервера поисковым роботом, становится заметным для простых пользователей.

Формат файла /robots.txt.

Файл /robots.txt предназначен для указания всем поисковым роботам (spiders) индексировать информационные сервера так, как определено в этом файле, т.е. только те директории и файлы сервера, которые НЕ описаны в /robots.txt. Это файл должен содержать 0 или более записей, которые связаны с тем или иным роботом (что определяется значением поля agent_id), и указывают для каждого робота или для всех сразу что именно им НЕ НАДО индексировать. Тот, кто пишет файл /robots.txt, должен указать подстроку Product Token поля User-Agent, которую каждый робот выдает на HTTP-запрос индексируемого сервера. Например, нынешний робот Lycos на такой запрос выдает в качестве поля User-Agent:

 Lycos_Spider_(Rex)/1.0 libwww/3.1

Если робот Lycos не нашел своего описания в /robots.txt - он поступает так, как считает нужным. Как только робот Lycos "увидел" в файле /robots.txt описание для себя - он поступает так, как ему предписано.

При создании файла /robots.txt следует учитывать еще один фактор - размер файла. Поскольку описывается каждый файл, который не следует индексировать, да еще для многих типов роботов отдельно, при большом количестве не подлежащих индексированию файлов размер /robots.txt становится слишком большим. В этом случае следует применять один или несколько следующих способов сокращения размера /robots.txt:

  • указывать директорию, которую не следует индексировать, и, соответственно, не подлежащие индексированию файлы располагать именно в ней
  • создавать структуру сервера с учетом упрощения описания исключений в /robots.txt
  • указывать один способ индексирования для всех agent_id
  • указывать маски для директорий и файлов

Записи (records) файла /robots.txt

Общее описание формата записи.

[ # comment string NL ]*

User-Agent: [ [ WS ]+ agent_id ]+ [ [ WS ]* # comment string ]? NL

[ # comment string NL ]*

Disallow: [ [ WS ]+ path_root ]* [ [ WS ]* # comment string ]? NL

[

# comment string NL

|

Disallow: [ [ WS ]+ path_root ]* [ [ WS ]* # comment string ]? NL

]*

[ NL ]+

Параметры

Описание параметров, применяемых в записях /robots.txt

[...]+ Квадратные скобки со следующим за ними знаком + означают, что в качестве параметров должны быть указаны один или несколько терминов.

Например, после "User-Agent:" через пробел могут быть указаны один или несколько agent_id.

[...]* Квадратные скобки со следующим за ними знаком * означают, что в качестве параметров могут быть указаны ноль или несколько терминов.

Например, Вы можете писать или не писать комментарии.

[...]? Квадратные скобки со следующим за ними знаком ? означают, что в качестве параметров могут быть указаны ноль или один термин.

Например, после "User-Agent: agent_id" может быть написан комментарий.

..|.. означает или то, что до черты, или то, что после.

WS один из символов - пробел (011) или табуляция (040)

NL один из символов - конец строки (015) , возврат каретки (012) или оба этих символа (Enter)

User-Agent: ключевое слово (заглавные и прописные буквы роли не играют).

Параметрами являются agent_id поисковых роботов.

Disallow: ключевое слово (заглавные и прописные буквы роли не играют).

Параметрами являются полные пути к неиндексируемым файлам или директориям

# начало строки комментариев, comment string - собственно тело комментария.

agent_id любое количество символов, не включающих WS и NL, которые определяют agent_id различных поисковых роботов. Знак * определяет всех роботов сразу.

path_root любое количество символов, не включающих WS и NL, которые определяют файлы и директории, не подлежащие индексированию.

Расширенные комментарии формата.

Каждая запись начинается со строки User-Agent, в которой описывается каким или какому поисковому роботу эта запись предназначается. Следующая строка: Disallow. Здесь описываются не подлежащие индексации пути и файлы. КАЖДАЯ запись ДОЛЖНА иметь как минимум эти две строки (lines). Все остальные строки являются опциями. Запись может содержать любое количество строк комментариев. Каждая строка комментария должна начинаться с символа # . Строки комментариев могут быть помещены в конец строк User-Agent и Disallow. Символ # в конце этих строк иногда добавляется для того, чтобы указать поисковому роботу, что длинная строка agent_id или path_root закончена. Если в строке User-Agent указано несколько agent_id, то условие path_root в строке Disallow будет выполнено для всех одинаково. Ограничений на длину строк User-Agent и Disallow нет. Если поисковый робот не обнаружил в файле /robots.txt своего agent_id, то он игнорирует /robots.txt.

Если не учитывать специфику работы каждого поискового робота, можно указать исключения для всех роботов сразу. Это достигается заданием строки

 User-Agent: *

Если поисковый робот обнаружит в файле /robots.txt несколько записей с удовлетворяющим его значением agent_id, то робот волен выбирать любую из них.

Каждый поисковый робот будет определять абсолютный URL для чтения с сервера с использованием записей /robots.txt. Заглавные и строчные символы в path_root ИМЕЮТ значение.

Примеры.

Пример 1:

User-Agent: *

Disallow: /
 

User-Agent: Lycos

Disallow: /cgi-bin/ /tmp/
 

В примере 1 файл /robots.txt содержит две записи. Первая относится ко всем поисковым роботам и запрещает индексировать все файлы. Вторая относится к поисковому роботу Lycos и при индексировании им сервера запрещает директории /cgi-bin/ и /tmp/, а остальные - разрешает. Таким образом сервер будет проиндексирован только системой Lycos.

Пример 2:

User-Agent: Copernicus Fred

Disallow:
 

User-Agent: * Rex

Disallow: /t
 

В примере 2 файл /robots.txt содержит две записи. Первая разрешает поисковым роботам Copernicus и Fred индексировать весь сервер. Вторая - запрещает всем и осебенно роботу Rex индексировать такие директории и файлы, как /tmp/, /tea-time/, /top-cat.txt, /traverse.this и т.д. Это как раз случай задания маски для директорий и файлов.

Пример 3:

# This is for every spider!

User-Agent: *

# stay away from this

Disallow: /spiders/not/here/ #and everything in it

Disallow: # a little nothing

Disallow: #This could be habit forming!

# Don't comments make code much more readable!!!

В примере 3 - одна запись. Здесь всем роботам запрещается индексировать директорию /spiders/not/here/, включая такие пути и файлы как /spiders/not/here/really/, /spiders/not/here/yes/even/me.html. Однако сюда не входят /spiders/not/ или /spiders/not/her (в директории '/spiders/not/').

Некоторые проблемы, связанные с поисковыми роботами.

Незаконченность стандарта (Standart for Robot Exclusion).

К сожалению, поскольку поисковые системы появились не так давно, стандарт для роботов находится в стадии разработки, доработки, ну и т.д. Это означает, что в будущем совсем необязательно поисковые машины будут им руководствоваться.

Увеличение трафика.

Эта проблема не слишком актуальна для российского сектора Internet, поскольку не так уж много в России серверов с таким серьезным трафиком, что посещение их поисковым роботом будет мешать обычным пользователям. Собственно, файл /robots.txt для того и предназначен, чтобы ограничивать действия роботов.

Не все поисковые роботы используют /robots.txt.

На сегодняшний день этот файл обязательно запрашивается поисковыми роботами только таких систем как Altavista, Excite, Infoseek, Lycos, OpenText и WebCrawler.

Использование мета-тагов HTML.

Начальный проект, который был создан в результате соглашений между программистами некоторого числа коммерческих индексирующих организаций (Excite, Infoseek, Lycos, Opentext и WebCrawler) на недавнем собрании Distributing Indexing Workshop (W3C) , ниже.

На этом собрании обсуждалось использование мета-тагов HTML для управления поведением поисковых роботов, но окончательного соглашения достигнуто не было. Были определены следующие проблемы для обсуждения в будущем:

  • Неопределенности в спецификации файла /robots.txt
  • Точное определение использования мета-тагов HTML, или дополнительные поля в файле /robots.txt
  • Информация "Please visit"
  • Текущий контроль информации: интервал или максимум открытых соединений с сервером, при которых можно начинать индексировать сервер.

 

ROBOTS мета-таги

Этот таг предназначен для пользователей, которые не могут контролировать файл /robots.txt на своих веб-сайтах. Таг позволяет задать поведение поискового робота для каждой HTML-страницы, однако при этом нельзя совсем избежать обращения робота к ней (как возможно указать в файле /robots.txt).

<META NAME="ROBOTS" CONTENT="robot_terms">

robot_terms - это разделенный запятыми список следующих ключевых слов (заглавные или строчные символы роли не играют): ALL, NONE, INDEX, NOINDEX, FOLLOW, NOFOLLOW.
 

NONE - говорит всем роботам игнорировать эту страницу при индексации (эквивалентно одновременному использованию ключевых слов NOINDEX, NOFOLLOW).

ALL - разрешает индексировать эту страницу и все ссылки из нее (эквивалентно одновременному использованию ключевых слов INDEX, FOLLOW).

INDEX - разрешает индексировать эту страницу

NOINDEX - неразрешает индексировать эту страницу

FOLLOW - разрешает индексировать все ссылки из этой страницы

NOFOLLOW - неразрешает индексировать ссылки из этой страницы

Если этот мета-таг пропущен или не указаны robot_terms, то по умолчанию поисковый робот поступает как если бы были указаны robot_terms= INDEX, FOLLOW (т.е. ALL). Если в CONTENT обнаружено ключевое слово ALL, то робот поступает соответственно, игнорируя возможно указанные другие ключевые слова.. Если в CONTENT имеются противоположные по смыслу ключевые слова, например, FOLLOW, NOFOLLOW, то робот поступает по своему усмотрению (в этом случае FOLLOW).

Если robot_terms содержит только NOINDEX, то ссылки с этой страницы не индексируются. Если robot_terms содержит только NOFOLLOW, то страница индексируется, а ссылки, соответственно, игнорируются.

KEYWORDS мета-таг.

<META NAME="KEYWORDS" CONTENT="phrases">

phrases - разделенный запятыми список слов или словосочетаний (заглавные и строчные символы роли не играют), которые помогают индексировать страницу (т.е. отражают содержание страницы). Грубо говоря, это те слова, в ответ на которые поисковая система выдаст этот документ.

DESCRIPTION мета-таг.

<META NAME="DESCRIPTION" CONTENT="text">

text - тот текст, который будет выводиться в суммарном ответе на запрос пользователя к поисковой системе. Сей текст не должен содержать тагов разметки и логичнее всего вписать в него смысл данного документа на пару-тройку строк.

Предполагаемые варианты исключения повторных посещений с помощью мета-тагов HTML

Некоторые коммерческие поисковые роботы уже используют мета-таги, позволяющие осуществлять "связь" между роботом и вебмастером. Altavista использует KEYWORDS мета-таг, а Infoseek использует KEYWORDS и DESCRIPTION мета-таги.

Индексировать документ один раз или делать это регулярно?

Вебмастер может "сказать" поисковому роботу или файлу bookmark пользователя, что содержимое того или иного файла будет изменяться. В этом случае робот не будет сохранять URL, а броузер пользователя внесет или не внесет это файл в bookmark. Пока эта информация описывается только в файле /robots.txt, пользователь не будет знать о том, что эта страница будет изменяться.

Мета-таг DOCUMENT-STATE может быть полезен для этого. По умолчанию, этот мета-таг принимается с CONTENT=STATIC.

<META NAME="DOCUMENT-STATE" CONTENT="STATIC">

<META NAME="DOCUMENT-STATE" CONTENT="DYNAMIC">

Как исключить индексирование генерируемых страниц или дублирование документов, если есть зеркала сервера?

Генерируемые страницы - страницы, порождаемые действием CGI-скриптов. Их наверняка не следует индексировать, поскольку если попробовать провалиться в них из поисковой системы, будет выдана ошибка. Что касается зеркал, то негоже, когда выдаются две разные ссылки на разные сервера, но с одним и тем же содержимым. Чтобы этого избежать, следует использовать мета-таг URL с указанием абсолютного URL этого документа (в случае зеркал - на соответствующую страницу главного сервера).

<META NAME="URL" CONTENT="absolute_url">

Источники

  1. Charles P.Kollar, John R.R. Leavitt, Michael Mauldin, Robot Exclusion Standard Revisited, www.kollar.com/robots.html

     

  2. Martijn Koster, Standard for robot exclusion, info.webcrawler.com/mak/projects/robots/robots.html

Андрей Аликберов, Центр Информационных Технологий
Citforum.ru


"Домашний компьютер: от А до Я"

Анекдоты, которые расмешили всю Россию

"Мышеловка" или всё о мошеничестве в Интернет

Коллекция самых необходимых ссылок по Internet

Рассылка для настоящих мужчин

Интернет без секретов: курс молодого бойца

Ах какая женщина" или как стать счастливой в короткий срок

Худеем в два счёта

Интернет или как стать продвинутым пользователем

Как стать обаятельной и привлекательной

Кулинарное искусство
 

ЖДЁМ   ПИСЕМ


В избранное