Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

О ПОИСКОВЫХ СИСТЕМАХ ИНТЕРНЕТА


Как начать проект онлайн и не тормозить!

Выпуск N31

КАК НАЙТИ ИГОЛКУ В СТОГЕ СЕНА, ИЛИ
О ПОИСКОВЫХ СИСТЕМАХ ИНТЕРНЕТА

Знания бывают двоякого рода: либо мы что-нибудь знаем,
либо мы знаем, где найти сведения об этом.
Самюэль Джонсон

Поиск – один из непременных атрибутов нашей жизни. Вот даже и пословица про это есть: “Рыба ищет где глубже, а человек – где лучше”. Так в поисках вся жизнь и проходит. То ищем товар подешевле, то работу подороже, то отдых поувлекательнее, то компанию повеселее, и так все время. Одно нашли – другое потеряли, а там опять за поиски третьего принимаемся… Догадались, о чем речь пойдет? Ну конечно, о поиске. Только с интернетовской спецификой. То есть о поиске в Сети, точнее – о поисковых машинах, которые этот самый поиск и облегчают.

Для чего они нужны

Для чего вообще нужны эти самые поисковые машины, сможет ответить любой, кто хоть раз в жизни пытался что-либо отыскать в необъятных просторах компьютерной Вселенной. Ну а тем, кто еще не пытался, интересно, наверное, будет узнать, что на сегодняшний день никто не может сказать с абсолютной точностью, сколько всего существует Web-страниц во Всемирной Паутине. По последним данным, полученным исследующими Сеть учеными (оказывается, и такие есть), в настоящее время приблизительный объем Интернета составляет 550 миллиардов страниц. Иными словами, на каждого жителя Земли приходится около 100 страниц. А если учесть, что далеко не всякий землянин приобщился к Сети, то и того больше. Естественно, что самостоятельно разобраться с этими “залежами” информации нет никакой возможности.

Впрочем, процесс бесконечного путешествия по ссылкам с сайта на сайт – занятие весьма и весьма захватывающее. Такое развлечение имеет массу поклонников и даже получило свое собственное название – веб-серфинг. Сродни серфингу настоящему, забава эта не из дешевых. Во-первых, требуются определенные средства для оплаты Интернет-трафика (времени подключения к Сети), а во-вторых, нужна масса свободного времени, которое не жаль будет потратить на подобный “отдых”. Поэтому все-таки основная масса пользователей обращается к Интернету для получения какой-либо конкретной информации. В этом случае, попытки найти искомое методом “научного тыка” обречены на провал. Это только Мюнхгаузен мог, выстрелив в небо, получить жаркое из случайно пролетавшей мимо утки. В реальности все обстоит по-другому.

О каталогах и поисковых машинах

В Интернете, как известно, можно отыскать практически любую информацию. Вот только сделать это не так-то просто. Ведь с точки зрения поиска информации Сеть представляет собой нечто вроде громадной библиотеки, где на стеллажах в беспорядке навалены отдельные страницы и более солидные фолианты (сайты), содержащие искомую информацию. То, что она (информация то есть) здесь где-то есть, не вызывает никаких сомнений. Вот только где? Неизвестно. Вот тут-то и возникает вопрос, мучавший своей неразрешимостью российскую интеллигенцию, – “что делать?” Ответ прост – делать надо то же самое, что делают в обычной библиотеке, когда нужно найти требуемую книгу: следует обратиться к библиотечному каталогу. Для этого существуют специальные Интернет-ресурсы, выполняющие роль своеобразных “библиотечных” каталогов и даже “библиотечных коллекторов”, собирающих данные о публикуемых материалах и составляющих их аннотированные списки. Это собственно каталоги ресурсов Интернета и поисковые машины, или, попросту, “искалки” или “поисковики”.

Между этими двумя видами сетевых “всезнаек” имеется достаточно большая разница. Каталог ссылок, как и следует из названия, представляет собой упорядоченную по темам коллекцию ссылок на многочисленные Интернет-страницы и сайты. Каталог, как правило, составляется и поддерживается специалистами технической службы соответствующего ресурса, которые самостоятельно и (или) по заявкам владельцев сайтов пополняют перечень ссылок и составляют обзоры Web-страниц, включающие краткое описание ресурса, его адрес в Интернете и определенные ключевые слова. Последние используются поисковой программой, которая, как правило, входит в состав каталога. По этим словам сайт может быть найден среди прочих ресурсов, описания которых имеются в базе данных Интернет-каталога. Примером такого рода Интернет-ресурса является достаточно известный в Рунете каталог ссылок List.RU (http://www.list.ru).

В отличие от каталога, поисковая машина не зависит от человека (это же машина!). Поисковик включает в себя три основных компонента. Во-первых, программу-робота, непрерывно просматривающую Сеть или определенную ее часть (например, русскоязычные ресурсы) в поисках новых сайтов, а также с целью проверки существования ранее найденных ресурсов. Во-вторых, так называемый “индекс” – базу данных, в которой хранятся сведения о найденных Интернет-ресурсах. И в-третьих, собственно поисковую систему – непременный элемент поисковика. Именно поисковая программа осуществляет поиск по индексу с учетом заданных пользователем критериев запроса.

Впрочем, нам с вами, как пользователям, не столь уж и важно знать о технических подробностях функционирования подобных систем. Вот только, наверное, стоит опровергнуть бытующий среди части пользователей стойкий миф о том, что поисковая машина, для того чтобы найти требуемую информацию, “перелопачивает” весь Интернет. На самом деле по запросу пользователя поиск ведется по ключевым словам в индексной базе. Кстати, подтверждением этому служат порой появляющиеся в результатах поиска “мертвые” ссылки на уже несуществующие ресурсы.

Индексная база поисковой машины, как правило, располагает данными о гораздо большем числе Web-страниц по сравнению с каталогом Интернет-ресурсов. Происходит это из-за того, что программа-робот в состоянии “обшаривать” Сеть и индексировать страницы практически без перерыва. Работникам же Интернет-каталога требуется отдых и предпочитают они работать не более восьми часов в сутки. Зато поиск с использованием каталога Интернет-ресурсов часто позволяет быстрее найти искомую информацию в силу того, что при составлении описаний эксперт точнее может подобрать ключевые слова, которые будут использоваться при поиске.

Рассмотрим это на следующем примере. Предположим, что для предстоящего торжества понадобилось подготовить поздравление. Да не какое-нибудь, а поэтическое. Что делает в этом случае человек, не имеющий доступа в Сеть? Правильно – пишет сам или подыскивает что-нибудь подходящее в книгах. А что делает “человек с Интернетом”? Вполне вероятно, что начинает искать то же самое в Сети.

Итак, вводим в качестве ключевого слова “поздравление” и обращаемся к каталогу List.RU (http://www.list.ru). Через пару секунд на экране возникают ссылки на соответствующие разделы каталога (“Праздники”, “Поздравления и поздравительные открытки”, “Тосты и пожелания” и так далее). Выбрав требуемый раздел, можно обнаружить ссылки на массу ресурсов, относящихся к праздничной тематике. Требуется только точно представлять себе, что же собственно нужно найти.
Теперь обратимся к поисковой машине. Например, Яndex (http://www.yandex.ru) выдает по запросу “поздравление” ссылки на 108 860 страниц или 3492 сервера. Материалов заметно больше – то-то раздолье для поисков! Но... Среди первого десятка имеются ссылки на пресс-службу Президента РФ и различного рода президентские поздравления, упоминаются частные поздравления различных форумов, а также прочие документы, так или иначе относящиеся к поздравлениям. Безусловно, есть и ссылки на поздравительные ресурсы. Одним словом, разброс результатов поиска велик, а терпения просмотреть все 108 860 ссылок вряд ли у кого хватит.

Налицо извечная борьба между качеством и количеством. Что лучше, конечно, каждый решает сам. Мы же с вами сегодня поставим во главу угла количество и обратимся к поисковым машинам, оставив рассмотрение каталогов ссылок на другой раз.

Читать далее...

В избранное