С Новым Годом, дорогие подписчики! Сегодня мы публикуем перевод классической работы Андрея Бродера "Таксономия сетевого поиска" (см. таксономия). Все, кто сталкивался с темой продвижения сайта в поисковых системах, знают, что поисковые запросы бывают информационные, навигационные и транзакционные, но мало кто помнит, что данная терминология предложена именно в
"Таксономии" Бродера. Читайте оригинал.
Статья написана в 2002 году, а для Интернета 4-5 лет - большой срок, поэтому некоторые положения этой работы сегодня кажутся далеко не бесспорными. В то время еще не было развито "SEO-движение", поэтому Бродер отождествляет поиск как функцию поисковых систем и поиск как потребность пользователя в информации: поисковые системы ищут в вебе, а пользователи в поисковых системах.
Сегодня, когда для большого количества популярных запросов круг желающих отвечать на них хорошо известен, поисковым системам нет необходимости что-то в Интернете искать, достаточно четко объявить потребность, какая информация нужна в ответ на тот или иной запрос и как она должна быть оформлена. Без сомнения, сообщество веб-мастеров, владельцев сайтов и оптимизаторов очень быстро предоставят требуемые данные, стуктуру и оформление.
Роль поисковиков, как сервисов, которые что-то ищут в Сети, отходит на второй план. Скоро они станут открытыми маркетинговыми центрами по изучению спроса и организации предложения информации. Сейчас эту роль стихийно пытаются взять на себя социальные сети, в то время как разработчики поисковиков по инерции все еще стараются изобрести очередной "объективный" алгоритм улучшения релевантности.
Следующее отличие дня сегодняшнего от дня минувшего касается активизации сетевых процессов, затрагивающих проблемы авторских прав на предлагаемую пользователям информацию. Цитирую два места из "Таксономии":
Информационный запрос. Намерением /пользователя, задавшего такой запрос/ является получение некоторой информации, которая, допустим, присутствует на одной или нескольких веб-страницах.
Результаты в виде подборки, в которой цель находится в одном клике, принимаются, но менее желательны.
Фактически, это оправдание технологии "заимствования" информации из первоисточника, клонирования ее на множестве доменов и подсовывания в результаты поиска мелкими порциями, густо удобренными платной поисковой рекламой (PPC и иные партнерские сети в 2002 году только начинали зарождаться). Нравится ли вам сегодняшняя эпидемия в результатах поиска клонов "каталогов" и пр?.. См. обсуждение по теме Авторское право и поисковики, оригиналы
и дубли на форуме SEOChase.com.
Поиск и Сеть меняются. Все процессы в Интернете из хаотических и бессистемных становятся четко организованными. Поэтому очевидно, что на смену "Таксономии сетевого поиска" пока уже писать "Таксономию сетевого строительства".
* * *
Алексей Тутубалин опубликовал новую аналитическую работу "Яндекс.Цитирования сайтов Рунета в 4-м квартале 2006 года". В статье рассмотрены изменения тематического индекса цитирования, произошедшие после изменения Яндексом алгоритма расчета ТИЦ. Подтверждено, что "стоны оптимизаторов" о всеобщем падении индекса цитирования имеют под собой основания, падение коснулось более половины сайтов Рунета и 85% сайтов с высокой цитируемостью,
а вовсе не некоторых сайтов, как утверждали сотрудники Яндекса.
ТАКСОНОМИЯ СЕТЕВОГО ПОИСКА - Андрей Бродер
ТАКСОНОМИЯ СЕТЕВОГО ПОИСКА
Андрей Бродер
IBM Research, broder@us.ibm.com (Большая часть представленной здесь работы была проделана в то время, когда автор работал на корпорацию AltaVista)
РЕЗЮМЕ
Классический ИП (информационный поиск) основывается на потребностях пользователей, ищущих информацию, это так называемая "необходимость в информации". Но в сетевом поиске необходимость зачастую возникает не в информации, а в навигации (дайте мне адрес нужного мне сайта) или транзакции (предоставьте мне сайты, где я смогу совершить определенное действие, например, совершить покупку, скачать документ и т. д.). Мы исследуем эту таксономию сетевого поиска и обсудим, насколько развились поисковики, для
того чтобы удовлетворять специфичные для сети нужды пользователей.
ВСТУПЛЕНИЕ
Центральный догмат классической теории информационного поиска заключается в том, что пользователь руководствуется необходимостью в получении информации. Schneiderman, Byrd и Croft [SDC97] определяют необходимость в информации как "ощущение необходимости информации, которое заставляет действовать как система по поиску информации". Но намерение, которое стоит за сетевым поиском, часто не является информационным - оно может быть навигационным (дайте мне адрес нужного мне сайта) или транзакционным
(доставьте мне сайты, где я смогу совершить определенное действие, например, совершить покупку, скачать документ и т. д.). На самом деле, как мы покажем ниже, информационные запросы составляют менее 50% сетевых запросов.
Основной целью данной работы является - показать эту разницу, а также представить и проанализировать таксономию сетевого поиска. Вторая цель - показать, как поисковики справляются с запросами, специфичными для сети.
Последующие материалы этой работы организованы следующим образом: в разделе 2 мы обсуждаем классическую модель информационного поиска. Раздел 3 представляет таксономию сетевого поиска. Раздел 4 представляет некоторую собранную нами статистику через опросы на AltaVista и анализ лог-файлов. Там же - о том, какие из типов поисков предпочтительней для пользователей. В разделе 5, анализируется развитие поисковиков в свете этой таксономии; в разделе 6 обсуждаются некоторые схожие работы. И, наконец, раздел
7 посвящен определенным выводам и указывает на последующие направления исследований.
КЛАССИЧЕСКАЯ МОДЕЛЬ ИНФОРМАЦИОННОГО ПОИСКА
Мы начнем с классической модели, используемой во многих учебниках, посвященных теории поиска информации, например, в работе van Rejsbergen [R79]. Более подробно она обсуждается в [BK94].
По существу дела, пользователь, руководствуясь необходимостью в информации, составляет запрос на некоем языке запросов. Запрос отправляется в систему, которая производит отбор среди коллекции документов (корпус), чтобы отобрать те из них, которые соответствуют запросу в соответствии с определенными правилами соответствия. Возможно использование процесса дополнительной доработки запроса для того, чтобы отправить его снова или произвести поиск по предоставленным документам.
(Рисунок 1. Классическая
модель информационного поиска - все рисунки имеют абсолютные адреса, поэтому видны при раскрытии письма рассылки в браузере, онлайн)
Будет полезно детализировать эту схему, так как в контексте Сети факторы взаимодействия человека и компьютера, а также когнитивные аспекты играют значительную роль.
(Рисунок 2. Классическая модель ИП, адаптированная под сеть)
Таким образом, мы признаем, что необходимость в информации связанна с некоторым заданием. Эта нужда вербализируется (обычно ментально, а не вслух) и переводится в запрос, который ставится поисковой машине. Этот процесс получения запроса из необходимости в информации широко обсуждался многими: Holscher and Strube [HS00] указывают, что опытные пользователи сети и новички по разному формулируют запросы, Navarro-Pietro et al. [NSR99] вывели когнитивную модель сетевого поиска, Muramatu and Pratt [MR01]
исследовали ментальную модель пользователей поисковиков. См. также [CDT99]. Однако, все эти труды разделяют ту точку зрения, что пользователи мотивированы необходимостью в информации.
ТАКСОНОМИЯ СЕТЕВОГО ПОИСКА
В контексте сети "необходимость, которая стоит за запросом" часто не информационного характера. Мы классифицируем сетевые запросы, исходя из намерений пользователя, на три класса:
Навигационный запрос. Намерением является попадание на определенный сайт.
Информационный запрос. Намерением является получение некоторой информации, которая, допустим, присутствует на одной или нескольких веб-страницах.
Транзакционный запрос. Намерением является осуществление некоторых действий возможных с помощью Сети.
Прежде чем мы приступим к детальному обсуждению всех этих типов, мы должны заявить, что это намерение /вряд ли/ можно вывести из запроса со стопроцентной вероятностью. Примеры, приведенные ниже, могут иметь альтернативное толкование.
Навигационные запросы. Целью таких запросов является достижение пользователем определенного сайта, который пользователь имеет в виду, либо потому что он был на нем ранее, либо потому, что допускает его существование. Некоторыми примерами служат:
Greenhoud Bus. Возможная цель - www.greenhoud.com
compaq. Возможная цель - www.compaq.com
national car rental. Возможная цель - www.nationalcar.com
american airlines home. Возможная цель - www.aa.com
Don Knuth. Возможная цель - www-cs-faculty.stanfird.edu/`knuth/
Такой тип поиска в классическом ИП иногда называют поиск "известного объекта", но он чаще используется при оценке различных систем. На TREC-2001 (конференция по информационному поиску) обсуждалось "задание по нахождению домашней страницы", основанное на 145 запросах. Такие типы запросов являются по существу навигационными запросами.
Навигационные запросы имеют, как правило, один верный результат. Например, по запросу haaretz (название израильской газеты) целью является что-то из нижеперечисленного:
www.haaretz.co.il (версия на иврите)
www2.haaretz.co.il/breaking-news/ (англоязычная версия в Израиле)
Результаты в виде подборки, в которой цель находится в одном клике, принимаются, но менее желательны. Продолжая наш пример, по запросу haaretz - список израильских газет может быть принят в качестве ответа на запрос.
Информационные запросы. Целью таких запросов является нахождение информации, которая предполагается, имеется в сети в статической форме. Никакого последующего взаимодействия, кроме чтения не предвидится. Под статической формой мы подразумеваем, что нужный документ не формируется сервером в ответ на запрос пользователя. Это несколько размытое определение, так как третье поколение поисковых машин вполне способно вести на динамические страницы.
В любом случае, информационные запросы ближе к классическому ИП и потому нуждаются в меньшем внимании в этой работе. Отличие сети в том, что многие информационные вопросы очень широки, например, cars или San Francisco, в то время как другие - узкие, например, normocytic anemia, Scoville heat units. Интересно отметить, что практически в 15 процентах желаемой целью является хорошая подборка ссылок по теме, а не хороший документ. См. также результаты опроса ниже.
Транзакционные запросы. Целью таких запросов является попадание на сайт, где можно будет произвести последующее действие. Это действие определяет транзакцию, формирующую такие запросы. Основными категориями таких запросов являются: покупки, нахождение веб-сервисов, закачка файлов различных типов (изображений, песен), доступ к определенным базам данных (например, Желтые страницы), нахождение серверов (для игр) и т.д.
Результаты таких запросов очень тяжело оценить в рамках классической теории ИП. Бинарный подход - это, возможно, все, чем мы располагаем в этом случае: или подходит, или - нет. Однако большинство внешних факторов важных для пользователя (цена, скорость предоставления услуги, качество изображения и т. д.), как правило, остаются вне внимания поисковиков.
СТАТИСТИЧЕСКИЕ ДАННЫЕ
Мы использовали два метода для определения превалирующих типов запросов: опрос среди пользователей AltaVista и анализ логов запросов на AltaVista...
( Полная версия статьи опубликована в "РВ" - расширенном выпуске нашей рассылки, см. Архив )
Все макросы в рабочем состоянии, найденные на 7 февраля ошибки исправлены. Для желающих и умеющих программировать на VBA код макросов открыт, без пароля. Никаких обязательств при использовании и/или изменении мы не налагаем, все свободно.
Поддержка макросов в работоспособном состоянии в будущем нами осуществляться не будет.
"...Веб-мастерам нужно будет решать, как в дальнейшем зарабатывать деньги. Оптимизаторам - как продвигать клиентские сайты. Выход вполне очевиден, Яндекс не собирается отменять влияние ссылок, но прежде, чем попытаться очертить границы будущего рынка торговли ссылками, необходимо рассмотреть то, что уже было..."
КАКЗАДАТЬ ВОПРОС ЭКСПЕРТАМ?
Cтатьи,исследования, экспертные ответы и оценки рассылки "Продвижение сайта с опытом экспертов" будут посвящены, прежде всего, тому, что больше интересует вас, наших подписчиков.