Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

ЯНДЕКС РАССКАЗАЛ СТУДЕНТАМ О MATRIXNET И КАЧЕСТВЕ ПОИСКА


АШМАНОВ и ПАРТНЕРЫ        No. 319-базовый

ЯНДЕКС РАССКАЗАЛ СТУДЕНТАМ О MATRIXNET И КАЧЕСТВЕ ПОИСКА

"Студенческий день" Яндекса
Задайте свой вопрос экспертам
О преимуществах платной подписки
ОТ РЕДАКТОРА

Здравствуйте, уважаемые читатели!

Google решил проинформировать читателей русскоязычного корпоративного блога компании о том, какие продукты разрабатываются в московском инженерном офисе. Тем, кто особенно заинтересован в технологиях Google, говорит по-английски, пишет красивый код и решает нестандартные задачи, предлагается прислать резюме и влиться в команду. Даже для студентов есть стажёрские программы.

По удивительному совпадению, на прошлой неделе Яндекс тоже рассказывал студентам о своих технологиях и о том, как интересно над ними работать в большом новом офисе с гамаками и столовой. Обзор этого мероприятия мы публикуем сегодня, так как в докладах было много интересного о поиске Яндекса.

Вполне можно в ближайшее время ожидать хантинговых инициатив и от русского офиса Microsoft. Глава Microsoft Bing Group рассказал изданию Infox, что компания заинтересована в экспансии на российский рынок поисковых систем, считает Яндекс своим главным конкурентом и в настоящий момент занята поиском его слабых мест.

Если вы хотите, чтобы ваша светлая голова заинтересовала хэдхантеров из крупнейших IT-корпораций, нужно постоянно получать новые знания и навыки. Ближайшую возможность этим заняться представит 8 апреля компания 1С-Битрикс, организующая бесплатный семинар «Эффективный сайт: раскрываем секреты успеха». Для участия необходимо зарегистрироваться.

"СТУДЕНЧЕСКИЙ ДЕНЬ" ЯНДЕКСА

Первого апреля в московской гостинице Radisson-SAS прошло мероприятие Яндекса под названием «Студень» - «студенческий день». Это была однодневная конференция, которая заняла целый рабочий день – с 10 утра до 7 вечера. Посетило её, по данным Яндекса, около 700 человек, представлявших более 50 ВУЗов. Студентов приглашали на конференцию с помощью почтовой рассылки, регистрация осуществлялась по приглашениям, распространенным через ВУЗы, другие каналы привлечения аудитории не использовались. Иначе, как отметил Андрей Себрант, пришли бы одни оптимизаторы.

Охота за головами

Последних, впрочем, хватает и среди студентов, так что на мероприятии они присутствовали, окружали с вопросами Садовского, фотографировали инструкцию для асессоров.

Отвечая на вопрос о цели мероприятия, топ-менеджеры Яндекса заявили, что пришло время стать более открытыми, что им хочется рассказать миру о технологиях и попрактиковаться они решили на студентах. Однако участники отметили, что многое было сделано для привлечения «свежей крови» в компанию. Представители Яндекса рассказывали о его устройстве, организации производственных процессов, показывали фото нового офиса, проводили показательные собеседования, работали с желающими на стендах «Школы анализа данных» и стажировок в Яндексе. Илья Сегалович, отвечая на вопросы редакции рассылки, отметил, что Яндексу для дальнейшего развития не хватает не столько денег, сколько людей, найти которых сложно, а выращивать – долго.

MatrixNet: машина умнее человека

Фёдор Романенко из отдела качества веб-поиска рассказал о том, что такое MatrixNet и что изменилось в Яндексе после ее введения.

MatrixNet – это технология машинного обучения, внедренная Яндексом в 2009 году. Этот алгоритм анализирует разультаты работы асессоров – сочетания запроса и страницы с оценкой того, насколько вторая релевантна первому. Получая такую выборку, машина выбирает связанные факторы и диапазоны их значений. Она пытается понять, почему человек оценил страницу релевантной запросу и применить выделенные факторы к другим страницам.

По словам Фёдора Романенко, MatrixNet оказалась крайне эффективна для повышения качества поиска, она стала обнаруживать факторы, о которых сотрудники поискового отдела сами не подозревали - "машина получилась умнее человека". Фёдор упомянул "400 основных факторов ранжирования", судя по формулировке, есть еще некоторое количество неосновных.

Создателям алгоритма удалось решить проблему переобучения. Переобучение случалось с алгоритмом, который знал много потенциальных факторов ранжирования, но исследовал слишком мало документов, и в результате добавлял в формулу те признаки страницы, которые к релевантности имеют слабое отношение – например, первую букву заголовка или количество абзацев.

С переобучением борются кроссвалидацией – выборка запросов делится пополам, одна половина используется для обучения, вторая – для проверки.

С машинным обучением тесно связан еще один интригующий оптимизаторов феномен – асессоры. Фёдор пояснил, что выборка запросов для оценки релевантности страниц делается так, что запросы в ней встречаются с той же частотой, с которой присутствуют в общем потоке пользовательских запросов. Периодически "устаревшие" оценки выбрасываются и в базу добавляются новые. К данному моменту асессоры оценили 4 миллиона документов по 100 тыс. запросов. Уникальных запросов в день всего пользователями делается примерно в 50 раз больше.

По словам Фёдора Романенко, качество поиска Яндекса после введения MatrixNet резко улучшилось. Это оказалось заметно и по собственным внутренним метрикам Яндекса, и по росту поисковой доли, которую меряет Liveinternet. Даже ввод локальных факторов ранжирования в рамках "Арзамаса" не дал такого подъема качества поиска и "пользовательского счастья", как "Снежинск" с MatrixNet.

Как померить счастье пользователя?

Было рассказано и о том, как именно измеряется удовлетворенность пользователя выдачей. Учитываются такие факторы, как позиция первого клика (если он был сделан где-то внизу SERP, значит, первые места занимают нерелевантные сайты), доля некликнутых ссылок (не во всей выдаче, конечно), доля длинных кликов (пользователь перешел на сайт, а потом вернулся на выдачу, так что Яндекс знает, сколько времени он провёл на сайте).

А вообще, то, насколько пользователь доволен поисковым результатом, обратно пропорционально тому, сколько времени и сил он потратил на его достижение. При этом языком запросов люди не пользуются, о грамотном составлении запроса не думают, так что Яндексу нужно самому учиться понимать, что хотел пользователь.

Известно, что пользователи обучаются при помощи поисковых подсказок – смотрят, что искали другие и используют чужие формулировки. Анализировать поведение пользователей помогает Яндекс.Бар, которых установлено уже больше 3 миллионов.

У Яндекса много метрик оценки качества поиска, они постоянно дорабатываются, появляются новые. "Если по какой-то метрике мы лучше всех, мы ее выбрасываем и разрабатываем такую, по которой мы хуже всех", - рассказал Фёдор.

Немного истории

В начале своего доклада Фёдор напомнил слушателям историю поисковых технологий. Упоминающиеся даты – это не год изобретения, а год удачного внедрения технологии популярными порталами.

  • 1994 год. Yahoo. Каталог сайтов, вместо поиска – сёрфинг по структурированному содержимому.
  • 1995 год, Altavista. Текстовое ранжирование по формуле tf * idf
  • 1997 год, Яндекс. Поиском занялись лингвисты, подключили морфологию русского языка. У Рамблера морфология появилась уже в 1996, но разбору подвергался только запрос, Яндекс учитывал морфологию и в текстах страниц.
  • У Google русская морфология появилась только в 2006 – можно для удобства считать именно этот год началом активной борьбы за рунетовский рынок поиска.
  • Рамблер обогнал Яндекс еще в одном отношении. Он в 1997 году начал использовать для ранжирования сайтов "внешние факторы" - статистику из счетчиков ТОП-100. У Яндекса в 1997 году появился тИЦ. По словам Фёдора, сейчас "один тИЦ не очень много определяет" в ранжировании страницы по запросу – используется гораздо больше факторов.
  • Google стал использовать PR ("глобальную ссылочную авторитетность") с 1998 года. Google понимал Page Rank как измерение "вероятности того, что случайный сёрфер, блуждая по ссылкам, окажется на этой странице".

Правда о том, зачем Яндексу англоязычный индекс

Среди многочисленных вопросов, заданных Яндексу участниками конференции, были, конечно, и посвященные соперничеству с Google. Например, такой: может ли Яндекс привлечь в ряды своих пользователей гиков, которые привыкли к Google и не хотят пользоваться отечественным поисковиком? Оказалось, что Яндекс думает об этих людях. Они – технические специалисты, ищут статьи соответствующей тематики, любят западные IT -ресурсы. Поэтому добавлены в англоязычный индекс были в первую очередь именно такие сайты – которые отечественные «технари» ищут в Google.

Был вопрос и по модной теме персонализации поиска. Представитель Яндекса справедливо заметил, что о персонализации последнее время много что говорят, но мало внедряют. В Яндексе сейчас "от самого пользователя результаты поиска не зависят", но в ближайшем будущем персонализация "будет постепенно появляться в умеренных количествах".

Без SEO никуда

Александр Садовский признался редакции рассылки, что 70% заданных ему в кулуарах вопросов были «сеошными». Сама редакция поделилась с Фёдором Романенко наблюдениями о том, что на первых местах в выдаче появилось больше свежих страниц, с текстами, написанными в последние несколько месяцев, что для любящего «проверенные» домены и страницы Яндекса – ред...

( Полная версия материала опубликована в "РВ" - расширенном выпуске
нашей рассылки, см. Архив
)

КАК ЗАДАТЬ ВОПРОС ЭКСПЕРТАМ?


Cтатьи, исследования, экспертные ответы в рассылке "Продвижение сайта. Профессиональные советы экспертов" будут посвящены, прежде всего, тому, что больше интересует вас, наших подписчиков.

Присылайте свои вопросы и пожелания по адресу subscribe@ashmanov.com.

Успехов вам!

Выпуск подготовила Кудрявцева Людмила
"Ашманов и Партнеры"


СПИСОК ЭКСПЕРТОВ | АРХИВ журнала "Продвижение сайтов" | СБОРНИКИ ДОКЛАДОВ

Copyright 2003-2010 'Ашманов и Партнеры'
При копировании или цитировании материалов обязательна ссылка на www.optimization.ru/subscribe.

Компания 'Ашманов и Партнеры' - услуги, проекты, статьи
Семинары по оптимизации и продвижению сайтов
Сайт-Аудитор: бесплатная программа для поисковой оптимизации


Рейтинг@Mail.ru

В избранное