Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

ПОЧЕМУ GOOGLE НЕ ИСПОЛЬЗУЕТ МАШИННОЕ ОБУЧЕНИЕ, КАК ЯНДЕКС?


Ашманов и партнерыПродвижение сайтов. Профессиональные советы экспертов выпуск 364-базовый

13.04.2011

ПОЧЕМУ GOOGLE НЕ ИСПОЛЬЗУЕТ
МАШИННОЕ ОБУЧЕНИЕ, КАК ЯНДЕКС?

От редактора

Рекомендуем прочесть

Новости: главное за неделю

Задайте вопрос экспертам

ОТ РЕДАКТОРА

Здравствуйте, уважаемые читатели.

Вчера в пансионате "Лесные Дали" стартовала конференция "РИФ+КИБ". Это отличное мероприятие для того, чтобы расширить профессиональный кругозор, пообщаться с коллегами и отдохнуть от рабочей рутины. А 26-27 апреля в Москве пройдет ежегодная конференция веб-разработчиков "Российские интернет-технологии-2011". На конференции будет представлено более 50 докладов от компаний Яндекс, Рамблер, Mail.ru, РБК, Бегун и других крупнейших российских высокотехнологичных компаний. Четверть программы традиционно отдана западным спикерам. Зарегистрироваться можно на сайте Ritconf.ru.

К сожалению, анонсированное ранее выступление анонимного специалиста по DDoS на конференции пришлось отменить по запросу правоохранительных органов. DDoS - это преступление, наказание за которое предусмотрено УК РФ. Организация выступления специалиста по кибератакам может быть квалифицирована по статье 33 ч. 5 УК РФ как пособничество преступлению (содействие преступлению предоставлением информации). В случае совершения подобных преступлений в будущем участниками конференции, к организаторам может быть применена статья 34 УК РФ.

О возможных последствиях своих действий сейчас стоит задумываться не только организаторам конференций, но и всем специалистам, чья работа связана с Интернетом. До недавнего времени деятельность в Интернете почти никак не регулировалась, а уж попасть за нее под уголовное преследование было чем-то из области фантастики. Последние год-два это уже не так. Но есть и позитивная сторона у желания государства регулировать Интернет. На этом можно заработать денег.

На сайте госзакупок 12 апреля появилась заявка на исследование для правительства РФ. Продуктом исследовательской работы должен стать обзор подходов к регуляции Интернета в зарубежных странах и рекомендации по регулированию Рунета. Особенно остро заказчика исследования интересуют вопросы юридической ответственности за информацию и блокировки сайтов, распространяющих нежелательный контент. За такое исследование правительство готово заплатить 973 тысячи рублей.

РЕКОМЕНДУЕМ ПРОЧЕСТЬ

Андрей Плахов и Андрей Гулин, ключевые специалисты по поиску в Яндексе, рассказали о "Матрикснете", "Спектре" (технология понимания пользовательских запросов) и поведенческих данных Энди Аткинс-Крюгеру с Searchengineland.com. Это очередная его статья в рамках целой серии материалов про Яндекс.

Гулин и Плахов упомянули и о борьбе с платными ссылками. Яндекс планирует разрешить платным ссылкам в отдельных случаях влиять на ранжирование (Google, по мнению Аткинс-Крюгера, так далеко не пошёл) - но это будут ссылки на очень-очень качественных сайтах. Что касается поведенческих метрик - высокая кликабельность сайта в выдаче не всегда означает, что сайт хороший. Много кликов может получить, например, порносайт, случайно затесавшийся в выдачу по "приличному" запросу.

Google никогда не подтверждал, что он использует клики пользователей в своих алгоритмах, но Андрей Гулин считает, что без обработки поведенческих данных хороший поисковик сейчас сделать нельзя. А Google - хороший поисковик, значит, он такие данные использует.

Известно также, что Google очень ограниченно, по сравнению с Яндексом, использует машинное обучение (на котором построен "Матрикснет") в своих поисковых технологиях (зато активно использует в рекламных). На сайте Quora.com, где общаются специалисты из зарубежных IT-компаний, обсуждается вопрос о причинах такого подхода.

Бывший гуглер Эдмонд Лау называет причины, удивительно похожие на те, по которым "Матрикснет" не нравится оптимизаторам. В случае с машинным обучением оказывается трудно понять, почему именно этот документ определенным образом ранжируется по определенному запросу. Алгоритм превращается в "черный ящик", и даже его создатели часто не могут восстановить цепочку "рассуждений" и набор факторов, которые привели алгоритм к тому или иному решению. Во-вторых, даже если удалось определить сигналы, которые к решению привели, а решение это оказалось неправильным, алгоритм очень трудно настроить вручную, чтобы он какие-то сигналы не учитывал, чтобы он воспринимал их в контексте и т.д. Алгоритму можно только "скормить" определенные данные, а как он их использует после обработки - неизвестно. Недостаток прямого контроля создает ситуации, когда человек чётко знает, что одна страница релевантнее другой по заданному запросу, а вложить это знание в машину оказывается не в силах. Особенно если в его знании участвует интуиция.

Поисковый алгоритм Google основан на правилах, что позволяет программистам точечно "подкручивать веса" в специфических ситуациях. Только за 2008 год было внедрено 450 таких точечных улучшений алгоритма, а доминирование Google в поиске позволяет считать такую технологию успешной.

Почему же машинное обучение используется Google для ранжирования рекламных объявлений? Лау считает причиной тот факт, что человеку гораздо труднее сравнить два объявления на предмет качества, чем два сайта. Поэтому сравнение нужно отдать машине. Тем более, для ранжирования объявлений нужно учитывать поведенческие данные, с чем машина справляется лучше человека.

Еще один "бывший сотрудник большого поисковика" анонимно добавляет, что в случае с рекламой от решений алгоритмов зависят доходы Google и счастье рекламодателей, поэтому лучше, чтобы объявления ранжировали роботы по объективным признакам.

*****

В Facebook появился таргетинг рекламных объявлений по городам России. Николай Белоусов посчитал количество пользователей из разных городов в Facebook и процент населения, который пользуется социальной сетью в этих городах. Это 14% от населения Москвы и 8% от населения Петербурга.

*****

Adne.info дает ценные советы по настройке кнопок социальных сетей

НОВОСТИ: ГЛАВНОЕ ЗА НЕДЕЛЮ

Ссылки с ЖЖ теперь в Nofollow

На прошлой неделе пользователи заметили, что ссылки в текстах Живого Журнала стали снабжены атрибутом nofollow. От индексирования закрыты ссылки на внешние сайты с бесплатных ЖЖ-аккаунтов. Ссылки с платных аккаунтов, ссылки из сайдбара, а также ссылки с ЖЖ на ЖЖ остаются доступными для индексации. Nofollow не влияет на расчет рейтинга блогов Яндекса и рейтингов постов на основе API Поиска по блогам Яндекса.

CTR для медийки неактуален

Исследовательская компания ComScore выяснила, что 90% российских пользователей не кликают по баннерам. Основную массу кликов генерирует незначительный процент аудитории, так называемые "тяжелые кликеры", которым свойственно часто переходить по баннерам. Только 10% от общей российской интернет-аудитории хоть раз кликнули на баннер за август 2010 года. Активные кликеры - это всего 2% российской интернет-аудитории, и они делаюи 58% всех кликов по объявлениям в Рунете.

Рекламодатели должны из этих данных сделать вывод о том, что низкий CTR не означает неэффективности медийной рекламы. Он означает, что она не привлекла "тяжелых кликеров", которые редко являются единственной целевой аудиторией кампаний.

Тяжелые кликеры - это люди, нажимающие на 4 и более объявления за месяц. Умеренные - 2-3, лёгкие - 1. В четвертую группу вошли не кликнувшие ни одного. В итоге "тяжелые кликеры" - это 4% американской интернет-аудитории (в 2 раза больше, чем для России), при этом они делают 63% всех кликов на показанные за месяц баннеры. 88% аудитории США и 90% аудитории Рунета попали в четвертую группу. При этом ситуация развивается в сторону увеличения числа некликающих и, соответственно, уменьшения числа кликающих на объявления пользователей.



Тяжелые кликеры - это представители активной интернет-аудитории, они больше остальных проводят времени в Сети и просматривают больше страниц. Однако, не вся активная аудитория Рунета является тяжелыми кликерами. Женщин среди таких пользователей заметно больше, чем мужчин, прослеживается также зависимость "чем ниже возраст, тем выше предрасположенность к клику".

Как же тогда оценивать эффективность медийных кампаний. ComScore предлагает использовать такие метрики, как рост количества посещений сайта рекламодателя после рекламной кампании, увеличение интенсивности использования терминов из рекламного объявления в поисковых запросах и рост продаж в оффлайновых и онлайновых магазинах.

Медийные кампании повышают также awareness (осведомленность), favorability (благосклонность) и likehood to recommend (склонность рекомендовать) у потребителей

ЗАДАТЬ ВОПРОС | ПОДПИСАТЬСЯ НА РАССЫЛКУ | ОСТАНОВИТЬ ПОДПИСКУ

Вы можете прокомментировать любой выпуск или отдельный материал рассылки на Subscribe.ru! Заходите на subscribe.ru/catalog/inet.search.seo

Присылайте нашим экспертам вопросы по продвижению, рекламе, юзабилити и другим аспектам интернет-маркетинга. Они постараются ответить всем лично, а ответы на наиболее сложные и интересные вопросы будут опубликованы в рассылке.
Адрес редакции - subscribe@ashmanov.com

Подписаться на рассылку можно, отправив письмо с заголовком SUBSCRIBE_BASE на адрес subscribe@ashmanov.com. Адрес для отписки - тот же, укажите заголовок BASE_UNSUBSCRIBE.

ВНИМАНИЕ! Если вы подписаны через сервис Subscribe.ru, остановить подписку можно только на сайте subscribe.ru.

Успехов вам!
Выпуск подготовила Людмила Кудрявцева
"Ашманов и Партнеры"

АРХИВ РАССЫЛКИ

Copyright 2003-2010 'Ашманов и Партнеры'
При копировании или цитировании материалов обязательна ссылка на www.optimization.ru/subscribe


В избранное