Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Webrating.Ru - все об интернет-рекламе


06 Мая 2006 года

Тезисы о поисковых машинах
 

Игорь Ашманов, кандидат технических наук, прочитал на КИБе доклад про поисковые машины, который выигрывает у научных публикаций практическим подходом.

Тезисное изложение этого доклада, я снабжу некоторыми комментариями. В конце его прозвучал тезис, что улучшать собственно релевантность ведущих поисковиков уже некуда. Это известный общий эффект, наблюдаемый в системах искусственного интеллекта, когда своего рода тюнинг требует столько же усилий, что и разработка базовой технологии. Особенно ярко это проявилось в середине 90-x для систем оптического распознавания текстов. Они тогда достигли точности порядка 90%, но доведение ее до 99% вырисовывалось крайне трудоемкой задачей. Правда, Игорь привел более близкий ему пример с грамматическим разбором предложений в корректорах орфографии, где по его словам с какого-то момента разработки качество перестает улучшаться.

Нарушение хронологии рассказа потребовалось для того, чтобы сказать, что всяческих привычных на оптимизаторских конференциях обсуждений формулы релевантности отечественных искалок далее не последует. Всех, кого это не смущает, предлагаю следовать канве рассказа, где обозначено, как можно улучшать поиск на всех его этапах.

Ашманов начал свой доклад с метафоры про аутизм поисковиков. Хотя он подразумевал под этим лишь их неспособность общаться, данную метафору можно сделать развернутой.

Аутизм - эта такая особенность человека, который заставляет его постоянно пропускать через сознание огромное количество деталей окружающего мира. Аутист перегружен этой информацией, подавлен ею, она мешает ему общаться так, как общаются обычные люди. Поисковик также перегружен информацией, деталями, но он ничего не знает про запрос пользователя. В результате разработчики сделали выдачу, похожую на список литературы. В нее подмешивают разнородную информацию.

Классическая поисковая машина умеет найти по запросу из нескольких слов все документы, в которые входят данные слова, и предъявить их, то есть работает «как текстовой брокер» в терминах Игоря. Поисковики не знают темы запроса и смысла запроса, не знают типа и темы возвращаемых документов, показывают в сниппетах не свои аннотации, а только фрагмент того, что есть на сайте.

Следствием научного склада умов разработчиков стала бесконечная лента, имеющая «невразумительные заголовки, аннотации, ненужные даты, URL, размер». А пользователя заставляют заниматься либо перебором ссылок, либо мелким программированием - подбором слов и операторов.

Запросы же на естественном языке (лидер здесь - AskJeeves) Ашманов назвал «старой басней» поисковых систем.

Игорь Ашманов упрекнул ведущие поисковики в «безудержной портализации» при флегматичном сохранении перечисленных недостатков. А также - в нерациональной трате сил на персонализацию поиска. Казалось бы, пример вялотекущего существования сайта Excite.com, который одним из первых поисковиков в середине девяностых вступил на неверный путь портализации и персонализации, уже должен был стать уроком тому же Mail.ru, который два года последних года пытался запоминать запросы немногочисленных посетителей Поиска@Mail.ru и предлагать какие-то ненужные подсказки и уточнения.

А пользователь, между тем, крайне не любит, когда за них «умничает Интернет». Но так нет же, персонализация хотя бы на уровне запоминания истории запросов есть и у флагманов - Yahoo! и Google… А в MSN - обмен пользователей сложными запросами на специальном языке, подстановки (правда, признаюсь не знаю насколько масштабно и эффективно это работает).

Тематическую кластеризацию (Clusty, Нигма, Quintura) Ашманов также считает в целом тупиковым направлением. Кластеризация, разумеется, помогает структурировать выдачу. Но тут возникает чисто практическая проблема. Стоит взять реальный список запросов, как оказывается, что никакой искусственный или человеческий интеллект обычно не в силах догадаться, что же на самом деле имел ввиду пользователь, который вводил в окно поисковой системы одно или два слова… Правда, я был свидетелем, как деятелей, которые проверяют новые искалки исключительно на нарцисстическом запросе, впечатляло как Nigma кластеризировала их по всем прежним должностям и профессиональным интересам. Однако для обычных запросов Nigma.ru своими возможностями кластеризации Игоря не впечатляет.

Несколько отвлеченным от нити рассказа, но зато удачным примером кластеризации можно считать пресс-портреты в Яндекс.Новостях. Как объяснил мне технический директор Яндекса Илья Сегалович, пресс-портреты не склеиваются (или плохо склеиваются), потому что на начальном этапе важнее было, чтобы разные люди не собрались в один пресс-портрет. А то, что один человек представлен в десяти лицах - это нормально (вот любимый пример Ильи Сегаловича).

Итак, по мнению Ашманова большие поисковики ориентированы не столько на преодоление аутичности поиска, сколько на борьбу друг с другом; у них доминируют бизнес-идеи, в частности, борьба за Рабочий Стол между Google и Miscrosoft, в которой может поучаствовать и Yahoo! Основным преимуществом здесь будет не функциональность, а совместимость с операционной системой Windows и офисными программами. Крупные игроки резко замедлились в части собственно поиска и возятся с инфраструктурой, продажами, большими индексами, большим персоналом, новыми офисами.

Между тем в прошлое должны уйти такие вещи, как мерянье размерами индекса, учет ссылочного ранжирования, и главное учет только одной из трех сил, имеющихся вокруг поиска - разработчиков поисковиков, которых интересует поток посетителей и показ рекламы, и неучет самих пользователей, которым быстро найти нужный сайт, и сайтовладельцов:, которых интересует первые места и поток посетителей к ним.

Какие же пути не тупиковые?

Игорь начал с самого очевидного - отбора сайтов для обхода. Данный прием используют как вертикальные поисковики (по блогам, по новостям, по товарных предложениям), так и обычные поисковые системы, в которых происходит распознавание типа документа и/или распознавание темы страницы (семантическое индексирование). Перспективны «семантический разбор текстов» и «разные индексы для разных типов сайтов… Большие поисковики этим занимаются, но во вторую очередь».

Специализированные поисковики - Dash, Аппликата, Новотека, Тындекс, iligent и пр.

Дорвейный спам за первые месяцы 2006 года сравним со всем, что было сделано в этом жанре за предыдущие 5-6 лет. Нынешние способы борьбы с дорвеями – это главным образом бескорыстные и корыстные сигналы в службу модерации. Предварительный выбор сайтов может решить проблему замусоривания индекса и генерации дорвеев. Особенно, если этот предварительный выбор отдан сообществу (или отдельным пользователям, как в Персональном поиске Новотеки). Под «поиск» инвесторы охотно дают деньги, а под поиск с социальными сетями – вообще практически не глядя :)

Сообществу можно поручить почти весь цикл настройки поисковой машины: от отбора сайтов и создания сниппетов до оценки результатов поиска.

Кстати, кроме ашмановского, есть, разумеется, и другие рефераты, в которых говорится, что «поиск, скорее всего, уйдет от алгоритмов постраничной классификации, на которых построены сегодняшние механизмы поиска. А релевантность результатов будет зависеть не от вебмастеров, задающих ключевые слова на своих сайтах, а от авторитетного для пользователя мнения».

Перспективна и графическая выдача и навигация – в Quintura Search и Тропе (вторая из них пока в стадии проекта), и кардинально – в Vizzy (там можно искать, «летая» над архивом).

Перспективен вывод данных по типам в одном окне (наиболее наглядно он сделан в A9).

Закончил же Игорь одной из своих любимых тем - как перевернуть рынок или кто даст миру «Windows для поиска»?.

Как видим, был продемонстрирован крайне здравый подход к теме. Надо только отметить, что этого конкретного докладчика интересует не только извлечение смысла, но и необходимость в извлечении знаний посредством поиска. Конечно, такая точка зрения уместна при продаже поисковиков для аналитических отделов корпораций или спецслужб, при разработке товарных поисковиков. Для большинства же людей поиск – это скорее подбор информации, чем извлечение знаний. В части достоверности никто обычно не ждет от выдачи поисковиков больше, чем от Википедии.

Андрей Травин, Webrating.ru - специально для Вебпланеты

Деньги лишними не бывают - РБК занимает $100 млн. неизвестно на что
 

Холдинг РБК хочет привлечь через еврооблигации $100 млн. Это существенная сумма для рынков, на которых действует РБК, но суть готовящихся сделок компания тщательно скрывает. Возможно, это финансирование предназначалось для Mail.ru, переговоры о покупке которого так и не привели к сделке.

В мае кипрская RBC Investments Cyprus разместит сертификаты участия в кредите (loan participation notes, LPN) на $100 млн сроком не менее двух лет. Информация о грядущем размещении появилась на сайте одного из соорганизаторов — МДМ-банка, другим организатором выступает “Атон Капитал”, а эмитент бумаг — Dresdner Bank. Организаторы надеются разместить бумаги РБК под 9% годовых. Гарантами по кредиту выступают “РБК Информационные системы” и РБК-ТВ.

Председатель совета директоров РБК Герман Каплун наотрез отказался рассказывать “Ведомостям”, зачем компании сейчас понадобились деньги. “Мы не даем никакой конкретики никому, даже инвесторам, — уверяет Каплун, — деньги пойдут на собственное развитие и покупку новых активов”. Для РБК приоритетным является медианаправление, но IT также интересно, добавил гендиректор холдинга Юрий Ровенский. А Каплун уточнил, что холдинг может выпустить CLN на сумму и свыше $100 млн. В феврале акционеры РБК одобрили поручительства по займам, привлекаемым RBC Investments Cyprus, на сумму $150 млн.

Директор департамента инвестиционно-банковских услуг Росбанка Ян Яновский уверен, что скрытность РБК не отпугнет инвесторов. “Я не видел ни одной компании, которая в открытую объявляла о целях размещения CLN, — вспоминает он. — Раскрыться накануне сделки означает рассказать конкурентам о своих стратегических планах”. Конкуренты и участники рынка действительно не в курсе готовящихся сделок РБК. Компания вела переговоры с владельцами Mail.ru, говорит источник в инвестиционно-банковских кругах, но другой инвестбанкир уточнил, что договориться об этой сделке сторонам не удалось. В самом Mail.ru отказались от комментариев. Директор аналитического департамента J'son & Partners Борис Овчинников оценивает нынешнюю стоимость Mail.ru примерно в $200 млн. Директор департамента корпоративных финансов Deutsche UFG Антон Иншутин называет вилку в $200-220 млн, но полагает, что акционеры компании захотели бы существенной премии. Эксперты инвесткомпании “Финам” оценивают свободные средства РБК в сумму более $20 млн. “Для покупки лидеров Рунета у РБК не хватит денег, — считает пресс-секретарь "Финама" Владислав Кочетков. — Они смогут приобрести лишь нишевые проекты или провести массовую скупку по второму эшелону”. Владельцы крупных российских интернет-ресурсов не горят желанием продавать их, отмечает и сам Ровенский.

Иншутин полагает, что РБК может инвестировать средства в развитие телевизионного проекта. Например, потратиться на приобретение региональных телевизионных станций, чтобы выстроить сетевую модель распространения своих программ, рассуждает эксперт. По его данным, в России работает 470 небольших кабельных операторов, совместно обслуживающих около 10 млн абонентов, а по последним сделкам кабельные операторы оценивались из расчета $50-200 за абонента. Прошлогодние переговоры с “Мостелекомом” о включении телеканала РБК-ТВ в стандартный пакет программ, доступных москвичам через городскую кабельную сеть, успехом не увенчались — в декабре у “Мостелекома” сменился собственник. Между тем сама РБК в своей отчетности оценивала стоимость сделки с “Мостелекомом” в $40 млн.

Начать скупку активов акционеры РБК пообещали два года назад. Но первые сделки состоялись лишь в октябре 2005 г., когда холдинг приобрел контрольные пакеты “Гелиос Компьютера” (сборщик ПК) и “АСКО-ТБС Консалтинга”. По оценке аналитиков, РБК заплатила за них по $15 млн. Зимой 2006 г. РБК приобрела anekdot.ru — по оценке экспертов, за сумму не более $1 млн, — а две недели назад РБК договорилась о покупке 26% уставного капитала ипотечного брокера “Фосборн Хоум” за $1,6 млн.

Ведомости

Bigmir умирает?
 

С момента массового «исхода» ведущих специалистов из украинского веб-портала Bigmir)net прошел уже месяц. Хотя для портала с пятилетней историей это и небольшой срок, но определенные выводы сторонний наблюдатель сделать уже может.

Приведем отрывок из статьи Мясникова, который рассуждает к чему может привести уход 12 сотрудников Bigmir)net из компании.

К чему это все приведет, если уже не привело. Рассмотрим некоторые (подчеркну – некоторые!) моменты.


Первое: реклама на самом портале. Вполне понятно проявление недовольства крупных сторонних рекламодателей в связи с физическим отсутствием портала в Интернете. За рекламу-то плачено. И хорошо, если, например, платили за показы или за клики. А если за часы/сутки/недели? Так или иначе, но в связи с многочасовыми простоями в любой рекламной кампании, частью которой была реклама на портале, появляются неслабые «дыры». А как следствие – создается потенциал для оттока рекламодателей, помноженный на отсутствие опытных «сейлс» (тоже уволились).


Второе: невидимый рейтинг. Как ни крути, но в Уанете рейтинг сайтов Bigmir’а до сих пор был практически единственным измерителем «крутизны». Погоня за хостами и хитами для некоторых ресурсов стала чуть ли не единственной целью существования, а тут вдруг «на тебе!». Объяснять тут собственно, нечего: чем выше сайт в рейтинге – тем больше рекламодателей на него придут. А поскольку увидеть этот самый рейтинг можно теперь лишь время от времени – рекламисты и менеджеры сайтов найдут себе альтернативное мерило посещаемости.


Кстати, не стоит забывать и о том, что добиваясь более высоких позиций в рейтинге, многие менеджеры сайтов несут деньги в различные сервисы, обеспечивающие приход посетителей. Это и баннерные сети, и новостные аггрегаторы, и всяческие линко-обменники. И отдачу от этих сервисов, а именно – количество переходов многие отслеживают по Бигмиру. Ладно бы страничку рейтинга просто не было видно – так и с подсчетом проблемы наблюдаются. Например, «Главреду» по одному из партнерских ресурсов «Бигмир» за 03.05.2006 посчитал на 2600 переходов меньше по сравнению с реальным количеством (которое зафиксировали другие счетчики).


Все эти проблемы с рейтингом и статистикой могут очень «больно» ударить по карману, поскольку в результате девелоперы, промоутеры и владельцы сайтов лишаются более или менее точного инструмента для быстрого анализа ситуации, подсчета посетителей и прочих нужных данных. А раз так – будет найдена альтернатива.


Ну и третье (хотя далеко не последнее): раздраженные пользователи. Любой мало-мальски сведущий в построении и продвижении веб-ресурсов человек знает, что нет ничего хуже, чем неудовлетворенный юзер. В любом случае лучше ничего не обещать, чем пообещать и не дать. Можно только порадоваться за тех пользователей, которые не ходят в чат, не пользуются почтой, не ведут дневники в Бигмире. Радуюсь, потому что вполне представляю, сколько крови попортил портал тем, кто привык регулярно пользоваться тем или иным сервисом.


В общем картина получается мрачная. Сюда можно присовокупить и нескончаемую «реконструкцию» MP3-раздела, и большие сомнения в адекватности подсчета «Глобальной статистики Уанета» и прочее, и прочее…

Новости.dn.ua


Вы подписаны на рассылку "Webrating.Ru - все об интернет-рекламе", отписаться от рассылки можно на сервере www.subscribe.ru.

©2002, Webrating - http://www.webrating.ru info@webrating.ru

В избранное