Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Google Penguin и SEO с отрицательным эффектом


На главную страницу сайта <<Новости поисковых систем от Searchengines.ru>>
Статьи Форум Новости Календарь Блог Пресс-релизы
НОВОСТИ


Google запустил «Чудеса света»
2012-05-31 19:22

Компания Google сообщила о запуске нового проекта «Чудеса света» (World Wonders), который призван помочь студентам, ученым и всем интересующимся узнать больше об уникальных природных зонах Земли и рукотворных памятниках человечества.

Проект World Wonders позволяет открыть для себя более 130 исторических достопримечательностей в 18 странах, включая Стоунхендж, археологические раскопки в Помпеях и древние пагоды в Киото. К тому же исследовать можно не только достопримечательности, созданные человеком, но природные чудеса света, например песочные дюны в Акульей бухте в Австралии или Йосемитский национальный парк в Калифорнии:

Для создания World Wonders была использована усовершенствованная технология Street View – съемки велись с помощью машин и трехколесных велосипедов. Камеры были установлены даже на железнодорожных путях для того, чтобы показать неповторимые пейзажи Швейцарских Альп.

В дополнение к панорамным снимкам проект включает 3D-модели чудес света, видео на YouTube, справочную информацию и фотографии. Проект World Wonders задуман как образовательный ресурс для студентов и ученых, который поможет сохранить культуру и сделать ее более доступной.

Среди других подобных инициатив, проводимых под эгидой Института культура Google (Google Cultural Institute), - съемки восхитительных видов швейцарских Альп, расширение панорам Москвы и Петербурга с подробным просмотром улиц и достопримечательностей, Арт-проект и многие другие.



Поиск@Mail.ru о том, что «не вышло в эфир» в течение мая
2012-05-31 20:03

Блог Поиска@Mail.ru опубликовал обзор запущенного в мае нового функционала, рассказал о текущих доработках и исправленных ошибках, которые не были анонсированы в течение месяца.

В мае на всех платформах в поисковых подсказках стало намного меньше «мусора» и опечаток. Кроме того, большое количество организаций обзавелись ссылками, что позволяет пользователю сразу перейти на сайт, не загружая выдачу.

Спеллчекер, который исправляет опечатки в запросах, стал самообучаемым. Если кликнуть на «искать как было», то он это запомнит, и больше подобные исправления предлагаться не будут.

Количество веб-результатов на первой странице поиска увеличилось до десяти. Кроме того, в результатах поиска появились специально оформленные блоки картинок, видео, а также прогноз погоды и курс валют. Ранее эти функции были доступны только жителям московского региона.

Увеличилось количество картинок при поиске изображений. Кроме этого, они стали лучшего качества:

Приложение для iOs тоже было обновлено, теперь, при неточном вводе запроса на помощь придут подсказки и переформулировки. Также стало возможно искать не только веб-страницы, но и картинки.

А приложение Android при клике на номер телефона теперь предлагает позвонить на него, а при клике на электронную почту открывает почтовую программу. Это касается всех веб-страниц, на которые пользователь переходит из выдачи Mail.ru.

Команда Поиска@Mail.ru сообщила также, что начиная с этого мая, публикации обзоров того, «что не вошло в эфир», станут ежемесячными.



Яндекс, ВКонтакте и Mail.ru могут стать объектами государственного значения
2012-06-01 11:43

Российские Интернет-фирмы Яндекс, ВКонтакте и Mail.Ru могут быть признаны объектами стратегического значения, что означает необходимость получения государственного одобрения на продажу акций иностранным инвесторам.

Инициатива может существенно снизить привлекательность акций российских Интернет-компаний, которые до сих пор сохраняли высокую конкурентоспособность благодаря относительному иммунитету к рискам, связанным с коррупцией и государственным контролем.

Депутаты нижней палаты Думы предложили расширить список объектов стратегического значения, включив туда крупные сайты поисковой и коммуникационной сферы. В список могут попасть все сайты с количеством посетителей 20 и более миллионов в месяц за последние полгода, говорится в законопроекте.

«Это означает, что покупка более 10% акций такой компании иностранным инвестором будет нуждаться в государственном одобрении, также как и размещение акций на международных биржах», - написал в заметке аналитик Renaissance Capital Девид Фергюсон (David Ferguson).

Аналитик Bank of America Мерилл Линч (Merrill Lynch) считает, что инициатива негативно отразится на российском рынке и демонстрирует повсеместный рост роли государства в экономических процессах.

Яндекс получил $1.4 миллиарда во время IPO на Nasdaq в мае 2011 года. IPO Mail.ru произошло в 2010 году в Лондоне. Социальная сеть ВКонтакте временно отложила выход на биржу в связи с событиями, развивающимися вокруг продажи акций Facebook.



UPD: Google начинает торговлю выдачей
2012-06-01 13:24

Новые правила продуктового поиска Google Inc изменят представление о работе поисковых сервисов Интернет-компании и вызовут споры в мире e-commerce. Начиная с осени этого года, поисковые результаты Google Product Search в Соединённых Штатах будут продаваться. 

По словам руководителя направления, выдача будет формироваться в зависимости от суммы, выплаченной ритейлером и рекламодателями. Все время существования Google Product Search (ранее Froogle) выдача базировалась на релевантности, а участие в программе было бесплатным.

Сам сервис будет переименован в Google Shopping.

«Мы начинаем перевод Google Product Search в США на чисто коммерческую модель работы, - сообщил Самир Самат (Sameer Samat) вице-президент Google Shopping. - Это даст продавцам больше контроля за тем, как их товары отображаются на Google Shopping.»

Google присутствует на рынке более десяти лет; все это время он бесплатно соединял продавцов и покупателей, зарабатывая деньги на размещении рекламы в бесплатных или «органических» результатах. По мнению аналитиков, отход от этой модели является важнейшим событием в поисковой отрасли.

Google Product Search ежегодно генерирует продажи на сумму $650 миллионов в США и около $1.3 миллиарда по всему миру, оценивает фирма ChannelAdvisor.

«Эти бесплатные продажи исчезнут, пока не будет принято решение платить», - прокомментировал решение поисковика Скот Винго (Scot Wingo), CEO компании ChannelAdvisor.

Время запуска — октябрь, не даст продавцам достаточно времени, чтобы найти альтернативные каналы связи с покупателем перед большими праздничными распродажами, считают аналитики. Это ставит продавцов в практически безвыходное положение. По новой системе участие в работе поисковика потребует дополнительные $130 миллионов в год от продавцов в США и $270 миллионов в мире.

Стоит также отметить, что российский аналог продуктового поиска Google - Яндекс.Маркет работает на коммерческой основе. 

UPD: комментирует новость генеральный директор Numerale Ltd, Лада КалашниковаЯ считаю, это переворот, самое значительное событие за последнее время.

Небольшие ритейлерские компании как раз получали большую часть трафика именно из результатов органического поиска, согласно исследованиям Hitwise . Также наши зарубежные коллеги утверждают, что 97% покупателей за рубежом используют WEB для локальных покупок. Что покупатели увидят теперь?  Проплаченный крупными брендами каталог товаров, а входной билет туда осилит далеко не всякий. Это ставит под сомнение этичность действий Google по отношению к мелкому и среднему бизнесу и однозначно снижает качество результатов выдачи, которое, в конечном итоге, должно служить счастью пользователя.

Yahoo и Facebook готовы отозвать взаимные иски
2012-06-04 13:19

Руководители Facebook и Yahoo ведут переговоры о закрытии взаимных исков по поводу патентных нарушений, сообщает издание All Things D.

Условия мирового соглашения, которое может быть достигнуто в течение последующих нескольких недель, будут включать перекрестное лицензирование патентов обеих компаний, а также более глубокую интеграцию их инструментов.

Впервые дело о нарушении патентов открыла Yahoo, которая в марте этого года подала иск против Facebook, обвинив сеть в заимствовании ряда защищённых технологий, превративших стартап в мультимиллионное предприятие.

Иск, поданный Yahoo, имел очень широкие границы и затрагивал большинство коммерческих технологий сети: от размещения рекламных объявлений на страницах до персонализации показов для пользователей соцсети.

По мнению аналитиков, иск возник после того как Yahoo стала зависеть от трафика Facebook. В сентябре прошлого года компании анонсировали интеграцию новостного сервиса Yahoo News с Facebook, таким образом пользователи смогли получить информацию о всех статьях, которые читали их друзья на Facebook. С момента запуска опции ежедневный трафик Yahoo News увеличился в более чем три раза.


БЛОГ


Инфографика: YouTube, Google и Wikipedia - самые цитируемые студентами сайты
2012-06-01 14:00

При выполнении домашней работы студенты обращаются к тем же сайтам, что и в остальной жизни.

Четыре из десяти самых часто упоминаемых учащимися сайтов по версии Easybib, который помог в создании более 500 миллионов цитат, являются сайтами с контентом, сгенерированным пользователями, типа Wikipedia и YouTube.


Google, в свою очередь, занимает место базы данных, к которой чаще всего обращаются при выполнении каких-либо исследований. Недавнее этнографическое исследование показало, что учащиеся обращаются к Google чаще, чем к какой-либо другой базе данных. Тем не менее, при использовании поисковой системы, у них возникают проблемы с поиском адекватного источника.

По материалам http://mashable.com/2012/05/31/information-literacy-infographic/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+Mashable+%28Mashable%29



Обновите редактор AdWords!
2012-06-01 15:37

Команда контекстно-медийной сети Google сообщает, что с 12 июня 2012 года поддержка Редактора AdWords версии 9.0 и более ранних будет прекращена.

Всем пользователям системы рекомендуется выполнить обновление до последней версии (9.7.1), когда появится запрос на автоматическое обновление, или сделать это самостоятельно на сайте Редактора AdWords. Чтобы сохранить комментарии и неопубликованные изменения, следует выбрать вариант «Сначала создать резервную копию» в запросе на автоматическое обновление, а затем импортировать ее файл после загрузки аккаунта.

С подробным перечнем изменений в каждой версии можно ознакомиться в примечаниях к выпуску. Чтобы узнать, какая версия Редактора AdWords установлена на текущий момент, нужно выбрать в меню «Справка» вкладку «О редакторе AdWords».



Яндекс.Директ переходит на работу по защищенному протоколу HTTPS
2012-06-01 17:39

Сегодня пользователи Яндекс.Директа получили сообщение о том, что в течение июня Яндекс.Директ полностью перейдет на работу по защищенному протоколу HTTPS. Благодаря этому уровень безопасности данных на сервисе станет максимальным.

Переход на протокол HTTPS не потребует никаких перенастроек, при заходе на сайт Директа пользователи будут автоматически перенаправляться по новому защищенному адресу.

Изменение никак не затронет работу связанных с сервисом продуктов - API Директа и Директ.Коммандера.

Напомним, в декабре 2011 года почтовый сервис Яндекса также полностью перешел на работу через протокол HTTPS для обеспечения защиты от прослушивания сетевого соединения.


СТАТЬИ


Google Penguin и SEO с отрицательным эффектом
2012-05-22 08:25

Больше трех недель прошло с того момента, когда Google запустил обновление поискового алгоритма Penguin. Так как одной из его целей оказались неестественные ссылки, то возникли опасения в том, что этим смогут воспользоваться недобросовестные оптимизаторы, с целью вытеснения сайтов конкурентов из выдачи. Возникла новая почва для обсуждения проблем SEO с отрицательным эффектом.

Подкреплением этим разговорам служит сообщение Google, о его намерении бороться с раскрытыми схемами искусственного увеличения ссылочной массы, и последовавшее вслед за этим падение трафика с поисковика на некоторые из сайтов. Кроме того, многим владельцам сайтов были разосланы предупреждения Google об использовании «искусственных» или «неестественных» ссылок:

Вслед за этим был включен Penguin Update и многие сайты, чьи позиции держались на ссылочном спаме, исчезли из выдачи.

Что такое SEO с отрицательным эффектом?

Сейчас многие понимают под SEO с отрицательным эффектом (negative SEO) преднамеренное приобретение низкокачественных ссылок на сайт-конкурент с целью понижения его ранжирования в поисковых системах. Хотя это далеко не единственный способ влияния на позиции чужих сайтов, но именно он стал самым обсуждаемым в последние три недели.

Так как владельцу сайта трудно повлиять на внешние ссылки, они кажутся удобным инструментом для избавления от конкурентов. Но прежде чем начать беспокоиться о том, что на ваш сайт окажут отрицательное влияние «плохие» ссылки, купленные конкурентами следует осознать несколько простых вещей:

• Сайты, имеющий высокий траст, как правило, не страдают от использования методов отрицательного SEO.

• Попытки улучшения собственного бизнеса такими методами довольно рискованы, поэтому законопослушные компании и предприниматели навряд ли решаться на подобную игру.

• В Google осознают вероятность подобного поведения недобросовестных конкурентов, и если удастся доказать свою непричастность к подобным ссылкам, то позиции сайта будут быстро восстановлены.

• Внешние факторы ранжирования легко отслеживаются, и нежелательные последствия можно предупредить, если вовремя заметить неладное.

Тактические приемы SEO с отрицательным эффектом

Ниже перечислены приемы, которые потенциально могут быть использованы для ухудшения ранжирования чужих сайтов:

  • Платные ссылки низкого качества: если одномоментно появятся тысячи ссылок, указывающих на сайт, то очень вероятно, что у Google это вызовет подозрение. Создать огромное количество ссылок можно различными способами, в том числе и посредством бесплатного спама в социальных сетях и закладках. Если такое случилось с вашим сайтом, то постарайтесь сделать все возможное, чтобы он удовлетворял требованиям Google. После этого направьте в Google запрос, детально описывающий ситуацию и ссылки, к появлению которых вы не имеете никакого отношения.
  • Кража контента до его индексации: заключается в попытке создания другого сайта с идентичным контентом. Бороться с этим можно с помощью предварительного обновления карты сайта (sitemap) и последующего размещения материалов. Использование тега rel=canonical с абсолютной ссылкой позволит повысить авторитетность вашего сайта в глазах поисковых систем после того, как контент будет скопирован на сторонние ресурсы. Для того чтобы найти сайты, копирующие ваш контент введите в Google несколько запросов, содержащих целые предложения со страниц сайта, заключенные в кавычки.
  • Ложные отзывы: конкуренты могут создать большое количество ложных отзывов в Google Places, приложив все усилия для того, чтобы сложилось впечатление, что это работа ваших рук. По общему мнению, данный фактор сыграет злую роль только при ручном рассмотрении сайта. Чтобы свести неприятные последствия к минимуму, следите за появлением отзывов, и, если заподозрите неладное, сообщите об этом Google, используя форму обратной связи.

  • Хаккинг: к этому типу можно отнести самые разнообразные способы, используемые для понижения ранжирования сайта в поисковых системах, в том числе и незаметные внешне. Это может быть внесение изменений в robot.txt, запрещающих индексацию страниц, или закрытие доступа для поисковых роботов по IP. Еще одним способ является организация DDoS атак. Огромное количество запросов к сайту с различных компьютеров заполняют полосу его пропускания, и блокируют доступ поисковым роботам и пользователям.
  • Заражение сайта вирусами или другими вредоносными программами: когда поисковики обнаружат их на сайте, то станут предупреждать пользователей о том, что те собираются открыть потенциально опасную страницу, а могут и полностью исключить его из выдачи.
  • Скорость загрузки сайта: избыточная активность пауков повышает риск возникновения заметных задержек при загрузке страниц на пользовательские компьютеры. Такая ситуация может возникнуть в том случае, если сайт стал объектом повышенной активности для вредоносных пауков. Закрывая им доступ, не забудьте оставить его для поисковых роботов Google, Яндекс, Bing и др., а также для пользователей. Зная IP адреса поисковых роботов, можно эффективно идентифицировать и не допускать на сайт другие пауки.
  • Запрос об удалении материалов, нарушающих DMCA (Закон об авторском праве цифрового тысячелетия): сегодня это одна из наиболее эффективных и неприятных для владельца сайта тактик. Конкуренты находят ссылки, передающие на сайт наиболее высокий вес, а затем посылают вебмастеру предупреждения, что эти ссылки ведут на страницы нарушающие авторские права, и должны быть немедленно удалены. Единственной защитой от подобной стратегии является установление контакта с сайтом-донором до того, как это случится. Даже письмо с одной фразой «Спасибо за ссылку!» может избавить вас от проблем. Следите за появление реферального трафика с новых ресурсов, это позволит обнаружить реферальные ссылки раньше, чем они будут проиндексированы и обнаружены с помощью таких средств, как Open Site Explorer.

Мэтт Каттс о SEO с отрицательным эффектом

Руководитель команды Google по борьбе с поисковым спамом Мэтт Каттс в интервью Денни Салливану говорит, что рассуждения о SEO с отрицательным эффектом не новы, но в Google никогда не придавали особого значения этой проблеме. Он считает, что очень сложно каким-либо образом навредить чужому сайту. Даже если вы поставите плохие ссылки на ресурс, имеющий множество других положительных сигналов, это будет похоже на попытку заражения организма инфекцией, против которой у него есть антитела. Хорошие моменты перевесят плохие.

Мэтт Каттс: «Нами проделана большая работа, позволяющая быть уверенными в том, что никто не сможет навредить другому человеку. Поэтому отрицательное SEO это очень редкое и трудное в реализации явление».

Большинство «доказательств эффективности SEO с негативным эффектом» на самом деле являются следствием действий самих оптимизаторов. Некоторые из них, испугавшись предупреждений Google, убрали все ссылки с внутренних страниц, на главную, в результате позиции сайтов могли ухудшиться. Между тем Каттс сказал, что большая часть из 700 тысяч писем, разосланных издателям в начале этого года не имеют отношения к «плохим» ссылкам. И они не были внезапно сформированы Google в один день. Более того, на многие сайты ручные или автоматические штрафные санкции были наложены гораздо раньше, но данная информация не раскрывалась. И только недавно Google решил сообщить об этом владельцам сайтов.

Мэтт Каттс говорит, что разговоры об отрицательном SEO будут продолжаться. По мере того, как падают затраты на приобретение низкокачественных ссылок, появляются все новые и новые «доказательства» этого явления, но если внимательно рассмотреть каждый из этих случаев, то обязательно найдутся другие причины, вызвавшие падение позиций сайта.

Не следует приписывать каждый, обнаруженный в последние недели, случай выпадения сайтов с первых позиций действиям Penguin. Если Google обнаруживает, что некоторые ссылки используются для искусственного манипулирования выдачей, он перестает их учитывать. Нетрудно догадаться, как это скажется на тех сайтах, позиции которых держались в основном на подобных ссылках.

Некоторые люди высказывают пожелание о создании механизма для «снятия» ссылок, ведущих на их сайт. Мэтт Каттс не думает, что в этом есть нужда. Он говорит: «Если вы уверены в том, что сайт пострадал от Пингвина, то можете исправить эту ситуацию самостоятельно. Google не наказывает сайты за плохие ссылки, ведущие на них. Он игнорирует эти ссылки. Поэтому не стоит волноваться по поводу SEO с отрицательным эффектом».

Тем, чей сайт «накрыл» Пингвин, Мэтт Каттс рекомендует следующий алгоритм действий:

• Убрать спам на страницах;

• Убрать все «плохие» ссылки, на которые вы можете повлиять;

• Дождаться информации о новом Penguin Update, и проанализировать изменения;

• Если существенных изменений не произошло, то продолжить «чистку», или подумать о том, чтобы создать новый сайт.

Мэтт Каттс настоятельно не рекомендует использовать ссылки сомнительного качества. Многие из них продолжают работать и после Penguin Update, но они не являются хорошим средством для поднятия позиций тех сайтов, которые уже пострадали от этого обновления.

Лучшая защита от SEO с отрицательным эффектом

Таким образом, ссылочный спам является далеко не самым эффективным способом отрицательного воздействия на ранжирование чужого сайта. Если конкуренты серьезно решат убрать сайт из выдачи, то они проведут глубокий анализ, для того чтобы найти и использовать для своих целей все его слабые места. Лучшей защитой от их действий является создание сайта с хорошим SEO фундаментом и постоянный мониторинг его позиций. Кроме того, такому сайту должны помочь открытые и честные взаимоотношения с Google и другими поисковыми системами.

Основные использованные источники:

Two Weeks In, Google Talks Penguin Update, Ways To Recover & Negative SEO / Search Engine Land

Understanding Negative SEO & How to Defend Your Website / Search Engine Watch

The Antithesis: What You Need To Know About Negative SEO / Search Marketing Standart

Перевод Александра Никитина

Про то, как сайт WPMU.org выходил из-под Пингвина читайте здесь


Полный курс SEO от ТопЭксперт.РФ: Информационный поиск
2012-05-25 08:13

С 7 апреля по 13 мая проходил очередной учебный курс от ТопЭксперт.РФ – Полный курс SEO – 150 часов.

Курс вели признанные эксперты и аналитики, имеющие большой практический опыт и выдающиеся достижения в области поискового продвижения и информационного поиска – Андрей Калинин (Mail.ru), Михаил Сливинский (Wikimart.ru), Алексей Чекушин (Wikimart.ru), Станислав Поломарь (Web-IT) и Леонид Гроховский, руководитель учебного центра ТопЭксперт.РФ. Слушателями курса были начинающие и опытные оптимизаторы, желающие приобрести или значительно повысить свою квалификацию.

Очень важной частью курса стали лекции по введению в информационный поиск, которые читал руководитель разработки поиска Mail.ru Андрей Калинин. Благодаря ему, студенты курса хорошо усвоили понятия информационного поиска, разобрались в структуре поискового индекса, ранжировании документов, поняли логику работы поисковых систем. По мнению организаторов курса, без этих знаний работа поискового оптимизатора не может быть по-настоящему эффективной.

Обзор лекций Андрея Калинина об информационном поиске мы и предлагаем вашему вниманию. Этот курс Андрей читает в ВУЗах студентам инженерных специальностей, на курсе ТопЭксперт.РФ он опустил все ненужные технические подробности и оставил только то, что может быть полезно оптимизатору.

Определение: Информационный поиск – это область искусственного интеллекта. Поиск информации (обычно содержащейся в документах) бесструктурной природы (обычно, текстовой), удовлетворяющей информационным нуждам пользователя в больших массивах данных (обычно в компьютерных хранилищах).

По словам Андрея, та часть данных, которые удовлетворяют информационным нуждам пользователя, составляет лишь небольшой процент от всего хранящегося объема данных, основная же часть остается невостребованной. Но вся сложность работы поисковой системы и заключается в том, что никогда нельзя предугадать, в какой момент и какая именно часть хранящихся данных может быть затребована пользователем. Именно поэтому информационный поиск и является довольно сложной инженерной задачей. Бесструктурность данных, а также невозможность правильно угадать нужду пользователя еще больше усложняют эту задачу.

Поисковые системы бывают разные. Это может быть и поиск по отдельно взятому ресурсу – поиск по сайту, и поиск по отдельно взятой базе данных – например, риэлторской, и поиск по новостям и блогам, по микропостам, по картинкам, видео и музыкальным файлам. У каждой из этих систем есть свои особенности. А вершиной всех систем информационного поиска является веб-поиск.

Веб-поиск не только способен искать по огромным массивам данных, он еще и объединяет в себе все те особенности, которые есть у перечисленных выше поисковых систем. Это своего рода мета-поиск, который ищет не только по документам, но и по всем другим поисковикам.

Основной задачей поиска является обработка информации на естественном языке. Но при этом у него есть еще связанные задачи, такие как:

- Машинный перевод

- Извлечение мнений

- Распознавание речи

- Синтез речи

- Организация диалога с пользователем

Как работает информационный поиск? Предположим, есть некий фиксированный объем документов (корпус) и есть цель - найти документы, релевантные информационным потребностям пользователя, помогающие ему решить свою задачу. Модель поиска, реализующая эту цель, будет выглядеть так:

И здесь далеко не все так просто. У человека есть задача – попасть в клуб RAЙ. Он думает, что его информационная потребность заключается в том, чтобы узнать месторасположение этого клуба. Он формулирует эту потребность словесно: «Где находится клуб Рай?», а затем вводит в поисковую строку запрос [рай]. Вопрос: удовлетворит ли полученный результат его информационную потребность, поможет ли решить задачу? Ответ: нет.

Здесь и возникают эти промежуточные вопросы, которые должен уметь решать информационный поиск: Только ли это надо пользователю? Все ли ему понятно при формировании своей информационной потребности? Правильно ли сформулирован запрос, не присутствует ли там какой-либо опечатки или омонимии? Все это (и именно это), и делает информационный поиск релевантным.

Булевский поиск.

Булевский поиск – это самая первая модель поиска, которая оставалась популярной на протяжении более 30 лет. Ее принципы заключаются в следующем:

- Запросы, которые задает пользователь = булевские выражения, предикаты

Например, Brutus и Caesar, но не Calpurnia

- Поиск возвращает пользователю документы, удовлетворяющие предикату.

Результаты булевского поиска по запросу будут такими:

Возникает вопрос: Google, Яндекс, Поиск@Mail.ru – булевские?

В современном поиске может быть так, что запрос [w1 w2wn] интерпретируется как w1 AND w2 AND … AND wn , но можно получить документ и без wi – когда в строку запроса вводятся ссылки, разные варианты wi (морфология, опечатки, синонимы), слишком длинные запросы… В этих случаях булевский поиск вернет мало документов, поэтому современные поисковики позволяют себе уход от четко заданной булевской формулы предиката. Но самое главное отличие современного поиска – это то, что он ранжированный. Какое бы количество документов не было найдено по запросу, всегда наиболее важны только первые 10, то, что помещается на страницу, то, что увидит пользователь.

Обратный индекс.

Устройство обратного индекса с виду простое - для каждого термина t хранится список документов, где он встречается. Каждый документ представлен docID, таким образом есть ключ и есть файлы, в которых он встречается.

Слева на слайде представлен словарь корпуса документов, а справа – координатные блоки, отсортированные по docID:

У всех поисковых систем, когда они создают индекс, есть несколько этапов, которые обязательно нужно учесть и решить все связанные с ними задачи:

1. Извлечение текста из документа

2. Токенизация (последовательность пар - термин, DocID)

3. Сортировка (по терминам и по DocID)

4. Лингвистическая обработка (морфологический механизм, который из разных токенов делает один термин)

5. Индексация

Булевский поиск прост для реализации и понимания пользователем, и многие поисковые системы до сих пор булевские. Например, одна из старейших поисковых систем Westlaw. Это база по законодательству, основанная в 1975 году. В 1992 году в этот поиск было добавлено ранжирование, но до сих пор большинство пользователей пользуются булевским поиском. Булевский поиск называют поиском для профессионалов, так как всегда точно известно, что будет возвращено.

Но это не означает, что булевский поиск лучше.

Следующую часть лекции Андрей Калинин посвятил разбору основных понятий, которые использовались в представлении информационного поиска. Приведем некоторые из них:

Токен – выделенная строка символов, как они появляются в тексте.

Термин – «нормализованный» токен (регистр, морфология, исправленные ошибки и т.п.)

Стоп-слова - очень часто встречающиеся слова, так что их появление в документе будет иметь мало ценности для выбора этого документа.

Лемматизация – приведение всех разных форм к одной начальной. Она заключается в поиске правильной основной формы для леммы в словаре.

Далее были рассмотрены виды индексов для цитатного поиска, а также нечеткий поиск: что делать, если нет точного совпадения между термином запроса и термином документа?

Есть два основных класса структур данных поиска терминов: хеши и деревья. Некоторые информационные системы используют хеши, некоторые - деревья

Хеши – это таблицы, где каждый термин хешируется в целое число. А деревья – позволяют искать термины с общим префиксом.

Простейшее дерево – бинарное:

Поиск в хеш-таблице быстрее, чем поиск в дереве. Но в ней нельзя искать по префиксу (все термины, начинающиеся с automat), и для растущего словаря придется время от времени все рехешировать.

Особое внимание Андрей уделил рассказу об исправлении орфографии в документах и запросах.

Практика показала, что интерактивная коррекция документов поиску не нужна. Она используется в основном для распознанных документов, но документы обычно никак не изменяются.
А вот запросы пользователей исправлять надо, для того, чтобы можно было удовлетворить ту самую информационную потребность пользователя.

Самое простое: исправление отдельных слов автоматически, но для того, чтобы не ошибиться, исправив правильный запрос пользователя, лучше всего предложить ему на выбор правильный и его вариант.

Общие проблемы исправления опечаток заключаются в том, что поиск не всегда может решить - заменять автоматически слово с ошибкой или предлагать заменить, а вдруг пользователь не увидит предложения о замене, а увидит только неправильную выдачу? А что делать с большим количеством вариантов исправлений? Кроме того, это потенциально очень затратно, хотя исправление опечаток для крупных ПС достаточно быстро работает, чтобы обслуживать каждый запрос.

Иногда для исправления орфографии пользовательских запросов может быть использован алгоритм Soundex, который позволяет найти фонетически близкие термины, например chebyshev / tchebyscheff.

Алгоритм Soundex:

- Превратить каждый токен в 4-х символьную сокращенную форму.
- То же самое сделать для терминов запроса.
- Построить и использовать отдельный индекс сокращенных форм.

Это старейший алгорим, который использовался еще в начале прошлого века в полиции Нью-Йорка, но для информационного поиска он не очень хорош. Он больше подходит для задач с высоким уровнем полноты, так например, Интерпол благополучно до сих пор использует Soundex для своей картотеки. На самом же деле существуют лучшие альтернативы.

В современных поисковых системах исправление запросов строится на учитывании всех возможных опечаток, которые могут допустить пользователи:

Из приведенной таблицы видно, что с уменьшением частоты – увеличиваются варианты написания запросов, в которых все меньше и меньше остается от оригинала и наоборот.

Анализ встречающихся в запросах ошибок показал, что 33,7% из них – орфографические, 10% - опечатки, 18% - транслитерация, 12% - неправильно написанные фамилии или бренды, 8,9% - иностранные слова и т.д.

Общая идея исправления опечаток такова:

1. Разбить запрос на части

2. Для каждой части составить список вариантов замен.

3. Оценить вес каждой замены.

4. Составить граф слов.

5. Найти оптимальный путь в графе.

Примеры графов слов:

Следующая часть лекции была посвящена алгоритмам индексирования. Андрей Калинин рассказал о двух алгоритмах индексирования: BSBI (наивном) и SPIMI (лучше масштабируемом). А также подробно остановился на распределенном индексировании – MapReduce.

Основой распределенного индексирования является построение не одного индекса, а сразу нескольких. Один индекс должен обязательно помещаться на один сервер. Несколько индексов – это единственный способ разбить большой индекс по нескольким серверам.

Индекс можно разделить на части:

- По терминам.

- По документам.

Обычно индекс делят по документам, потому что если его разделить по терминам, и вдруг какой-то из серверов перестает работать, то целый пласт информации, связанной с этим термином, остается недоступным. Если же недоступной становится какая-то часть документов, то база поиска просто чуть-чуть уменьшается, но в целом качество поиска снижается ненамного.

Распределенное индексирование используется для задач индексирования больших корпусов (веб-поиск). Для этого требуется использование сотен и тысяч серверов. При этом каждый сервер ненадежен, он в любой момент может непредсказуемо замедлиться или упасть. То есть, нельзя требовать устойчивости отдельных узлов, но при этом требуется выполнить задачу. Как можно использовать много таких серверов для индексации?

Андрей привел в пример Google, дата-центры которого распределены по всему миру. Дата-центры Google – это 1 млн серверов и 3 млн процессоров/ядер. Это 10% вычислительной мощности всего мира.

Как же это все поддерживает стабильности поиска? Если в системе с 1000 узлами каждый узел имеет 99.9% рабочего времени, сколько рабочего времени будет иметь вся система?
Ответ: 63%

Предположим, что сервер ломается раз в три года. Для кластера из миллиона сервреров каков средний интервал между падениями двух серверов?
Ответ: меньше двух минут.

Распределенное индексирование заключается в выделении отдельного сервера (мастера) управляющего работой кластера, его дублировании, резервировании и обеспечении его надежности. Затем процесс индексации разбивается на множество параллельных заданий, и мастер назначает каждую задачу простаивающим серверам.

Модель параллельных вычислений MapReduce – это надежная и простая модель для распределенных вычислений, без необходимости писать много кода для параллелизма. Индексатор Google (образца 2002) состоял из нескольких фаз, каждая из которых была реализована в модели MapReduce.

После демонстрации студентам фотографий Google образца 1997 года и дата-центра образца 2000-го, Андрей перешел к самой интересной и долгожданной части лекционного курса – рассказу о ранжированном поиске.

Если сравнивать ранжированный поиск с булевским, то вместо того, чтобы вернуть набор документов, удовлетворяющих запросу, в моделях ранжированного поиска возвращается перестановка документов в соответствии со степенью их соответствию запросу. Основой ранжированного поиска является взвешивание документов, именно вес определяет, насколько хорошо документ соответствует запросу.
Вообще, это два разных подхода к поиску, но на практике они часто используются вместе.

Далее разговор пошел о текстовом ранжировании документов, об учете количества термина в документе и в массиве документов. Было подробно рассмотрено ранжирование tf-idf, его достоинства и недостатки, а также модификации tf-idf.

Но больший интерес у слушателей вызвали лекции посвященные непосредственно современному веб-поиску и его основным особенностям: документам, ссылочному графу, поисковому спаму, контекстной рекламе.

Как происходит классификация поисковых запросов? Каковы требования и рекомендации к поведению роботов-«пауков»? Что такое ссылочное ранжирование и какую роль играют алгоритмы PageRank и HITS?... На эти и на многие другие вопросы (например, дает ли наличие сайта в каталоге Mail.ru преимущество в ранжировании?) в течение лекций студенты получили исчерпывающие ответы от Андрея Калинина.

А о том, как можно и нужно применять полученные знания по теории информационного поиска в оптимизаторской деятельности, на практических занятиях слушателям курса поведал Леонид Гроховский. В качестве подтверждения результативности лекций Андрея Калинина можно привести тот факт, что в ходе практических занятий абсолютно все студенты смогли начертить схему работы поисковой системы и изобрели 23 способа распознавания спамных документов по текстовым факторам.

О том, чему учили студентов курса Михаил Сливинский, Алексей Чекушин и Станислав Поломарь, как происходила подготовка и защита диплома – читайте в наших следующих обзорах.

Старт следующего потока - 16 июня. Присоединяйтесь!



Как WMPU.org выходил из-под Пингвина
2012-06-04 08:24

Автор: Росс Хадженс (Ross Hudgens)

В прошлую пятницу Google объявил о появлении новой версии своего печально известного обновления Penguin. Прочитав об этом, многие вебмастера принялись внимательно изучать статистику по собственным сайтам и поисковую выдачу, в надежде обнаружить признаки восстановления после сокрушительного падения, произошедшего месяц назад. По крайне мере, они хотели убедиться в том, что их сайты не упали еще ниже. Для большинства из них новая версия Пингвина не принесла никаких заметных перемен. Мэтт Каттс объявил, что она коснулось только 0,01% поисковых запросов. Никаких серьезных изменений в поисковой выдаче не произошло, и мы стали свидетелями второй волны возмущений от тех, кто был раздавлен питомцем Google по имени Пингвин.

Для многих из нас прошедший месяц начался с затишья. Пострадавшие от Пингвина хозяева сайтов и вебмастера собирали информацию об обновлении. А затем начали предпринимать активные действия для восстановления позиций. Многие принялись удалять или редактировать ссылки, другие решили полностью отказаться от стратегии искусственного наращивания ссылочной массы. Однако прошел не такой большой срок, чтобы можно было заметить изменения, вызванные предпринятыми действиями. В то время как мы ожидали продвижения наших ссылок вверх по поисковой выдаче, произошли новые изменения, которые могли оказать собственное воздействие на ситуацию.

В связи со всем вышесказанным, многих посетила мысль: «А возможно ли вообще выйти из-под Пингвина?» или «Может быть просто купить новый домен и начать все сначала?». Эти мысли становятся все более навязчивыми по мере того, как изменение стратегии работы со ссылками не приносит никаких заметных результатов. Автор статьи не может достоверно ответить на этот вопрос, он лишь может делать некоторые предположения, основанные на анализе сайтов, которые остались в выдаче, и которые исчезли из нее, а также на том, как Google наказывал сайты в прошлом. Одно, что автор знает точно, это то, что после Penguin можно восстановиться за сравнительно короткий срок. Это утверждение основано на собственном опыте, так как автор данного материала смог добиться практически полного возвращения позиций одного сайта, сильно пострадавшего сразу после введения нового алгоритма. Речь идет о популярном англоязычном портале по адресу WPMU.org.

История WPMU

24 Апреля 2012 года WPMU.org попал под Penguin Update. Трафик с Google упал более чем на 81%, и эта ситуация сохранялась на протяжении нескольких недель, что привело к существенному падению доходов, наступившему в одну известную всем веб-мастерам ночь. Это не было падение по «трем-четырем ключам», сайт практически полностью исчез из поисковой выдачи, – самая страшная ситуация, какая только может произойти с веб-ресурсом. У его владельца, Джеймса Фармера, это вызвало продолжительный шок.

WPMU собирает всевозможную информацию о Wordpress, плагинах для этой CMS и тому подобное, но изюминкой этого сайта является коллекция тем. Подобно тому, как поступают другие, WPMU обычно оставляет в подвале темы ссылку на себя, как разработчика продукта. Если тема становится популярной, то она дает тысячи ссылок вида «Powered by X», ведущих из подвалов сайтов на страницу, где можно закачать эту тему.

Делается это, прежде всего, для получения ссылок с трастовых ресурсов, но в результате на деле также генерится и огромное количество ссылок с низкокачественных сайтов. Большая часть этих ссылок имеет в анкоре текст «Wordpress Mu», являющийся более развернутой версией «WPMU». Этот текст Google, вероятно, посчитал попыткой продвижения сайта по коммерческому запросу.

Основатель WPMU, Джеймс Фармер, (как и многие другие) был подавлен. Разработчики тем для Wordpress и другие компании, занимающиеся веб-дизайном, являются отдельной категорией, попавшей под перекрестный огонь недавнего обновления. Ссылка из подвала темы, ведущая на сайты разработчиков является осмысленной и несет определенную информацию. Пользователи привыкли видеть внизу страницы подпись разработчиков, это является одним из элементов хорошего юзабилити. Однако, если внимательно посмотреть на ссылочный профиль, то среди подобных ссылок доля «качественных» будет небольшой. Это заложено в самой природе тем для Wordpress. Большинство из них используется для создания посредственных сайтов, которые, к тому же, могут приторговывать ссылками.

Тем не менее, WPMU имел множество других сигналов, указывающих на качество ресурса. В Facebook он собрал более 10 700 «лайков», в Twitter – более 15 600 «фолловеров», в социальной сети Googe – более 2 500 «плюсов», а количество подписчиков в Feedburner превысило 4 250. На данный ресурс ведут ссылки с таких авторитетных сайтов, как Technorati, Ars Technica, Wired, Huffington Post, SEOBook, Business Insider, Boing и многих других. Как вы думаете, заслуживает ли такой сайт участи быть наказанным поисковой системой? Но Google имеет собственное мнение по этому поводу.

Наказание становится публичным

После резкого понижения позиций сайта, Фармер обратился к администрации крупнейшего австралийского новостного сайта Sydney Morning Herald, с тем, чтобы ознакомить широкую аудиторию со складывающейся ситуацией. Он получил то, на что рассчитывал, и Herald публично спросила у Каттса о причинах наказания домена WPMU.org после обновления Penguin. Каттс дал ответ, указав на некоторые из ссылок, ставших причиной этой неприятной ситуации. Среди них такие как (скопируйте ссылку и вставьте ее в строку браузера, чтобы перейти на эти страницы):

• http://baydownloads.info/11580-Wordpress-Membership-Plugin-Wordpress-PayPal-R-Plugin-show-5starserve.htm - пиратский сайт, распространяющий программы WPMU.

• http://computerofficechair.blogdetik.com/category/tak-berkategori/ - Сплог, использующий старую тему WPMU, со ссылкой в подвале, имеющей потенциально «коммерческий» анкор ( по мнению автора статьи).

• http://computerchairs.blogdetik.com/ - Еще один сплог.

По словам Фармера, Каттс заявил о том, что необходимо подумать о том, какой вред авторитету сайта наносят подобные ссылки. Этот ответ подтвердил догадку о том, что именно явилось причиной наказания сайта после недавнего обновления – ссылки низкого качества, а также спамные ссылки из подвалов с переоптимизированными анкорами, по которым посетители кликают крайне редко.

Полученная информация оказалась полезной для Фармера, она дала ему возможность понять, почему сайт потенциально не вписывается в тот идеал, которого пожелал достичь Google, вводя последнее обновление. Убедившись в том, что Каттс знаком со сложившейся ситуацией, Фармер изложил в своем блоге детали того, как пострадал WPMU. В результате об этом узнало еще больше людей, появилось много ссылок и твиты от Ренда Фишкина, и в конце-концов (по словам Фармера) Денни Салливан из Search Engine Land снова поставил этот вопрос перед Google.

Информация о данном случае разлетелась по всему SEO сообществу. Многие люди, включая автора статьи, прокомментировали пост о тех бедах, которые постигли WPMU. Люди были доброжелательны и давали советы. Они делали новые предположения о причинах наказания сайта и необходимых способах выхода из сложившейся ситуации. Фармер прочитал рекомендации Росса Хадженса, и спросил у него о том, какие дальнейшие действия необходимо предпринять, для того чтобы выйти из-под Пингвина. Росс не смог отказаться от участия в этом деле, и работа закипела.

Улучшение ссылочного профиля

Для WPMU представлялось два варианта действий – закрыть ведущие на сайт ссылки в nofollow или полностью удалить их. Главная цель состояла в том, чтобы максимально уменьшить количество обратных ссылок с анкором «Wordpress MU». Вначале атрибут nofollow казался более предпочтительным решением, так как ссылки оставались потенциальным источником трафика на WPMU. Но Фармер рассудил, что, вместо редактирования, блоггерам будет легче просто удалить их.

Удаления на EDUBlogs.org

Наиболее рискованная часть ссылочного профиля сформировалась за счет одного сайта EDUblogs.org. EDU Blogs является сервисом, позволяющим людям, работающим в сфере образования, создавать на отдельных поддоменах сайты о собственных школах. Как и на Blogspot, Typepad или Tumblr, каждый субдомен в глазах Google относился к отдельному сайту. Этот сайт принадлежал Фармеру и WPMU, а каждый блог использовал тему WPMU. Поэтому каждый из этих блогов имел в подвале ссылку с анкорным текстом «Wordpress MU». Это стало настоящей удачей для владельца WPMU, так как данная часть внешних ссылок находилась под его полным контролем.

Именно данный факт стал основной причиной того, что WPMU смог восстановиться, и сделал это быстрее, чем кто-либо еще. Фармер немедленно удалил почти 15 тысяч «ненадежных» сквозных ссылок из подвалов, ведущих на его основной сайт. Это позволило кардинально улучшить распределение анкорного текста, объем ссылок и ряд других показателей. Данную операцию можно было сделать еще в самом начале мая, сразу после того, как стало понятно, что именно невзлюбил Пингвин. Огромная разница между большинством веб-мастеров, пытающихся «вычистить свой ссылочный профиль», и WPMU состоит во времени. Даже если остальные веб-мастера сделали все правильно, то вряд ли они успели завершить свою работу до введения Penguin 1.1. Но это не означает, что все их усилия были напрасными. Просто придется подождать еще какое-то время.

Дополнительная чистка

После чистки .EDUBlogs основная проблема ссылочного профиля была решена. Однако с сайтов независимых блоггеров, использующих темы WPMU, все еще вело большое количество ссылок. Принимая в расчет ограничения по времени, было невозможно разработать хоть сколько-нибудь эффективную стратегию, которая бы заставила людей удалить ссылки из подвалов своих блогов, не прибегая к рассылке тысяч электронных писем. Но было принято решение вначале разобраться с другими «ляпами», чтобы успеть ко времени появления новой версии Пингвина.

Судя по всему, Penguin наказывает преимущественно за ссылки. Но было бы большим упущением работать только в этом направлении, не обращая внимания на влияние других возможных факторов, и потерять месяц между обновлениями. За прошедший период Фармер и его команда внесли ряд дополнительных изменений. Следует прояснить, что эти изменения не были специфическими действиями, направленными на преодоление Пингвина, но касались общего повышения качества сайта. Может быть, внесение этих изменений также имело значение для восстановления, а может быть, ни одно из них не внесло своей лепты в то, что произошло позднее.

Вот какая работа была проведена:

  • Дополнительно были удалены только те ссылки, на которые сослался Мэтт Каттс в своем ответе Syndey Harold. Они шли с большого количества сплогов, относящихся к домену Blogdetik.com.
  • Дважды был направлен запрос в Google через специальную форму для пересмотра результата воздействия Penguin. В запросе содержалась ссылка на этот материал, подкрепленный ссылками на него из других источников.
  • Была использована информация из кампании SEOmoz для исправления ошибок сканирования по некоторым каноническим URL и удаления ненужных ссылок на сайте.
  • Небольшая «SEO чистка» показала, что WPMU.org не имеет sitemap и/или они имеют многочисленные ошибки. Ситуация с картами сайта была исправлена, а каналы направлены в Инструменты Google для веб-мастеров, что не было сделано ранее.
  • Было вычищено значительно количество дублирующихся тегов заголовков, которые обнаружились благодаря Инструментам Google для веб-мастеров.
  • Была продолжена работа по привлечению естественных ссылок на сайт и получению других положительных сигналов, (реферальный трафик и продвижение в социальных сетях).
  • Очень важным оказалось и то, что данный специфический случай был продемонстрирован Googe и получил широкую огласку в SEO-сообществе.

Естественно, здесь не перечислены все проделанные изменения, но упомянуты те из них, которые имеют наиболее вероятную связь с обновлением Penguin. Именно на них рекомендуется обратить внимание тем читателям, которые хотят восстановить позиции собственных сайтов.

Выход из-под Пингвина

Накануне начала кампании по рассылке веб-мастерам электронных писем с просьбой удалить ссылки на WPMU, произошло грандиозное событие – сайт был восстановлен в выдаче. В пятницу, 25 мая стало ясно, что в силу вступила новая версия Penguin 1.1, восстановившая трафик на сайт практически до прежнего уровня. С учетом того, что это были выходные, трафик оказался несколько ниже среднего уровня, но кто из веб-мастеров не знает о том, какое влияние могут оказывать выходные на количество посетителей. Все указывало на то, что произошло полное восстановление от удара, нанесенного Penguin.

Описанный случай восстановления после Пингвина является отличным знаком не только для WPMU, но и для всех других веб-мастеров, пострадавших от Penguin. WPMU сделал ряд вещей, пытаясь как можно скорее восстановить позиции, среди них – донесение информации о сложившейся ситуации до Google (что могло способствовать доработке алгоритма). Сыграло свою роль и то, что данный сайт ЗАСЛУЖВАЕТ права занимать высокие позиции в поисковой выдаче, имея тысячи положительных сигналов, и то, что была возможность мгновенно удалить огромное количество ссылок с одного корневого домена. Однако «быстрое решение», позволившее WPMU вернуть прежние позиции, означает, что аналогичная работа, растянутая во времени, также должна дать эффект, если сделать ее правильно, и в долгосрочной перспективе двигаться в сторону повышения качества сайта.

Следует иметь в виду, что эта статья не является «Руководством по восстановлению сайта». Читатели должны сделать собственные выводы на основании прочитанного материала, с учетом ссылочных профилей, имеющихся у их сайтов, особенностей их ниш, структуры сайтов и того, что они знают о Penguin Update.

Ни пуха, ни пера в охоте на Пингвина!

Источник: SeoMOZ

Перевод: Александра Никитина


ПРЕСС-РЕЛИЗЫ

В данный момент в ленте "Пресс-релизы" новостей нет.

(C) 2011 SearchEngines.ru

В избранное