Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Новости поисковых систем от Searchengines.ru


Форум
Биржа ссылок
Магазин

Новости

Блог

Пресс-релизы

Статьи

Календарь событий

Компании

Люди

Сегодня в новостях:

Яндекс и Google начали поддерживать расширение x-default для атрибута rel="alternate"

Два ведущих поисковика рунета Яндекс и Google объединились и представили новый способ использования атрибута rel=”alternate” hreflang=”x” для корректной индексации и ранжирования мультиязычных сайтов.

Как правило, главные страницы мультирегиональных и многоязычных сайтов...

Мэтт Каттс рассказал о влиянии хостинга на ранжирование сайта

В очередном обучающем видео для вебмастеров от Google Мэтт Каттс (Matt Cutts) ответил на следующий весьма «щекотливый» вопрос владельца сайта: «Если среди клиентов моего веб-хостинга наблюдается большое количество ресурсов, распространяющих веб-спам, как это может отразиться...

Яндекс тестирует интерфейс управления приложениями при помощи жестов

Как сообщает официальный блог Яндекса, российский гигант поиска в настоящее время близок к завершению разработки уникального интерфейса, позволяющего управлять мобильными и социальными приложениями при помощи жестов.

Вот как описывают представители компании...

В обновленном iOS-приложении Foursquare улучшен функционал поиска

Как сообщает издание All Things D, в ближайшие дни геолокационный сервис Foursquare выпустит обновленное мобильное приложение для iOS. Отличительной особенностью новинки станет размещение строки поиска в самом центре основного экрана приложения. Также, согласно заявлениям разработчиков,...

AOL Networks запустила рекламную платформу Marketplace

Сеть AOL Networks анонсировала запуск собственной рекламной платформы, Marketplace на основании технологии Adtech, которая будет ориентирована на продажу рекламных мест на сайтах сети покупателям премиум-сегмента.

Marketplace позволяет управлять продажами в едином кросс-платформеном интерфейсе,...

Сегодня в SEO-блоге

Конкурс от Sape «Получи аудит в подарок!» стартует во второй раз

Компания Sape сообщила о втором старте конкурса «Получи аудит в подарок!».

Суть конкурса. Каждый месяц будет выбираться проект для бесплатного трехмесячного аудита. Выбор сайта производится командой Sape. После того, как очередной победитель конкурса будет определен,...

Яндекс.Электрички теперь и для Windows Phone

Команда сервиса Яндекс.Электрички сообщила о расширении списка поддерживаемых платформ для своего приложения - вышли Электрички для Windows Phone.

При выборе нужного направления Яндекс.Электрички сразу показывают время отправления ближайших поездов, цену билета, номер...

Facebook начала ограничивать количество приглашений на мероприятия

Как сообщает издание WebProNews, социальная сеть Facebook ввела ограничения на рассылку приглашений на мероприятия. Новость подтверждают и наблюдения отдельных пользователей, осуществлявших массовую рассылку приглашений на различные мероприятия. Им были направлены следующие ...

Google представила новую версию Google Play

Компания Google представила новую версию магазина приложений Google Play для телефонов и планшетов на Android.

Новое оформление сервиса сфокусировано на больших картинках, которые выделяются на странице. Контент схожей тематики объединен в группы. Новый интерфейс также облегчает...

Исследование: за первый квартал 2013 года магазины приложений заработали $2,2 млрд.

Как сообщает независимая исследовательская компания Canalys, за первую четверть 2013 года общий процент загрузок приложений из App Store, Google Play, Windows Phone Store и BlackBerry World увеличился на 11%. Таким образом, всего за один квартал число загрузок возросло до 13,4 млрд. В свою очередь выручка крупнейших...

Что почитать

Формула эффекта. Как получить реальный результат в социальных медиа

Поначалу эта книга вызывает странное впечатление – будто общаешься с шизофреником. Когда посреди авторского текста то и дело встречаешь пассажи а ля «Крис поступает так-то», «Джулиан так не считает», «в этом Крис и Джулиан согласны», поневоле задаешься вопросом – а кто же автор? Кто все эти люди?

Крис Броган – американский блогер (сейчас его читают больше 200 тыс. человек), журналист, консультант по маркетингу. Джулиен Смит - канадский блогер, профессиональный актер. Один из первых авторов подкастов в Интернете (с 2004 года). Как консультант работал с Microsoft, American Express, Heineken International и др. Сотрудничает с медиа-компаниями - CNN, CBS, CTV и др. У обоих есть бизнес в офлайне. Эта их книга, в оригинале - The impact equation. Are you making things happen or just making noise? - успела стать бестселлером по версии New Yоrk Times – как и предыдущая,...

Форум технологий Mail.Ru Group: Поиск неточных дубликатов в рунете

9 апреля в Международном информационно-выставочном центре ИнфоПространство прошел пятый Форум технологий Mail.Ru Group. Ведущим Форума выступил вице-президент и технический директор Mail.Ru Group Владимир Габриелян.

Специалисты Mail.Ru Group и других технологических компаний рассказали о последних технологических тенденциях и трендах, а также о решении сложных задач в рамках разработки проектов.

Ведущий программист Mail.Ru Group Алексей Романенко рассказал о поиске нечетких дубликатов в масштабах рунета. Алексей начал с общей постановки вопроса, потом рассказал о существующих алгоритмах и о том, как они используются, и как это реализовано в поиске Mail.Ru.

Реализация многих задач сталкивается с тем, что нужно найти одинаковые или похожие объекты. Это требуется, например, в классификации и кластеризации, в определении зеркала сайта, в поисках плагиата. В рекомендательных системах ― для определения схожих вкусов пользователя. Еще одна из прикладных задач ― находить похожие изображения.

Поиск дубликатов web-страниц нужен для лучшего использования ресурсов. Сокращение скачиваемых страниц сократит нагрузку на сеть, снизит размер индекса и ускорит процесс обработки данных. Кроме того, это упростит ранжирование результатов поиска, исключив из выдачи дубликаты.

По оценкам специалистов компании, в рунете 20-30% страниц считаются дубликатами.

Точные дубликаты ― это, например, зеркало сайта, когда с разных доменов отдается одинаковый контекст. Искать их довольно просто, но на самом деле встречаются они не так уж часто.

Неточные, нечеткие дубликаты ― это, например, динамические страницы, рерайтинг.

Для определения того, что считать дубликатом документа, нужно ввести меру похожести, от 0 до 100%. В итоге нужно посчитать эту меру и выбрать некое пороговое значение, после какого документ будет считаться дубликатом.

Для работы используются следующие алгоритмы.

Шинглирование (Shingling) ― преобразовать множество документов в множество шинглов; k-шингл ― k символов или слов.

Minhashing (Andrei Broder) ― преобразовать большое множество шинглов в короткую сигнатуру; Locality-sensitive hashing (LSH).

Супер-шинглы ― отобрать только те сигнатуры, которые будут похожи с большой долей вероятности.

Формируется множество шинглов, строится для каждого документа, и определяется мера сходности.

Общие слова выделены жирным шрифтом, измененные подчеркнуты. Уникальных шинглов получается 11.

Выбор, по какому количеству слов (k) будет определяться сходство, очень сильно влияет на результат, и зависит и от размера документа, и от количества слов в нем.

Сравнивать большие множества документов ресурсоемко, к тому же хранение большого числа шинглов затратно. Поэтому был предложен алгоритм Min-hashing, который позволяет снизить...

Ближайшие события

Online Retail Russia 2013

11.04.2013  в 10:00

Зубовский бульвар, 4
Москва
Платное
Конференция

Social Networking Congress & Expo

11.04.2013  в 10:00

Нижняя Сыромятническая, 10
Москва
Платное
Конференция

Software People 2013

11.04.2013  в 10:00

1-й Зачатьевский переулок, дом 4 м. Кропоткинская, м. Парк Культуры, микрорайон Остоженка
Москва
Платное
Конференция


В избранное