← Сентябрь 2005 → | ||||||
1
|
2
|
4
|
||||
---|---|---|---|---|---|---|
5
|
6
|
7
|
8
|
9
|
10
|
11
|
12
|
13
|
14
|
16
|
17
|
18
|
|
19
|
20
|
21
|
23
|
24
|
25
|
|
26
|
27
|
28
|
29
|
За последние 60 дней ни разу не выходила
Сайт рассылки:
http://design.i2r.ru
Открыта:
24-10-2001
Адрес
автора: inet.webbuild.libraryi2r-owner@subscribe.ru
Статистика
0 за неделю
Библиотека Вебстроительства - новости, статьи, обзоры
Информационный Канал Subscribe.Ru |
БИБЛИОТЕКА CАЙТОСТРОИТЕЛЬСТВАновости, статьи, обзоры | ||
| ||
| ||
23 сентября 1997 года на выставке Softool была анонсирована поисковая машина www.yandex.ru, в этом году Яндексу исполняется 8 лет! Библиотека Сайтостроительства, разумеется, присоединяется к поздравлениям. Готовится к большому празднику - 11-летию Рунета ("11 RUЛЕТ-show") проект Премия Рунета – 2005. Это событие состоится 25 ноября 2005 года, однако подготовительные работы проходят уже сейчас. Объявлен список номинантов-участников премии. Библиотека Сайтостроительства принимает участие в конкурсе "Премия Рунета - 2005" - в номинации "Технологии и Инновации": Непосредственные
результаты деятельности: Важный праздник: "День переводов и переводчиков", как это ни странно, так же имеет непостредственное отношение к сайтостроительству. Вы и сами знаете, что огромное количество полезнейшей документации по дизайну, верстке, стандартам и технологиям публикуется на английском языке, и только благодаря нелегкому труду талантливых переводчиков эти материалы становятся доступными для русскоязычной аудитории. Как пример - один из ведущих проектов, предоставляющих переводные статьи на русском языке по веб-разработкам - Webmascon, и сегодня сам сайт и его руководитель Алекс Качанов принимают поздравления, ценные подарки и легкие алкогольные напитки в стеклянной таре :) здесь.... 29 сентября в официальном блоге Яндекса появилось уведомление о публикации работ по программе научных стипендий Яндекса за 2004-2005 год, которые вошли в сборник Интернет-Математика-200. Сборник, который появится в бумажном виде в следующий понедельник, составлен из отчетов по научным стипендиям Яндекса за сезон 2004-2005 г. Всего на сайте (и в сборнике) опубликовано 25 работ: 24 работы по стипендиям плюс одна обзорная: И. Сегалович, М. Маслов, Ю. Зеленков. Цели и результаты программы научных стипендий Яндекса. В статье говорится, что учрежденная Яндексом программа стипендий Интернет-Математика призвана стимулировать отечественные исследования в области автоматической обработки веб-данных. Такие приложения как веб-поиск, классификация веб-сайтов, агрегация новостей, фильтрация почтового спама, выбор товаров, контекстная реклама требуют адекватных научных исследований. Программа стипендий Яндекса позволит заполнить эту нишу. Любопытно многим веб-разработчикам и оптимизаторам сайтов будет ознакомиться с исследованием Евгения Трофименко "Оптимизация расчета ссылочной популярности и учета ее при ранжировании результатов поиска.". Давнее противостояние оптимизаторов/промоутеров веб-сайтов и разработчиков поисковых систем может быть сведено к минимуму, если использовать предложенный Евгением алгоритм обнаружения тех ресурсов, которые пытаются продвинуться в результатах поиска с помощью накрутки link popularity. Для большинства поисковых систем ведущим параметром "качества" сайта по-прежнему используется коэффициент цитирования этого сайта другими ресурсами. Так любимый современными оптимизаторами метод массового обмена ссылками, в том числе и не тематическими, регистрация в каталогах и участие в фермах ссылок, безусловно, повышает цитируемость ресурса и, как следствие, его значимость при ранжировании результатов поиска, что, в подавляющем большинстве случаев засоряет выдачу мусором и давно уже считается одним из злостных и наказуемых методов поискового спама. Практика отслеживания подобных накрученных ресурсов развита слабо - можно, к примеру, "настучать" на конкретный сайт, написать письмо в службу поддержки поисковика (в Яндекс - "спам-репорт"), модераторы рассмотрят заявку и примут решение - действительно ли имеет место быть поисковый спам или же содержание сайта релевантно запросу в поиске... Можно ли автоматизировать процесс массового "отлавливания" накрученных ресурсов? Сегодя в рассылке мы публикуем текст исследования Евгения Трофименко (оригинал вы так же найдете на сайте автора http://promosite.ru/): Оптимизация расчета ссылочной популярности и учета ее при ранжировании результатов поискаотчет по гранту Яндекса 2005 АннотацияПроблема поисковых алгоритмов, учитывающих наличие внешних ссылок на документ или сайт, состоит в возможности искусственного увеличения ссылочной популярности путем обмена ссылками, участия в ссылочных фермах. Для решения проблемы накруток обычно используют индивидуальные меры: исключение сайтов и ферм из индекса, наложение фильтров на исходящие ссылки и т.п., что требует участия человека-модератора. Кроме того, масса промежуточных случаев (тематические кольца, обмен ссылками в узких темах), могут быть ошибочно отнесены в категорию накрутчиков. В работе предложена идея по разделению индекса ссылочной популярности (PageRank, SiteRank) на независимые части, соответствующие добровольной и обменной цитируемости с тем, чтобы в алгоритме ранжирования учитывать их с разными весами. Предложенный подход позволяет количественно и алгоритмически определять степень вовлеченности в системы ссылочной накрутки. ВведениеАлгоритмы поисковых систем по ранжированию веб-документов, учитывающие наличие ссылок на других документах, подвержены внешним влияниям. Влияние на результаты ранжирования со стороны владельцев сайтов может осуществляться с помощью обмена ссылками с другими сайтами, участия в ссылочных фермах, создания ссылок на свои сайты в гостевых книгах, каталогах, форумах, создания сети поддерживающих основной сайт ресурсов, обменивающихся ссылками и ссылающимися на основной сайт. Для решения проблемы накрутки ссылочной популярности обычно используют такие меры, как: исключения сайтов из индекса, наложение фильтра на исходящие ссылки с сайтов. Однако, эти действия требуют ручной проверки ссылочных ферм и отдельных сайтов. Кроме того, ссылочная накрутка может остаться незамеченной при следующих условиях:
Кроме того, ошибки человека-модератора могут возникать в случаях, если:
В общем случае, почти любой обмен ссылками предполагает договоренность между ссылающимися сайтами. Следовательно, ценность таких ссылок в алгоритме ранжирования должна быть более низкой, нежели ценность добровольных, односторонних ссылок. В условиях, когда около 27% всех ссылок в русскоязычном Интернете (по данным Яндекса) являются обменными (т.е., в обмен вовлечено около 14% хостов) невозможно просто исключить взаимные ссылки из рассмотрения. Кроме того, обмен ссылками, даже и договорной, не всегда является накруткой – многие владельцы сайтов обмениваются ссылками с действительно качественными ресурсами в своей тематике и не заслуживают штрафных санкций. При учете ссылочной популярности отдельных документов (хостов) часто в виде ее количественной меры используют взвешенную цитируемость, или PageRank. Алгоритм расчета PageRank документа предполагает учет цитируемости ссылающихся на него документов. Однако в алгоритме PageRank смешиваются все виды ссылок – односторонние и взаимные. Отсюда возникают следующие возможности для накрутки ссылочной популярности путем создания ссылочных ферм и массового обмена ссылками. Невозможность разделить разные компоненты PageRank ведет к необходимости принятия резких мер – сайт либо полностью принимается поисковой системой, либо полностью отвергается ей. Кроме того, в этой деятельности особую роль играет человеческий фактор. В данной работе предлагается метод количественной оценки цитируемости хостов (SiteRank), позволяющий разделить долю цитируемости, полученную путем специальных действий (обмена ссылками и т.п.) и долю цитируемости, полученную за счет добровольных односторонних ссылок. В дальнейшем эти ранги страниц можно использовать в алгоритмах ранжирования с разными весами при учете ссылочного ранжирования. Идея исследованияИдея исследования – в разделении общей системы ссылок между хостами в Интернете на 2 подсистемы, не связанные между собой ссылками. Первая подсистема состоит из только лишь обменных ссылок. Вторая подсистема состоит из всех остальных ссылок. Две подсистемы хостов могут пересекаться, т.е., один и тот же хост может находиться и в подсистеме односторонних ссылок (в ссылочную матрицу будут входить только односторонние ссылки) и в подсистеме обменных ссылок (в ссылочную матрицу будут входить только обменные ссылки). Это важный момент: это позволит не рассматривать хост либо как только лишь накрученный либо абсолютно чистый. Гипотеза 1: добровольные, односторонние ссылки ставятся в случае действительно качественного контента сайта и его уместности в контексте ссылающегося сайта. Поэтому вероятность перехода по такой ссылке должна быть выше. Взаимные, обменные ссылки привлекают к себе меньше внимания посетителя в силу их расположения на сайте (в каталоге ссылок) и меньшей уместности в контексте ссылающегося сайта. Поэтому вероятность перехода посетителя по ссылкам разного типа должна быть разной, и, соответственно, при расчете pagerank нужно использовать разные значения dumping factor (d). Гипотеза 2 (следствие из 1): поскольку вероятность перехода по добровольной ссылке выше, чем по обменной, должно происходить естественное перекачивание посетителей из подсистемы хостов с обменными ссылками в подсистему хостов с добровольными ссылками. Таким образом, вероятность посещения сайта из подсистемы добровольных ссылок должна быть выше, чем подсистемы обменных ссылок. Гипотеза 3: даже при одинаковой вероятности перехода по обменной и добровольной ссылкам ценность второй для алгоритмов ранжирования выше, т.к. в первом случае выше вероятность того, что ссылки поставлены по предварительной договоренности. Отсюда следует целесообразность учета добровольной цитируемости в алгоритме ранжирования с более высоким весом. Методы, алгоритмы и экспериментыМетодыПоследовательность проведения исследования представлена ниже:
0. Использованные данныеИспользовался хост-граф номер 1. Данные по 4.9 млн. хостов, из которых около 500 тыс. известных Яндексу (скачанных), из которых около 250 тыс. имеют внешние ссылки на другие хосты (т.е., не являются висящими). 1. Уравнения расчета ранга SiteRankТ.к. данные были получены по ссылкам между хостами, рассчитывались значение не PageRank (по ссылкам между документами), а SiteRank (между хостами). При этом в уравнениях каждый хост представляет собой одну страницу, на которой есть ссылки вовне и на которую есть ссылки извне. Для расчета использовалась система уравнений:
Где Физический смысл SiteRank в этой системе из N уравнений – число находящихся на хосте пользователей при условии, что всего в Интернете ходят N пользователей. Это позволяет легко сравнивать значения SiteRank для нескольких подсистем с разным числом сайтов в них. Расчет проводился с помощью итераций. Перед расчетом из матриц удалялись висящие страницы и ссылки на висящие страницы. Такая чистка матрицы проводилась несколько раз (до 6), т.к. после удаления ссылок на висящие хосты появлялись новые висящие хосты. Таким образом, при расчете не требуется использование нормировок. 2. Выбор значения
|
Subscribe.Ru
Поддержка подписчиков Другие рассылки этой тематики Другие рассылки этого автора |
Подписан адрес:
Код этой рассылки: inet.webbuild.libraryi2r Архив рассылки |
Отписаться
Вспомнить пароль |
В избранное | ||