Отправляет email-рассылки с помощью сервиса Sendsay

поможем друг другу!

[friend] статья - Что лучше: Yahoo! или Google?

Что лучше: Yahoo! или Google?
Перевод:
Владимир Володин
Источник:
Железная Столица

Вступление

8 августа 2005 г. Тим Мэйер из Yahoo! опубликовал в блоге Yahoo! Search информацию,
что индекс этой поисковой системы предоставляет доступ к 20 миллиардам
документов, среди которых 19,2 миллиарда web-страниц, 1,6 миллиарда изображений
и более 50 миллионов аудио и видеофайлов. Два дня спустя, профессор Джон
Баттел заявил в калифорнийском университете, что в Google опровергают эту информацию,
так как исследователи компании не видели заметного увеличения индекса
Yahoo!.

Чтобы установить, кто прав, двое исследователей Мэтью Чени и Майк Перри, работающих
в национальном центре суперкомпьютерных приложений (NCSA), провели собственное
изучение индексов двух поисковых систем.
Метод тестирования

Так как нет возможности напрямую измерить размеры индексов поисковых систем,
была разработана техника приблизительной оценки размеров баз индексов. Мы исходили
из двух утверждений, которые считали верными. Первое заключается в том, что Yahoo!
и Google возвращают все результаты, совпадающие с введенными ключевыми
словами, не производя никакой фильтрации, убирающей повторения. Второе: индекс
Yahoo! имеет почти в два раза больше элементов, чем Google (19,2 млрд. против
8.1 млрд.). Если второе предположение верно, серия случайных тестов должна привести
к тому, что Yahoo! будет выдавать в два с лишним раза больше результатов,
чем Google.

К сожалению, обе поисковых системы не выводят больше 1000 результатов. Так что,
наши поисковые запросты пришлось ограничить так, чтобы количество результатов
было меньше тысячи. Все тесты, в которых выводилось 1000 результатов, не учитывались.

Чтобы создать большое количество запросов, мы использовали свободнораспространяемый
список английских слов English Ispell Wordlist (135069 слов) и самостоятельно
написанный скрипт на Perl, случайно выбирающий два слова из этого списка. Затем
скрипт использовал эти два слова в качестве запроса для поиска в Yahoo!
и Google, записывая количество найденных результатов. В зачет пошли результаты
10012 случайных запросов.

Точно так же как размер какой-то области можно оценить по ее периметру, можно
предположить, что случайным образом выбранные запросы дадут нам возможность
получить даже самые редкоиспользуемые web-страницы. Количество таких документов
может говорить о размере базы индексов поисковой системы.

Чтобы наше исследование было как можно более прозрачным, мы приведем в конце
статьи ссылку на скрипт и файл со словарем.
Результаты

После 18 часов использования компьютерных ресурсов NCSA и университета Иллинойса,
мы получили 10012 результатов случайных запросов.

Они показали, что Yahoo! выводит всего 37,4% результатов Google, а во многих
случаях и значительно меньше. Кроме того, было множество случаев, в которых
Google выводит десятки результатов, а Yahoo! всего один-два, или вообще ничего.

В первой таблице приводится среднее количество результатов, выводившихся при
случайных запросах (n=10012):

таблица из 3 столбцов и 3 строчек

Без повторений
С повторениями
Yahoo!
14
22
Google
38
64
конец таблицы

Общее количество результатов, возвращенных Yahoo! на 10012 запросов 146330, в
то время как Google находит почти в три раза больше - 390595 результатов,
а если считать повторяющиеся результаты, то у Yahoo! общее количество увеличится
до 223522, а у Google их станет 651398.

Эта информация представлена во второй таблице:

таблица из 3 столбцов и 3 строчек

Общее количество результатов поиска
без повторений
Общее количество результатов поиска
с повторениями
Yahoo!
146330
223522
Google
390595
651398
конец таблицы

Получается, что ожидаемое количество результатов в случаях обоих поисковых систем
очень завышено. Например, Google выдает почти в два раза меньше результатов,
чем ожидалось, а Yahoo! - в пять раз меньше. Эта информация приведена в третьей
таблице:

таблица из 7 столбцов и 3 строчек

Ожидавшееся количество результатов
(исключая повторения)
Общее количество результатов
(исключая повторения)
Доля действительных результатов по отношению к ожидаемым
Ожидавшееся количество результатов
(включая повторения)
Общее количество результатов
(включая повторения)
Доля действительных результатов по отношению к ожидаемым
Yahoo!
690360
146330
21.1%
821043
223522
27.2%
Google
713729
390595
54.7%
708029
651398
92.0%
конец таблицы

Заключение

На основе наших исследований, можно уверенно заявить, что пользователь в среднем
может ожидать от Google на 166,9% больше результатов, чем от Yahoo!. Еще
несколько фактов: в 10012 тестах было 3% (307) случаев, когда Yahoo! выводил
больше результатов; в 96,6% (9677) случаев первым был Google; одинаковых результатов
было меньше одного процента (29).

Можно сделать вывод, что не смотря на заявления Yahoo! о том, что количество
проиндексированных документов вдвое больше, чем у Google, в реальности пользователи
Yahoo! имеют доступ к значительно меньшему количеству документов.
Дополнения

список из 4 элементов
Лог-файл с результатами тестирования.
Perl-скрипт, написанный для тестирования .
Список слов, который применялся для построения запросов.
Полный архив всех файлов, применявшихся в тестах.

конец списка
Olga Kovetskaya
ICQ#: 342650419 Current ICQ status: + More ways to contact me --

Выпуск 1976
Количество подписчиков: 122


Послать письмо модератору:
science.health.illnesshelp-owner@subscribe.ru

Ответить   Fri, 8 Sep 2006 15:41:35 +0300 (#588464)