Отправляет email-рассылки с помощью сервиса Sendsay
  Все выпуски  

Медицинская кандидатская диссертация


Информационный Канал Subscribe.Ru

Медицинская кандидатская диссертация

Выпуск 5. Количество подписчиков - 593   16 июля 2003 г.


ЗДРАВСТВУЙТЕ!

Сегодня в выпуске:

ИНТЕРНЕТ - ИСТОЧНИК ИНФОРМАЦИИ ДЛЯ ВРАЧА-АСПИРАНТА.
ПОИСКОВЫЕ МАШИНЫ.

Врач-аспирант может найти в Интернете научные статьи для написания литературного обзора медицинской кандидатской диссертации, статьи на иностранном языке для подготовки к экзамену кандидатского минимума, описание современных методик исследования и многое другое... 

О том, как искать информацию в Интернете и пойдет речь в данной статье. 

Для тех, кто еще не очень хорошо ориентируется в таких понятиях как сайт, сервер - сообщаю начальные сведения о Интернете.

Интернет - это множество сайтов, размещенных на серверах, объединенных каналами связи (телефонными, оптоволоконными и спутниковыми линиями).

Сайт - это совокупность документов в формате html (страниц сайта), связанных между собой гиперссылками.

Большой сайт (например "Medlink" - медицинский тематический каталог http://www.medlinks.ru - состоит из 30000 страниц, а объем дискового пространства, который он занимает на сервере, составляет около 400 Mб). Небольшой сайт состоит из нескольких десятков - сотен страниц и занимает 1 - 10 Мб (например мой сайт "Врач-аспирант" http://www.disser.ru 15 июля 2003 г. состоял из 33 страниц и занимал на сервере 0,7 Мб).

Сервер - это компьютер, подключенный к Интернету и работающий круглосуточно.
На сервере могут быть размещены одновременно от нескольких сотен до нескольких тысяч сайтов.

Сайты, размещенные на компьютере-сервере, могут просматривать и копировать пользователи Интернета.

Для обеспечения бесперебойного доступа к сайтам, электроснабжение сервера осуществляется через источники бесперебойного питания, а помещение, где работают серверы, оборудовано автоматической системой пожаротушения, организовано круглосуточное дежурство технического персонала.

За более чем 8 лет своего существования Рунет (русскоязычный Интернет) стал упорядоченной структурой и поиск информации в Сети стал более предсказуем.

Основной инструмент поиска информации в Интернете - поисковые машины.

Поисковая машина состоит из программы-паука, которая просматривает сайты Интернета и базы данных (индекса), в которой находится информация о просмотренных сайтах.

По заявке веб-мастера робот-паук заходит на сайт и просматривает страницы сайта, занося в индекс поисковой машины информацию о страницах сайта. Поисковая машина может сама найти сайт, даже если его веб-мастер и не подавал заявку на регистрацию. Если ссылка на сайт попадется где-либо на пути поисковой машины (на другом сайте, например), то она сайт тут же проиндексирует.

Паук не копирует страницы сайта в индекс поисковой машины, а сохраняет информацию о структуре каждой страницы сайта - например, какие слова встречаются в документе и в каком порядке, адреса гиперссылок страницы сайта, размер документа в килобайтах, дата его создания и многое другое.

Поэтому индекс поисковой машины меньше, чем объем проиндексированной информации (например, к 15 июля 2003 года поисковая машина Яндекс проиндексировала в Рунете около 100 миллионов документов, суммарный объем которых составил 2 600 Гб, а индекс Яндекса составляет только 480 Гб, т.е. в 5,5 раз меньше объема проиндексированных документов).

Что и как ищет поисковая машина в Интернете?

Поисковую машину придумали люди, чтобы она помогала им искать информацию. Что такое информация в нашем человеческом понимании и наглядном представлении? Это не запахи или звуки, не ощущения и не образы. Это просто слова, текст. Когда мы что-то ищем в Интернете, мы запрашиваем слова - поисковый запрос, и в ответ надеемся получить текст, содержащий именно эти слова. Потому что мы знаем, что поисковая система будет искать в массиве информации именно запрошенные нами слова. Потому что именно таковой она была задумана, чтобы искать слова.

Поисковая машина ищет слова не в Интернете, а в своем индексе. В индексе поисковой машины находится информация только о небольшом количестве сайтов Интернета. Существуют поисковые машины, которые индексируют только сайты на английском языке и есть поисковые машины, которые заносят в свой индекс только русскоязычные сайты.

Поисковые машины Интернета
(в индексе находятся сайты на английском, немецком и других европейских языках)

Поисковая машина

Адрес в Интернете

1. Alta Vista http://www.altavista.com
2. Fast http://www.alltheweb.com
3. Google http://www.google.com/ncr
4. Yahoo! http://google.yahoo.com
5. MSN Search http://search.msn.com

Поисковые машины Рунета
(в индексе находятся сайты на русском языке)

Поисковая машина

Адрес в Интернете

1. Яндекс http://www.yandex.ru
2. Рамблер http://www.rambler.ru
3. Апорт http://www.aport.ru
4. Lycos http://www.lycos.ru
5. Punto http://www.punto.ru
6. Google http://www.google.com

Особенности некоторых поисковых машин Рунета

Поисковая машина Google не учитывает морфологию русского языка. Например, Google слова "диссертация" и "диссертации" считает разными.

Судите сами. Отправим в Google
http://www.google.com поисковый запрос "диссертации". Google в результатах поиска выдаст нам 151000 документов. Обратите внимание в результатах поиска на слова, выделенные жирным шрифтом. Именно эти слова Google считает соответствующими поисковому запросу. При запросе "диссертации" Google пропускает слова "диссертация" и считает только слова "диссертации".

Отправим в Google поисковый запрос "диссертация". Результат будет совершенно другой. Можно даже не сравнивать верхние позиции результата поиска. Посмотрите на количество найденных документов - всего 35300, почти в 4 раза меньше, чем по запросу "диссертации".

Информация о сайте может быть занесена не во все поисковые машины Рунета.

Так, например, месяц назад я отправил на индексацию свой сайт "Врач-аспирант" http://www.disser.ru одновременно в три крупнейшие поисковые машины Рунета - Яндекс, Рамблер и Апорт. Рамблер проиндексировал мой сайт через 2 дня, Яндекс - через неделю. Апорт до сих пор не проиндексировал мой сайт.

Другой важной характеристикой поисковой машины является способность переиндексировать сайт, т.е. обновлять в своем индексе информацию о сайте. Обычно робот-паук поисковой системы повторно заходит на сайт через 1-2 недели после первой индексации. Мощная поисковая машина обходит всю сеть за неделю (т.е. за месяц поисковая система переиндексирует сайт 3-4 раза). При этом составляется весьма свежий и довольно подробный индекс. При каждом новом цикле обхода индекс обновляется, и старые недействительные адреса удаляются.

По определенному поисковому запросу поисковая система выдает в результатах поиска только одну страницу с сайта, наиболее релевантную (соответствующую) поисковому запросу.

Это легко проверить. Отправьте в поисковую систему Yandex http://www.yandex.ru поисковый запрос кандидатская диссертация. На первой странице результатов поискового запроса Yandex выдаст вам статистику: страниц - 74095, сайтов - не менее 1283.

По умолчанию в результатах поискового запроса поисковая машина показывает по одной странице с каждого сайта, соответствующего поисковому запросу. В противном случае вместо 1283 страниц пользователю пришлось бы перебирать все 74095 с целью отбора нужной информации.

Нахождение сайта по чьему-либо запросу на первой странице результата поискового запроса совершенно не зависит от посещаемости сайта, поэтому и давно созданные сайты, и сайты-новички для поисковой машины равны.

От чего зависит позиция сайта в результате поискового запроса?

Положение страницы в списке результатов зависит от многих факторов. При каждом запросе ищутся (и получают более высокий ранг) фразы, точно совпадающие с запросом, затем предложения, содержащие все слова запроса, и т.д. Важную роль играет относительное положение слов.

Вот что определяет положение сайта в результате поискового запроса (при запросе по одному слову).

1. Частота слова в индексе поисковой машины и странице сайта, размер индекса и страницы сайта

2. Привилегированное положение слова в странице сайта (например, заголовок) и наличие его в списке ключевых слов данной страницы (метатег meta NAME="keywords")

3. Присутствие слова в "авторитетных" ссылках на страницу сайта

4. Индекс цитирования сайта

Индекс цитирования – принятая в научном мире мера "значимости" трудов какого-либо ученого. Величина индекса определяется количеством ссылок на этот труд (или фамилию) в других источниках. Однако для действительно точного определения значимости научных трудов важно не только количество ссылок на них, но и качество этих ссылок. Так, на работу может ссылаться авторитетное академическое издание, популярная брошюра или развлекательный журнал. Значимость у таких ссылок разная.

Тематический индекс цитирования сайта (тИЦ). Представляет собой "авторитетность" интернет-ресурса с учетом качественной характеристики ссылок на него с других сайтов. Эту качественную характеристику называют "весом" ссылки. Рассчитывается она по специально разработанному алгоритму. Большую роль играет тематическая близость ресурса и ссылающихся на него сайтов. Почти все поисковые машины умеют определять тематический индекс цитирования сайта. Например, тИЦ Русского медицинского сервера http://www.rusmedserv.com на 15 июля 2003 года составлял 3400 (по версии Яндекса).

Необходимо просматривать не только первую страницу результата поискового запроса, но и остальные.

Потому что нередко сайты, в которых содержится действительно нужная пользователю информация, находятся на 4 - 10 странице результата поискового запроса.

Почему так происходит?

Во-первых, многие создатели сайтов не оптимизируют страницы своего сайта для поисковых машин, например, не включают в страницы сайта метатеги. 

Метатеги - это служебные элементы web-документа, которые на экране не видны, но имеют важное значение при нахождении вашего сайта поисковыми системами. Метатеги облегчают поиск поисковым машинам, чтобы тем не нужно было лезть вглубь документа и анализировать весь текст сайта для составления определенной картины о нем. Наиболее важный метатег - meta NAME="keywords" - ключевые слова страницы сайта. Если слово из основного текста документа не расценено как "поисковый спам" и есть в "keywords" среди первых 50, то вес этого слова в запросе повышается, то есть документ получает более высокую релевантность.

Во-вторых, между веб-мастерами сайтов существует жесткая конкуренция за первые позиции в результате поискового запроса.

Согласно статистике, 80% посетителей на сайт приходит именно с поисковых машин. Рано или поздно веб-мастера осознают это и начинают адаптировать свои сайты к законам поисковых машин.

К сожалению, некоторые из создателей сайтов применяют нечестный метод раскрутки своего сайта через поисковые системы - так называемый "поисковый спам" для создания как будто бы соответствия содержания метатегов и остального текста сайта - размещают на страницах сайта скрытые слова, набранные цветом фона, так что они не мешают посетителям сайта. К счастью, создатели поисковых машин отслеживают подобные хитрости и сайт "поискового спамера" падает с достигнутых высот на самое дно. 

В Интернете малопригодны метафоры и образные сравнения. Они искажают истину, уводят пользователей Интернета от точной и однозначной информации. Чем меньше художественности и больше точности в стиле автора сайта - тем более высокие позиции в результатах поискового запроса занимает сайт.

В свою очередь, если вы хотите, чтобы поисковая машина находила для вас статьи в Интернете - думайте как машина, станьте машиной. Хотя бы на время. На время поиска.


Всего хорошего!


Остальные статьи вы можете почитать на сайте Врач-аспирант - http://www.disser.ru  


Критические замечания, пожелания и дополнения к данному выпуску почтовой рассылки присылайте по адресу: logvin@yandex.ru  


Если у вас есть собственные статьи - обязательно поделитесь ими с моими читателями - ваш бесценный опыт обогатит каждого посетителя сайта Врач-аспирант!


Copyright 2003 by Евгений Логвин. Все права защищены.

Мои статьи можно свободно перепечатывать на ваших сайтах и в почтовых рассылках если вы укажите внизу статьи следующую подпись:

Автор статьи: Евгений Логвин
E-mail: logvin@yandex.ru 
Сайт: http://www.disser.ru




http://subscribe.ru/
E-mail: ask@subscribe.ru
Отписаться
Убрать рекламу

В избранное