Продолжаем изучать книгу Игоря Ашманова и Андрея Иванова
«Оптимизация и продвижение сайтов в поисковых системах»
6.3. Как устроен индекс поисковой машины
Конверсия в чистый текст
Для начала текст
индексируемой страницы нужно очистить от всяких нетекстовых элементов: графики,
разметки (тегов) языка HTML, прочего «мусора». В результате получается чистый
текст, с которым дальше работает индексный робот.
Выборка слов
Из текста нужно
выбрать все слова, чтобы затем расположить их по алфавиту. Для этого поисковик
должен знать, что именно считается словом – последовательность букв (и какого
именно алфавита), числа, буквенно-цифровые последовательности, слова с дефисом
и т. П., а также что словом не считается и пропускается (пробелы, знаки
препинания и прочее). Ниже мы расскажем об этом чуть подробнее. А сейчас лишь
заметим, что у каждого поисковика есть свое определение того, что считать словом
в тексте (стандарта здесь, увы, не существует).
И так, поисковик
выбирает из текста все, что считается словами, и собирает их в отдельный
список.
Поучать может каждый, но стоит ли доверять этим поучениям.
Если у вас есть проблема в жизни, и вам нужна помощь, пишите
по адресу rasvopros@mail.ru с пометкой «проблема» в теме
письма.
Все представленные материалы носят ИСКЛЮЧИТЕЛЬНО
ознакомительный (образовательный) характер. Некоторые материалы взяты из
открытых источников в сети или были присланы подписчиками. Если Вы посчитали,
что Ваши авторские права были нарушены - сообщите, и мы вместе постараемся
придти к обоюдоприемлемому решению. Обладатели авторских прав на материалы,
опубликованные в рассылке, выступающие против их дальнейшего размещения и
распространения могут обратиться с просьбой об их удалении.
Copyright Андрей Луда, 2006-2015 г.г. Автор оставляет за
собой право отвечать не на все полученные письма и опубликовывать полностью или
частично, полученные письма без предварительного согласования. В случае, если
Вы желаете свое письмо оставить конфиденциальным, письменно сообщите об этом.