Программа проверки индексации сайта необходима для ответа на вопрос: "Какие страницы сайта были проиндексированы поисковой системой?". Когда страниц было меньше 100, то на проверку я затрачивал немного времени. Со временем количество страниц увеличивалось и незаметно для меня стало увеличиваться и затраченное время. Впервые я задумался о "потерянном времени" когда на проверку потратил около 5 часов. Этот факт и вынудил написать программу проверки индексации сайта. В результате теперь
на проверку 1500 страниц сайта я затрачиваю около получаса. И то это время я трачу на копирование в текстовый файл содержимого страниц отчёта, который мне выдаёт поисковая система Yandex на странице http://webmaster.yandex.ru/check.xml, а потом настаёт время программы проверки индексации. Несколько секунд и у меня на руках полный отчёт о том, как поисковый паучок "увидел" мой сайт.
Текстовый файл для обработки надо создать приблизительно в следующем формате:
Сайт п.Ровеньки (Белгородская область). Программы по различным предметам, рассказы из жизни и пр. rvsn2.narod.ru 33 КБ
Герб Российской Федерации rvsn2.narod.ru/gerb3.htm 27 КБ
Основные общеобразовательные школы Ровеньского района Белгородской области rvsn2.narod.ru/ob_osh.htm 26 КБ
Полезные ссылки и друзья сайта Ровеньского района Белгородской области Ровеньки rvsn2.narod.ru/ssilki.htm 27 КБ
Активная карта России Ровеньки Ровеньской район Белгородская область rvsn2.narod.ru/geo3.htm 28 КБ
Библиография сайта rvsn2.narod.ru Ровеньки Ровеньской район Белгородская область rvsn2.narod.ru/avt2.htm 26 КБ
Старинные и современные меры измерения площади rvsn2.narod.ru/meri3.htm 29 КБ
и т.д.
В принципе, как я уже сказал, я просто копирую содержимое страниц, которые выдаёт мне поисковик. Как заставить поисковик выдать вам информацию об индексации вашего сайта?
Очень просто:
Зайдите на страницу http://webmaster.yandex.ru/check.xml
Введите адрес ваше сайта без "www". Для своего сайта я ввожу "rvsn2.narod.ru"
Попадаем на страницу общего отчёта. Там должна появиться ссылка на главную страницу вашего сайта.
Если выдало сообщение "Искомая комбинация слов не найдена", то в лучшем случае это означает, то паучок ещё не занёс ваш сайт в базу данных поисковика, а в худшем случае - ваш сайт был удалён из базы данных за ваше некорректное поведение. Например, за "чёрные" способы раскруки сайта. Есть также средний тяжести диагноз - ваш сайт создан непрофессионально до такой степени, что поисковик его расценил, как "мусор" и не счёл нужным заносить его в свою базу данных.
Если же ваш сайт проиндексирован, то перейдите по ссылке "Ещё с сайта"
Переходите от страницы к странице и формируйте текстовый файл отчёта
Пока что такой алгоритм проверки меня удовлетворяет, но я уже начинаю подумываться об автоматизации формирования текстового файла отчёта. Хоть эта операция занимает у меня всего лишь полчаса, но мне и их жаль. К тому же мне просто лень это делать. Интересно, что пересилит: лень тратить полчаса на отчёт или лень усовершенствовать программу?
Чуть не забыл, имя файла главной страницы сайта в отчёте Yandex нет. Если сайт проиндексирован, то проиндексирована, конечно, и главная страница, но так как имени файла главной страницы в отчёте Yandex нет, то и в отчёте программы имя файла главной страницы будет в списке непроиндексированных.