Вопросы
Здравствуйте.
Помогите, плиз, надо срочно ответы на эти вопросы:
1) Алгоритмы сканирования сети (web-страниц). (какие типы или виды бывают)
2) Где и как физически хранятся сообщения (на форуме)?
3) Каковы возможности PerlScript в этой связи?
4) В связи с чем при автовыборе кодировки отображение страницы все же
реализуется не в той кодировке, в которой надо?
5) Возможности HTML для настройки под конкретный браузер (IE или NN)
Я знаю, что их много, хоть некоторые.
6) Какой рейтинг среди других сервисов интернета занимают конференции? (по
популярности)
7) какой процент среди документов в сети занимают документы, сделанные с
использованием фреймов?
Заранее огромное спасибо.
Здравствуйте !
А какие алгоритмы Вы имеете ввиду ?
В смысле, общий алгоритм сканирования, как перебрать страницы на сайте ?
Тут все достаточно просто - программа сканнер получает некий начальный
документ с сервера.
Например, некий поисковик хочет проиндексировать сайт
http://SoftMaker.fatal.ru
Он шлет запрос на сервер и сервер дает ему обратно документ
http://SoftMaker.fatal.ru/index.htm
Поисковик просматривает весь документ и выявляет в нем все участки типа
<a ... href="адрес" ...>, то есть ссылки. Он составляет список ссылок,
возможно, некоторые откидывает в соответствии с некоторыми ограничениями
(например, описанными в файле robots сайта). И проделывает то же что было
описано выше, получая документы уже по этим ссылкам (он также из документов)
извлекает ссылки, и.т.д.
Это смотря на каком форуме. Для хранения сообщений может использоваться
либо какая нибуть база данных (MySQL, например), либо файлы определенного
формата (собственно тоже, ничто иное, как своеобразная БД).
Например, форум iconboard использует для этого простые текстовые файлы.
Собственно, форум iconboard, например, и написан на Perl.
А перл как язык изначально был создан для обработки текстовой информации -
формирования отчетов. Там, например, просто и естесственно обрабатываются
регулярные выражения.
Автовыбор кодировки, Должно быть, реализуется эмпирическими алгоритмами,
не дающими полной гарнтии правильного выбора. А, может, просто браузер
глючит. Может также быть неправильна указана кодировка в самом HTML -
документе.
Затрудняюсь сказать насчет HTML, но при помощи Java Script, например,
браузер определяется элементарно, а потом документ "настраивается" под
конкретный браузер. Но тут уже речь о DHTML и DOM.
Наверно, высокий :-)
Сомневаюсь, что кто то подводил статистику.
Вобщем считается, что использование фреймов нежелательно.
Например, из-за трудностей с индексированием поисковиками, и др.
Но все эти проблемы решаемы.
Посмотрите например на http://SoftMaker.fatal.ru на RSDN.ru
На Microsoft.com я также встречал фреймы (в разделе MSDN).
Vic.
-*Информационный канал Subscribe.Ru
Написать в лист: mailto:inet.search.searchengines-list@subscribe.ru
Отписаться: http://subscribe.ru/member/unsub?grp=inet.search.searchengines&email=
http://subscribe.ru/ mailto:ask@subscribe.ru