Отправляет email-рассылки с помощью сервиса Sendsay

HTML

Здравствуйте!
А есть ли какие-нибудь неинтерактивные анализаторы HTML?
Надо, например, из кждой страницы вырезать заголовки H1 и текст под ними
в отдельные файлы.
(каждый в отдельный файл)
Что в таких случаях делают?

-*Название листа "[BSD] Решение вопросов по FreeBSD, OpenBSD и NetBSD";
Написать в лист: mailto:comp.soft.bsd.all-list@subscribe.ru
Адрес правил листа http://subscribe.ru/catalog/comp.soft.bsd.all/rules
Номер письма: 1659; Возраст листа: 404; Участников: 649
Адрес сайта рассылки: http://www.linuxrsp.ru
Адрес этого письма в архиве: http://subscribe.ru/archive/comp.soft.bsd.all/msg/349256

Ответить   Mon, 11 Apr 2005 22:38:10 +0400 (#349256)

 

Ответы:


при чем тут HTML?
тебе или фар с каким0нить плагином поможет или небольшая програмка на
пхп/перл


-*Название листа "[BSD] Решение вопросов по FreeBSD, OpenBSD и NetBSD";
Написать в лист: mailto:comp.soft.bsd.all-list@subscribe.ru
Адрес правил листа http://subscribe.ru/catalog/comp.soft.bsd.all/rules
Номер письма: 1660; Возраст листа: 404; Участников: 649
Адрес сайта рассылки: http://www.linuxrsp.ru
Адрес этого письма в архиве: http://subscribe.ru/archive/comp.soft.bsd.all/msg/349262

Ответить   Tue, 12 Apr 2005 08:44:37 +0300 (#349262)

 

Anton S. Yatsun wrote:

Обрабатываемых файлов достаточно много. перл/пхп я не знаю.
потому и пришла идея поискать готовую программку.

HTML оч похож на XML - может, есть существующие решения для XML?

-*Название листа "[BSD] Решение вопросов по FreeBSD, OpenBSD и NetBSD";
Написать в лист: mailto:comp.soft.bsd.all-list@subscribe.ru
Адрес правил листа http://subscribe.ru/catalog/comp.soft.bsd.all/rules
Номер письма: 1662; Возраст листа: 404; Участников: 649
Адрес сайта рассылки: http://www.linuxrsp.ru
Адрес этого письма в архиве: http://subscribe.ru/archive/comp.soft.bsd.all/msg/349286

Ответить   Mon, 11 Apr 2005 23:17:01 +0400 (#349286)

 

On Mon, 11 Apr 2005 22:38:10 +0400
andrew <and_h***@f*****.ru> wrote:

можно awk, можно grep
например:
$cat *.html |grep "<h1>" > h1.txt
$less h1.txt

-*Название листа "[BSD] Решение вопросов по FreeBSD, OpenBSD и NetBSD";
Написать в лист: mailto:comp.soft.bsd.all-list@subscribe.ru
Адрес правил листа http://subscribe.ru/catalog/comp.soft.bsd.all/rules
Номер письма: 1664; Возраст листа: 404; Участников: 649
Адрес сайта рассылки: http://www.linuxrsp.ru
Адрес этого письма в архиве: http://subscribe.ru/archive/comp.soft.bsd.all/msg/349482

Ответить   Tue, 12 Apr 2005 13:49:37 +0400 (#349482)

 

Anton K Davidenko wrote:

Если быть честным до конца, задача целиком включает в себя полный разбор
части страницы. Потому хотелось бы узнать о более продвинутых средствах.
Хотя, вероятно, всё же придётся либо учить перл, либо писать длинные и
неочевидные скрипты на шелле.

-*Название листа "[BSD] Решение вопросов по FreeBSD, OpenBSD и NetBSD";
Написать в лист: mailto:comp.soft.bsd.all-list@subscribe.ru
Адрес правил листа http://subscribe.ru/catalog/comp.soft.bsd.all/rules
Номер письма: 1665; Возраст листа: 404; Участников: 649
Адрес сайта рассылки: http://www.linuxrsp.ru
Адрес этого письма в архиве: http://subscribe.ru/archive/comp.soft.bsd.all/msg/349555

Ответить   Tue, 12 Apr 2005 06:28:01 -0700 (#349555)

 

Доброго времени суток andrew,

Tuesday, April 12, 2005, 4:28:01 PM, Вы писали:


учи Perl, в твоём случае есть варианты что "<H1>" открылся на одной
строке, А ЗАКРЫЛСЯ НА СЛЕДУЮЩЕЙ .... повод к размышлению !
--
С наилучшими пожеланиями,
Колесник Андрей
mailto:kolesn***@e*****.ua
ICQ: 208861095

-*Название листа "[BSD] Решение вопросов по FreeBSD, OpenBSD и NetBSD";
Написать в лист: mailto:comp.soft.bsd.all-list@subscribe.ru
Адрес правил листа http://subscribe.ru/catalog/comp.soft.bsd.all/rules
Номер письма: 1666; Возраст листа: 405; Участников: 649
Адрес сайта рассылки: http://www.linuxrsp.ru
Адрес этого письма в архиве: http://subscribe.ru/archive/comp.soft.bsd.all/msg/349834

Ответить   Колесник Андрей Tue, 12 Apr 2005 23:43:50 +0300 (#349834)