KirovLUG: пользователи Linux в Вятке (comp.soft.linux.kirovlug) : Рассылка : Subscribe.Ru

← Ноябрь 2004 →
1 01.11.2004 10:22:58 17:09:03 21:47:04	2 02.11.2004 02:39:08 02:39:50 08:19:28 09:36:01 10:01:45 18:05:19 20:18:30 22:42:49 22:43:01 23:14:37 23:14:47	3 03.11.2004 17:32:13 17:33:44	4	5	6	7
8 08.11.2004 01:28:36 19:47:52	9	10 10.11.2004 11:45:59 11:47:08 16:46:48 16:58:32 18:13:31 18:19:10 22:35:10 23:03:30	11 11.11.2004 11:21:49 11:41:50 14:55:01 21:26:10	12 12.11.2004 07:06:24 08:20:27 14:19:15 14:20:26 15:22:35 15:29:22 23:12:52 23:48:17	13 13.11.2004 04:40:42 09:17:33 09:26:21 12:34:35	14
15 15.11.2004 08:14:16 13:28:24 13:49:22 15:48:22 15:52:39 21:52:36 22:59:09	16 16.11.2004 08:49:32 10:44:37 11:16:12 11:32:00 11:45:56 12:53:11 13:07:37 17:26:44	17 17.11.2004 00:09:00 00:45:47 14:51:24 18:06:39	18 18.11.2004 11:02:02 15:48:01 16:17:26	19 19.11.2004 02:31:08 08:17:13	20	21
22 22.11.2004 08:53:45 12:45:51	23	24 24.11.2004 06:17:17 10:11:48 10:13:01 15:40:48 15:46:11 16:34:10 19:21:26	25 25.11.2004 10:29:59 10:35:43 18:00:15 22:33:59 22:34:08	26 26.11.2004 04:40:03 05:00:05 08:18:53 11:21:57 12:39:33 14:22:08 16:23:23 17:47:38 17:50:45 20:00:24 20:50:43	27	28
29 29.11.2004 08:35:51 08:39:42 09:09:56 09:35:57 09:36:57 09:54:36 09:55:53 09:58:30 11:41:14 12:15:13 12:15:26 13:03:32 16:02:04 16:10:20	30 30.11.2004 11:04:43 22:49:29

Работа над проектом Lindocs. Скрипты конверта из текущего состояния

Создаем список обрабатываемых документов:

$ ls -1 *.html > htmllist

Удаляем те документы, которые не несут данных:

begin.html
default.html
index.html

Удалим "не-юниксовые" окончания строк в html-файлах:

$ ls -1 *.html | xargs dos2unix

Каждый файл выглядит примерно следующим образом:

Теоретические основы 
 
<a href="Linux/Docs/vodol.html">В. Водолазкий "Путь к LINUX"</a> 
 
<a href="Linux/other/html/acquaintance_part_01.htm">Знакомство с Linux.</a>
 <a href="Linux/Sites/www.kuzbass.ru/docs/unixprogenv/ch1.txt">1</a>
<a href="Linux/other/html/acquaintance_part_02.htm">2</a>
<a href="Linux/other/html/acquaintance_part_23.htm">23</a> 
В.А.Костромин. 14 дней жизни одной операционной системы. 
    <a href="Linux/Docs/general/day_1-6.htm">День 1-6</a> 
<a href="Linux/Sites/MyComp/224_02.htm">Висит? Снимем!</a> 

Начнем писать скрипт по шагам:

Шаг первый. Вычленяем информацию из одной строки

Напишем отдeльную функцию извлекающую ссылку и ее описание из
передаваемой строки.

sub extract_data {
my($l_str) = @_[0];
my $l_link = $l_str;
my $l_desc = $l_str;
# Выделяем ссылку из строки
$l_link =~ s/(?i)(.*)\<a\shref\=\"(.*)\"\>(.*)/\2/;
# Выделяем описание из строки
$l_desc =~ s/(?i)(.*)\<a\shref\=\"(.*)\"\>(.*)\<\/a\>(.*)/\3/;
return ($l_link, $l_desc);
}
Напишем отдeльную функцию извлекающую описание темы материала,
состоящего из нескольких частей:

sub extract_topic {
my($l_str) = @_[0];
# Выделяем описание из строки
my $l_desc = $l_str;
$l_desc =~ s/(?i)^(.*)\<BR\>(.*)/\1/;
return $l_desc;
}
Напишем отдeльную функцию извлекающую описание для всего файла, т.е.
для индекса:

sub extract_index {
my($l_str) = @_[0];
my $l_desc = $l_str;
# Выделяем описание из строки
$l_desc =~ s/(?i)^\<strong\>(\&nbsp\;){4}(.*)\<\/strong\>(.*)/\2/;
return $l_desc;
}
Шаг второй. Определение типа строки

Необходимо определять вид(тип) строки, для того чтобы определять
какую информацию из нее нужно извлекать и какой xml-блок генерировать
после. Напишем функцию, которая определяла бы тип строки, выбирая
эту строку по номеру из глобального массива всех строк, входящих в файл.

sub def_str_type {
my ($l_num) = @_[0];
my $l_res = 0;
# Строка, которая выглядит как обычная
if ( @f_array[$l_num] =~ /(?i)^\<a\shref.*\<br\>/ ) {
# Надо проверить следующие за ней
if ( def_str_type($l_num+1) == 31 ) {
# Строка - начало материала из нескольких частей с одной темой
# так как за ней соответствующая строка
$l_res = 30;
}
else {
# Все таки обычная строка
$l_res = 1;
}
}
# Строка - начало материала из нескольких частей
elsif ( @f_array[$l_num] =~ /(?i)^\<a\shref/ ) {
$l_res = 2;
}
# Строка - продолжение и конец материала из нескольких частей
elsif ( @f_array[$l_num] =~ /(?i)^\s+.*\<a\shref/ ) {
$l_res = 21;
}
# Строка - продолжение и конец материала из нескольких частей с одной
темой
elsif ( @f_array[$l_num] =~ /(?i)^(\&nbsp\;){2,}.*\<a\shref.*\<br\>/
) {
$l_res = 31;
}
# Строка выглядит как не несущая в себе данных, но за ней продолжение
материала
# состоящего из нескольких частей, значит, данная строка начало этого
материала
elsif ( ( $l_num+1 < $#f_array ) && ( def_str_type($l_num+1) == 31 )
) {
$l_res = 3;
}
return $l_res;
}
Видно, что внутри функции происходит ее рекурсивный вызов...

Шаг третий. Генерация xml-блоков

Процедура, которая учитывает переданные ей параметры и в зависимости
от них генерирует xml-блок для ссылки:

sub generate_record {
my ($l_type, $l_id, $l_part, $l_link, $l_desc, $l_index) = @_;
# Генерируем xml-блок
my $l_res = "";
$l_res = $l_res." <element";
length($l_type) != 0 ? $l_res = $l_res." type=\"topic\"" : $l_res = $l_res;
length($l_id) != 0 ? $l_res = $l_res." id=\"".$l_id."\"" : $l_res = $l_res;
length($l_part) != 0 ? $l_res = $l_res." part=\"".$l_part."\"" : $l_res
= $l_res;
$l_res = $l_res.">\n";
length($l_link) != 0 ? $l_res = $l_res." <link type=\"rel\">".$l_link."</link>\n"
: $l_res = $l_res;
$l_res = $l_res." <desc>".$l_desc."</desc>\n";
$l_res = $l_res." <author></author>\n";
$l_res = $l_res." <index>".$l_index."</index>\n";
$l_res = $l_res." </element>\n";
return $l_res;
}
Процедура, которая учитывает переданные ей параметры и в зависимости
от них генерирует xml-блок для индекса:

sub generate_index {
my ($l_index, $l_desc) = @_;
# Генерируем xml-блок
my $l_res = "";
$l_res = $l_res." <index>\n";
$l_res = $l_res." <value>".$l_index."</value>\n";
$l_res = $l_res." <parent></parent>\n";
$l_res = $l_res." <desc>".$l_desc."</desc>\n";
$l_res = $l_res." </index>\n";
return $l_res;
}
Шаг четвертый. Работа с содержимым html-файла

Итак, нужно последовательно перебирать все строки файла,
определять их тип, извлекать из нее нужные данные и генерировать
xml-блоки. Так как при генерации блока для ссылок, обозначающих
материал состоящий из нескольких частей, необходим уникальный
идентификатор, то его генерировать будем с помощью функции md5_base64
из модуля Digest::MD5.

while ( $count < $#f_array ) {
# Выбираем строки по одной
$next_s = @f_array[$count];
# Подошли к концу файла
if ( $is_content && ( ( $cur_s =~ /(?i)^\<\/BODY/ ) && ( $next_s =~ /(?i)^\<\/HTML/
) ) ) {
$is_content = 0;
}
if ( $is_content ) {
# В зависимости от типа строки генерируем необходимый элемент
$str_type = def_str_type($count-1);
if ( $str_type == 1 ) {
$xml_block = $xml_block.generate_record("", "", "", extract_data($cur_s),
$cur_index);
}
elsif ( $str_type == 2 ) {
$id_in = md5_base64($cur_s);
$part_in = 0;
$xml_block = $xml_block.generate_record("", $id_in, $part_in,
extract_data($cur_s), $cur_index);
}
elsif ( $str_type == 21 ) {
$part_in += 1;
$xml_block = $xml_block.generate_record("", $id_in, $part_in,
extract_data($cur_s), $cur_index);
}
elsif ( $str_type == 3 ) {
$id_in = md5_base64($cur_s);
$xml_block = $xml_block.generate_record(1, $id_in, "", "", extract_topic($cur_s),
$cur_index);
}
elsif ( $str_type == 30 ) {
$id_in = md5_base64($cur_s);
($var, $topic) = extract_data($cur_s);
$xml_block = $xml_block.generate_record(1, $id_in, "", "", $topic,
$cur_index);
$xml_block = $xml_block.generate_record("", $id_in, "", extract_data($cur_s),
$cur_index);
}
elsif ( $str_type == 31 ) {
$xml_block = $xml_block.generate_record("", $id_in, "", extract_data($cur_s),
$cur_index);
}
else {
print $cur_s."\n";
}
}
# Сейчас начнутся ссылки на материал
if ( ! $is_content && ( ( $cur_s =~ /(?i)^\<BR/ ) && ( $prev_s =~ /(?i)^\<strong/
) ) ) {
$is_content = 1;
$index_block = generate_index($cur_index, extract_index($prev_s));
}
$prev_s = $cur_s;
$cur_s = $next_s;
$count += 1;
}
Шаг пятый - заключительный. Сварка и спайка

После сварки и спайки получился следующий скрипт:

begin genrate.pl #!/usr/bin/perl

# Импортируем функцию из модуля, необходимую для генерации уникальных
# идентификаторов
use Digest::MD5 qw(md5_base64);

# Считываем параметры переданные из командной строки
# Имя файла с листингом обрабатываемых файлов
my $f_list = @ARGV[0];
# Имя файла куда помещаются результаты
my $f_out = @ARGV[1];

# Начальные значения рабочих переменных
# xml-блок, где накапливаются индексы
my $xml_index = " <indexes>\n";
# xml-блок, где накапливаются ссылки
my $xml_content = " <content>\n";
# Переменные, в которых находятся текущий индексный блок и текущий блок
# ссылок
my $t_xi = "";
my $t_xc = "";

##
# Функция: convert_one
# Входные параметры: $f_name: строковая величина
# Выходные данные: $index_block: строковая величина
# $xml_block: строковая величина
# Описание: Выполняет преобразование из html-файла, имя
# которого передано во входном параметре, в xml-блок по определенным
# правилам. В итоге получается два xml-блока: для индексной секции и
# секции ссылок. Эти блоки возвращаются как результат функции
sub convert_one {
# Имя файла, с которым работаем
my ($f_name) = $_[0];
# Список строк, входящих в файл
local @f_array = ();
# Заполняем список строк
open(F_IN, $f_name) || die "cannot open $f_name for reading: $!";
while (<F_IN>) {
chomp;
push(@f_array, $_);
}
# Закрываем файл
close(F_IN) || die "can't close $f_name: $!";
# Текущий индекс для документа
my $cur_index = substr($f_name, 0, length($f_name)-5);
# Начальное значение, обрабатываемой строки
my $cur_s = "";
# Строки вокруг обрабатываемой
my $prev_s = "";
my $next_s = "";
# Флаг наличия содержания
my $is_content = 0;
# Первоначальное значение счетчика строк
my $count = 0;
# Переменные, куда будет помещаться xml-блок, возращаемый как
# результат
my $index_block = "";
my $xml_block = "";

##
# Функция: generate_record
# Входные параметры: $l_type: строковая величина
# $l_id: строковая величина
# $l_part: строковая величина
# $l_link: строковая величина
# $l_desc: строковая величина
# $l_index: строковая величина
# Выходные данные: $l_res: строковая величина
# Описание: Генерирует xml-запись, атрибутами и полями которой
# являются переданные функции параметры. Сгенерированная запись
# помещается в переменную, которую функция возвращает как результат
sub generate_record {
my ($l_type, $l_id, $l_part, $l_link, $l_desc, $l_index) = @_;
# Генерируем xml-блок
my $l_res = "";
$l_res = $l_res." <element";
length($l_type) != 0 ? $l_res = $l_res." type=\"topic\"" : $l_res
= $l_res;
length($l_id) != 0 ? $l_res = $l_res." id=\"".$l_id."\"" : $l_res
= $l_res;
length($l_part) != 0 ? $l_res = $l_res." part=\"".$l_part."\"" :
$l_res = $l_res;
$l_res = $l_res.">\n";
length($l_link) != 0 ? $l_res = $l_res." <link type=\"rel\">".$l_link."</link>\n"
: $l_res = $l_res;
$l_res = $l_res." <desc>".$l_desc."</desc>\n";
$l_res = $l_res." <author></author>\n";
$l_res = $l_res." <index>".$l_index."</index>\n";
$l_res = $l_res." </element>\n";
return $l_res;
}

##
# Функция: generate_index
# Входные параметры: $l_index: строковая величина
# $l_desc: строковая величина
# Выходные данные: $l_res: строковая величина
# Описание: Генерирует xml-запись, атрибутами и полями которой
# являются переданные функции параметры. Сгенерированная запись
# помещается в переменную, которую функция возвращает как результат
sub generate_index {
my ($l_index, $l_desc) = @_;
# Генерируем xml-блок
my $l_res = "";
$l_res = $l_res." <index>\n";
$l_res = $l_res." <value>".$l_index."</value>\n";
$l_res = $l_res." <parent></parent>\n";
$l_res = $l_res." <desc>".$l_desc."</desc>\n";
$l_res = $l_res." </index>\n";
return $l_res;
}

##
# Функция: extract_data
# Входные параметры: $l_str: строковая величина
# Выходные данные: $l_link: строковая величина
# $l_desc: строковая величина
# Описание: Извлекает из входной строки ссылку и описание
# материала, которые потом возвращает как результат
sub extract_data {
my($l_str) = @_[0];
my $l_link = $l_str;
my $l_desc = $l_str;
# Выделяем ссылку из строки
$l_link =~ s/(?i)(.*)\<a\shref\=\"(.*)\"\>(.*)/\2/;
# Выделяем описание из строки
$l_desc =~ s/(?i)(.*)\<a\shref\=\"(.*)\"\>(.*)\<\/a\>(.*)/\3/;
return ($l_link, $l_desc);
}

##
# Функция: extract_topic
# Входные параметры: $l_str: строковая величина
# Выходные данные: $l_desc: строковая величина
# Описание: Извлекает из входной строки описание материала,
# которое является описанием для целой темы
sub extract_topic {
my($l_str) = @_[0];
# Выделяем описание из строки
my $l_desc = $l_str;
$l_desc =~ s/(?i)^(.*)\<BR\>(.*)/\1/;
return $l_desc;
}

##
# Функция: extract_index
# Входные параметры: $l_str: строковая величина
# Выходные данные: $l_desc: строковая величина
# Описание: Извлекает из входной строки описание, которое
# является описанием индекса
sub extract_index {
my($l_str) = @_[0];
my $l_desc = $l_str;
# Выделяем описание из строки
$l_desc =~ s/(?i)^\<strong\>(\&nbsp\;){4}(.*)\<\/strong\>(.*)/\2/;
return $l_desc;
}

##
# Функция: def_str_type
# Входные параметры: $l_num: целое число
# Выходные данные: $l_res: строковая величина
# Описание: Функция работает с глобальным массивом @f_array,
# определяя тип строк, которые в него входят, номер строки - $l_num
# Тип, определенный у строки, возращается как результат. В функции
# происходит рекурсивный вызов самой себя.
# Возвращаемые типы:
# 0 - строка не несущая информации
# 1 - обычная ссылка
# 2 - ссылка - начало материала из нескольких частей
# 21 - ссылка - продолжение или конец материала из нескольких частей
# 3 - строка - начало материала из нескольких частей с одной темой
# 30 - ссылка - начало материала из нескольких частей с одной темой
# 31 - ссылка - продолжение или конец материала из нескольких частей
# с одной темой
sub def_str_type {
my ($l_num) = @_[0];
my $l_res = 0;
# Строка, которая выглядит как обычная
if ( @f_array[$l_num] =~ /(?i)^\<a\shref.*\<br\>/ ) {
# Надо проверить следующие за ней
if ( def_str_type($l_num+1) == 31 ) {
# Строка - начало материала из нескольких частей с одной
темой
# так как за ней соответствующая строка
$l_res = 30;
}
else {
# Все таки обычная строка
$l_res = 1;
}
}
# Строка - начало материала из нескольких частей
elsif ( @f_array[$l_num] =~ /(?i)^\<a\shref/ ) {
$l_res = 2;
}
# Строка - продолжение и конец материала из нескольких частей
elsif ( @f_array[$l_num] =~ /(?i)^\s+.*\<a\shref/ ) {
$l_res = 21;
}
# Строка - продолжение и конец материала из нескольких частей с одной
темой
elsif ( @f_array[$l_num] =~ /(?i)^(\&nbsp\;){2,}.*\<a\shref.*\<br\>/
) {
$l_res = 31;
}
# Строка выглядит как не несущая в себе данных, но за ней продолжение
материала
# состоящего из нескольких частей, значит, данная строка начало этого
материала
elsif ( ( $l_num+1 < $#f_array ) && ( def_str_type($l_num+1) == 31
) ) {
$l_res = 3;
}
return $l_res;
}

# Цикл выборки строк из файла
while ( $count < $#f_array ) {
# Выбираем строки по одной
$next_s = @f_array[$count];
# Подошли к концу файла
if ( $is_content && ( ( $cur_s =~ /(?i)^\<\/BODY/ ) && ( $next_s
=~ /(?i)^\<\/HTML/ ) ) ) {
$is_content = 0;
}
if ( $is_content ) {
# В зависимости от типа строки генерируем необходимый элемент
$str_type = def_str_type($count-1);
if ( $str_type == 1 ) {
$xml_block = $xml_block.generate_record("", "", "", extract_data($cur_s),
$cur_index);
}
elsif ( $str_type == 2 ) {
$id_in = md5_base64($cur_s);
$part_in = 0;
$xml_block = $xml_block.generate_record("", $id_in, $part_in,
extract_data($cur_s), $cur_index);
}
elsif ( $str_type == 21 ) {
$part_in += 1;
$xml_block = $xml_block.generate_record("", $id_in, $part_in,
extract_data($cur_s), $cur_index);
}
elsif ( $str_type == 3 ) {
$id_in = md5_base64($cur_s);
$xml_block = $xml_block.generate_record(1, $id_in, "", "",
extract_topic($cur_s), $cur_index);
}
elsif ( $str_type == 30 ) {
$id_in = md5_base64($cur_s);
($var, $topic) = extract_data($cur_s);
$xml_block = $xml_block.generate_record(1, $id_in, "", "",
$topic, $cur_index);
$xml_block = $xml_block.generate_record("", $id_in, "", extract_data($cur_s),
$cur_index);
}
elsif ( $str_type == 31 ) {
$xml_block = $xml_block.generate_record("", $id_in, "", extract_data($cur_s),
$cur_index);
}
else {
print $cur_s."\n";
}
}
# Сейчас начнутся ссылки на материал
if ( ! $is_content && ( ( $cur_s =~ /(?i)^\<BR/ ) && ( $prev_s =~
/(?i)^\<strong/ ) ) ) {
$is_content = 1;
$index_block = generate_index($cur_index, extract_index($prev_s));
}
$prev_s = $cur_s;
$cur_s = $next_s;
$count += 1;
}
return ($index_block, $xml_block);
}

# Выбираем по одной строки из файла со списком - определяем имя
# обрабатываемого файла.
open(F_LIST, $f_list) || die "cannot open $f_list for reading: $!";
while (<F_LIST>) {
chomp;
# Вызыаем процедуру конверта для данного файла
($t_xi, $t_xc) = convert_one($_);
# Накапливаем полученные результаты
$xml_index = $xml_index.$t_xi;
$xml_content = $xml_content.$t_xc;
}
close(F_LIST) || die "can't close $f_list: $!";
# Ставим закрывающие теги в блоках
$xml_index = $xml_index." </indexes>\n";
$xml_content = $xml_content." </content>\n";
# Формируем выходной файл
open(F_OUT,">".$f_out) || die "cannot open $f_out for write: $!";
print F_OUT "<lindocs>\n";
print F_OUT $xml_index;
print F_OUT $xml_content;
print F_OUT "</lindocs>\n";
close(F_OUT) || die "can't close $f_out: $!";
end genrate.pl В качестве входноых параметров для него передается имя файла со
списком обрабатываемых файлов и выходной файл, в который будет помещено
получившееся xml-дерево.

← Ноябрь 2004 →
1 01.11.2004 10:22:58 17:09:03 21:47:04	2 02.11.2004 02:39:08 02:39:50 08:19:28 09:36:01 10:01:45 18:05:19 20:18:30 22:42:49 22:43:01 23:14:37 23:14:47	3 03.11.2004 17:32:13 17:33:44	4	5	6	7
8 08.11.2004 01:28:36 19:47:52	9	10 10.11.2004 11:45:59 11:47:08 16:46:48 16:58:32 18:13:31 18:19:10 22:35:10 23:03:30	11 11.11.2004 11:21:49 11:41:50 14:55:01 21:26:10	12 12.11.2004 07:06:24 08:20:27 14:19:15 14:20:26 15:22:35 15:29:22 23:12:52 23:48:17	13 13.11.2004 04:40:42 09:17:33 09:26:21 12:34:35	14
15 15.11.2004 08:14:16 13:28:24 13:49:22 15:48:22 15:52:39 21:52:36 22:59:09	16 16.11.2004 08:49:32 10:44:37 11:16:12 11:32:00 11:45:56 12:53:11 13:07:37 17:26:44	17 17.11.2004 00:09:00 00:45:47 14:51:24 18:06:39	18 18.11.2004 11:02:02 15:48:01 16:17:26	19 19.11.2004 02:31:08 08:17:13	20	21
22 22.11.2004 08:53:45 12:45:51	23	24 24.11.2004 06:17:17 10:11:48 10:13:01 15:40:48 15:46:11 16:34:10 19:21:26	25 25.11.2004 10:29:59 10:35:43 18:00:15 22:33:59 22:34:08	26 26.11.2004 04:40:03 05:00:05 08:18:53 11:21:57 12:39:33 14:22:08 16:23:23 17:47:38 17:50:45 20:00:24 20:50:43	27	28
29 29.11.2004 08:35:51 08:39:42 09:09:56 09:35:57 09:36:57 09:54:36 09:55:53 09:58:30 11:41:14 12:15:13 12:15:26 13:03:32 16:02:04 16:10:20	30 30.11.2004 11:04:43 22:49:29

KirovLUG: пользователи Linux в Вятке

Статистика

За 2004-11-17

Работа над проектом Lindocs. Скрипты конверта из текущего состояния

linuxовка

Re: ir

Re: ir