Отправляет email-рассылки с помощью сервиса Sendsay

Как сравнить две версии форматированного текста?

Надо сравнить две версии одного и того же документа без учета
форматирования абзацев. Слова в абзаце разделяются пробелами,
табуляциями и концом строки. Абзацы разделяются пустой строкой.
Собственно, задача пошире стоит -- есть пакет, для него есть дока в
html. Выходит новая версия пакета, естественно, дока где-то меняется.
Надо отследить изменения текста и разбивки на абзацы, чтобы изменить
русский перевод.

-*Название листа "Linux: разрешение вопросов, перспективы и общение";
Написать в лист: mailto:comp.soft.linux.discuss-list@subscribe.ru
Адрес правил листа http://subscribe.ru/catalog/comp.soft.linux.discuss/rules
Номер письма: 33719; Возраст листа: 1678; Участников: 1501
Адрес сайта рассылки: http://www.linuxrsp.ru
Адрес этого письма в архиве: http://subscribe.ru/archive/comp.soft.linux.discuss/msg/727820

Ответить   Tue, 26 Feb 2008 14:53:58 +0200 (#727820)

 

Ответы:

В сообщении от 26 февраля 2008 14:53 spider написал(a):

а если скормить эти html diffу?

-*Название листа "Linux: разрешение вопросов, перспективы и общение";
Написать в лист: mailto:comp.soft.linux.discuss-list@subscribe.ru
Адрес правил листа http://subscribe.ru/catalog/comp.soft.linux.discuss/rules
Номер письма: 33720; Возраст листа: 1678; Участников: 1501
Адрес сайта рассылки: http://www.linuxrsp.ru
Адрес этого письма в архиве: http://subscribe.ru/archive/comp.soft.linux.discuss/msg/727858

Ответить   Tue, 26 Feb 2008 17:45:30 +0200 (#727858)

 

Amper пишет:

Он не умеет символ новой строки `\n' интерпретировать как пробельный
материал `\t',` ', по крайней мере тот, что стоит у меня.

Допустим у меня есть некоторый текст. Я его беру и ломаю по три слова в
строке или по длине строки, или вообще все абзацы водну строку оформляю.
Текст этого никак не меняется -- меняется только формат. Это значит
переводчику там нечего делать.

-*Название листа "Linux: разрешение вопросов, перспективы и общение";
Написать в лист: mailto:comp.soft.linux.discuss-list@subscribe.ru
Адрес правил листа http://subscribe.ru/catalog/comp.soft.linux.discuss/rules
Номер письма: 33724; Возраст листа: 1680; Участников: 1504
Адрес сайта рассылки: http://www.linuxrsp.ru
Адрес этого письма в архиве: http://subscribe.ru/archive/comp.soft.linux.discuss/msg/728264

Ответить   Thu, 28 Feb 2008 14:31:29 +0200 (#728264)

 

On Thu, Feb 28, 2008 at 02:31:29PM +0200, spider wrote:

Вначале преобразовать текст в одну длинную строку а потом для облегчения
последующего поиска различий разбить ее на несколько строк фиксированной
длинны.

-*Название листа "Linux: разрешение вопросов, перспективы и общение";
Написать в лист: mailto:comp.soft.linux.discuss-list@subscribe.ru
Адрес правил листа http://subscribe.ru/catalog/comp.soft.linux.discuss/rules
Номер письма: 33725; Возраст листа: 1680; Участников: 1504
Адрес сайта рассылки: http://www.linuxrsp.ru
Адрес этого письма в архиве: http://subscribe.ru/archive/comp.soft.linux.discuss/msg/728269

Ответить   Thu, 28 Feb 2008 14:52:29 +0200 (#728269)

 

spider wrote:

А такой вариант не проходит?

Открываем оба текста в OOO Writer, сохраняем в .txt дальше обрабатываем diff

Ответить   Tue, 26 Feb 2008 17:34:10 +0300 (#727864)

 

Eugene Saenko пишет:

Затем повторяем это со вторым файлом, с третьим, ... с последним. Если
этих файлов несколько сотен, как например, у netpbm, или еще больше, то
пока все проверю, выйдет новый апдейт этого документа.

-*Название листа "Linux: разрешение вопросов, перспективы и общение";
Написать в лист: mailto:comp.soft.linux.discuss-list@subscribe.ru
Адрес правил листа http://subscribe.ru/catalog/comp.soft.linux.discuss/rules
Номер письма: 33726; Возраст листа: 1680; Участников: 1504
Адрес сайта рассылки: http://www.linuxrsp.ru
Адрес этого письма в архиве: http://subscribe.ru/archive/comp.soft.linux.discuss/msg/728271

Ответить   Thu, 28 Feb 2008 14:54:51 +0200 (#728271)

 

spider wrote:

Можно с помощью lynx:

lynx --dump infile.html > outfile.txt

Проделать это для кучи файлов несложно. Сравнить результаты, в общем-то,
тоже.

Сам так делаю для сравнения директорий с кучами html.

Ответить   Thu, 28 Feb 2008 16:17:12 +0300 (#728276)