Отправляет email-рассылки с помощью сервиса Sendsay

За 2008-02-28

Re: Как сравнить две версии форматированного текста?

spider wrote:
> Eugene Saenko пишет:
>
>> spider wrote:
>>
>>> Надо сравнить две версии одного и того же документа без учета
>>> форматирования абзацев. Слова в абзаце разделяются пробелами,
>>> табуляциями и концом строки. Абзацы разделяются пустой строкой.
>>> Собственно, задача пошире стоит -- есть пакет, для него есть дока в
>>> html. Выходит новая версия пакета, естественно, дока где-то меняется.
>>> Надо отследить изменения текста и разбивки на абзацы, чтобы изменить
>>> русский перевод.
>>>
>> А такой вариант не проходит?
>>
>> Открываем оба текста в OOO Writer, сохраняем в .txt дальше обрабатываем diff
>>
> Затем повторяем это со вторым файлом, с третьим, ... с последним. Если
> этих файлов несколько сотен, как например, у netpbm, или еще больше, то
> пока все проверю, выйдет новый апдейт этого документа.
>
>
Можно с помощью lynx:

lynx --dump infile.html > outfile.txt

Проделать это для кучи файлов несложно. Сравнить результаты, в общем-то,
тоже.

Сам так делаю для сравнения директорий с кучами html.

   2008-02-28 16:06:08 (#728276)

Re: Как сравнить две версии форматированного текста?

Eugene Saenko пишет:
> spider wrote:
>> Надо сравнить две версии одного и того же документа без учета
>> форматирования абзацев. Слова в абзаце разделяются пробелами,
>> табуляциями и концом строки. Абзацы разделяются пустой строкой.
>> Собственно, задача пошире стоит -- есть пакет, для него есть дока в
>> html. Выходит новая версия пакета, естественно, дока где-то меняется.
>> Надо отследить изменения текста и разбивки на абзацы, чтобы изменить
>> русский перевод.
> А такой вариант не проходит?
>
> Открываем оба текста в OOO Writer, сохраняем в .txt дальше обрабатываем diff
Затем повторяем это со вторым файлом, с третьим, ... с последним. Если
этих файлов несколько сотен, как например, у netpbm, или еще больше, то
пока все проверю, выйдет новый апдейт этого документа.

-*Название листа "Linux: разрешение вопросов, перспективы и общение";
Написать в лист: mailto:comp.soft.linux.discuss-list@subscribe.ru
Адрес правил листа http://subscribe.ru/catalog/comp.soft.linux.discuss/rules
Номер письма: 33726; Возраст листа: 1680; Участников: 1504
Адрес сайта рассылки: http://www.linuxrsp.ru
Адрес этого письма в архиве: http://subscribe.ru/archive/comp.soft.linux.discuss/msg/728271

   2008-02-28 15:44:08 (#728271)

Re: Как сравнить две версии форматированного текста?

On Thu, Feb 28, 2008 at 02:31:29PM +0200, spider wrote:
> > а если скормить эти html diffу?
> Он не умеет символ новой строки `\n' интерпретировать как пробельный
> материал `\t',` ', по крайней мере тот, что стоит у меня.
>
> Допустим у меня есть некоторый текст. Я его беру и ломаю по три слова в
> строке или по длине строки, или вообще все абзацы водну строку оформляю.
> Текст этого никак не меняется -- меняется только формат. Это значит
> переводчику там нечего делать.

Вначале преобразовать текст в одну длинную строку а потом для облегчения
последующего поиска различий разбить ее на несколько строк фиксированной
длинны.

-*Название листа "Linux: разрешение вопросов, перспективы и общение";
Написать в лист: mailto:comp.soft.linux.discuss-list@subscribe.ru
Адрес правил листа http://subscribe.ru/catalog/comp.soft.linux.discuss/rules
Номер письма: 33725; Возраст листа: 1680; Участников: 1504
Адрес сайта рассылки: http://www.linuxrsp.ru
Адрес этого письма в архиве: http://subscribe.ru/archive/comp.soft.linux.discuss/msg/728269

   2008-02-28 15:42:08 (#728269)

Re: Как сравнить две версии форматированного текста?

Amper пишет:
> В сообщении от 26 февраля 2008 14:53 spider написал(a):
>> Надо сравнить две версии одного и того же документа без учета
>> форматирования абзацев. Слова в абзаце разделяются пробелами,
>> табуляциями и концом строки. Абзацы разделяются пустой строкой.
>> Собственно, задача пошире стоит -- есть пакет, для него есть дока в
>> html. Выходит новая версия пакета, естественно, дока где-то меняется.
>> Надо отследить изменения текста и разбивки на абзацы, чтобы изменить
>> русский перевод.
>
> а если скормить эти html diffу?
Он не умеет символ новой строки `\n' интерпретировать как пробельный
материал `\t',` ', по крайней мере тот, что стоит у меня.

Допустим у меня есть некоторый текст. Я его беру и ломаю по три слова в
строке или по длине строки, или вообще все абзацы водну строку оформляю.
Текст этого никак не меняется -- меняется только формат. Это значит
переводчику там нечего делать.

-*Название листа "Linux: разрешение вопросов, перспективы и общение";
Написать в лист: mailto:comp.soft.linux.discuss-list@subscribe.ru
Адрес правил листа http://subscribe.ru/catalog/comp.soft.linux.discuss/rules
Номер письма: 33724; Возраст листа: 1680; Участников: 1504
Адрес сайта рассылки: http://www.linuxrsp.ru
Адрес этого письма в архиве: http://subscribe.ru/archive/comp.soft.linux.discuss/msg/728264

   2008-02-28 15:20:42 (#728264)