Re: Как сравнить две версии форматированного текста?
spider wrote:
> Eugene Saenko пишет:
>
>> spider wrote:
>>
>>> Надо сравнить две версии одного и того же документа без учета
>>> форматирования абзацев. Слова в абзаце разделяются пробелами,
>>> табуляциями и концом строки. Абзацы разделяются пустой строкой.
>>> Собственно, задача пошире стоит -- есть пакет, для него есть дока в
>>> html. Выходит новая версия пакета, естественно, дока где-то меняется.
>>> Надо отследить изменения текста и разбивки на абзацы, чтобы изменить
>>> русский перевод.
>>>
>> А такой вариант не проходит?
>>
>> Открываем оба текста в OOO Writer, сохраняем в .txt дальше обрабатываем diff
>>
> Затем повторяем это со вторым файлом, с третьим, ... с последним. Если
> этих файлов несколько сотен, как например, у netpbm, или еще больше, то
> пока все проверю, выйдет новый апдейт этого документа.
>
>
Можно с помощью lynx:
lynx --dump infile.html > outfile.txt
Проделать это для кучи файлов несложно. Сравнить результаты, в общем-то,
тоже.
Сам так делаю для сравнения директорий с кучами html.