Отправляет email-рассылки с помощью сервиса Sendsay

[TC] Как убрать мягкие переносы из распознанного текста.

Привет, рассылка!

Имеется текст, распознанный Finereader14 из файла djvu.

В оригинале он размещен в две колонки.

Когда указываю ворду разместить файл в одну колонку в словах появляются
(или, точнее, остаются) мягкие переносы (ascii 31).

И избавиться от них возможно только удалением руками.

Попробовал существующие процедуры удаления мягких переносов
(расставленных вручную, или авт.).

Не срабатывают ни тот, ни другой способы.

Может их можно убрать еще при распознавании в Finereader?

Если да, то как? А, если нет - то что делать?

Помогите, кто знает, куски текста большие, удалять руками - так это
самоубиться можно.

Спасибо. Станислав.

Ответить   Sun, 17 May 2020 06:10:53 +0300 (#3651897)

 

Ответы:

Привет всем и Вам, Станислав!

17.05.2020 6:10, Станислав Березовский пишет:

Не знаю, поможет ли в Вашем случае, но я открываю файлы с наличием
мягкого переноса в Word 2016, просто копирую один из знаков, затем
вызываю команду "Ннайти и заменить", второе поле оставляю пустым и жму
"Заменить всё".

Всего доброго!

Ответить   Sun, 17 May 2020 09:26:21 +0300 (#3651903)

 

Моё почтение, Станислав!

Когда отправляете документ на распознавание в FineReader из файла, то
нажмите кнопку
*настройка*, и напротив формата файлов для вывода в *.txt, снимите флажок с
пункта:
*сохранять деление на строки*. Если
сохранять в *.docs, *.rtf, то там одноимённый флажок: сохранять мягкие
переносы и деления на строки*, т.е. его снимите.
Желательно также снять флажок с пункта: *сохранять колонтитулы*.
Учтите, что у вас весь текст отформатируется, поэтому, если вы распознаёте
какую-то техническую документацию, где деление на строки важно, например:
литература по программированию, то потом такой документ будет читать
несколько неудобно.
Вродебы ещё балаболка умеет справляться с мягкими переносами, точно не
помню, проверьте.

Ответить   Sun, 17 May 2020 10:33:20 +0300 (#3651904)

 

Приветствую вас, Иван и Вячеслав, привет сообществу!

17.05.2020 9:26, Иван ПочтиИзТулы пишет:

Не фурычит у меня это, Иван. В поле найти символ подставляется, но
количество замен упорно выдает - "ноль".
Хотя по del удаляет.

17.05.2020 10:33, Вячеслав пишет:

флажок с

мягкие

И здесь засада, Вячеслав. Выставляю "простой текст" флажки
поднимаю\снимаю как надо.
И все равно - никак.

Есть мысль, что это может быть фишка связанная с обработкой самого
формата djvu.
На досуге попробую перегнать его в pdf и ковырнуть снова.
Пока же решил проблему ритуальным танцем:
-сохранил распознанный текст, как txt;
- беспроблемно удалил этот чертов символ;
- нужные картинки вытянул из docx файла;
- Свинтил все вместе в word.

С уважением: Станислав.

Ответить   Sun, 17 May 2020 12:43:34 +0300 (#3651907)

 

Здравствуйте, Станислав Березовский!

В письме "[TC] Re[2]: Как убрать мягкие переносы из распознанного текста."
от Sun, 17 May 2020 12:43:34 +0300.
Вы писали:

Попробуйте в поле найти вписать "^-" без кавычек.
Знак крышка+дефис в подстановочных знаках word обозначает мягкий
перенос. поле заменить оставьте пустым.

Ответить   Sun, 17 May 2020 16:29:39 +0600 (#3651911)

 

Привет, Владислав, привет всем!

17.05.2020 13:29, Владислав Демьянов пишет:

Попробуйте в поле найти вписать "^-" без кавычек.

Сработало, без второго слова!
Спасибо, Владислав, проблема решена.
Станислав.

Ответить   Sun, 17 May 2020 14:44:51 +0300 (#3651918)

 

Приветствую тифлокомп!

Вами было написано:
17.05.2020 16:29, Владислав Демьянов пишет:

Отв.
Имел я дело с таким символом. Однако, книжки сохранял в формате *.txt.
Поэтому без проблем заменил их повсюду где только можно было. Через
автозамену контрол+f, далее в окно поиска вставлял скопированный этот
знак, а потом для замены в редакторе ничего не писал.

Ответить   Sun, 17 May 2020 18:58:28 +0600 (#3651920)