[TC] Сканирование
Здравствуйте, industry.
Мне часто приходится иметь дело с литературой, отсканированной
кем-нибудь из наших, незрячих и слабовидящих. Прежде всего выражаю им
глубокую благодарность за труд и добрую волю, благодаря которой книги
стали общедоступными. Однако меня всегда чрезвычайно удивлял один
факт. Дело в том, что многие отсканированные книги сохранены в текст с
сохранением всех переносов. Я никогда не мог понять - зачем это
делать? неужели такой текст самим сканировщикам удобно читать
голосом?! Ведь для того, чтобы в конечном тексте отсутствовали
переносы достаточно убрать один единственный флажок - в диалоге
форматов, на вкладке txt нужно отменить функцию сохранения с
разбиением на строки. В тоже время для удобства я всегда включаю
разделение абзацев пустыми строками, а также вставлять специальный
символ #12 между страницами. В последнем случае в некоторых текстовых
редакторах возможно перемещаться по страницам.
Просто у меня скопилась куча текстов, с которыми не знаю, что делать -
читать в том виде, как есть - дело довольно таки сложное, а вручную
убирать переносы, пусть даже в word'е, путём ряда последовательных
замен - тоже труд не из лёгких и не из приятных...
Здравствуйте, Михаил!
Исходное сообщение >а вручную
Изучайте JScript, php или VisualBasic for Application (чтобы в Word макросы
использовать). В них достаточно мощная система обработки строк с помощью
регулярных выражений.
С уважением, Анатолий.