[TC] Чтение PDF-учебников

Привет, рассылка!
Вопрос следующий: есть PDF-учебник с текстовым слоем. Я не знаю, как он
был сделан, но вроде не похоже на распознавание: тегов и гипертекста
нет, но и грязи, которая встречается при распознавании, вроде, тоже нет.
Но при чтении в Acrobat во всех таких файлах встречаются одинаковые
типовые ошибки. Самая частая: почему-то отсутствует буква Я в текстах.
Выглядит примерно так:
Я бы не писал, если бы это была проблема одной книги, но вот именно
такое наблюдаю регулярно в PDF-документах.
Причём этого нет, скажем, если я сам распознаю какой-то скан.
В общем, подскажите, можно ли это как-то исправить на уровне читалки
PDF? Удобнее и доступнее Акробата ничего не знаю., а преобразовывать в
простой текст - ну совсем не вариант, ведь пропадает деление на страницы
и абзацы.
Андрей
Здравствуйте, Андрей Якубой.
Вы писали среда, 8 сентября 2021 г. 2:08
Это чем таким вы преобразовываете в текст? В файнридере можно выставить флажки, чтобы и деление на страницы сохранилось, а на абзацы он и сам делит. Даже можно выставить, чтобы абзацы разделялись пустыми строками, если надо.