[TC] Снова о чтении PDF
Привет, рассылка!
Несколько месяцев назад я писал, что наблюдаются проблемы при чтении
многих PDF файлов, которые выражаются в некорректном
отображении/озвучивании текстового слоя. Тогда, кажется, сошлись на том,
что проблемы именно с текстовым слоем, но сейчас хотелось бы попробовать
ещё раз...
Недавно перешёл с Acrobat на Foxit Reader, так как намного шустрее
открывает большие PDF, и теперь имею проблемы другого рода: во многих
PDF куда-то просто пропали пробелы между словами.
То есть имеем следующее:
1. В Acrobat в тех PDF пробелы на месте, но наблюдаются артефакты в виде
пропадания некоторых букв и символов.
2. В FoxitReader все символы на месте, но нет пробелов между словами,
что делает текст нечитаемым.
3. При открытии этих PDF в Word всё отображается шикарно (бывают
маленькие ошибки распознавания, но это нормально), но Word не хочет
открывать большие PDF на несколько сотен страниц: зависает начисто.
В связи с таким разным поведением программ и в частности корректным в
Word, у меня есть подозрения, что проблема всё-таки не в текстовом слое,
а в читалке. При этом я смотрел настройки, но, кажется, не нашёл чего-то
адекватного.
Для примера вот ссылка на одну статью:
https://www.dropbox.com/s/zo3gs8nuk0uoq4m/1%D0%AE%D0%90%D0%BF%D1%80%D0%B5%D1%81%D1%8F%D0%BD_%D0%B4%D0%B5%D0%B9%D0%BA%D1%81%D0%B8%D1%81.pdf?dl=1
Содержание значения не имеет, но мне интересно, как этот PDF
отображается у других? Особенно если вы пользуетесь FoxitReader в связке
с NVDA.
Андрей
Моё почтение, Андрей!
В Вашем PDF-примере всё читается более менее нормально, просто изначально в тексте есть мягкие переносы, они несколько мешают комфортно воспринимать текст на слух при использовании синтезатора речи.
Если в PDF есть текстовый слой, то его элементарно можно открывать в Google Chrome или в Opera, форматирование, заголовки и т.п. сохраняются. Думаю, что и другие интернет обозреватели также спокойно умеют открывать PDF, так что специальных PDF-чтецов уже давно не использую.