Отправляет email-рассылки с помощью сервиса Sendsay

[TC] Снова о чтении PDF

Привет, рассылка!

Несколько месяцев назад я писал, что наблюдаются проблемы при чтении
многих PDF файлов, которые выражаются в некорректном
отображении/озвучивании текстового слоя. Тогда, кажется, сошлись на том,
что проблемы именно с текстовым слоем, но сейчас хотелось бы попробовать
ещё раз...

Недавно перешёл с Acrobat на Foxit Reader, так как намного шустрее
открывает большие PDF, и теперь имею проблемы другого рода: во многих
PDF куда-то просто пропали пробелы между словами.

То есть имеем следующее:
1. В Acrobat в тех PDF пробелы на месте, но наблюдаются артефакты в виде
пропадания некоторых букв и символов.
2. В FoxitReader все символы на месте, но нет пробелов между словами,
что делает текст нечитаемым.
3. При открытии этих PDF в Word всё отображается шикарно (бывают
маленькие ошибки распознавания, но это нормально), но Word не хочет
открывать большие PDF на несколько сотен страниц: зависает начисто.

В связи с таким разным поведением программ и в частности корректным в
Word, у меня есть подозрения, что проблема всё-таки не в текстовом слое,
а в читалке. При этом я смотрел настройки, но, кажется, не нашёл чего-то
адекватного.

Для примера вот ссылка на одну статью:
https://www.dropbox.com/s/zo3gs8nuk0uoq4m/1%D0%AE%D0%90%D0%BF%D1%80%D0%B5%D1%81%D1%8F%D0%BD_%D0%B4%D0%B5%D0%B9%D0%BA%D1%81%D0%B8%D1%81.pdf?dl=1

Содержание значения не имеет, но мне интересно, как этот PDF
отображается у других? Особенно если вы пользуетесь FoxitReader в связке
с NVDA.

Андрей

Ответить   Tue, 22 Feb 2022 14:06:41 +0300 (#3685052)

 

Ответы:

Моё почтение, Андрей!

В Вашем PDF-примере всё читается более менее нормально, просто изначально в тексте есть мягкие переносы, они несколько мешают комфортно воспринимать текст на слух при использовании синтезатора речи.
Если в PDF есть текстовый слой, то его элементарно можно открывать в Google Chrome или в Opera, форматирование, заголовки и т.п. сохраняются. Думаю, что и другие интернет обозреватели также спокойно умеют открывать PDF, так что специальных PDF-чтецов уже давно не использую.

Ответить   Tue, 22 Feb 2022 15:15:32 +0300 (#3685055)

 

Это доказывает мою теорию. Я этих переносов не замечаю, но есть полное
игнорирование пробелов (в Foxit) и нормальное отображение в Chrome и
Word. Может быть знает кто, какие настройки читалок могут влиять на
отображение текстового слоя для скрин-ридеров? Это начинает серьёзно
озадачивать.

Так себе идея, скажем, для PDF-учебника в 400-600 страниц. Навигация по
страницам не очень (даром, что в Chrome есть быстрый переход), да и
большые PDF браузеры открывают медленно и потом тормозят.
Кроме того, Chrome, по крайней мере у меня, часто добавляет какие-то
свои, совершенно лишние теги (особенно заголовки), даже если документ
уже неплохо размечен.

Собственно, PDF, которые я делаю сам (обычно из Word), у меня хорошо
читаются и в FoxitReader тоже, но вот с этими прям беда. Я понимаю, что
там чаще всего было распознавание и не жду идеального текстового слоя,
но здесь что-то явно хуже того, чем могло бы быть.

Андрей

Ответить   Tue, 22 Feb 2022 20:30:58 +0300 (#3685065)