Особое программирование: лист для незрячих программистов (industry.comp.tiflocomp.programming) : Рассылка : Subscribe.Ru

← Январь 2023 →
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

← Январь 2023 →

[prg] python. Определение кодировки

Здравствуйте, уважаемые!

Написал приложение, которое работает как широкоизвестный LKFManager020
для записи скаченных rar-файлов книг с ресурса av3715.ru и с сайта
Самарской библиотеки на карту памяти.

Приложение работает отлично, но вдруг решил протестировать его на
журнале диалог и неприятно удивился, когда половина книг, отображаемых в
приложении отображаются как кракозябры.

Для тестирования написал программку, которая показывает кодировку
LGK-файлов.

Оказалось, где текстовый редактор показывает кодировку 866 (oem -
русская), python показывает IBM866, а иногда вообще какие-то вычурные
кодировки.

Для определения использовал модуль chardet и метод UniversalDetector, а
также попробовал метод detect(), который ошибок показывает ещё больше.

Переписал своё приложение таким образом:

1. В режиме чтения бинарного файла 'rb' (в текстовом вообще открываться
не хочет) открываю lgk-файл, читаю первую строку и определяю кодировку.

2. Второй раз Открываю lgk-файл в режиме чтения, но с указанием
определённой на предыдущем шаге кодировки.

Ситуация поменялась, из 27 книг, корректно отображаются больше 20, но
по-прежнему файлы с кодировками Windows-1251 или 866 (oem - русская) оба
метода python определяют кодировку как Windows-1253 болгариен, IBM866
или скажем, MacCyrillic.

Подскажите, что-нибудь с этим можно поделать?? Может быть всё упирается
в возможности модуля chardet?

с уважением

Грызунов Александр, Самара

Особое программирование: лист для незрячих программистов

Статистика

[prg] python. Определение кодировки